竞赛 > 创意应用类 > Human or Robot?
Human or Robot?

Human or Robot?

354 支队伍
100% 完成

决赛

2016-12-17 21:00:00
2016-12-23 14:00:00

数据描述

1、数据集:

数据文件 说明
AdMaster_train_dataset.zip训练集
AdMaster_test_dataset.zip测试集
ccf_media_info.zip媒体信息

 

2、数据介绍:

本数据来源于AdMaster全流程广告效果评估平台。所有数据按’\x01’进行分割。数据所有字段如下表1所示:

AdMaster_train_dataset.zip / AdMaster_test_dataset.zip

l   rank:记录行号标记;

l   id:记录标记ID

l   dt:日志产生的时间;

l   Cookie: 唯一标识一个浏览器的ID

l   Ip: IP地址;

l   mobile_idfa: iOSIDFA原值MD5加密结果;

l   mobile_imei: androidIMEIMD5加密结果;

l   mobile_android_id: androidandroid_idMD5加密结果;

l   mobile_openudid: openudidMD5加密结果;

l   mobile_mac: mac地址的MD5加密结果;

l   timestamps: 日志生成的时间戳;

l   camp_id: 曝光对应的项目id

l   creativeid:该曝光对应的创意ID

l   mobile_os:mobile对应的操作系统版本信息;

l   mobile_type: mobile对应的机型;

l   mobile_app_key: 曝光的对应的app key信息;

l   mobile_app_name: 曝光对应的app name信息;

l   placement_id: 广告位信息;

l   user_agent:可以从Useragent中解析出更多信息;

l   media id: 对应的媒体id

l   os:操作系统;

l   born_time: cookie的生成时间;

l   flag: 作弊标记,1为是,0为不是;

 

ccf_media_info.csv

l   media id:媒体id

l   Category:媒体类型;

l   firstType_cn:媒体主类型;

l   secondType_cn:媒体次类型;

l   tag:媒体标签;

    1、数据集:

                数据文件 说明
ccf_data_*.tar.gz 训练集
ccf_test_*.tar.gz 测试集
ccf_media_info.csv 媒体信息(同初赛)

    2、数据介绍:

本数据来源于AdMaster全流程广告效果评估平台。所有数据按’,’进行分割。数据所有字段如下所示:

 

训练集  ccf_data_*.tar.gz

> dt:日期

> cookie:cookie

> ip,又名f值;日志曝光的ip地址信息,已加密,无ip信息,仅用于唯一标识同一IP;

> timestamps:时间戳;

> camp:项目id

> play:对应投放的剧目;

> channel:对应的频道;

> creativeid:对应的创意id

> idfaIOS设备id idfa值;

> mobile_mac :移动设备的MAC地址;

> mobile_openudid 移动设备的Openudid值;

> imei:移动设备的imei值;

> android_id:移动设备的android_id值;

> mobile_os:移动设备的操作系统类型;

> mobile_type:设备的机型类型;

> mobile_app_key:对应的app_key值;

> mobile_app_name:对应的app_name值;

> placementid:广告位ID

> useragent:对应的useragent信息;

> mediaid:对应的媒体id

> os_typepc设备对应的操作系统类型;

> born_time:这个字段表征的是cookie的生成时间,是从cookie值信息中提取出来的;格式为%y%m%d%H%M%S

> label :标记作弊类型,1为作弊,0为正常;

 

测试集  ccf_test_*.tar.gz:

> row number:标记行号,为了提交结果方便;

以下与train中保持一致

> cookie:cookie

> ip,又名f值;日志曝光的ip地址信息;已加密,无ip信息,仅用于唯一标识同一IP;

> timestamps:时间戳;

> camp:项目id

> play:对应投放的剧目;

> channel:对应的频道;

> creativeid:对应的创意id

> idfaIOS设备id idfa值;

> mobile_mac :移动设备的MAC地址;

> mobile_openudid 移动设备的Openudid值;

> imei:移动设备的imei值;

> android_id:移动设备的android_id值;

> mobile_os:移动设备的操作系统类型;

> mobile_type:设备的机型类型;

> mobile_app_key:对应的app_key值;

> mobile_app_name:对应的app_name值;

> placementid:广告位ID

> useragent:对应的useragent信息;

> mediaid:对应的媒体id

> os_typepc设备对应的操作系统类型;

> born_time:这个字段表征的是cookie的生成时间,是从cookie值信息中提取出来的;格式为%y%m%d%H%M%S

 

媒体信息 ccf_media_info.csv

> media id:媒体id

> Category:媒体类型;

> firstType_cn:媒体主类型;

> secondType_cn:媒体次类型;

> tag:媒体标签;


数据获取

竞赛数据仅向参赛者开放,请先登录或注册!

任务描述

从多个角度切入,例如从IP,各种id,投放项目,广告位,媒体等角度进行综合分析,基于数据提取连续和离散特征进行学习,对每一条日志标记是否为作弊。

登录参赛