In [1]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from tqdm import tqdm
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import LabelEncoder
pd.set_option('display.max_columns', 500)

In [2]:
'''
用户标识（uId）匿名化处理后的用户唯一标识（ID取值从1000001开始，依次递增）
年龄段（age_group）年龄范围（取值1； 2； 3； 4； 5；6；）'''
label = pd.read_csv("data/age_train.csv",header=None)
label.columns = ['uId','age_group']

In [3]:
'''
用户标识（uId）匿名化处理后的用户唯一标识（ID取值从1000001开始，依次递增）
'''
test = pd.read_csv("data/age_test.csv",header=None)
test.columns = ['uId']

In [4]:
'''
用户标识（uId）匿名化处理后的用户唯一标识（ID取值从1000001开始，依次递增）
开机次数（bootTimes）一段时间内(30天)手机的总开机次数
手机A特性使用次数（AFuncTimes）一段时间内(30天) 手机A特性使用次数
手机B特性使用次数（BFuncTimes）一段时间内(30天) 手机B特性使用次数
手机C特性使用次数（CFuncTimes）一段时间内(30天) 手机C特性使用次数
手机D特性使用次数（DFuncTimes）一段时间内(30天) 手机D特性使用次数
手机E特性使用次数（EFuncTimes）一段时间内(30天) 手机E特性使用次数
手机F特性使用次数（FFuncTimes）一段时间内(30天) 手机F特性使用次数
手机G特性使用情况（GFuncSum）一段时间内(30天)G特性使用情况（数值）'''
behavior = pd.read_csv("data/user_behavior_info.csv",header=None)
behavior.columns = ['uId','bootTimes','AFuncTimes','BFuncTimes','CFuncTimes','DFuncTimes','EFuncTimes','FFuncTimes','GFuncTimes']

behavior['ABCDEFTimes'] = behavior['AFuncTimes'] + behavior['BFuncTimes'] + behavior['CFuncTimes'] + behavior['DFuncTimes'] + \
                          behavior['EFuncTimes'] + behavior['FFuncTimes']
behavior['G_boot'] = behavior['GFuncTimes'] / behavior['bootTimes']
behavior['A_all'] = behavior['AFuncTimes'] / behavior['ABCDEFTimes']
behavior['B_all'] = behavior['BFuncTimes'] / behavior['ABCDEFTimes']
behavior['C_all'] = behavior['CFuncTimes'] / behavior['ABCDEFTimes']
behavior['D_all'] = behavior['DFuncTimes'] / behavior['ABCDEFTimes']
behavior['E_all'] = behavior['EFuncTimes'] / behavior['ABCDEFTimes']
behavior['F_all'] = behavior['FFuncTimes'] / behavior['ABCDEFTimes']
behavior['all_boot'] = behavior['ABCDEFTimes']/ behavior['bootTimes']

In [5]:
'''
应用标识（appId）appId为app应用的唯一标识
应用类型（category）app所属的应用类型
'''
app_info = pd.read_csv("data/app_info.csv",header=None)
app_info.columns = ['appId','category']


#  category 为主键，每个下的appid数量


In [61]:
app_info.nunique()

appId       167622
category        40
dtype: int64

In [6]:
'''
用户标识（uId）匿名化处理后的用户唯一标识（ID取值从1000001开始，依次递增）
性别（gender）男/女（取值空间0,1）
常住地（city）如深圳市、南京市等（匿名化处理，实际取值c001，c002….）
手机型号（prodName）如mate10、honor 10等（匿名化处理，实际取值p001、p002……）
手机ram容量（ramCapacity）手机ram的大小，以G为单位
ram剩余容量占比（ramLeftRation）手机剩余的容量占总容量的比例
rom容量（romCapacity）手机rom的大小，以G为单位
rom剩余容量占比（romLeftRation）手机剩余rom容量占总rom容量的比例
手机颜色（color）手机机身的颜色
字体大小（fontSize）手机设置的字体大小
上网类型（ct）2G/3G/4G/WIFI
移动运营商（carrier）移动/联通/电信/其他
手机系统版本（os）AndroId操作系统的版本号
'''

user_info = pd.read_csv('data/user_basic_info.csv',header=None)
user_info.columns = ['uId','gender','city','prodName','ramCapacity','ramLeftRation','romCapacity'
,'romLeftRation','color','fontSize','ct','carrier','os']

user_info['ramLeft'] = user_info['ramCapacity'] * user_info['ramLeftRation']
user_info['romLeft'] = user_info['romCapacity'] * user_info['romLeftRation']
user_info['rom_ram'] = user_info['romCapacity'] / user_info['ramCapacity']
user_info['ct_2g'] = user_info['ct'].apply(lambda x: 1 if isinstance(x,str) and '2g' in x else 0)
user_info['ct_3g'] = user_info['ct'].apply(lambda x: 1 if isinstance(x,str) and '3g' in x else 0)
user_info['ct_4g'] = user_info['ct'].apply(lambda x: 1 if isinstance(x,str) and '4g' in x else 0)
user_info['ct_wifi'] = user_info['ct'].apply(lambda x: 1 if isinstance(x,str) and 'wifi' in x else 0)
del user_info['ct']

user_info['os_first'] = user_info['os'].apply(lambda x:int(x) if not np.isnan(x) else -1)

In [69]:
cate = ['gender','city','prodName','color','ct','carrier','os']
user_info[cate].nunique()

gender        2
city        363
prodName    227
color       136
ct            7
carrier       4
os           16
dtype: int64

In [None]:
# 内存不够，这个先不用
# ---------------------------------------------------------------------
'''
用户标识（uId）匿名化处理后的用户唯一标识（ID取值从1000001开始，依次递增）
应用标识（appId）匿名化处理后的app唯一标识
使用时长（duration）1天内用户对某app的累计使用时长
打开次数（times）1天内用户对某app的累计打开次数
使用日期（use_date）用户对某app的使用日期

usage = pd.read_csv('data/user_app_usage.csv',header=None)
usage.columns = ['uId','appId','duration','times','use_date']
'''

In [7]:
'''
用户标识（uId）匿名化处理后的用户唯一标识（ID取值从1000001开始，依次递增）
应用标识（appId）匿名化处理后的app唯一标识'''
active = pd.read_csv("data/user_app_actived.csv",header=None)
active.columns = ['uId','appId']

active['appId'] = active['appId'].apply(lambda x:x.split('#'))
active['appNum'] = active['appId'].apply(lambda x:len(x) if x[0]!='\\N' else 0)
active['appNum'].describe()

In [12]:
tmp = active['appId'].values
appid= set()
for each in tmp:
    appid |= set(each)
len(appid)

9401

In [8]:
# 统计每个appId激活人数，和激活人的属性分布，年龄、性别、城市、手机型号等属性

le = LabelEncoder()
app_info['category'] = le.fit_transform(app_info['category'])

key = app_info.appId.values
val = app_info.category.values

from collections import defaultdict as dd

app_map = dd(int)
for i in range(len(key)):
     app_map[key[i]] = val[i]
        
"""
# 统计每个用户 每个app类别下的激活app的比例，贝叶斯平滑 ,有的激活appid不在app_info中,那就不计算，也把其的数目减掉
tmp = active['appId'].values
res = []
for i in tqdm(range(len(tmp))):
    line = [0.0]*(len(app_map)+1)
    # 这个用户总共激活多少app
    cnt = len(tmp[i])
    for app in tmp[i]:
        line[app_map[app]] += 1
    for j in range(len(line)):
        line[j] /= cnt
    res.append(line[:])
"""

"\n# 统计每个用户 每个app类别下的激活app的比例，贝叶斯平滑 ,有的激活appid不在app_info中,那就不计算，也把其的数目减掉\ntmp = active['appId'].values\nres = []\nfor i in tqdm(range(len(tmp))):\n    line = [0.0]*(len(app_map)+1)\n    # 这个用户总共激活多少app\n    cnt = len(tmp[i])\n    for app in tmp[i]:\n        line[app_map[app]] += 1\n    for j in range(len(line)):\n        line[j] /= cnt\n    res.append(line[:])\n"

In [None]:
# 每个用户激活了几种类别的app
def app_cate_data(x,t):
    cate = dd(int)
    for each in x:    
        cate[app_map[each]] += 1
    tmp = cate.values()
    s = sum(tmp)+1
    # all_num
    if t == 0:
        return len(cate)
    # max_num
    elif t == 1:
        return max(tmp)/s
    # min_num
    else:
        return min(tmp)/s
        
active['app_cate_num'] = active['appId'].apply(lambda x: app_cate_data(x,0))

#平均每种app激活多少
active['app_cate_mean'] = active['appNum']/active['app_cate_num']

# 激活最多种类的app数目、占所有激活数目比例
active['app_cate_maxRate'] = active['appId'].apply(lambda x: app_cate_data(x,1))
active['app_cate_minRate'] = active['appId'].apply(lambda x: app_cate_data(x,2))
active['app_cate_max'] = active['app_cate_maxRate'] * (active['appNum']+1)
active['app_cate_min'] = active['app_cate_minRate'] * (active['appNum']+1)

In [None]:
train_cols = label.shape[0]
data = label.append(test)
data = label.merge(user_info,how='left',on='uId')
data = label.merge(active,how='left',on='uId')
data = label.merge(behavior,how='left',on='uId')
del data['appId']

In [None]:
for f1 in ['prodName','city','gender','color','os_first','carrier','ct_2g','ct_3g','ct_4g','ct_wifi']:
    for f2 in ['appNum','ramCapacity','romCapacity','fontSize','bootTimes','AFuncTimes','BFuncTimes',
               'CFuncTimes','DFuncTimes','EFuncTimes','FFuncTimes','GFuncTimes']:
        print(data.groupby(f1)[f2].agg(['mean','min','max','std','size']))
        
feat_dict = {}
for f in ['city','prodName','color','gender','ct','carrier','os']
    le = LabelEncoder()
    data[f] = le.fit_transform(data[f])
    feat_dict[f] = data[f].nunique()

In [52]:
train = data.iloc[:train_cols]
test = data.iloc[train_cols:]
del test['age_group']
y = train['age_group'] - 1
del train['age_group']
X = train
del train