In [24]:
# coding=utf-8
"""
Credit by Liao Jialing

"""

import xgboost as xgb
import pandas as pd
import numpy as np
from sklearn.cross_validation import train_test_split

# 1. 读入用户基本信息宽表,对年龄做一些处理

In [31]:
dataset = pd.read_csv('E:/user_all.csv')

In [32]:
dataset['member_age'] = 2017 - dataset['member_birthday'][dataset['member_birthday'].notnull()]

In [33]:
dataset['song_age'] = 2017 - dataset['year'][dataset['year'].notnull()]

In [34]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 503879 entries, 0 to 503878
Columns: 115 entries, customerid to song_age
dtypes: float64(105), object(10)
memory usage: 445.9+ MB


In [35]:
len(pd.value_counts(dataset['member_age']))

67

In [36]:
dataset['member_age'].notnull().sum()

15559

In [37]:
len(pd.value_counts(dataset['song_age']))

41

In [38]:
dataset['song_age'].notnull().sum()

2300

## 将target放在第一列

In [39]:
age_label = dataset.pop('member_age')

In [40]:
dataset.insert(0,'member_age',age_label)

In [41]:
dataset.head()

Unnamed: 0,member_age,customerid,registertime,customer_status,openid,wechat_sex,wechat_city,wechat_province,wechat_country,kmid,...,shop_original_sum_min,shop_companyid,shop_com_cnt,shop_order_cnt,shop_cross_com,shop_com_roomnum,shop_com_regioncode,shop_com_managetype,shop_com_vodsystemtype,song_age
0,,5792237,2016-05-01 00:00:00,0,,,,,,,...,,,,,,,,,,
1,,5792238,2016-05-01 00:00:01,0,,,,,,,...,,,,,,,,,,
2,,5792239,2016-05-01 00:00:05,0,,,,,,,...,,,,,,,,,,
3,,5792241,2016-05-01 00:00:07,0,,,,,,,...,,,,,,,,,,
4,,5792242,2016-05-01 00:00:07,0,,,,,,,...,,,,,,,,,,


## 填充缺失值

In [59]:
# for i in dataset.columns:
#     if dataset.shape[0] != dataset[i].notnull().sum():
#         print(i)

In [44]:
dataset.drop('registertime',axis=1,inplace=True)

In [45]:
dataset.shape

(503879, 114)

In [50]:
dataset.drop_duplicates('customerid').shape

(503862, 114)

### customerid去重（对数据量几乎无影响）

In [53]:
dataset.drop_duplicates('customerid',inplace=True)

In [60]:
# for col in dataset.columns.values:
#     print(col, dataset[col].notnull().sum())

In [55]:
dataset.shape

(503862, 114)

### customerid唯一且非空，可drop掉总表的kmid和openid

In [56]:
dataset.drop(['kmid','openid'],axis=1,inplace=True)

### customer_status无区别，无用，弃之

In [76]:
dataset.drop('customer_status',axis=1,inplace=True)

In [77]:
dataset.shape

(503862, 111)

### wechat_sex wechat_city wechat_province wechat_country

In [114]:
dataset.loc[:,['wechat_sex','wechat_city','wechat_province','wechat_country']].fillna('missing',inplace=True)

#### wechat_sex：1-男性，2-女性，0-未知（缺失值填0）

In [79]:
dataset['wechat_sex'].fillna(0,inplace=True)

In [94]:
pd.value_counts(dataset['wechat_sex'])

0            472964
0             23393
1.0            2412
2.0            2161
1              1631
2              1291
-1                2
dao               1
pan               1
慧子                1
Z\                1
距离令人伤了神。          1
Monaco            1
a promise         1
  mj              1
Name: wechat_sex, dtype: int64

In [95]:
def sex_encode(data):
    if data==1:
        return 1
    elif data==2:
        return 2
    else:
        return 0

#### 清除脏数据

In [102]:
dataset['wechat_sex'] = map(sex_encode,dataset['wechat_sex'])

In [103]:
pd.value_counts(dataset['wechat_sex'])

0    499289
1      2412
2      2161
Name: wechat_sex, dtype: int64

In [104]:
wechat_sex = pd.get_dummies(dataset.wechat_sex)

In [105]:
wechat_sex.shape

(503862, 3)

In [106]:
wechat_sex = wechat_sex.rename(columns=lambda x:'wechat_sex_'+str(x))

In [107]:
wechat_sex.head()

Unnamed: 0,wechat_sex_0,wechat_sex_1,wechat_sex_2
0,1,0,0
1,1,0,0
2,1,0,0
3,1,0,0
4,1,0,0


In [108]:
dataset = pd.concat([dataset,wechat_sex],axis=1)

In [112]:
dataset.drop('wechat_sex',axis=1,inplace=True)

In [113]:
dataset.shape

(503862, 113)

#### wechat_city wechat_province wechat_country

== 这些值怎么办哇 ==

In [116]:
pd.value_counts(dataset['wechat_city'])

null      73704
深圳         1265
广州         1039
福州          453
浦东新区        289
普陀          114
宝山          112
沙坪坝         107
江北          104
渝北           91
渝中           78
南岸           75
九龙坡          74
汕头           66
揭阳           65
上海           64
湛江           56
汕尾           54
闵行           48
茂名           47
重庆           43
徐汇           37
成都           37
佛山           35
江门           30
梅州           30
松江           29
虹口           25
杨浦           24
泉州           24
          ...  
黑河            1
布里斯班          1
利川市           1
滨州            1
西宁            1
堪萨斯城          1
檀香山           1
望德堂区          1
丹敦            1
威尔斯           1
林芝            1
mñW3          1
红桥            1
爱丁堡           1
白城            1
弗里曼特尔港        1
花地玛堂区         1
秦皇岛           1
石家庄           1
槟城            1
休斯敦           1
资阳            1
，             1
安顺            1
怀柔            1
圣安多尼堂区        1
万宁            1
酒泉            1
张掖            1
台北市           1
Name: wechat_city, dtype

In [117]:
pd.value_counts(dataset['wechat_province'])

null     73704
广东        2736
上海        1070
重庆         997
福建         558
四川         122
湖南         108
安徽          99
广州          84
湖北          74
江苏          71
浙江          66
深圳          63
首尔          53
江西          50
广西          47
云南          46
山东          37
河南          35
贵州          34
巴黎          31
北京          30
辽宁          21
维多利亚        21
迪拜          20
海南          18
香港          16
陕西          16
英格兰         16
纽约          14
         ...  
伊斯坦布尔        1
宝山           1
韦克斯福德        1
奥斯塔          1
下奥地利         1
蔚山           1
汝拉           1
施维茨          1
圣路易斯         1
基隆市          1
北碧           1
彰化县          1
2            1
阿尔高          1
南投县          1
曼谷           1
南区           1
埃德           1
格拉鲁斯         1
夏威夷          1
里昂           1
代特莫尔特        1
达尼丁          1
伯尔尼          1
那不勒斯         1
密歇根          1
爱荷华          1
连江县          1
^N          1
苏格兰          1
Name: wechat_province, dtype: int64

In [118]:
pd.value_counts(dataset['wechat_country'])

null        73783
中国           6353
-1            175
韩国             78
冰岛             65
安道尔            57
澳大利亚           49
美国             45
法国             39
中国香港           37
阿尔巴尼亚          32
爱尔兰            31
日本             27
阿拉伯联合酋长国       27
百慕大            27
泽西岛            26
阿尔及利亚          21
阿鲁巴            18
英国             18
马尔代夫           17
瑞士             17
毛里求斯           16
奥地利            15
希腊             15
不丹             13
加拿大            13
巴巴多斯岛          12
中非共和国          12
智利             12
埃及             12
            ...  
斯洛文尼亚           1
格林纳达            1
所罗门群岛           1
伊朗              1
哥斯达黎加           1
塞拉利昂            1
重庆              1
蒙古              1
印度尼西亚           1
阿塞拜疆            1
克罗地亚            1
列支敦士登           1
沙特阿拉伯           1
巴西              1
汤加              1
委内瑞拉            1
云南              1
葡萄牙             1
纳米比亚            1
塔吉克斯坦           1
巴拿马             1
毛里塔尼亚           1
新喀里多尼亚          1
深圳              1
刚果民主共和国   

In [119]:
dataset.to_csv('E:/dataset.csv',index=False)

# 2. 分出测试集和训练集

In [14]:
dataset.head()

Unnamed: 0,member_age,customerid,registertime,customer_status,openid,wechat_sex,wechat_city,wechat_province,wechat_country,kmid,...,shop_original_sum_min,shop_companyid,shop_com_cnt,shop_order_cnt,shop_cross_com,shop_com_roomnum,shop_com_regioncode,shop_com_managetype,shop_com_vodsystemtype,song_age
0,,5792237,2016-05-01 00:00:00,0,,,,,,,...,,,,,,,,,,
1,,5792238,2016-05-01 00:00:01,0,,,,,,,...,,,,,,,,,,
2,,5792239,2016-05-01 00:00:05,0,,,,,,,...,,,,,,,,,,
3,,5792241,2016-05-01 00:00:07,0,,,,,,,...,,,,,,,,,,
4,,5792242,2016-05-01 00:00:07,0,,,,,,,...,,,,,,,,,,


## 分测试集训练集

In [15]:
train = dataset[dataset['member_age'].notnull()]

In [16]:
test = dataset[dataset['member_age'].isnull()]

In [17]:
train.shape

(15559, 115)

In [18]:
test.shape

(488320, 115)

In [19]:
test_id = test.customerid

In [21]:
test = test.drop('customerid',axis=1)

In [22]:
X = train.drop(['member_age','customerid'],axis=1)

In [23]:
y = train.member_age.values

In [25]:
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=1729)

In [26]:
print(X_train.shape, X_test.shape, test.shape)

((12447, 113), (3112, 113), (488320, 114))


# 3. 进行特征选择