# 聊聊机器学习


<br>
<h2>Now the internet age is over, welcome to the age of AI and blockchain.</h2>
<br>
<br>


## 内容

### 不聊什么

- 公式
- 线性代数，微积分，概率论...
- 算法推导
- ...

**Q: 数学重要吗？**

### 聊什么

- 机器学习实质: 通过各种数据拟合函数，推断结果
- 数据抽象方法
- 分析模型选择
- 数据筛选及预处理
- 计算建立模型
- 验证模型

**Q: 机器学习 vs 深度学习? **

## 举个栗子

> XXX，你好！
> 请提取一下近3个月投资≥30万以上的用户，包括定期活期，流失的用户，运营进行活动刺激。

这是一封很平常的运营需求邮件，运营人员对用户进行了建模

1. 投资过的用户
1. 3月内投资30W以上的用户
1. 定期，活期的用户
1. 流失用户

先不说这个模型是否正确，模型认为通过4类用户刺激，可以增加投资额，但是具体到每个用户该给多大的红包，只能一锅饭，大家都一样，缺少细粒度的方法。
那么我们来看看应该怎么做

### 数据抽象

先看看数据，通常我们都会有这么一张表格


In [7]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import pymysql
import pymysql.cursors

conn = pymysql.connect(host="",
                       user="",
                       password="",
                       db="",
                       charset="utf8",
                       cursorclass=pymysql.cursors.DictCursor)
try:
    sql='''
        select age '年龄'
             , province '省份'
             , bankname '银行'
             , constellation '星座'
             , sex '性别'
             , invite_cnt '邀请人数'
             , SXQTZJE '活期投资'
             , DQTZJE '定期投资'
            from m_userinfo mu 
            left join cus_detail cd on mu.userid = cd.userid 
            where mu.idcard is not null 
            and age < 100
            and bankname is not null
        '''
    df = pd.read_sql(sql, con=conn)
    print(df)
finally:
    conn.close()

          年龄   省份        银行   星座 性别  邀请人数      活期投资     定期投资
0       59.0   辽宁    中国农业银行  双子座  女     0       0.0      0.0
1       26.0   上海    中国工商银行  处女座  男    11     100.0      0.0
2       23.0   福建    中国建设银行  水瓶座  女     0     100.0      0.0
3       23.0   重庆      招商银行  天蝎座  女     1       0.0      0.0
4       29.0   福建    中国建设银行  狮子座  男     0     100.0      0.0
5       21.0   山西    中国工商银行  天蝎座  男     0       0.0      0.0
6       63.0   湖南    中国农业银行  摩羯座  男     0     100.0      0.0
7       39.0   河北    中国建设银行  白羊座  女     0     100.0      0.0
8       25.0   湖北    中国建设银行  双子座  女     6     100.0      0.0
9       22.0   浙江    中国建设银行  金牛座  女     0       0.0      0.0
10      22.0   福建    中国建设银行  金牛座  男     0     100.0      0.0
11      33.0   北京    中国工商银行  天蝎座  女     0    1000.0      0.0
12      54.0   陕西    中国建设银行  双鱼座  女     0       0.0      0.0
13      19.0   河北    中国建设银行  金牛座  男     0       0.0      0.0
14      33.0   陕西    中国农业银行  水瓶座  女     0       0.0      0.0
15      27.0   广东    中国工

- 检查数据项

 * 年龄
 * 省份
 * 银行
 * 星座
 * 性别
 * 邀请人数
 * 活期投资
 * 定期投资

简单看一下数据分布情况

In [8]:
df.describe()

Unnamed: 0,年龄,邀请人数,活期投资,定期投资
count,110395.0,110395.0,110395.0,110395.0
mean,34.7214,2.019566,15503.7,4506.402
std,13.079365,7.90936,207330.8,50924.81
min,7.0,0.0,0.0,0.0
25%,25.0,0.0,0.0,0.0
50%,30.0,0.0,0.0,0.0
75%,42.0,0.0,100.0,0.0
max,99.0,728.0,12789570.0,5437300.0


- 数据抽象方法

  * 规范化
  * 标准化，标准差为1的正态分布数据
  * 归一化，把数据投射到0-1区间
  * 中心化，按照均值把数据减去均值
  
**Q: 为什么?**


### 分析模型选择

 - 线性回归
 - K-MEANS
 - KNN
 - 随机森林
 - 神经网络
 - 贝叶斯
 - SVM
 - ......
 
### 数据筛选预处理

 - 划分判定好的数据
   
   * 已投资
   * 未投资
   
 Q: 如何选择训练数据？
   
   根据目标，选择数据项齐全，特征明显
   
   * 训练数据：  投资金额>0
   
 Q: 如何选择待训练数据?
 
   根据目标，选择除目标数据外，数据项齐全的数据
 
   * 待训练数据: 投资金额=0
   
 Q: 数据项都不齐全怎么办?
 
   圈定小目标，补齐数据后再用补齐的数据进行训练

In [17]:
try:
    conn = pymysql.connect(host="",
                       user="",
                       password="",
                       db="",
                       charset="utf8",
                       cursorclass=pymysql.cursors.DictCursor)
    sql='''
        select age '年龄'
             , province '省份'
             , bankname '银行'
             , constellation '星座'
             , sex '性别'
             , invite_cnt '邀请人数'
             , SXQTZJE '活期投资'
             , DQTZJE '定期投资'
            from m_userinfo mu 
            left join cus_detail cd on mu.userid = cd.userid 
            where mu.idcard is not null 
            and age < 100
            and bankname is not null
            and (SXQTZJE >0 or DQTZJE>0)
        '''
    trained = pd.read_sql(sql, con=conn)
    print(trained)
finally:
    conn.close()

         年龄   省份        银行   星座 性别  邀请人数      活期投资     定期投资
0      26.0   上海    中国工商银行  处女座  男    11     100.0      0.0
1      23.0   福建    中国建设银行  水瓶座  女     0     100.0      0.0
2      29.0   福建    中国建设银行  狮子座  男     0     100.0      0.0
3      63.0   湖南    中国农业银行  摩羯座  男     0     100.0      0.0
4      39.0   河北    中国建设银行  白羊座  女     0     100.0      0.0
5      25.0   湖北    中国建设银行  双子座  女     6     100.0      0.0
6      22.0   福建    中国建设银行  金牛座  男     0     100.0      0.0
7      33.0   北京    中国工商银行  天蝎座  女     0    1000.0      0.0
8      36.0   广西    中国建设银行  水瓶座  男     0     100.0      0.0
9      64.0   广东    邮政储蓄银行  天蝎座  女     0     100.0      0.0
10     28.0   广东    中国农业银行  水瓶座  男     0     100.0      0.0
11     25.0   山东    中国建设银行  天蝎座  女     0     100.0      0.0
12     23.0   湖南    中国农业银行  金牛座  女     0     100.0      0.0
13     53.0  内蒙古    中国工商银行  白羊座  男    29     100.0      0.0
14     35.0   湖南    中国工商银行  水瓶座  男     0     100.0      0.0
15     34.0   北京      招商银行  白羊座  女     0

In [16]:
trained.describe()

Unnamed: 0,年龄,邀请人数,活期投资,定期投资
count,48337.0,48337.0,48337.0,48337.0
mean,37.794671,3.936219,35408.31,10292.0
std,13.772249,10.15992,312202.8,76572.47
min,7.0,0.0,0.0,0.0
25%,27.0,0.0,100.0,0.0
50%,33.0,0.0,100.0,0.0
75%,47.0,2.0,100.0,0.0
max,93.0,728.0,12789570.0,5437300.0


In [18]:
try:
    conn = pymysql.connect(host="",
                       user="",
                       password="",
                       db="",
                       charset="utf8",
                       cursorclass=pymysql.cursors.DictCursor)
    sql='''
        select age '年龄'
             , province '省份'
             , bankname '银行'
             , constellation '星座'
             , sex '性别'
             , invite_cnt '邀请人数'
            from m_userinfo mu 
            left join cus_detail cd on mu.userid = cd.userid 
            where mu.idcard is not null 
            and age < 100
            and bankname is not null
            and (SXQTZJE =0 and DQTZJE=0)
        '''
    to_train = pd.read_sql(sql, con=conn)
    print(to_train)
finally:
    conn.close()

         年龄  省份      银行   星座 性别  邀请人数
0      59.0  辽宁  中国农业银行  双子座  女     0
1      23.0  重庆    招商银行  天蝎座  女     1
2      21.0  山西  中国工商银行  天蝎座  男     0
3      22.0  浙江  中国建设银行  金牛座  女     0
4      54.0  陕西  中国建设银行  双鱼座  女     0
5      19.0  河北  中国建设银行  金牛座  男     0
6      33.0  陕西  中国农业银行  水瓶座  女     0
7      27.0  广东  中国工商银行  金牛座  男     0
8      39.0  北京  中国建设银行  双鱼座  男     0
9      27.0  广东    广发银行  双鱼座  女     0
10     32.0  广东  中国农业银行  处女座  女     0
11     22.0  广东  中国农业银行  狮子座  男     0
12     27.0  山西  中国建设银行  金牛座  男     0
13     19.0  福建  中国农业银行  水瓶座  男     0
14     30.0  山东  中国农业银行  摩羯座  女     4
15     41.0  湖南  中国工商银行  巨蟹座  女     0
16     24.0  云南  中国工商银行  双鱼座  男     0
17     32.0  河北  中国农业银行  天蝎座  女     0
18     32.0  浙江  中国工商银行  水瓶座  女     1
19     53.0  浙江  中国农业银行  天秤座  男     0
20     44.0  广西  中国农业银行  巨蟹座  男     0
21     26.0  山东    中国银行  水瓶座  男     0
22     23.0  江苏  中国建设银行  巨蟹座  男     0
23     34.0  河北  中国农业银行  双子座  女     0
24     48.0  山东  中国工商银行  水瓶座  女     0
25     27.0 

In [20]:
to_train.describe()

Unnamed: 0,年龄,邀请人数
count,62058.0,62058.0
mean,32.327629,0.526685
std,11.978902,5.078805
min,7.0,0.0
25%,24.0,0.0
50%,29.0,0.0
75%,37.0,0.0
max,99.0,634.0


### 计算建立模型

 - 年龄和投资金额关系

In [25]:
trained.groupby(["年龄"], axis=0).mean()

Unnamed: 0_level_0,邀请人数,活期投资,定期投资
年龄,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
7.0,29.000000,100.000000,0.000000
14.0,0.000000,100.000000,0.000000
15.0,0.000000,100.000000,0.000000
16.0,0.000000,100.000000,0.000000
17.0,1.250000,100.000000,0.000000
18.0,2.066667,9512.421867,146.666667
19.0,3.126984,6910.772063,511.904762
20.0,4.621739,541.229826,71.014493
21.0,6.535744,1170.086501,174.095879
22.0,7.686862,1536.875969,631.377551


根据数据，可以划分出年龄段：

 * 0-30 : 0
 * 31+  : 1

- 省份和投资金额关系

In [27]:
trained.groupby(["省份"], axis=0).mean()

Unnamed: 0_level_0,年龄,邀请人数,活期投资,定期投资
省份,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
上海,37.603774,2.680355,109448.578624,21557.824639
云南,34.26971,5.004149,3808.265228,2215.767635
内蒙古,39.817996,2.276074,44152.675174,20652.351738
北京,39.177703,2.230743,224315.302821,59670.385264
吉林,41.607702,2.821901,16630.029759,2354.993983
四川,37.43123,6.580118,17115.46882,7121.833863
天津,45.176808,2.204363,232175.25248,76313.203215
宁夏,33.26087,6.982609,3503.853304,1226.086957
安徽,37.815278,3.966667,9389.638215,1872.013889
山东,37.972101,3.381845,13248.185059,3661.66979


可以得出省份关系

 * 上海，北京，天津，西藏 : 0
 * 云南，宁夏，广西，新疆，江西，河南，海南，福建，贵州 : 1
 * 其他: 2

- 银行和投资金额关系

In [28]:
trained.groupby(["银行"], axis=0).mean()

Unnamed: 0_level_0,年龄,邀请人数,活期投资,定期投资
银行,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
03080000,33.0,5.0,79000.0,0.0
上海浦东发展银行,37.136986,0.575342,295880.3,61841.09589
上海银行,61.0,0.0,188541.5,70000.0
中信银行,45.14794,0.960674,110779.9,77198.127341
中国光大银行,39.850909,5.550909,123531.3,41612.181818
中国农业银行,38.192656,4.960643,9924.566,1587.848537
中国工商银行,37.414132,3.543426,29175.74,6843.508852
中国建设银行,37.287135,4.369472,31758.04,10444.051242
中国招商银行,34.411411,8.399399,34559.01,1732.432432
中国民生银行,38.923729,0.474576,290906.0,83597.457627


可以得出银行关系

 * 恒丰银行: 0
 * 中国农业银行, 邮政储蓄银行, 中国工商银行, 中国建设银行, 中国招商银行, 中国邮政储蓄银行, 中国银行, 招商银行, 民生银行, 浦发银行, 甘肃农信社 : 1
 * 其他: 2
 
- 星座和投资金额关系

In [29]:
trained.groupby(["星座"], axis=0).mean()

Unnamed: 0_level_0,年龄,邀请人数,活期投资,定期投资
星座,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
双子座,37.501455,3.704948,35328.21756,8814.183646
双鱼座,37.746218,3.686676,31872.753655,9735.988043
处女座,37.658929,4.128706,32068.234803,10997.402896
天秤座,37.920511,4.042341,38718.958526,10019.865364
天蝎座,38.050595,3.691303,40253.40166,12176.544649
射手座,38.418799,3.946358,33749.636545,10122.446112
巨蟹座,38.098378,4.027918,38412.408798,11049.36443
摩羯座,37.467725,3.819416,32318.81179,10551.741803
水瓶座,37.678304,3.984289,28442.205559,9579.860444
狮子座,37.627983,4.028636,41346.726845,9844.436071


可以看出，星座和投资金额没有太大的相关性

- 邀请人数和投资金额关系

In [30]:
trained.groupby(["邀请人数"], axis=0).mean()

Unnamed: 0_level_0,年龄,活期投资,定期投资
邀请人数,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,39.694380,22835.434700,10585.779463
1,35.045005,91344.680486,17563.638858
2,34.420422,103121.715573,18304.791786
3,33.500893,102625.101875,11575.683821
4,33.718821,129468.092562,16273.252971
5,33.373159,118571.401309,17313.877250
6,33.433610,73752.850332,14470.746888
7,33.970660,64973.552689,11834.229829
8,33.475460,96611.909233,9014.723926
9,33.003106,21241.559317,3584.472050


可以看出邀请人数与投资金额关系也不大

- 性别和投资金额关系

In [31]:
trained.groupby(["性别"], axis=0).mean()

Unnamed: 0_level_0,年龄,邀请人数,活期投资,定期投资
性别,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
女,39.133894,3.230099,50765.963954,13973.50414
男,36.534969,4.60041,20962.569855,6829.092079


可以看出性别与投资金额关系

 * 女 : 0
 * 男 : 1

### 选择数据项

 * 年龄
 * 省份
 * 银行
 
 根据归一化法则变换数据

In [57]:
trained_t = trained.drop(['邀请人数', '星座'], axis=1)
trained_t.loc[trained_t['性别']=='男', "性别"] = 1
trained_t.loc[trained_t['性别']=='女', "性别"] = 0
trained_t.loc[trained_t['年龄'].isin(list(range(0,31))), '年龄'] = 0
trained_t.loc[trained_t['年龄'].isin(list(range(31,100))), '年龄'] = 1
trained_t.loc[trained_t['省份'].isin(["上海","北京","天津","西藏"]), "省份"] = 0
trained_t.loc[trained_t['省份'].isin(["云南","宁夏","广西","新疆","江西","河南","海南","福建","贵州"]), "省份"] = 0.5
trained_t.loc[~trained_t['省份'].isin([0, 0.5]), '省份'] = 1
trained_t.loc[trained_t['银行']=='恒丰银行','银行'] = 0
trained_t.loc[trained_t['银行'].isin(["中国农业银行", "邮政储蓄银行", "中国工商银行", "中国建设银行", "中国招商银行", "中国邮政储蓄银行", "中国银行", "招商银行", "民生银行", "浦发银行", "甘肃农信社"]),'银行'] = 0.5
trained_t.loc[~trained_t['银行'].isin([0, 0.5]), '银行'] = 1
trained_t.loc[trained_t['活期投资']<10000, '活期投资'] = 0
trained_t.loc[(trained_t['活期投资']<50000) & (trained_t['活期投资']>=10000), '活期投资'] = 0.5
trained_t.loc[trained_t['活期投资']>=50000, '活期投资'] = 1
trained_t.loc[trained_t['定期投资']<10000, '定期投资'] = 0
trained_t.loc[(trained_t['定期投资']<30000) & (trained_t['定期投资']>=10000), '定期投资'] = 0.5
trained_t.loc[trained_t['定期投资']>=30000, '定期投资'] = 1

print(trained_t)

        年龄   省份   银行  性别  活期投资  定期投资
0      0.0    0  0.5   1   0.0   0.0
1      0.0  0.5  0.5   0   0.0   0.0
2      0.0  0.5  0.5   1   0.0   0.0
3      1.0    1  0.5   1   0.0   0.0
4      1.0    1  0.5   0   0.0   0.0
5      0.0    1  0.5   0   0.0   0.0
6      0.0  0.5  0.5   1   0.0   0.0
7      1.0    0  0.5   0   0.0   0.0
8      1.0  0.5  0.5   1   0.0   0.0
9      1.0    1  0.5   0   0.0   0.0
10     0.0    1  0.5   1   0.0   0.0
11     0.0    1  0.5   0   0.0   0.0
12     0.0    1  0.5   0   0.0   0.0
13     1.0    1  0.5   1   0.0   0.0
14     1.0    1  0.5   1   0.0   0.0
15     1.0    0  0.5   0   1.0   0.0
16     1.0    1  0.5   1   0.0   0.0
17     1.0    1  0.5   1   0.0   0.0
18     1.0    1  0.5   1   0.0   0.0
19     0.0    1  0.5   1   0.0   0.0
20     1.0    0  0.5   1   1.0   0.0
21     0.0    1  0.5   1   0.0   0.0
22     0.0    1  0.5   1   0.0   0.0
23     1.0  0.5  0.5   1   0.0   0.0
24     0.0  0.5  0.5   0   0.0   0.0
25     0.0    1  0.5   0   0.0   0.0
2

In [60]:
to_train_t = to_train.drop(['邀请人数', '星座'], axis=1)
to_train_t.loc[to_train_t['性别']=='男', "性别"] = 1
to_train_t.loc[to_train_t['性别']=='女', "性别"] = 0
to_train_t.loc[to_train_t['年龄'].isin(list(range(0,31))), '年龄'] = 0
to_train_t.loc[to_train_t['年龄'].isin(list(range(31,100))), '年龄'] = 1
to_train_t.loc[to_train_t['省份'].isin(["上海","北京","天津","西藏"]), "省份"] = 0
to_train_t.loc[to_train_t['省份'].isin(["云南","宁夏","广西","新疆","江西","河南","海南","福建","贵州"]), "省份"] = 0.5
to_train_t.loc[~to_train_t['省份'].isin([0, 0.5]), '省份'] = 1
to_train_t.loc[to_train_t['银行']=='恒丰银行','银行'] = 0
to_train_t.loc[to_train_t['银行'].isin(["中国农业银行", "邮政储蓄银行", "中国工商银行", "中国建设银行", "中国招商银行", "中国邮政储蓄银行", "中国银行", "招商银行", "民生银行", "浦发银行", "甘肃农信社"]),'银行'] = 0.5
to_train_t.loc[~to_train_t['银行'].isin([0, 0.5]), '银行'] = 1

print(to_train_t)

        年龄   省份   银行  性别
0      1.0    1  0.5   0
1      0.0    1  0.5   0
2      0.0    1  0.5   1
3      0.0    1  0.5   0
4      1.0    1  0.5   0
5      0.0    1  0.5   1
6      1.0    1  0.5   0
7      0.0    1  0.5   1
8      1.0    0  0.5   1
9      0.0    1    1   0
10     1.0    1  0.5   0
11     0.0    1  0.5   1
12     0.0    1  0.5   1
13     0.0  0.5  0.5   1
14     0.0    1  0.5   0
15     1.0    1  0.5   0
16     0.0  0.5  0.5   1
17     1.0    1  0.5   0
18     1.0    1  0.5   0
19     1.0    1  0.5   1
20     1.0  0.5  0.5   1
21     0.0    1  0.5   1
22     0.0    1  0.5   1
23     1.0    1  0.5   0
24     1.0    1  0.5   0
25     0.0    1  0.5   0
26     1.0    1  0.5   0
27     0.0    1  0.5   1
28     0.0    1  0.5   1
29     1.0    1  0.5   0
...    ...  ...  ...  ..
62028  1.0    1  0.5   1
62029  1.0    1  0.5   1
62030  0.0    1  0.5   1
62031  0.0    1  0.5   0
62032  0.0  0.5  0.5   1
62033  0.0  0.5  0.5   1
62034  0.0  0.5  0.5   0
62035  0.0    1  0.5   1


### 验证模型

**Q: 如何来验证模型是否正确？**

### 计算结果

根据整理的数据

In [78]:
from sklearn.ensemble import RandomForestRegressor

rfr = RandomForestRegressor(random_state=0, n_estimators=2000, n_jobs=-1)
rfr.fit(trained_t.iloc[:,:4], trained_t.iloc[:,4:6])
predict = pd.DataFrame(rfr.predict(to_train_t), columns=['活期投资','定期投资'])
predict = to_train_t.join(predict)
predict.loc[predict['活期投资']<0.5, '活期投资'] = predict.loc[predict['活期投资']<0.5, '活期投资']*50000
predict.loc[predict['活期投资']<1, '活期投资'] = 50000+predict.loc[predict['活期投资']<1, '活期投资']*50000
predict.loc[predict['定期投资']<0.5, '定期投资'] = predict.loc[predict['定期投资']<0.5, '定期投资']*30000
predict.loc[predict['定期投资']<1, '定期投资'] = 30000+predict.loc[predict['定期投资']<1, '定期投资']*50000

print(predict)

        年龄   省份   银行  性别          活期投资         定期投资
0      1.0    1  0.5   0   3433.307097  2062.820802
1      0.0    1  0.5   0   2660.063858   704.448336
2      0.0    1  0.5   1   1076.374776   206.435707
3      0.0    1  0.5   0   2660.063858   704.448336
4      1.0    1  0.5   0   3433.307097  2062.820802
5      0.0    1  0.5   1   1076.374776   206.435707
6      1.0    1  0.5   0   3433.307097  2062.820802
7      0.0    1  0.5   1   1076.374776   206.435707
8      1.0    0  0.5   1  16429.596539  8308.730535
9      0.0    1    1   0   9639.331537  2983.453977
10     1.0    1  0.5   0   3433.307097  2062.820802
11     0.0    1  0.5   1   1076.374776   206.435707
12     0.0    1  0.5   1   1076.374776   206.435707
13     0.0  0.5  0.5   1    442.921828    95.459322
14     0.0    1  0.5   0   2660.063858   704.448336
15     1.0    1  0.5   0   3433.307097  2062.820802
16     0.0  0.5  0.5   1    442.921828    95.459322
17     1.0    1  0.5   0   3433.307097  2062.820802
18     1.0  

**Q: 看到结果要干嘛？**

撸起袖子加油干，一张蓝图绘到底

## 总结

 - 数据获取
 - 数据分类
 - 数据抽象
 - 分析数据关联
 - 选择分析模型
 - 得到结果
 - 验证结果
 
 **Q: 如何优化结果？**
 
  * 训练数据相关性
  * 训练数据去噪
  * 数据权重优化
  * ...
  
  ATTENTION: DO NOT OVER-FITTING!
 
## 参考资料

 * https://kaggle.com
 * https://zhuanlan.zhihu.com/p/27577246
 * http://blog.csdn.net/yaoqiang2011/article/list/1