### 混淆矩阵
    准确率(Accuracy): (TP+TN) / (TP + FP  + FN + TN)
    精确率(Precision): TP / (TP + FP)
    召回率(Recall): TP / (TP + FN)
    F1-score: 2 * (Precision * Recall) / (Precision + Recall)
    F2-score: (1 + beta ** 2) * (Precision * Recall) / beta ** 2 * Precision + Recall
        F1是一个用来衡量Precision和Recall的一个指标，往往当F1很高时，Precision和Recall也很高。
    AUC
        AUC是一个衡量模型的指标，当AUC趋近于1，说明该模型的分类效果越好；反之，若AUC趋近于0，说明该模型分类效果越差。
        AUC一般在数据不平衡的情况下使用。（邮件、疾病、推荐）

## 作业
##### 1. 实现softmax，cross-entropy，并且说明他们的使用场景和作用意义；
    softmax是将逻辑回归的输出转换成一组概率， 且这组概率为0-1之间，和为1的概率分布，softmax是一个多分类模型，
    而交叉熵cross_entropy是softmax的损失函数，因为softmax输出的是概率分布，衡量概率分布的相似程度的常用方法是KL散度，
    然后，KL散度和交叉熵几乎是一回事。理论上softmax也可以搭配其他的概率分布，例如
    loss = sum(y_i * p + (1-yi) * (1 - p))， 但是cross_entropy函数使用了log变换，会在损失远离0时更快的收敛，

In [7]:
import numpy as np

In [4]:
def softmax(x):
    x -= np.max(x)
    return np.exp(x) / np.sum(np.exp(x))

softmax([1.3, 2.4, -0.8])

array([0.24232893, 0.72799634, 0.02967474])

In [6]:
def cross_entropy(label, s):
    return - sum([label[i] * np.log(s[i]) for i in range(len(label))])

L = [0.10, 0.40, 0.50]
S = [0.80, 0.15, 0.05]
cross_entropy(L, S)

2.279028485862769

##### 2. 总结过拟合、欠拟合的作用和意义；
    过拟合是在训练集上拟合很好，在测试集上拟合不好
        原因：
            1. 训练样本抽取不平衡，导致训练集数据过少
            2. 训练集和测试集分布不一致
            3. 特征参数过多，模型过于复杂
            4. 权值学习迭代次数过多，拟合了噪声数据
        解决方案：
            1. 数据增强，增加训练数据
            2. 随机抽样，使训练集和测试集数据比较均衡
            3. 适当减小模型的复杂度，引入正则项惩罚机制
            4. early stopping
    欠拟合是在训练集上拟合不好，在测试集上拟合很好
        原因：
            1. 特征量过少
            2. 特征参数太少， 模型过于简单
        解决方案：
            1. 进行升维，增加有效影响特征或者多项式特征
            2. 使用复杂度更高的非线性模型，例如SVM, 决策树, 深度学习等

##### 3. 总结AUC的作用和意义；
    AUC 是一个衡量模型的指标, 当AUC趋近于1，说明该模型的分类效果越好；反之若AUC趋近于0，说明该模型分类效果越差
    AUC 一般在数据不平衡的情况下使用，例如邮件分类，疾病预测，推荐系统等

##### 4. 城市里边有一共200万个居民，其中有100人是犯罪分子，然后警察随机找了一批人，这批人一共200人：
    现在定义犯罪分析为positive samples, 那么
    case1: 警察定义的这200人中，一共有犯罪分子实际有89人，警察判定是犯罪分子的人一共有80人，这80人中，真正是犯罪分子的有79名；
预测/真实 | 坏人 | 好人
---|---|---
坏人 | TP: 79 | FP: 1
好人 | FN: 10 | TN: 110

        请问，警察判断的accuracy是多少，recall是多少，precision是多少？
            accuracy = (TP + TN) / (TP + FP + FN + TN) = (89 + 110) / 200 = 94.5%
            recall = TP / (TP + FN) = 79 / 89 = 89%
            precision = TP / (TP + FP) = 79 / 80 = 98.75%
    case2: 警察定义的这200人中，一共有犯罪分子实际有100人，警察判定是犯罪分子的人一共有200人，这200人中，真正是犯罪分子的有100名；
预测/真实 | 坏人 | 好人
---|---|---
坏人 | TP: 100 | FP: 100
好人 | FN: 0 | TN: 0

        请问，警察判断的accuracy是多少，recall是多少，precision是多少？
            accuracy = (TP + TN) / (TP + FP + FN + TN) = 100 / 200 = 50%
            recall = TP / (TP + FN) = 100 / 100 = 100%
            precision = TP / (TP + FP) = 100 / 200 = 50%

##### 5. one-hot的意义以及代码实现方法；
    one-hot编码的作用：
        1. 使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。
        2. 对离散型特征进行one-hot编码是为了让距离的计算显得更加合理。

In [34]:
from sklearn import preprocessing
import pandas as pd

data = pd.DataFrame([{'name': '张三', 'sex': 'Male', 'age': 15},
                     {'name': '李四', 'sex': 'Unknow', 'age': 35},
                     {'name': '王五', 'sex': 'Female', 'age': 18},
                     {'name': '王五', 'sex': 'Female', 'age': 18}
                     ])
def one_hot_encoder_by_sklearn(data):
    encoder = preprocessing.OneHotEncoder()
    encoder.fit(data['sex'].values.reshape(-1,1))
    ans = encoder.transform([['Male'], ['Unknow'], ['Female']]).toarray()
    print(ans)
one_hot_encoder_by_sklearn(data)

def one_hot_encoder_by_pandas(data):
    result = pd.get_dummies(data, columns=['sex'])
    result.head()
    return result
one_hot_encoder_by_pandas(data)

[[0. 1. 0.]
 [0. 0. 1.]
 [1. 0. 0.]]


In [58]:
# 自定义onehot编码
cities = [
    '北京',
    '南京',
    '大连',
    '青岛',
    '上海',
    '深圳',
    '杭州'
]
person1 = ['北京', 23]
person2 = ['南京', 24]
person3 = ['北京', 24]

def user_define_one_hot_encoder(features):
    from collections import defaultdict
    one_hot_encoder = defaultdict(lambda : [0] * len(set(features)))
    for i, f in enumerate(set(features)):
        one_hot_encoder[f][i] = 1
    return one_hot_encoder

one_hot_encoder = user_define_one_hot_encoder(cities)

def user_define_one_hot_decoder(features, encoder):
    v = []
    for f in features:
        if f in encoder: v += encoder[f]
        else:
            v.append(f)
    return v

print(user_define_one_hot_decoder(person1, one_hot_encoder))
print(user_define_one_hot_decoder(person2, one_hot_encoder))
print(user_define_one_hot_decoder(person3, one_hot_encoder))

[0, 0, 0, 0, 1, 0, 0, 23]
[1, 0, 0, 0, 0, 0, 0, 24]
[0, 0, 0, 0, 1, 0, 0, 24]


##### 6. normalization， standardization 的意义和代码实现方法。
    normalization 和 standardization 是差不多的，都是将数据进行预处理，
    normalization一般将数据限制在某个范围，比如一般都是[0, 1]， 从而消除数据量纲对建模的影响。
    standardization 一般是指将数据正态化，使平均值为0方差为1， 因此normalization和standardization
    是针对数据而言的，消除一些数值差异带来的特征重要性偏见，经过归一化的数据，能加快训练速度，促进算法的收敛
    包括的方法主要有：
        最大最小值归一化： MinMaxScaler
        标准差归一化：StandardScaler

In [42]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
incomes = [[111212131], [32313111], [32431131], [34353311]]

def scale(data, scaler):
    print('\nbefore processing')
    print(incomes)

    scaler.fit(incomes)
    minmax_incomes = scaler.transform(incomes)
    print('\nafter scale')
    print(minmax_incomes)

In [43]:
# 最大最小值归一化
minmax = MinMaxScaler()
scale(incomes, minmax)


before processing
[[111212131], [32313111], [32431131], [34353311]]

after scale
[[1.        ]
 [0.        ]
 [0.00149584]
 [0.02585837]]


In [44]:
# 标准差归一化
standard = StandardScaler()
scale(data, standard)


before processing
[[111212131], [32313111], [32431131], [34353311]]

after scale
[[ 1.73155534]
 [-0.59843008]
 [-0.59494481]
 [-0.53818046]]


In [45]:
# 另一种求解方式
from sklearn.preprocessing import minmax_scale
minmax_scale(incomes)

from sklearn.preprocessing import scale as standard_scale
standard_scale(incomes)

array([[1.        ],
       [0.        ],
       [0.00149584],
       [0.02585837]])