## 基础概念

1. 机器学习方法主要用在什么常见的特点下？

    - 海量数据，无法人工识别或耗时巨大
    - 数据间关系复杂，无法人工进行判断

2. 提出 3 个你认为使用了机器学习方法的现实场景.

    - 广告推荐
    - 股市价格预测
    - 智能对话机器人

3. 提出 3 个你认为可以使用机器学习但是还没有使用机器学习方法的场景.

    - 自动编程
    - 自动建筑设计
    - 疾病自动诊断

4. 什么是“模型”？ 为什么说“All models are wrong, but some useful”.

    - 模型就是对现实中的问题的进行高度抽象和概括。
    - 模型只能在已有数据的基础上经过训练得到结果，并不能完全匹配所有的问题，只是在某些特定的情况下能得到比较好的预测结果。

5. Classification 和 Regression主要针对什么？ 有什么区别？

    - Classification 主要用于分类，适用于特征是离散型数据, 结果通常是为了得到一个决策面，模型的评价方法通常使用正确率作为指标。
    - Regression 主要用于预测，适用于特征是连续型数据，结果通常是为了得到一个最优拟合线，模型的评价方法通常使用决定系数$R^2$作为指标。

6. precision， recall，f1, auc 分别是什么意思？ 假设一个城市有 10000 人，有 30 个犯罪分子，警察抓到了 35 个人，其中 20 个是犯罪分子，请问这个警察的 precision, recall, f1,auc 分别是什么？

    - Precision: 精确率, $\frac{TP}{TP + FP}$ , 表示在所有预测值为正的样本中预测正确的比例。
    - Recall: 召回率, $\frac{TP}{TP + FN}$, 表示在所有真实值为正的样本中，预测正确的比例。
    - F1: 同时考虑召回率和精确率。 $ F_1 = 2 * \frac{precision  *  recall}{precision + recall} $ 
    - AUC: ROC曲线下的面积。
    - TP=20, FP=15, FN=10, TN=9955, 
    $precision=\frac{20}{20+15}=0.57$, $recall=\frac{20}{20+10}=0.67$, $F1=2 * \frac{0.56 * 0.67}{0.57 + 0.67}=0.61$

7. 请提出两种场景，第一种场景下，对模型的评估很注重 precision, 第二种很注重 recall.

    - 精确率适用于找的对不对
    - 召回率适用于找的全不全

8. 什么是 Overfitting， 什么是 Underfitting?

    - Overfitting: 过拟合，模型过度复杂，过度匹配训练数据，训练数据过少，缺乏泛化能力
    - Underfitting: 欠拟合，模型复杂度过低，训练误差太大

9. Lazy-Learning， Lazy在哪里？
    
    - 计算过程简单，比如KNN

10. Median， Mode， Mean分别是什么？ 有什么意义？
    
    - Median: 中位数
    - Mode：众数
    - Mean：平均数

11. Outlier（异常值、离群值）是什么？ 如何定义？

    - Outlier 异常值，一般取IQR（高四分位数与低四分位数的差值）的1.5倍。

12. Bias 和 Variance 有什么关系？ 他们之间为什么是一种 tradeoff 的？

13. Train，Validation，Test 数据集之间是什么关系？ 为什么要这么划分？
    
    - 训练集用来估计模型或确定模型参数的，验证集用来确定网络结构或者控制模型复杂程度的参数的，即模型的最终优化及确定的，而测试集则检验最终选择最优的模型的性能如何。
    - 训练集和验证集数据均是同一对象的数据，但是测试集，需要用跨对象的数据来验证模型的稳定性。

14. Supervised Learning 的 Supervised 体现在什么地方？

    - 体现在给定了训练数据的标签

15. Linear Regression 中，什么是“线性关系”？

16. Linear Regression中，Loss 函数怎么定义的？ 为什么要写成这样？ 什么是凸函数？ 优化中有什么意义？

17. 简述Gradient Descent的过程，以 $y = -10 * x^2 + 3x + 4 $ 为例，从一个任一点 $ x = 10 $ 开始，如果根据 Gradient Descent 找到最值。

18. 一般在机器学习数量时，会做一个预处理（Normalization）， 简述 Normalization 的过程，以及数据经过 Normalization之后的平均值和标准差的情况。

19. Logstic Regression 的 Logstic 是什么曲线，被用在什么地方？

20. Logstic Regression 的 Loss 函数 Cross Entropy 是怎么样的形式？ 有什么意义？

## 实战：新华社抄袭文本判断

问题描述：

在新闻出版业中一个常常的问题就是新闻版权抄袭，为了避免这种情况，需要建立一个模型，判断这个文章是不是由某个新闻出版单位出版的。

在这个问题里，需要建立一个模型，该模型接受一个作为文本的输入，然后判断该文本是不是由“新华社”发布的。

1. 为什么此问题应该用机器学习方法？
    
    - 此问题是一个典型的二分类问题
    - 人工无法直接识别
    - 涉及大量新闻文本

2. 为什么要对文本进行向量化？ 如何进行文本向量化表示？

    - 只有进行向量化后，机器才能进行计算，否则无法根据纯文本进行计算。
    - 使用词向量或者TFIDF

### Load data

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Set source path
news_path = './data/sqlResult.csv'

In [3]:
# Load file
df = pd.read_csv(news_path, encoding = 'gb18030')
df.head()

Unnamed: 0,id,author,source,content,feature,title,url
0,89617,,快科技@http://www.kkj.cn/,此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""37""...",小米MIUI 9首批机型曝光：共计15款,http://www.cnbeta.com/articles/tech/623597.htm
1,89616,,快科技@http://www.kkj.cn/,骁龙835作为唯一通过Windows 10桌面平台认证的ARM处理器，高通强调，不会因为只考...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""15""...",骁龙835在Windows 10上的性能表现有望改善,http://www.cnbeta.com/articles/tech/623599.htm
2,89615,,快科技@http://www.kkj.cn/,此前的一加3T搭载的是3400mAh电池，DashCharge快充规格为5V/4A。\r\n...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""18""...",一加手机5细节曝光：3300mAh、充半小时用1天,http://www.cnbeta.com/articles/tech/623601.htm
3,89614,,新华社,这是6月18日在葡萄牙中部大佩德罗冈地区拍摄的被森林大火烧毁的汽车。新华社记者张立云摄\r\n,"{""type"":""国际新闻"",""site"":""环球"",""commentNum"":""0"",""j...",葡森林火灾造成至少62人死亡 政府宣布进入紧急状态（组图）,http://world.huanqiu.com/hot/2017-06/10866126....
4,89613,胡淑丽_MN7479,深圳大件事,（原标题：44岁女子跑深圳约会网友被拒，暴雨中裸身奔走……）\r\n@深圳交警微博称：昨日清...,"{""type"":""新闻"",""site"":""网易热门"",""commentNum"":""978"",...",44岁女子约网友被拒暴雨中裸奔 交警为其披衣相随,http://news.163.com/17/0618/00/CN617P3Q0001875...


### Pre_processing

In [4]:
# View infomation
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 89611 entries, 0 to 89610
Data columns (total 7 columns):
id         89611 non-null int64
author     79396 non-null object
source     89609 non-null object
content    87054 non-null object
feature    89611 non-null object
title      89577 non-null object
url        87144 non-null object
dtypes: int64(1), object(6)
memory usage: 4.8+ MB


In [5]:
# Drop news which content or source is empty
df = df.dropna(subset=['source', 'content'])

In [6]:
# fill other empty values with ''
df = df.fillna('')

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 87052 entries, 0 to 89610
Data columns (total 7 columns):
id         87052 non-null int64
author     87052 non-null object
source     87052 non-null object
content    87052 non-null object
feature    87052 non-null object
title      87052 non-null object
url        87052 non-null object
dtypes: int64(1), object(6)
memory usage: 5.3+ MB


In [8]:
# Check the number of news from 新华社 or 新华网
sum(df['source'].str.contains('新华'))

78855

**Build function to cut words with jieba**

In [9]:
import re
import jieba

In [10]:
def cut_content(string):
    clean_str = ''.join(re.findall(r'[\d|\w]+', string))
    return ' '.join(jieba.cut(clean_str))

In [11]:
# Test
cut_content(df['content'][1])

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/jc/l9vx9tp979g0tm976wjrgwkr0000gn/T/jieba.cache
Loading model cost 0.991 seconds.
Prefix dict has been built succesfully.


'骁龙 835 作为 唯一 通过 Windows10 桌面 平台 认证 的 ARM 处理器 高通 强调 不会 因为 只 考虑 性能 而 去 屏蔽掉 小 核心 相反 他们 正 联手 微软 找到 一种 适合 桌面 平台 的 兼顾 性能 和 功耗 的 完美 方案 报道 称 微软 已经 拿到 了 一些 新 的 源码 以便 Windows10 更好 地 理解 biglittle 架构 资料 显示 骁龙 835 作为 一款 集成 了 CPUGPU 基带 蓝牙 WiFi 的 SoC 比 传统 的 Wintel 方案 可以 节省 至少 30 的 PCB 空间 按计划 今年 Q4 华硕 惠普 联想 将 首发 骁龙 835Win10 电脑 预计 均 是 二合一 形态 的 产品 当然 高通 骁龙 只是 个 开始 未来 也许 还 能 见到 三星 Exynos 联发科 华为 麒麟 小米 澎湃 等 进入 Windows10 桌面 平台'

In [12]:
# Add a new column to save content after cutting words
df['content_cut'] = df['content'].apply(cut_content)

In [13]:
# Test
df['content_cut'][:10]

0    此外 自 本周 6 月 12 日起 除 小米 手机 6 等 15 款 机型 外 其余 机型 ...
1    骁龙 835 作为 唯一 通过 Windows10 桌面 平台 认证 的 ARM 处理器 高...
2    此前 的 一加 3T 搭载 的 是 3400mAh 电池 DashCharge 快充 规格 ...
3    这是 6 月 18 日 在 葡萄牙 中部 大 佩德罗 冈 地区 拍摄 的 被 森林 大火 烧...
4    原 标题 44 岁 女子 跑 深圳 约会 网友 被 拒 暴雨 中 裸身 奔走 深圳 交警 微...
5    受到 A股 被 纳入 MSCI 指数 的 利好 消息 刺激 A股 市场 从 周三 开始 再度...
6    虽然 至今 夏普 智能手机 在 市场 上 无法 排得 上 号 已经 完全 没落 并于 201...
7    沙漠 雄鹰 震荡 有利 消化 套牢 筹码 周四 开盘 上证 50 在 银行 券商 大 蓝筹 ...
8    原 标题 武汉 警方 一下子 抓 了 808 人 还 都 是 俊男靓女 原来 他们 每天 偷...
9    6 月 21 日 A股 纳入 MSCI 指数 尘埃落定 但 当天 被 寄予厚望 的 券商 股...
Name: content_cut, dtype: object

In [14]:
# Add label for each news, 1 for 新华社， 0 for others
df['label'] = df['source'].apply(lambda x: 1 if any(pd.Series(x).str.contains('新华')) else 0)

In [15]:
# Check the number
sum(df['label'] == 1)

78855

### Save result to new CSV file

In [16]:
df_news = df[['id', 'source', 'content', 'content_cut', 'label']]

In [17]:
df_news.head()

Unnamed: 0,id,source,content,content_cut,label
0,89617,快科技@http://www.kkj.cn/,此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/...,此外 自 本周 6 月 12 日起 除 小米 手机 6 等 15 款 机型 外 其余 机型 ...,0
1,89616,快科技@http://www.kkj.cn/,骁龙835作为唯一通过Windows 10桌面平台认证的ARM处理器，高通强调，不会因为只考...,骁龙 835 作为 唯一 通过 Windows10 桌面 平台 认证 的 ARM 处理器 高...,0
2,89615,快科技@http://www.kkj.cn/,此前的一加3T搭载的是3400mAh电池，DashCharge快充规格为5V/4A。\r\n...,此前 的 一加 3T 搭载 的 是 3400mAh 电池 DashCharge 快充 规格 ...,0
3,89614,新华社,这是6月18日在葡萄牙中部大佩德罗冈地区拍摄的被森林大火烧毁的汽车。新华社记者张立云摄\r\n,这是 6 月 18 日 在 葡萄牙 中部 大 佩德罗 冈 地区 拍摄 的 被 森林 大火 烧...,1
4,89613,深圳大件事,（原标题：44岁女子跑深圳约会网友被拒，暴雨中裸身奔走……）\r\n@深圳交警微博称：昨日清...,原 标题 44 岁 女子 跑 深圳 约会 网友 被 拒 暴雨 中 裸身 奔走 深圳 交警 微...,0


In [18]:
df_news.to_csv('./data/news_cut.csv', encoding='utf-8', index=False)

In [1]:
import pandas as pd
import numpy as np

df_news = pd.read_csv('./data/news_cut.csv')

### Take Samples

In [2]:
# Check the ratio of news from 新华社
sum(df_news['label'] == 1) / len(df_news)

0.9058378899967835

In [3]:
# Check the number of negative samples
sum(df_news['label'] == 0)

8197

**Implement Undersampling**

In [4]:
# Get positive samples
df_pos = df_news[df_news['label'] == 1].sample(8000).reset_index(drop=True)

In [5]:
# Get negative samples
df_neg = df_news[df_news['label'] == 0].sample(8000).reset_index(drop=True)

In [6]:
# Combine pos and neg samples
df_sample = pd.concat([df_pos, df_neg], axis=0)

**Shuffle the samples**

In [7]:
from sklearn.utils import shuffle

In [8]:
df_sample = shuffle(df_sample).reset_index(drop=True)

In [9]:
df_sample.head()

Unnamed: 0,id,source,content,content_cut,label
0,86158,凤凰财经WEMONEY,过去一周，全球数字资产社区惶惶不安。萧条和崩盘的阴云几乎笼罩了所有数字资产，每一种数字资产似...,过去 一周 全球 数字 资产 社区 惶惶不安 萧条 和 崩盘 的 阴云 几乎 笼罩 了 所有...,0
1,83154,央视网,央视网消息：22日上午，在浙江海盐县，一辆小汽车翻进了路旁的水渠中，车的上半部没入水中，车内...,央视网 消息 22 日 上午 在 浙江 海盐县 一辆 小汽车 翻进 了 路旁 的 水渠 中车...,0
2,84910,动漫星空@,北乃绮将加盟《银魂 三叶篇》，饰演冲田总悟的姐姐冲田三叶，除此之外电影版的演员小栗旬、柳乐优...,北乃 绮 将 加盟 银魂 三叶 篇 饰演 冲田 总悟 的 姐姐 冲田 三叶 除此之外 电影版...,0
3,45568,新华社,新华社照片，外代，2017年4月28日\n（外代二线）印度火车站掠影\n4月20日，在印度首...,新华社 照片 外代 2017 年 4 月 28 日 n 外代 二线 印度 火车站 掠影 n4...,1
4,39601,新华社,新华社北京５月４日电题：美俄元首通话耐人寻味\n 新华社记者柳丝　\n美国总统特朗普执政以...,新华社 北京 ５ 月 ４ 日电 题美 俄 元首 通话 耐人寻味 n 新华社 记者 柳丝 n ...,1


In [10]:
df_sample.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16000 entries, 0 to 15999
Data columns (total 5 columns):
id             16000 non-null int64
source         16000 non-null object
content        16000 non-null object
content_cut    15998 non-null object
label          16000 non-null int64
dtypes: int64(2), object(3)
memory usage: 625.1+ KB


### Build Model

In [11]:
# Set X and y
y = df_sample['label']
X = df_sample['content_cut']

**Vectorize news with TFIDF**

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [13]:
# Init vectorizer, set max_feature=30000
vectorizer = TfidfVectorizer(max_features=30000)

In [14]:
# Fit
X = vectorizer.fit_transform(X.values.astype('U'))

In [15]:
# Check vector result
X.shape

(16000, 30000)

**Split data**

In [16]:
from sklearn.model_selection import train_test_split

In [17]:
# Split data into train data and test data with ratio 4:1
X_train, X_test, y_train, y_test = train_test_split(X.toarray(), y, test_size=0.2, random_state=1)
print('Total Data：{}，Train Data：{}，Test Data：{}'.format(X.shape[0], len(X_train), len(X_test)))

Total Data：16000，Train Data：12800，Test Data：3200


**Build function to get performance of model**

In [18]:
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import roc_auc_score

In [19]:
def get_performance(clf, X_test, y_test):
    y_pred = clf.predict(X_test)
    print('percision is: {}'.format(precision_score(y_test, y_pred)))
    print('recall is: {}'.format(recall_score(y_test, y_pred)))
    print('roc_auc is: {}'.format(roc_auc_score(y_test, y_pred)))

**KNN** (skip tmp because of running too long)

In [20]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
# Init parameter K list
neighbors = [3, 5, 7, 9]

# Build model
for k in neighbors:
    knn_clf = KNeighborsClassifier(n_neighbors=k)
    knn_clf.fit(X_train, y_train)
    get_performance(knn_clf, X_test, y_test)

**DT** (skip tmp because of running too long)

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
# Init tree depth
depths = [3, 5, 7, 9]

# Build model 
for d in depths:
    dt_clf = DecisionTreeClassifier(max_depth=d)
    dt_clf.fit(X_train, y_train)
    get_performance(dt_clf, X_test, y_test)

**GNB**

In [22]:
from sklearn.naive_bayes import GaussianNB

In [22]:
gnb_clf = GaussianNB()
gnb_clf.fit(X_train, y_train)
get_performance(gnb_clf, X_test, y_test)

percision is: 0.934982332155477
recall is: 0.8076923076923077
roc_auc is: 0.8743967300305329


**LR**

In [23]:
from sklearn.linear_model import LogisticRegression

In [25]:
lr_clf = LogisticRegression(solver='lbfgs')
lr_clf.fit(X_train, y_train)
get_performance(lr_clf, X_test, y_test)

percision is: 0.9892255892255892
recall is: 0.8968253968253969
roc_auc is: 0.9432910594882425


**SVM** (skip tmp because of running too long)

In [26]:
from sklearn.svm import SVC

In [None]:
svm_clf = SVC(kernel='sigmoid', gamma='auto')
svm_clf.fit(X_train, y_train)
get_performance(svm_clf, X_test, y_test)

### Build function to create model with GridSearchCV

In [20]:
import time
from sklearn.model_selection import GridSearchCV

In [29]:
def build_model(X_train, X_test, y_train, y_test, model_dict):
    
    gscv = {}
    
    for model_name, (model, param_range) in model_dict.items():
        print('Start Training {} ...'.format(model_name))   
        
        # Time
        start = time.time()
        
        # 5 Folder Cross Validation and Grid Search
        clf = GridSearchCV(estimator=model,
                      param_grid=param_range,
                      cv=5,
                      scoring='roc_auc',
                      refit=True)
    
        clf.fit(X_train, y_train)
        
        end = time.time()
        duration = end - start

        get_performance(clf, X_test, y_test)

        print('The best paramter：{}'.format(clf.best_params_))
        print('Total Training Time: {:.4f}s'.format(duration))
        print('###########################################')
        
        gscv[model_name] = clf
    
    return gscv

In [30]:
model_dict = {
    'GNB': (GaussianNB(), {}),
    'LR': (LogisticRegression(solver='lbfgs'), {})
}

In [31]:
gscv = build_model(X_train, X_test, y_train, y_test, model_dict)

Start Training GNB ...
percision is: 0.9298866855524079
recall is: 0.8347107438016529
roc_auc is: 0.8869312784773478
The best paramter：{}
Total Training Time: 428.3557s
###########################################
Start Training LR ...
percision is: 0.9903047091412742
recall is: 0.9090909090909091
roc_auc is: 0.9502430574956697
The best paramter：{}
Total Training Time: 180.6018s
###########################################


## Save Model

In [33]:
import pickle

In [34]:
for model_name, model in gscv.items():
    with open(model_name + '.pkl', 'wb') as f:
        pickle.dump(model, f)