# NLP中用到的机器学习算法

## 简介

### 机器学习训练的要素

1. 数据
2. 模型
3. 损失函数
4. 训练
5. 训练误差
6. 测试误差

### 机器学习的组成部分

按学习结果分类：
- 预测：一般用回归等模型
- 聚类：如k-means方法
- 分类：如SVM，LR等方法
- 降维：如PCA

按学习方法分类：
- 监督学习
- 无监督学习
- 半监督学习
- 增强学习

监督学习的基本框架流程：
1. 先准备训练数据，然后抽取所需要的特征，形成特征向量
2. 把这些特征连同对应的标记一起输入学习算法，训练出一个预测模型
3. 采用同样的特征抽取方法作用于新测试数据，得到用于测试的特征向量
4. 使用预测模型对将来的数据进行预测

## 几种常用的机器学习方法

### 文本分类

文本分类的步骤：
1. 定义阶段：定义数据以及分类体系，具体分为哪些类别，需要哪些数据。
2. 数据预处理：对文档做分词、去停用词等准备工作。
3. 数据提取特征：对文档矩阵进行降维，提取训练集中最有用的特征。
4. 模型训练阶段：选择具体的分类模型以及算法，训练出文本分类器。
5. 评测阶段：在测试集上测试并评价分类器的性能。
6. 应用阶段：应用性能最高的分类模型对待分类文档进行分类。

常见的分类器有LR、SVM、KNN、DT、NN等。       

根据场景选择合适的文本分类器：
- 如果特征数量很多，跟样本数量差不多，这时选择LR或者线性SVM。
- 如果特征数量比较少，样本数量一般，不大也不小，选择SVM的高斯核函数版本。
- 如果数据量非常大，又非线性，可以使用随机森林
- 当数据达到巨量时，特征向量也非常大，则需要使用神经网络拓展到现在的深度学习模型。

### 特征提取

提取特征有几种经典的方法：
- Bag-of-words：最原始的特征集，一个单词/分词就是一个特征
- 统计特征：包括TF、IDF以及合并起来的TF-IDF
- N-Gram：一种考虑了词汇顺序的模型，就是N阶Markov链

### 标注

### 搜索与排序

PageRank算法

### 推荐系统

推荐系统的主要目标是把用户可能感兴趣的东西推荐给用户。

### 序列学习

序列学习需要考虑顺序问题，输入和输出的长度不固定。这类模型通常可以处理任意长度的输入序列，或者输出任意长度的序列。当输入和输出都是不定长的序列时，我们把这类模型称为seq2seq。

1. 语音识别
2. 文本转语音
3. 机器翻译

## 分类器方法

### 朴素贝叶斯

### 逻辑回归

### 支持向量机

## 无监督学习的文本聚类

## 文本分类实战：中文垃圾邮件分类

In [3]:
# 数据提取部分
import numpy as np
from sklearn.cross_validation import train_test_split

# 载入数据：返回文本数据和对应的labels
def get_data():
    with open('data/classification/ham_data.txt','r',encoding='utf-8') as ham_f, open('data/classification/spam_data.txt','r',encoding='utf-8') as spam_f:
        ham_data = ham_f.readlines()
        spam_data = spam_f.readlines()
        ham_label = np.ones(len(ham_data)).tolist()
        spam_label = np.zeros(len(spam_data)).tolist()
        corpus = ham_data + spam_data
        labels = ham_label + spam_label
    return corpus, labels

# 将数据划分为训练集和测试集
def prepare_datasets(corpus, labels, test_data_proportion = 0.3):
    train_X,test_X,train_y,test_y = train_test_split(corpus, labels, test_size=test_data_proportion, random_state=42)
    return train_X,test_X,train_y,test_y

# 过滤空样本
def remove_empty_docs(corpus, labels):
    filtered_corpus = []
    filtered_labels = []
    for doc, label in zip(corpus, labels):
        if doc.strip():
            filtered_corpus.append(doc)
            filtered_labels.append(label)
    return filtered_corpus, filtered_labels

# 主函数
def main():
    corpus, labels = get_data()
    print('总的数据量：',len(labels))
    corpus, labels = remove_empty_docs(corpus,labels)
    print('过滤后的数据量：',len(labels))
    print('样本之一：',corpus[50])
    print('样本的label：',labels[50])
    label_name_map= ['垃圾邮件','正常邮件']
    print('样本的实际类型：',label_name_map[int(labels[50])])
    # 划分训练集和测试集
    train_corpus, test_corpus, train_labels, test_labels = prepare_datasets(corpus,labels)
    

In [4]:
main()

总的数据量： 10001
过滤后的数据量： 10001
样本之一： 原来是有速度没质量 ^_^ SORRY，无意冒犯 标  题: Re: 等俺 有了BF ，俺 一定要。。。。。 我大部分都是可以机洗的，懒人在买衣的时候就会考虑这个，少部分干洗，基本不需要手洗，我手洗也很快，比洗衣机器还快，真的 : 要看做什么了。 : 洗衣服不是有洗衣机就轻松的 : 偶大部分衣服就需要手洗 或者干洗 --

样本的label： 1.0
样本的实际类型： 正常邮件
