# NLP中用到的机器学习算法

## 简介

### 机器学习训练的要素

1. 数据
2. 模型
3. 损失函数
4. 训练
5. 训练误差
6. 测试误差

### 机器学习的组成部分

按学习结果分类：
- 预测：一般用回归等模型
- 聚类：如k-means方法
- 分类：如SVM，LR等方法
- 降维：如PCA

按学习方法分类：
- 监督学习
- 无监督学习
- 半监督学习
- 增强学习

监督学习的基本框架流程：
1. 先准备训练数据，然后抽取所需要的特征，形成特征向量
2. 把这些特征连同对应的标记一起输入学习算法，训练出一个预测模型
3. 采用同样的特征抽取方法作用于新测试数据，得到用于测试的特征向量
4. 使用预测模型对将来的数据进行预测

## 几种常用的机器学习方法

### 文本分类

文本分类的步骤：
1. 定义阶段：定义数据以及分类体系，具体分为哪些类别，需要哪些数据。
2. 数据预处理：对文档做分词、去停用词等准备工作。
3. 数据提取特征：对文档矩阵进行降维，提取训练集中最有用的特征。
4. 模型训练阶段：选择具体的分类模型以及算法，训练出文本分类器。
5. 评测阶段：在测试集上测试并评价分类器的性能。
6. 应用阶段：应用性能最高的分类模型对待分类文档进行分类。

常见的分类器有LR、SVM、KNN、DT、NN等。       

根据场景选择合适的文本分类器：
- 如果特征数量很多，跟样本数量差不多，这时选择LR或者线性SVM。
- 如果特征数量比较少，样本数量一般，不大也不小，选择SVM的高斯核函数版本。
- 如果数据量非常大，又非线性，可以使用随机森林
- 当数据达到巨量时，特征向量也非常大，则需要使用神经网络拓展到现在的深度学习模型。

### 特征提取

提取特征有几种经典的方法：
- Bag-of-words：最原始的特征集，一个单词/分词就是一个特征
- 统计特征：包括TF、IDF以及合并起来的TF-IDF
- N-Gram：一种考虑了词汇顺序的模型，就是N阶Markov链

### 标注

### 搜索与排序

PageRank算法

### 推荐系统

推荐系统的主要目标是把用户可能感兴趣的东西推荐给用户。

### 序列学习

序列学习需要考虑顺序问题，输入和输出的长度不固定。这类模型通常可以处理任意长度的输入序列，或者输出任意长度的序列。当输入和输出都是不定长的序列时，我们把这类模型称为seq2seq。

1. 语音识别
2. 文本转语音
3. 机器翻译

## 分类器方法

### 朴素贝叶斯

### 逻辑回归

### 支持向量机

## 无监督学习的文本聚类

## 文本分类实战：中文垃圾邮件分类

In [1]:
# 数据提取部分
import numpy as np
from sklearn.cross_validation import train_test_split

# 载入数据：返回文本数据和对应的labels
def get_data():
    with open('data/classification/ham_data.txt','r',encoding='utf-8') as ham_f, open('data/classification/spam_data.txt','r',encoding='utf-8') as spam_f:
        ham_data = ham_f.readlines()
        spam_data = spam_f.readlines()
        ham_label = np.ones(len(ham_data)).tolist()
        spam_label = np.zeros(len(spam_data)).tolist()
        corpus = ham_data + spam_data
        labels = ham_label + spam_label
    return corpus, labels

# 将数据划分为训练集和测试集
def prepare_datasets(corpus, labels, test_data_proportion = 0.3):
    train_X,test_X,train_y,test_y = train_test_split(corpus, labels, test_size=test_data_proportion, random_state=42)
    return train_X,test_X,train_y,test_y

# 过滤空样本
def remove_empty_docs(corpus, labels):
    filtered_corpus = []
    filtered_labels = []
    for doc, label in zip(corpus, labels):
        if doc.strip():
            filtered_corpus.append(doc)
            filtered_labels.append(label)
    return filtered_corpus, filtered_labels
  



In [2]:
# 文本规范化
import re
import string
import jieba

# 加载停用词
with open('./data/stop_words.utf8','r',encoding='utf8') as f:
    stopword_list = [word.strip() for word in f.readlines()]

# 分词
def tokenize_text(text):
    tokens = jieba.cut(text)
    tokens = [token.strip() for token in tokens]
    return tokens

# 去除特殊符号
def remove_special_characters(text):
    tokens = tokenize_text(text)
    pattern = re.compile('[{}]'.format(re.escape(string.punctuation)))
    filtered_tokens = filter(None,[pattern.sub('',token) for token in tokens])
    filtered_text = ' '.join(filtered_tokens)
    return filtered_text

# 去除停用词
def remove_stopwords(text):
    tokens = tokenize_text(text)
    filtered_tokens = [token for token in tokens if token not in stopword_list]
    filtered_text = ' '.join(filtered_tokens)
    return filtered_text

# 规范化
def normalize_corpus(corpus):
    normalize_corpus = []
    for text in corpus:
        text = remove_special_characters(text)
        text = remove_stopwords(text)
        normalize_corpus.append(text)
    return normalize_corpus

In [3]:
# 提取特征
# 词袋模型特征
from sklearn.feature_extraction.text import CountVectorizer
def bow_extractor(corpus, ngram_range=(1,1)):
    vectorizer = CountVectorizer(min_df=1,ngram_range=ngram_range)
    features = vectorizer.fit_transform(corpus)
    return vectorizer, features

# tf-idf特征
# 方法一：使用CountVectorizer类向量化后再调用TfidfTransormer类进行预处理
from sklearn.feature_extraction.text import TfidfTransformer
def tfidf_transformer(bow_matrix):
    transformer = TfidfTransformer(norm='l2',smooth_idf=True,use_idf=True)
    tfidf_matrix = transformer.fit_transform(bow_matrix)
    return transformer, tfidf_matrix

# 方法二：直接使用TfidfVectorizer完成向量化与TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer
def tfidf_extractor(corpus, ngram_range=(1,1)):
    vectorizer = TfidfVectorizer(min_df=1,norm='l2',smooth_idf=True,use_idf=True,ngram_range=ngram_range)
    features = vectorizer.fit_transform(corpus)
    return vectorizer, features

In [10]:
# 训练及预测过程
# 定义评估标准
from sklearn import metrics
def get_metrics(true_labels, predicted_labels):
    print('准确率:', np.round(metrics.accuracy_score(true_labels, predicted_labels),6))
    print('精度:', np.round(metrics.precision_score(true_labels, predicted_labels, average='weighted'), 6))
    print('召回率:', np.round(metrics.recall_score(true_labels, predicted_labels, average='weighted'), 6))
    print('F1得分:', np.round(metrics.f1_score(true_labels, predicted_labels, average='weighted'), 6))

# 定义训练和预测的模型
def train_predict_evaluate_model(classifier,train_features,train_labels,test_features,test_labels):
    # 训练分类器模型
    classifier.fit(train_features,train_labels)
    # 用训练好的模型预测
    predictions = classifier.predict(test_features)
    # 评估
    get_metrics(true_labels=test_labels,predicted_labels=predictions)
    return predictions

In [11]:
# 主函数
def main():
    corpus, labels = get_data()
    print('总的数据量：',len(labels))
    corpus, labels = remove_empty_docs(corpus,labels)
    print('过滤后的数据量：',len(labels))
    print('样本之一：',corpus[50])
    print('样本的label：',labels[50])
    label_name_map= ['垃圾邮件','正常邮件']
    print('样本的实际类型：',label_name_map[int(labels[50])])
    # 划分训练集和测试集
    train_corpus, test_corpus, train_labels, test_labels = prepare_datasets(corpus,labels)
    # 文本规范化：去除停用词、去除特殊符号、分词
    norm_train_corpus = normalize_corpus(train_corpus)
    norm_test_corpus = normalize_corpus(test_corpus)
        
    # 词袋模型特征
    bow_vectorizer, bow_train_features = bow_extractor(norm_train_corpus)
    bow_test_features = bow_vectorizer.transform(norm_test_corpus)
    
    # tfidf特征
    tfidf_vectorizer, tfidf_train_features = tfidf_extractor(norm_train_corpus)
    tfidf_test_features = tfidf_vectorizer.transform(norm_test_corpus)
    
    # 训练分类器
    from sklearn.naive_bayes import MultinomialNB
    from sklearn.linear_model import SGDClassifier
    from sklearn.linear_model import LogisticRegression
    mnb = MultinomialNB()
    svm = SGDClassifier(loss='hinge',n_iter=100)
    lr = LogisticRegression()
    
    # 基于词袋模型特征的多项朴素贝叶斯分类器
    print('基于词袋模型特征的多项朴素贝叶斯分类器')
    mnb_bow_predictions = train_predict_evaluate_model(classifier=mnb,train_features=bow_train_features,train_labels=train_labels,test_features=bow_test_features,test_labels=test_labels)

    # 基于词袋模型特征的逻辑回归
    print('基于词袋模型特征的逻辑回归')
    lr_bow_predictions = train_predict_evaluate_model(classifier=lr,train_features=bow_train_features,train_labels=train_labels,test_features=bow_test_features,test_labels=test_labels)

    # 基于词袋模型特征的支持向量机
    print('基于词袋模型特征的支持向量机')
    svm_bow_predictions = train_predict_evaluate_model(classifier=svm,train_features=bow_train_features,train_labels=train_labels,test_features=bow_test_features,test_labels=test_labels)
    
    # 基于tfidf特征的多项朴素贝叶斯分类器
    print('基于词袋模型特征的多项朴素贝叶斯分类器')
    mnb_tfidf_predictions = train_predict_evaluate_model(classifier=mnb,train_features=tfidf_train_features,train_labels=train_labels,test_features=tfidf_test_features,test_labels=test_labels)

    # 基于tfidf特征的逻辑回归
    print('基于词袋模型特征的逻辑回归')
    lr_tfidf_predictions = train_predict_evaluate_model(classifier=lr,train_features=tfidf_train_features,train_labels=train_labels,test_features=tfidf_test_features,test_labels=test_labels)

    # 基于tfidf特征的支持向量机
    print('基于词袋模型特征的支持向量机')
    svm_tfidf_predictions = train_predict_evaluate_model(classifier=svm,train_features=tfidf_train_features,train_labels=train_labels,test_features=tfidf_test_features,test_labels=test_labels)

    # 显示部分正确归类和部分错分的邮件
    import re
    num = 0
    for document, label, predicted_label in zip(test_corpus, test_labels, svm_tfidf_predictions):
        if label !=  predicted_label:
            print('邮件类型：',label_name_map[int(label)])
            print('预测的邮件类型：',label_name_map[int(predicted_label)])
            print('文本：-')
            print(re.sub('\n','',document))
            num += 1
            if num == 4:
                break

In [12]:
main()

总的数据量： 10001
过滤后的数据量： 10001
样本之一： 原来是有速度没质量 ^_^ SORRY，无意冒犯 标  题: Re: 等俺 有了BF ，俺 一定要。。。。。 我大部分都是可以机洗的，懒人在买衣的时候就会考虑这个，少部分干洗，基本不需要手洗，我手洗也很快，比洗衣机器还快，真的 : 要看做什么了。 : 洗衣服不是有洗衣机就轻松的 : 偶大部分衣服就需要手洗 或者干洗 --

样本的label： 1.0
样本的实际类型： 正常邮件
基于词袋模型特征的多项朴素贝叶斯分类器
准确率: 0.991336
精度: 0.991351
召回率: 0.991336
F1得分: 0.991337
基于词袋模型特征的逻辑回归
准确率: 0.98967
精度: 0.989736
召回率: 0.98967
F1得分: 0.989671
基于词袋模型特征的支持向量机




准确率: 0.989004
精度: 0.989004
召回率: 0.989004
F1得分: 0.989004
基于词袋模型特征的多项朴素贝叶斯分类器
准确率: 0.990337
精度: 0.990365
召回率: 0.990337
F1得分: 0.990337
基于词袋模型特征的逻辑回归
准确率: 0.98967
精度: 0.989746
召回率: 0.98967
F1得分: 0.989668
基于词袋模型特征的支持向量机




准确率: 0.991336
精度: 0.991349
召回率: 0.991336
F1得分: 0.991336
邮件类型： 垃圾邮件
预测的邮件类型： 正常邮件
文本：-
此网页使用了框架，但您的浏览器不支持框架。
邮件类型： 正常邮件
预测的邮件类型： 垃圾邮件
文本：-
突然发现，昨天，9月27日，由于一小群人(http://blog.yam.com/lifeshot/archives/
邮件类型： 正常邮件
预测的邮件类型： 垃圾邮件
文本：-
看常见问题 Q：我是移动用户，为何不能使用免费自写短信？ A：免费自写短信服务商的正常下发需要手机使用用户开通北京移动梦网服务，成为梦网服务用户方能正常发送和接收免费自写短信。开通移动梦网服务可以登陆梦网主页： ~~~~~~~~~~~~~ http://www.monternet.com/moneditor/cs/index.html，进行注册，或者拨打1860。 不仅自己,发送和接受的手机都必须开通这个 开通就是注册一下,不花钱 大家也又这样的问题吗？？？
邮件类型： 垃圾邮件
预测的邮件类型： 正常邮件
文本：-
好记星跳楼价抛售,好记星E900+单词王,原价1280,现抛售价930元一台, 另赠价值168元口语革命, 我的QQ是：171770476  电话13957987096 旺旺是陈传兴 有意者请联系！！！！


## 文本聚类实战：用K-means对豆瓣读书数据聚类

In [13]:
# 使用douban_spider.py可以爬取豆瓣读书数据，主要收集了书的名字、类别、简介。
# 爬取后的文件保存在'./data/cluster/data.csv'中
PATH = './data/cluster/data.csv'

In [14]:
# 定义提取特征的函数
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
def build_feature_matrix(documents, feature_type='frequency', ngram_range=(1, 1), min_df=0.0, max_df=1.0):
    feature_type = feature_type.lower().strip()
    if feature_type == 'binary':
        vectorizer = CountVectorizer(binary=True, max_df=max_df, ngram_range=ngram_range)
    elif feature_type == 'frequency':
        vectorizer = CountVectorizer(binary=False, min_df=min_df, max_df=max_df, ngram_range=ngram_range)
    elif feature_type == 'tfidf':
        vectorizer = TfidfVectorizer()
    else:
        raise Exception("Wrong feature type entered. Possible values: 'binary', 'frequency', 'tfidf'")
    feature_matrix = vectorizer.fit_transform(documents).astype(float)
    return vectorizer, feature_matrix

In [18]:
# 定义聚类函数
from sklearn.cluster import KMeans
def k_means(feature_matrix, num_clusters=10):
    km = KMeans(n_clusters=num_clusters, max_iter=10000)
    km.fit(feature_matrix)
    clusters = km.labels_
    return km, clusters

In [30]:
# 输出聚类结果

# 获取聚类数据
def get_cluster_data(clustering_obj, book_data, feature_names, num_clusters, topn_features=10):
    cluster_details = {}
    # 获取每个簇的中心
    ordered_centroids = clustering_obj.cluster_centers_.argsort()[:, ::-1]
    # 获取每个簇的关键特征
    # 获取每个簇的书
    for cluster_num in range(num_clusters):
        cluster_details[cluster_num] = {}
        cluster_details[cluster_num]['cluster_num'] = cluster_num
        key_features = [feature_names[index] for index in ordered_centroids[cluster_num, :topn_features]]
        cluster_details[cluster_num]['key_features'] = key_features

        books = book_data[book_data['Cluster'] == cluster_num]['title'].values.tolist()
        cluster_details[cluster_num]['books'] = books

    return cluster_details

# 打印聚类信息
def print_cluster_data(cluster_data):
    for cluster_num, cluster_details in cluster_data.items():
        print('Cluster {} details:'.format(cluster_num))
        print('-' * 20)
        print('Key features:', cluster_details['key_features'])
        print('book in this cluster:')
        print(', '.join(cluster_details['books']))
        print('=' * 40)

In [25]:
import pandas as pd
import numpy as np

book_data = pd.read_csv(PATH)
book_content = book_data['content'].tolist()
# 规范化
norm_book_content = normalize_corpus(book_content)   # len(norm_book_content) 为 2822
# 提取特征
vectorizer, feature_matrix = build_feature_matrix(norm_book_content, feature_type='tfidf', min_df=0.2, max_df=0.9, ngram_range=(1,2))
print(feature_matrix.shape)   #查看特征数量：(2822,15867)
feature_names = vectorizer.get_feature_names()

(2822, 15867)
落选


In [33]:
# 聚类
num_clusters = 10
km_obj, clusters = k_means(feature_matrix=feature_matrix,num_clusters=num_clusters)
book_data['Cluster'] = clusters

In [34]:
# 输出结果
cluster_data = get_cluster_data(clustering_obj=km_obj, book_data=book_data, feature_names=feature_names, num_clusters=num_clusters, topn_features=5)
print_cluster_data(cluster_data)

Cluster 0 details:
--------------------
Key features: ['生活', '世界', '人生', '推荐', '成长']
book in this cluster:
追风筝的人, 房思琪的初戀樂園, 鱼王, 囚鸟, 活着, 杀死一只知更鸟, 追风筝的人, 鱼王, 外婆的道歉信, 囚鸟, 杀死一只知更鸟, 追风筝的人, 房思琪的初戀樂園, 鱼王, 外婆的道歉信, 囚鸟, 活着, 杀死一只知更鸟, 我们仨, 我们仨, 吃鲷鱼让我打嗝, ﻿活着, 爱你就像爱生命, 一只特立独行的猪, 杀死一只知更鸟, 百鬼夜行 阳, 金色梦乡, 强风吹拂, 1Q84 BOOK 1, 咖啡未冷前, ﻿我们仨, 此生多珍重, 冬牧场, 1Q84 BOOK 1, 1Q84 BOOK 2, 大萝卜和难挑的鳄梨, 国境以南 太阳以西, 远方的鼓声, 舞！舞！舞！, 没有女人的男人们, 1Q84 BOOK 3, 爱吃沙拉的狮子, 东京奇谭集, 遇到百分之百的女孩, 万物静默如谜, 海子诗全集, 事物的味道，我尝得太早了, 博尔赫斯诗选, 唯有孤独恒常如新, 飞鸟集, 恶之花, 二十首情诗与绝望的歌, 荒原, 猜猜我有多爱你, 牧羊少年奇幻之旅, 失物之书, 银河铁道之夜, 彼得·潘, 小毛驴与我, 狐狸的窗户, 一只特立独行的猪, 爱你就像爱生命, 王小波全集, 假如你愿意你就恋爱吧, 万寿寺, 一只特立独行的猪, 王小波全集, 角儿, 门萨的娼妓, 这就是二十四节气, 猜猜我有多爱你, 柑橘与柠檬啊, 彼得·潘, 《噼里啪啦系列》, 深夜小狗神秘事件, 诗经, 陶庵梦忆 西湖梦寻, 闲情偶寄, 东京梦华录, 声律启蒙, 既见君子, 唐宋词十七讲, 呼啸山庄, ﻿活着, 兄弟（上）, 兄弟, 现实一种, 兄弟（下）, 我没有自己的名字, 我没有自己的名字, 黄昏里的男孩, ﻿半生缘, 张爱玲文集, 色，戒, 异乡记, 雷峰塔, 传奇(上下), 传奇, 棋王, 苍老的指甲和宵遁的猫, 额尔古纳河右岸, 棋王.樹王.孩子王, 城门开, 人·兽·鬼, 管锥编（全五册）, 七缀集, 宋诗选注, 围城 / 人·兽·鬼, 容安馆札记, 钱锺书英文文集, 钱锺书手稿集•外文笔记（第一辑）, 钱钟书文集, 钱钟书杨绛散文, 槐聚心史, 呼啸山庄, 茶花女, 鲁迅全集（