# 1. 基本文本处理技能

## 1.1 分词的概念

尽管现在很多文本处理采用基于字/字符的方式，词作为能够独立语用的基本语言单位，依然是目前是主流的NLP任务的基本处理单位。对于没有间隔符的汉语，分词就成了文本预处理的第一个任务。

* 基于规则分词包括： 正向最大匹配法，逆向最大匹配法，双向最大匹配法
* 具体内容参考：https://blog.csdn.net/shark803/article/details/89189737

* 基于统计分词包括： HMM+Viterbi分词，CRF+Viterbi分词
* HMM具体内容参考：https://www.cnblogs.com/Denise-hzf/p/6612212.html
* CRF具体内容参考：http://www.cnblogs.com/en-heng/p/6214023.html

* 基于神经网络分词包括： bi-LSTM+Viterbi分词
* 具体内容参考：https://www.cnblogs.com/Denise-hzf/p/6612212.html

* 开源的分词工具：jieba、thulac、snownlp、pkuseg、pynlpir

## 1.2 词、字符频率统计

* 字符统计代码如下所示：

In [1]:
text = "我爱你，爱死你"
from collections import Counter
c = Counter(text)
print(c)

Counter({'爱': 2, '你': 2, '我': 1, '，': 1, '死': 1})


* 词频统计相比字符统计而言，只是多了一步分词的过程，具体代码如下所示：

In [3]:
import jieba 
text = "我爱你，爱死你"
seg_list = list(jieba.cut(text, cut_all=False)) 
c = Counter(seg_list )
print(c)

Counter({'我爱你': 1, '，': 1, '爱死': 1, '你': 1})


# 2. 语言模型

## 2.1 语言模型中unigram、bigram、trigram的概念

* unigram指的是单个词为一个单元。每个词之间没有关联关系。
* bigram指的是两个词为一个单元。当前词只和上一个词有关系。
* trigram指的是三个词为一个单元。当前词只和前两个词有关系。

## 2.2 unigram、bigram频率统计

* 可以使用Python中的collections.Counter模块
* unigram等同于词频统计，而bigram频率统计只需要取n-gram，然后传入到Counter()中即可。
* sklearn CountVectorizer 可是设置n-gram参数

# 3. 文本矩阵化：要求采用词袋模型且是词级别的矩阵化

## 3.1 分词

* 分词工具采用结巴中文分词，涉及到的算法：

基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)；

采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合；

对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。

* 结巴中文分词支持的三种分词模式包括：

精确模式：试图将句子最精确地切开，适合文本分析；

全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义问题；

搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

## 3.2 去停用词；构造词表

* 中文停用词数量有限，网上一堆一堆的。
* 英文停用词可以直接下载nltk的stopwords。

* 构造词表

sklearn.feature_extraction.text 的4中文本特征提取方法：

* CounterVector
* TfidfVectorizer
* TfidfTransformer
* HashingVectorizer

## 3.3 每篇文档的向量化

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

count_vectorizer = CountVectorizer(stop_words=stop_words)
count_vectorizer.fit(seg_list)
vec = count_vectorizer.transform(seg_list).toarray()
vocab_list = count_vectorizer.get_feature_names()