# 文本分析与预处理
在开始进入深度学习模型相关内容之前，我们往往需要对表达不规范的文本内容进行清洗，这里我们对文本的一般处理步骤进行了梳理。

## 1 英文文本分析与预处理
### 1.1 Tokenization（标记化/ 分词）
文本是不能成段送入模型中进行分析的，我们通常会把文本切成有独立含义的字、词或者短语，这个过程叫做tokenization，这通常是大家解决自然语言处理问题的第一步。在NLTK中提供了2种不同方式的tokenization：
（1）sentence tokenization：把文本进行“断句” 和 （2）word tokenization：对文本进行“分词”。

In [1]:
import nltk   # 用于英文文本预处理
from nltk import word_tokenize, sent_tokenize

test_sents = "This is a test sentence. This sentence is used for testing!"

In [3]:
# 断句（进行句子与句子之间的拆分）
sentences = sent_tokenize(test_sents)
print(sentences)

['This is a test sentence.', 'This sentence is used for testing!']


In [4]:
# 分词
words = word_tokenize(sentences[0])
print(words)

['This', 'is', 'a', 'test', 'sentence', '.']


### 1. 2 去停用词
在自然语言处理的很多任务中，我们处理的主体“文本”中有一些功能词经常出现，然而对于最后的任务目标并没有帮助，甚至会对统计方法带来一些干扰，我们把这类词叫做停用词，通常我们会用一个停用词表把它们过滤出来。比如英语当中的定冠词/不定冠词(a,an,the等)。

在nltk的语料库nltk.corpus中，包含了英文停用词的列表，可以通过停用词列表将原始语料进行清洗，从而保留跟任务强相关的文本内容。

In [5]:
# 导入内置停用词（nltk的是针对英文文本的）
from nltk.corpus import stopwords

In [6]:
stop_words = stopwords.words('english')
print(stop_words[:5])

['i', 'me', 'my', 'myself', 'we']


In [7]:
# 去掉停用词
filtered_sentence = [w for w in words if not w in stop_words]
print(filtered_sentence)

['This', 'test', 'sentence', '.']


### 1.3 词性标注
词性（part-of-speech）是词汇基本的语法属性，通常也称为词性。

词性标注（part-of-speech tagging）,又称为词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或者其他词性的过程。

词性标注是很多NLP任务的预处理步骤，如句法分析，经过词性标注后的文本会带来很大的便利性，但也不是不可或缺的步骤。在一些特定任务中，通过给词赋予词性能够为文本分析添加更多的信息，从而进一步提高任务的效果。

|tag|mean|释义|例子|
|:-|:-|:-|:-|
|CC|Coordinating conjunction|连词|and, or,but, if, while,although|
|CD|Cardinal number|数词|twenty-four, fourth, 1991,14:24|
|DT|Determiner|限定词|the, a, some, most,every, no|
|EX|Existential there|存在量词|there, there’s|
|FW|Foreign word|外来词|dolce, ersatz, esprit, quo,maitre|
|IN|Preposition or subordinating conjunction|介词连词|on, of,at, with,by,into, under|
|JJ|Adjective|形容词|new,good, high, special, big, local|
|JJR|Adjective, comparative|比较级词语|bleaker braver breezier briefer brighter brisker|
|JJS|Adjective, superlative|最高级词语|calmest cheapest choicest classiest cleanest clearest|
|LS|List item marker|标记|A A. B B. C C. D E F First G H I J K|
|MD|Modal|情态动词|can cannot could couldn’t|
|NN|Noun singular or mass|名词|year,home, costs, time, education|
|NNS|Noun, plural|名词复数|undergraduates scotches|
|NNP|Proper noun, singular|专有名词|Alison,Africa,April,Washington|
|NNPS|Proper noun, plural|专有名词复数|Americans Americas Amharas Amityvilles|
|PDT|Predeterminer|前限定词|all both half many|
|POS|Possessive ending|所有格标记|’ ‘s|
|PRP|Personal pronoun|人称代词|hers herself him himself hisself|
|PRP\$ |Possessive pronoun|所有格|her his mine my our ours|
|RB|Adverb|副词|occasionally unabatingly maddeningly|
|RBR|Adverb, comparative|副词比较级|further gloomier grander|
|RBS|Adverb, superlative|副词最高级|best biggest bluntest earliest|
|RP|Particle|虚词|aboard about across along apart|
|SYM|Symbol|符号|% & ’ ” ”. ) )|
|TO|to|词to|to|
|UH|Interjection|感叹词|Goodbye Goody Gosh Wow|
|VB|Verb, base form|动词|ask assemble assess|
|VBD|Verb, past tense|动词过去式|dipped pleaded swiped|
|VBG|Verb, gerund or present participle|动词现在分词|telegraphing stirring focusing|
|VBN|Verb, past participle|动词过去分词|multihulled dilapidated aerosolized|
|VBP|Verb, non-3rd person singular present|动词现在式非第三人称时态|predominate wrap resort sue|
|VBZ|Verb, 3rd person singular present|动词现在式第三人称时态|bases reconstructs marks|
|WDT|Wh-determiner|Wh限定词|who,which,when,what,where,how|
|WP|Wh-pronoun|WH代词|that what whatever|
|WP\$|Possessive wh-pronoun|WH代词所有格|whose|
|WRB|Wh-adverb|WH副词| |

In [8]:
# 选择标签并进行标注
tags = set(['MD', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ',
           'RP', 'RB', 'RBR', 'RBS', 'JJ', 'JJR', 'JJS'])
filtered_sentence_pos_tags = nltk.pos_tag(filtered_sentence)

In [9]:
print(filtered_sentence_pos_tags)

[('This', 'DT'), ('test', 'NN'), ('sentence', 'NN'), ('.', '.')]


### 1.4 Stemming and Lemmatizing
很多时候我们需要对英文当中的时态语态等做归一化，这个时候我们就需要stemming和lemmatizing这样的操作了。比如"running"是"run"的进行时，但是这个词表征的含义和"run"是一致的，当我们在分析语义信息时，我们希望能够将这两个词的实际含义信息进行对齐。

其中Lemmatization和Stemmer很类似，不同的地方在于它还考虑了词义关联等信息，Stemmer的速度更快，但是它通常只是一系列的规则，各位同学可以依据自己的实际情况采用对应的方法

调用方法包括nltk.stem中的 PorterStemmer以及WordNetLemmatizer 两种方法。

In [None]:
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
stemmer.stem("running")

## 2 中文文本分析与预处理
中文文本分析不同于英文文本分析，词与词之间并没有通过空格来表征界限。而且中文也没有如英文时态表达相似的模型，因此在进行处理时需要采用其特有的模式。

### 2.1 分词
对于中文和日文这样的特殊亚洲语系文本而言，字和字之间是紧密相连的，单纯从文本形态上无法区分具备独立含义的词（拉丁语系纯天然由空格分隔不同的word），而不同的词以不同的方式排布，可以表达不同的内容和情感，因此在很多中文任务中，我们需要做的第一个处理叫做分词。分词的差异将会为上游任务带来完全不同的效果。 

主流的分词工具库包括 中科院计算所NLPIR、哈工大LTP、清华大学THULAC、Hanlp分词器、Python jieba工具库等。

分词工具一般都支持添加自己自带的特殊词词典，如jieba可以采用jieba.load_userdict(file_name)加载用户字典。

In [10]:
# encoding = utf-8
import jieba

# 使用精确模式进行分词
seg_list = jieba.cut("我在学习自然语言处理", cut_all = False)
# 将分好的词用/ 隔开
print("Default Mode: " + "/ ".join(seg_list))

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\ADMINI~1.WIN\AppData\Local\Temp\jieba.cache
Loading model cost 1.144 seconds.
Prefix dict has been built successfully.


Default Mode: 我/ 在/ 学习/ 自然语言/ 处理


In [11]:
# 传入用户自定义的固定表达到用户字典
jieba.load_userdict(['自然语言处理'])

# 再次使用精确模式进行分词
seg_list = jieba.cut("我在学习自然语言处理", cut_all = False)
print("Default Mode: " + "/ ".join(seg_list))

Default Mode: 我/ 在/ 学习/ 自然语言处理


### 2.2 去停用词
中文当中常用到的停用词词表可以参见[中文常用停用词表](https://github.com/goto456/stopwords)

### 2.3 中文进阶分析
中文进阶分析包括了词性分析、命名实体识别、依存句法分析、语义角色标注、语义依存分析等。可以采用jieba进行处理，也可以使用LTP等工具进行处理。

LTP依赖于pytorch进行构建，说明文档参照[LTP使用说明](http://ltp.ai/docs/index.html)