# 自然语言处理

文本处理工具：`spaCy`和`NLTK`
> 下面都使用`spacy`

## 1 文本分词

将文本分解为词的过程

对于语句的处理分为两种

1. 对于英语汉语这种比较容易分词的语言采用分词操作
2. 对于黏着语言，直接将文本表示为一个字节流

分词：
+ 输入：文本或标记
+ 输出：词汇表

In [11]:
import spacy

# nlp = spacy.load('en') # 已经被淘汰, 现在使用下面那种形式
nlp = spacy.load("en_core_web_sm")
txt = "Mary, don't slap the green witch"
print([str(token) for token in nlp(txt.lower())])

['mary', ',', 'do', "n't", 'slap', 'the', 'green', 'witch']


## 2 n元模型

有n个词的序列
> 这里的词，并不是指一个完整的单词，可以是单词提取出来的词干词缀等
> 
> 所以, n元模型可以不只是表示单词序列，也可以表示单个单词等

In [12]:
def n_grams(txt, n):
    """
    输入token或text, 输出n元模型的列表
    """
    return [txt[i : i + n] for i in range(len(txt) - n + 1)]


cleaned = [str(token) for token in nlp(txt.lower())]
print(n_grams(cleaned, 3))

[['mary', ',', 'do'], [',', 'do', "n't"], ['do', "n't", 'slap'], ["n't", 'slap', 'the'], ['slap', 'the', 'green'], ['the', 'green', 'witch']]


## 3 词形还原和词干提取

词形还原：将词都转换为词根的形式
> 一个需要理解语言形态学的机器学习问题
>
> spaCy 使用预定义词典`WordNet`进行词形还原

词干提取：词形还原的一种，使用手工制作的规则，通过去除单词词缀，将单词简化为词干

In [13]:
doc = nlp("he was running late")
for token in doc:
    print("{}-->{}".format(token, token.lemma_))

he-->he
was-->be
running-->run
late-->late


## 4 词性标注

1. 文档分类

对文档进行分类

可以使用`TF`和`TF-IDF`

2. 单词分类

文档分类概念的延伸

可以使用**词性标注**

In [14]:
# 词性标注
import spacy

nlp = spacy.load("en_core_web_sm")

doc = nlp("Mary slapped the green witch.")
for token in doc:
    print("{} --> {}".format(token, token.pos_))

Mary --> PROPN
slapped --> VERB
the --> DET
green --> ADJ
witch --> NOUN
. --> PUNCT


## 5 广度分类：分块和命名实体识别

广度类型：短语或者具有特定含义的词

广度分类就是识别出文本中的广度类型，或者说是**识别文本中广度类型数据的词性**
1. 分块/浅层解析
   1. 深度学习
   2. 正则表达式
2. 命名实体识别

In [15]:
# 名词短语分块
import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("Mary slapped the green witch.")
for chunk in doc.noun_chunks:
    print("{} --> {}".format(chunk, chunk.label_))

Mary --> NP
the green witch --> NP


## 6 句子结构

浅层句法分析来识别短语词性，句法分析**识别短语之间的关系**

句法分析包括两种：
1. **成分句法分析**
2. **依存句法分析**

句法分析：
+ 输入：句子
+ 输出：句法分析树

## 词义与语义

WordNet