## Python自然语言处理简介

自然语言处理（Natural Language Processing，NLP）是指计算机处理人类语言的领域。它是一门多学科交叉的学科，将计算机科学、人工智能、语言学等诸多学科的理论和方法融合在一起，将人类语言转化为计算机所能理解的形式，实现对人类语言的自动处理、理解和生成。NLP可以应用到很多方面，比如语音识别、机器翻译、情感分析、智能客服等等。

## NLTK介绍

NLTK是Natural Language Toolkit的缩写，是Python自然语言处理领域中最流行的一款工具包。它是一款免费的、开源的、由Python编写的自然语言处理工具包。NLTK包括了众多的库和数据集可以用来完成NLP的各种任务。  
NLTK最初由宾夕法尼亚大学的计算机科学系，由Steven Bird、Ewan Klein和Edward Loper三位教授和研究员共同开发。现在NLTK已经成为了NLP领域中使用最广泛的一款自然语言处理工具包。NLTK从2001年开始开发，到现在已经发布了5个版本，包含了大量的语言学研究和计算语言学的内容，同时还提供了相关数据、文本和语言模型等方面的支持。

## NLTK的安装和配置

In [114]:
!pip install nltk

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple



[notice] A new release of pip is available: 23.3.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip


然后在运行程序或引用相关NLP功能时，还需要下载一些nltk数据，这些数据集可以通过以下命令在Python中下载：

In [None]:
import nltk
nltk.download() 

运行上述代码后会弹出一个对话框在里面选择需要下载的数据集和语料库即可。

## NLTK的基本功能

NLTK可以用来完成各种自然语言处理的任务，包括词汇处理、文本分类、分词、语言标准化等。以下是一些常用的NLTK功能和代码演示：

##### 分词

In [None]:
import nltk

sentence = "The quick brown fox jumps over the lazy dog."
tokens = nltk.word_tokenize(sentence)
print(tokens)

['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.']


##### 词性标注

In [None]:
import nltk

sentence = "The quick brown fox jumps over the lazy dog."
tokens = nltk.word_tokenize(sentence)
pos_tags = nltk.pos_tag(tokens)
print(pos_tags)

[('The', 'DT'), ('quick', 'JJ'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'VBZ'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog', 'NN'), ('.', '.')]


##### 去除停用词

In [None]:
from nltk.corpus import stopwords

sentence = "The quick brown fox jumps over the lazy dog."
tokens = nltk.word_tokenize(sentence)

stop_words = set(stopwords.words('english'))

filtered_tokens = [token for token in tokens if token.lower() not in stop_words]
print(filtered_tokens)

['quick', 'brown', 'fox', 'jumps', 'lazy', 'dog', '.']


##### 词干提取

In [None]:
from nltk.stem.porter import PorterStemmer

stemmer = PorterStemmer()
# words = ["connect", "connects", "connected", "connecting", "connection", "connections"]
words = ["ran", "running", "runs", "goes", "went", "gone", "cars"]

for word in words:
    stem_word = stemmer.stem(word)
    print(stem_word)

ran
run
run
goe
went
gone
car


##### 词形归一化

In [None]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
words = ["ran", "running", "runs", "goes", "went", "gone", "cars"]
# words = ["connect", "connects", "connected", "connecting", "connection", "connections"]

for word in words:
    lemma = lemmatizer.lemmatize(word, pos='v')
    print(lemma)

run
run
run
go
go
go
cars


##### 词频统计

In [None]:
from nltk import FreqDist

sentence = "dog dog cat cat cat"
tokens = nltk.word_tokenize(sentence)
FreqDist(tokens)

FreqDist({'cat': 3, 'dog': 2})