<a href="https://colab.research.google.com/github/zhuningxian/algorithm/blob/main/text_%E4%B9%8Bspacy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

文本分析是一种从文本中提取有用信息的技术，涉及多种技术流派，本书使用自然语言处理（NLP）、计算语言学（CL）和数值工具来实现文本信息的提取。其中，数值工具指的是机器学习算法或信息检索算法。
自然语言处理（NLP）指使用计算机处理自然语言。

计算语言学（CL），顾名思义，是从计算的角度研究语言学的学科。即使用计算机和算法来执行语言学任务，例如文本的词性标注任务（如名词或动词）是通过算法，而不是人工来完成。
机器学习（ML）是一门使用统计算法来指导机器执行特定任务的学科。机器学习过程发生在数据上，常见的场景是基于先前观察到的数据来预测一个新的值。


spaCy是一个工业级的自然语言处理库。
有很多自然语言处理和机器学习用到的开源库是由高校学者发布和维护的，主要用途是进行科学研究。虽然这些库确实能够满足基本的科研工作，但在诞生之初，它们的设计目标并不是提供工业级的算法实现。
NLTK（NatureLanguage ToolKit）就是这样的一个例子，它专注于如何帮助科研工作者和学生们快速上手。spaCy则代表另一种开源库的定位：满足工业级的生产开发。换句话说，它能够运行于现实世界的数据之上，既支持大数据又可扩展。

In [38]:
import spacy
#spacy download en
#nlp=spacy.load('en')
nlp = spacy.load("en_core_web_sm")
doc=nlp(u'this is a sentence')
for token in doc:
  print((token.text,token.pos_))

#命名实体识别的结果存储于Doc对象的ents属性
doc = nlp(u'Microsoft has offices all over Europe.')
for ent in doc.ents:
  print(ent.text, ent.start_char, ent.end_char, ent.label_)

#停用词是执行文本挖掘或NLP算法之前，需要从文本中预先过滤掉的词。
my_stop_words = [u'say', u'be', u'said', u'says', u'saying','field']
for stopword in my_stop_words:
  lexeme = nlp.vocab[stopword]
  lexeme.is_stop = True

('this', 'PRON')
('is', 'AUX')
('a', 'DET')
('sentence', 'NOUN')
Microsoft 0 9 ORG
Europe 31 37 LOC


停用词

In [39]:
import spacy
doc = nlp(u'the horse galloped down the field and past the river.')
sentence = []
for w in doc:
  # if it's not a stop word or punctuation mark, add it to our article!
  if w.text != 'n' and not w.is_stop and not w.is_punct and not w.like_num:
    # we add the lematized version of the word
    sentence.append(w.lemma_)
print(sentence)

['horse', 'gallop', 'past', 'river']


Gensim：文本向量化、向量变换和n-grams的工具

In [40]:
from gensim import corpora
documents = [u"Football club Arsenal defeat local rivals this weekend.",
u"Weekend football frenzy takes over London.", u"Bank open for takeover bids after losing millions.", 
u"London football clubs bid to move to Wembley stadium.", u"Arsenal bid 50 million pounds for striker Kane.",
u"Financial troubles result in loss of millions for bank.",
u"Western bank files for bankruptcy after financial losses.", 
u"London football club is taken over by oil millionaire from Russia.",
u"Banking on finances not working for Russia."]

import spacy
nlp = spacy.load("en_core_web_sm")
texts = []
for document in documents:
  text = []
  doc = nlp(document)
  for w in doc:
    if not w.is_stop and not w.is_punct and not w.like_num:
      text.append(w.lemma_)
      texts.append(text)
print(texts)

#Gensim支持Pythondictionary类，可以很方便地完成这一操作
dictionary = corpora.Dictionary(texts)
print('Pythondictionary类')
print(dictionary.token2id)



[['football', 'club', 'Arsenal', 'defeat', 'local', 'rival', 'weekend'], ['football', 'club', 'Arsenal', 'defeat', 'local', 'rival', 'weekend'], ['football', 'club', 'Arsenal', 'defeat', 'local', 'rival', 'weekend'], ['football', 'club', 'Arsenal', 'defeat', 'local', 'rival', 'weekend'], ['football', 'club', 'Arsenal', 'defeat', 'local', 'rival', 'weekend'], ['football', 'club', 'Arsenal', 'defeat', 'local', 'rival', 'weekend'], ['football', 'club', 'Arsenal', 'defeat', 'local', 'rival', 'weekend'], ['Weekend', 'football', 'frenzy', 'take', 'London'], ['Weekend', 'football', 'frenzy', 'take', 'London'], ['Weekend', 'football', 'frenzy', 'take', 'London'], ['Weekend', 'football', 'frenzy', 'take', 'London'], ['Weekend', 'football', 'frenzy', 'take', 'London'], ['Bank', 'open', 'takeover', 'bid', 'lose', 'million'], ['Bank', 'open', 'takeover', 'bid', 'lose', 'million'], ['Bank', 'open', 'takeover', 'bid', 'lose', 'million'], ['Bank', 'open', 'takeover', 'bid', 'lose', 'million'], ['Bank

In [41]:
#doc2bow函数的用法，正如字面描述的那样，它的功能是将文档转换为词袋
corpus = [dictionary.doc2bow(text) for text in texts]
print(corpus)

[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)], [(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)], [(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)], [(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)], [(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)], [(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)], [(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)], [(3, 1), (7, 1), (8, 1), (9, 1), (10, 1)], [(3, 1), (7, 1), (8, 1), (9, 1), (10, 1)], [(3, 1), (7, 1), (8, 1), (9, 1), (10, 1)], [(3, 1), (7, 1), (8, 1), (9, 1), (10, 1)], [(3, 1), (7, 1), (8, 1), (9, 1), (10, 1)], [(11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1)], [(11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1)], [(11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1)], [(11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1)], [(11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1)], [(11, 1), (12, 1), (13, 1), (14, 1), (15, 1), (16, 1)], [(1, 1), (3, 1), (7, 1), (12, 1), (17, 1),

In [42]:
from gensim import models
tfidf = models.TfidfModel(corpus)
for document in tfidf[corpus]:
  print(document)

[(0, 0.3304962557174551), (1, 0.2153617756772611), (2, 0.45198014174070267), (3, 0.16506767225019192), (4, 0.45198014174070267), (5, 0.45198014174070267), (6, 0.45198014174070267)]
[(0, 0.3304962557174551), (1, 0.2153617756772611), (2, 0.45198014174070267), (3, 0.16506767225019192), (4, 0.45198014174070267), (5, 0.45198014174070267), (6, 0.45198014174070267)]
[(0, 0.3304962557174551), (1, 0.2153617756772611), (2, 0.45198014174070267), (3, 0.16506767225019192), (4, 0.45198014174070267), (5, 0.45198014174070267), (6, 0.45198014174070267)]
[(0, 0.3304962557174551), (1, 0.2153617756772611), (2, 0.45198014174070267), (3, 0.16506767225019192), (4, 0.45198014174070267), (5, 0.45198014174070267), (6, 0.45198014174070267)]
[(0, 0.3304962557174551), (1, 0.2153617756772611), (2, 0.45198014174070267), (3, 0.16506767225019192), (4, 0.45198014174070267), (5, 0.45198014174070267), (6, 0.45198014174070267)]
[(0, 0.3304962557174551), (1, 0.2153617756772611), (2, 0.45198014174070267), (3, 0.165067672250

n-grams及其预处理技术
有些向量表示法会在执行过程中丢失上下文，如词袋模型只保留了每个单词的词频。
n-grams，尤其是bi-grams，能够在某种程度上帮助我们解决这个问题

In [43]:
import gensim
bigram = gensim.models.Phrases(texts)
#我们基于语料库得到了一个训练好的bi-grams模型。执行与TF-IDF类似的变换过程，语料库会被重建为
texts = [bigram[line] for line in texts]

#因为有新的短语被模型创建，并加入到词汇表中，所以必须在创建字典之前执行以下代码
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]



目前业界流行的预处理技术是：只剔除高频词和低频词，由dictionary模块实现。比如，我们希望删除出现在少于20篇文档或超过50%的文档中的单词，只需要执行如下代码

In [44]:
dictionary.filter_extremes(no_below=20, no_above=0.5)

词性标注的全称为Part-Of-Speech tagging。顾名思义，词性标注是为输入文本中的单词标注对应词性的过程,
spaCy早期版本的词性标注器使用的就是平均感知机器（averaged perceptron）

最具代表性的英语语语料库之一布朗语料库（Brown）正是布朗大学建立的

In [None]:
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
text = nltk.word_tokenize("And now for something completely different")
nltk.pos_tag(text)

文本聚类和文本分类
使用流行的Python机器学习库scikit-learn来执行这些任务

聚类是将同一组中的数据点分组或聚类的任务，其中同一组中的点比其他组中的点更相似。
一个著名的聚类或分类任务的数据集叫作Iris，该数据集包含花的花瓣长度和类别信息。
另一个非常流行的数据集叫作MNIST，它包含手写数字，这些数字应该按照它所代表的数字进行分类。

文本聚类遵循标准聚类问题所遵循的大多数原则，但是文本分析领域的维数实在太多了。例如，在Iris数据集中，只有4个特征可以用来标识类或集群。而对于文本，在对问题进行建模时，我们必须处理整个词汇表。当然，我们将尽力使用一些技术，如SVD、LDA和LSI来减
少维度。

选择目前最流行的20个新闻组数据集。由于数据集本身内置于scikit-learn之
中，所以加载和使用也很方便

In [49]:
import numpy as np
from sklearn.datasets import fetch_20newsgroups
categories = [
'alt.atheism',
'talk.religion.misc',
'comp.graphics',
'sci.space',
]
dataset = fetch_20newsgroups(subset='all', categories=categories,
shuffle=True, random_state=42)
labels = dataset.target
true_k = np.unique(labels).shape[0]
data = dataset.data

#只选取了4个类别。通过选择所有子集来创建数据集，同时也对数据集进行梳理，保证其状态随机

#使用的是scikit-learn内置的TfidfVectorizer类来简化工作

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(max_df=0.5, min_df=2,
stop_words='english',
use_idf=True)
X = vectorizer.fit_transform(data)

X对象是输入向量，包含数据集的TF-IDF表示。在TF-IDF转换时，我们处理的仍是高维数据。为了更好地理解数据的性质，我们将其进行可视化处理。我们可以使用PCA（主成分分析）将数据集中的数据映射到二维空间

In [None]:
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

news = fetch_20newsgroups(subset='all')
print(len(news.data))
print(news.data[0])

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(news.data,news.target,test_size=0.25,random_state=33)


 
count_filter_vec = CountVectorizer(analyzer='word',stop_words='english') 
tfidf_filter_vec = TfidfVectorizer(analyzer='word',stop_words='english') 
X_count_filter_train = count_filter_vec.fit_transform(X_train)
X_count_filter_test = count_filter_vec.transform(X_test) 
X_tfidf_filter_train = tfidf_filter_vec.fit_transform(X_train)

from sklearn.feature_extraction.text import TfidfTransformer
#类调用
transformer = TfidfTransformer()


newsgroups_train = fetch_20newsgroups(subset='train',categories=['alt.atheism', 'sci.space'])
pipeline = Pipeline([('vect',CountVectorizer()),('tfidf',TfidfTransformer())])
X_visualise =pipeline.fit_transform(newsgroups_train.data).todense()
pca = PCA(n_components=2).fit(X_visualise)
data2D = pca.transform(X_visualise)
plt.scatter(data2D[:,0], data2D[:,1], c=newsgroups_train.target)

对数据集执行SVD操作之后还需要进行归一化处理

In [None]:

from sklearn.decomposition import TruncatedSVD
from sklearn.preprocessing import Normalizer
from sklearn.pipeline import Pipeline as make_pipeline

n_components = 5
svd = TruncatedSVD(n_components)
normalizer = Normalizer(copy=False)
lsa = make_pipeline(svd,normalizer)
X = lsa.fit_transform(X)

用scikit-learn实现K-means非常简单，scikit-learn库提供了两
种实现方式，一种是标准K-means，另一种是小批量K-means

In [None]:
from sklearn.cluster import KMeans
from sklearn.cluster import MiniBatchKMeans, KMeans  
minibatch = True
if minibatch:
  km = MiniBatchKMeans(n_clusters=true_k, init='k-means++',n_init=1,init_size=1000, batch_size=1000)
else:
  km = KMeans(n_clusters=true_k, init='k-means++', max_iter=100,n_init=1)
km.fit(X)

通过执行fit函数，我们训练出了4个不同的聚类。之前我们可视化了聚类结果，这里只把每个类别的主题词打印出来

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.preprocessing import Normalizer
from sklearn.pipeline import Pipeline
from sklearn.pipeline import Pipeline as make_pipeline

original_space_centroids=svd.inverse_transform(km.cluster_centers_)
order_centroids = original_space_centroids.argsort()[:, ::-1]
terms = vectorizer.get_feature_names()
for i in range(true_k):
  print("Cluster %d:" % i)
for ind in order_centroids[i, :10]:
  print(' %s' % terms[ind])

文本分类
聚类是一种无监督的学习算法。
分类是一种有监督的学习算法。
使用NaiveBayes分类器和支持向量机分类器来辅助完成分类任务。

In [82]:
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV
iris = datasets.load_iris()
parameters = {'kernel':('linear', 'rbf'), 'C':[1, 10]}
svc = svm.SVC()
clf = GridSearchCV(svc, parameters)
clf.fit(iris.data, iris.target)

#gnb = GaussianNB()
#gnb.fit(X,labels)

#svm = SVC()
#svm.fit(X,labels)
#svm.predict(X_test)

GridSearchCV(estimator=SVC(),
             param_grid={'C': [1, 10], 'kernel': ('linear', 'rbf')})

查询词相似度计算和文本摘要

以向量形式表示文本文档，就可以开始计算文档之间的相似性或距离

相似性度量；
查询词相似度计算；
文本摘要。

Gensim（以及scikit-learn等绝大多数机器学习算法包）对各类距离的计算都有现成的实现

In [88]:
import gensim
texts = [['bank','river','shore','water'],
['river','water','flow','fast','tree'],
['bank','water','fall','flow'],
['bank','bank','water','rain','river'],
['river','water','mud','tree'],
['money','transaction','bank','finance'],
['bank','borrow','money'],
['bank','finance'],
['finance','money','sell','bank'],
['borrow','sell'],
['bank','loan','sell']]
dictionary = corpora.Dictionary(texts)
#dictionary = Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]

#为语料库创建TF-IDF和LDA模型，用于距离计算。
from gensim.models import ldamodel
from gensim.models import TfidfModel
tfidf = TfidfModel(corpus)
model = ldamodel.LdaModel(corpus, id2word=dictionary,num_topics=2)

model.show_topics()



[(0,
  '0.162*"bank" + 0.117*"water" + 0.097*"river" + 0.088*"finance" + 0.072*"flow" + 0.068*"tree" + 0.065*"money" + 0.046*"transaction" + 0.043*"shore" + 0.043*"fall"'),
 (1,
  '0.196*"bank" + 0.110*"sell" + 0.096*"water" + 0.081*"river" + 0.078*"money" + 0.075*"borrow" + 0.054*"finance" + 0.050*"rain" + 0.047*"loan" + 0.038*"tree"')]

比较下面3篇文档，第一篇描述river bank，第二篇描述financial bank，第三篇同时与上述两个主题相关（可能financialbank刚好位于river bank上？）

In [92]:
doc_water = ['river', 'water', 'shore']
doc_finance = ['finance', 'money', 'sell']
doc_bank = ['finance', 'bank', 'tree', 'water']

#下面的代码把3篇文档分别转化为词袋、TF-IDF或者LDA表示。
bow_water = model.id2word.doc2bow(doc_water)
bow_finance = model.id2word.doc2bow(doc_finance)
bow_bank = model.id2word.doc2bow(doc_bank)
lda_bow_water = model[bow_water]
print('lda_bow_water的结果')
print(lda_bow_water)

lda_bow_finance = model[bow_finance]
print('lda_bow_finance的结果')
print(lda_bow_finance)
lda_bow_bank = model[bow_bank]
print('lda_bow_bank的结果')
print(lda_bow_bank)
tfidf_bow_water = tfidf[bow_water]
tfidf_bow_finance = tfidf[bow_finance]
tfidf_bow_bank = tfidf[bow_bank]

lda_bow_water的结果
[(0, 0.8260013), (1, 0.17399871)]
lda_bow_finance的结果
[(0, 0.24967475), (1, 0.75032526)]
lda_bow_bank的结果
[(0, 0.85140514), (1, 0.14859483)]


lda_bow_water的值：
[(0, 0.8225102558524345), (1, 0.17748974414756546)]
结果较为合理，这篇文档包含与river banks有关的单词，属于topic_0主题的概率为82%。而lda_bow_finance的值则相差许多：
[(0, 0.14753674420005805), (1, 0.852463255799942)]
lda_bow_bank的值：
[(0, 0.44153395450870797), (1, 0.558466045491292)]
两个主题的分布概率比较接近。

引入Hellinger距离、Kullback-Leibler距离，以及
Jaccard距离。前两个度量方法用于计算两种概率分布的相似或不同程
度。

In [95]:
from gensim.matutils import kullback_leibler, jaccard, hellinger
print('lda_bow_water, lda_bow_finance的相似度')
print(hellinger(lda_bow_water, lda_bow_finance))
print('lda_bow_finance, lda_bow_bank的相似度')
print(hellinger(lda_bow_finance, lda_bow_bank))
print('lda_bow_bank, lda_bow_water的相似度')
print(hellinger(lda_bow_bank, lda_bow_water))


lda_bow_water, lda_bow_finance的相似度
0.4295902969615133
lda_bow_finance, lda_bow_bank的相似度
0.4528071221606102
lda_bow_bank, lda_bow_water的相似度
0.02443562568335135


这些距离值都很直观，你会发现对于finance和water这两篇文档而言，Hellinger距离给出的是正确结果，因为这两篇文档相关性并不大。因为bank文档同时包含finance和river的内容，所以与另外两篇文档的距离并不是特别大。其中bank与water较bank与finance之间的
距离更远（0.287对0.234）。距离值范围从0到1，其中0表示两者之间不存在距离，0.5可以直观地理解为介于两者之间，而1则表示两者完全相同。在本例中，lda_bow_bank与finance的距离比与water的距离更近。