# 文本数据的处理

在自然语言处理领域，我们需要处理不能直接作为输入的文本数据。本节将介绍两种将文本数据转换为表格数据的方法：
* 基于单词出现次数的转换
* 另一种是基于tf-idf的转换  

下面基于单词出现次数和tf-idf将文本数据转换为表格形式的数据，并应用于机器学习模型。scikit-leam 的Countvectorizer 可以计算单词出现次数，Tfidfvectorizer 可以进行 tfidf 的转换。另外，通过fetch_20newsgroups 获取使用的文本数据，机器学习模型则采用 LinearSVC。

In [None]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.datasets import fetch_20newsgroups

categories = ['misc.forsale', 'rec.autos','comp.graphics', 'sci.med']
remove = ('headers', 'footers', 'quotes')
twenty_train = fetch_20newsgroups(subset='train', 
                                  remove=remove, 
                                  categories=categories) # 训练数据
twenty_test = fetch_20newsgroups(subset='test',
                                 remove=remove, 
                                 categories=categories) # 验证数据

## 基于单词出现次数的转换
通过统计单词在文本中的出现次数将文本数据转化为表格数据的方法。  
首先将文本数据转换为单词出现次数，然后使用 Linearsvc 学习和预測。得到的模型对验证数据的正确率约为 0.794。也就是说，我们成功地将文本数据转换为了表格形式的数据，并进行了有监督学习

In [None]:
count_vect = CountVectorizer() # 单词出现次数
X_train_counts = count_vect.fit_transform(twenty_train.data)
X_test_count = count_vect.transform(twenty_test.data)

model = LinearSVC() 
model.fit(X_train_counts, twenty_train.target)
predicted = model.predict(X_test_count)
np.mean(predicted == twenty_test.target)



0.7937619350732018

## 基于tf-idf的转换
tr-idf是一种基于tf（term frequency，词频）和 idf ( inverse document frequency，逆文本頻率指数）这两个指标来表示单词在文本中的重要度的方法。tf是单词在文本中出现的频率，idf 是一个包含该单词的文本越多，值就越小的值。这两个指标相乘得到的结果叫作tf-idf。

In [None]:
tf_vec = TfidfVectorizer()  # tf-idf
X_train_tfidf = tf_vec.fit_transform(twenty_train.data)
X_test_tfidf = tf_vec.transform(twenty_test.data)

model = LinearSVC()
model.fit(X_train_tfidf, twenty_train.target)
predicted = model.predict(X_test_tfidf)
np.mean(predicted == twenty_test.target)

0.8701464035646085