# 文字特征

将文字转换成一组代表它们的数字值。例如大多数社交媒体数据的自动挖掘都依赖于某种形式的文字到数字的编码转换

## 单词计数

>选取每一小段文字，计算里面每个单词出现的次数，然后将它们放到表中。以下面的三个短语为例:

In [3]:
sample = ['problem of evil',
          'evil queen',
          'horizon problem']


>想要将上面的数据使用单词计数进行向量化，我们可以构造一个列代表单词"problem"， 一个列代表单词"evil"，一个列代表单词"horizon"等等。虽然可以手工完成这项任务，但是你可以使用Scikit-Learn的`CountVectorizer`将自己从重复劳动中解放出来：

In [9]:
from sklearn.feature_extraction.text import CountVectorizer

vec=CountVectorizer()
X=vec.fit_transform(sample)
X

<3x5 sparse matrix of type '<class 'numpy.int64'>'
	with 7 stored elements in Compressed Sparse Row format>

In [10]:
import pandas as pd
pd.DataFrame(X.toarray(),columns=vec.get_feature_names())



Unnamed: 0,evil,horizon,of,problem,queen
0,1,0,1,1,0
1,1,0,0,0,1
2,0,1,0,1,0


## IF-IDF算法

这种处理方法有一些问题：原始的单词计数会导致特征在频繁出现的单词上放置了太多的权重，这对于一些分类算法来说是不够准确的。解决这个问题的其中一个办法是被称为*term frequency-inverse document frequency* (*TF–IDF*)的算法，该算法综合考虑私有语库以及大语库

In [15]:
from sklearn.feature_extraction.text import TfidfVectorizer
vec = TfidfVectorizer()
X = vec.fit_transform(sample)
pd.DataFrame(X.toarray(),columns=vec.get_feature_names())



Unnamed: 0,evil,horizon,of,problem,queen
0,0.517856,0.0,0.680919,0.517856,0.0
1,0.605349,0.0,0.0,0.0,0.795961
2,0.0,0.795961,0.0,0.605349,0.0
