In [8]:
## 分类变量特征提取
from sklearn.feature_extraction import DictVectorizer

onehot_encoder = DictVectorizer()
instances = [{'city': 'Beijing'},{'city': 'Shanghai'},{'city': 'Chongqing'}, {'city': 'Beijing'},]
print(onehot_encoder.fit_transform(instances).toarray())



[[ 1.  0.  0.]
 [ 0.  0.  1.]
 [ 0.  1.  0.]
 [ 1.  0.  0.]]


In [15]:
## 文字特征提取
### 词库表示法
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'UNC played Duke in basketball',
    'Duke lost the basketball game',
    'I ate a sanwich'
]

# corpus（文集）由两个文档组成，构成的词库表vocabulary包括8个词
# UNC, played, Duke, in, basketball, lost, the, game

vectorizer = CountVectorizer()
print(vectorizer.fit_transform(corpus).todense())
print(vectorizer.vocabulary_)

[[0 1 1 0 1 0 1 0 0 1]
 [0 1 1 1 0 1 0 0 1 0]
 [1 0 0 0 0 0 0 1 0 0]]
{u'duke': 2, u'basketball': 1, u'lost': 5, u'played': 6, u'in': 4, u'game': 3, u'unc': 9, u'ate': 0, u'the': 8, u'sanwich': 7}


用文档特征向量间的欧式距离表示文档间的相似度
$$ d = \| x_0 - x_1 \| $$
向量的
$$ \| x \| = \sqrt{x_1^2 + x_2^2 + \cdots + x_n^2} $$

In [17]:
## 用欧式距离表示文档的相似度
from sklearn.metrics.pairwise import euclidean_distances
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'UNC played Duke in basketball',
    'Duke lost the basketball game',
    'I ate a sanwich'
]

vectorizer = CountVectorizer()
counts = vectorizer.fit_transform(corpus).todense()
for x,y in [[0, 1], [0, 2], [1, 2]]:
    dist = euclidean_distances(counts[x], counts[y])
    print('文档{}与文档{}的距离{}'.format(x, y, dist))

文档0与文档1的距离[[ 2.44948974]]
文档0与文档2的距离[[ 2.64575131]]
文档1与文档2的距离[[ 2.64575131]]


现实中的新闻报告组成的文集，其中词汇表维度成千上万。但是是一个巨大的稀疏矩阵。
高维数据会导致如下问题：
> 1. 占用更大的内存
> 2. 维度灾难(高维数据需要更多的训练数据，数据不足时会导致过拟合)

所以，需要对高维数据进行降维
常用的一些降维手段有（针对文本处理）：
> 1. 将单词全部转换为小写
> 2. 停用词（文集常用词）
> 3. 词根还原和词形还原（将单词从不同的时态、派生形式还原）

