## chapter 03 Feature Extraction And Preprocessing

- 3.1 Extracting features from categorical variables
- 3.2 Extracting features from text
- 2.3 polynomial regression 多项式回归
- 2.4 how to train models & cost function

### 3.1 Extracting features from categorical variables

对分类变量一般使用one-hot编码，有人会想到用整数0,1,2,...来分别表示分类变量，但一般不建议这么做，因为编码成整数，实际上添加了一个人工信息，即这些变量是有序的，0<1<2<...

In [1]:
# 对分类变量一般使用one-hot编码
from sklearn.feature_extraction import DictVectorizer
onehot_encoder = DictVectorizer()
instances = [{'city':'New York'}, {'city':'San Francisco'}, {'city':'Chapel Hill'}]
onehot_encoder.fit_transform(instances).toarray()

array([[ 0.,  1.,  0.],
       [ 0.,  0.,  1.],
       [ 1.,  0.,  0.]])

### 3.2 Extracting features from text

- bag of words:词袋

词袋类似one-hot编码，可以认为是后者的一个特例。

词袋模型忽略文本中词语的语法，词语出现的顺序等。

词袋模型基于一个直觉假设：含有相似词语的文本，具有相似的含义。虽然这个直觉对于有些文本是不一定适用的，有时不同文本虽然含有相同词汇，但是顺序不同，含义就不同。





In [6]:
# bag of words

## 导入类
from sklearn.feature_extraction.text import CountVectorizer

## 语料库corpus
corpus = ['UNC played Duke in basketball', 
          'Duke lost the basketball game']

## 得到词袋模型
vectorizer = CountVectorizer()
print('bag of words:')
print(vectorizer.fit_transform(corpus).todense())

## 从语料库切词得到的字典
print('----------------------------------------')
print('Vocabulary')
print(vectorizer.vocabulary_)

## 解释
## Vocabulary中的单词是有顺序的，第一个是basketball
## 词袋模型的编码与单词的顺序是对应的，1表示文本中含有该单词，0表示不含有

bag of words:
[[1 1 0 1 0 1 0 1]
 [1 1 1 0 1 0 1 0]]
----------------------------------------
Vocabulary
{'unc': 7, 'played': 5, 'duke': 1, 'in': 3, 'basketball': 0, 'lost': 4, 'the': 6, 'game': 2}


In [10]:
# bag of words(2)
## 增加一条文本

## 导入类
from sklearn.feature_extraction.text import CountVectorizer

## 语料库
corpus = ['UNC played Duke in basketball', 
          'Duke lost the basketball game', 
          'I ate a sandwich']

## 词袋模型
vectorizer = CountVectorizer()
print('bag of words:')
print(vectorizer.fit_transform(corpus).todense())

## 字典
print('-----------------------------------------')
print('Vocabulary')
print(vectorizer.vocabulary_)

## 计算三条文本之间的距离
## 文本1和文本2较为相似，与文本3差异较大
from sklearn.metrics.pairwise import euclidean_distances
counts = [[0, 1, 1, 0, 1, 0, 1, 0, 0, 1],
          [0, 1, 1, 1, 0, 1, 0, 0, 1, 0],
          [1, 0, 0, 0, 0, 0, 0, 1, 0, 0]]
# 文本两两比较，计算距离
print('文本1和文本2的距离:', euclidean_distances(counts[0], counts[1]))
print('文本1和文本3的距离:', euclidean_distances(counts[0], counts[2]))
print('文本2和文本3的距离:', euclidean_distances(counts[1], counts[2]))

bag of words:
[[0 1 1 0 1 0 1 0 0 1]
 [0 1 1 1 0 1 0 0 1 0]
 [1 0 0 0 0 0 0 1 0 0]]
-----------------------------------------
Vocabulary
{'unc': 9, 'played': 6, 'duke': 2, 'in': 4, 'basketball': 1, 'lost': 5, 'the': 8, 'game': 3, 'ate': 0, 'sandwich': 7}




文本1和文本2的距离: [[ 2.44948974]]
文本1和文本3的距离: [[ 2.64575131]]
文本2和文本3的距离: [[ 2.64575131]]


