## 1. 数据的特征抽取

    - 将文本、非连续型等数据转化为数值
    - 使用包：`sklearn.feature_extraction`

### 字典数据特征抽取 `sklearn.feature_extraction.DictVectorizer`

**`DictVectorizer(sparse=True,…)`** #sparse为一种数据类型

\----------------------------

DictVectorizer.fit_transform(X) 

X:字典或者包含字典的迭代器

返回值：返回sparse矩阵

\----------------------------

DictVectorizer.inverse_transform(X)

X:array数组或者sparse矩阵

返回值:转换之前数据格式

\----------------------------

DictVectorizer.get_feature_names()

返回类别名称

\----------------------------

DictVectorizer.transform(X)

按照原先的标准转换

In [2]:
from sklearn.feature_extraction import DictVectorizer

In [6]:
dic=[{'city': '北京','temperature':100},{'city': '上海','temperature':60},{'city': '深圳','temperature':30}]


# 实例化一个DictVectorizer
dv = DictVectorizer()
sp = dv.fit_transform(dic)
print(sp) #sparse的数据格式： (x,y)表示位置，位置上为0的不显示

  (0, 1)	1.0
  (0, 3)	100.0
  (1, 0)	1.0
  (1, 3)	60.0
  (2, 2)	1.0
  (2, 3)	30.0


In [16]:
dv1 = DictVectorizer(sparse=False)
data = dv1.fit_transform(dic)
print(data)

[[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]


In [17]:
# 理解data该二位数组的含义
dv1.get_feature_names() #四个特征值分别对应data数组的列

['city=上海', 'city=北京', 'city=深圳', 'temperature']

> 将city的属性值转化为[0,1,0]这样的格式被称为：one-hot编码

In [18]:
dv1.inverse_transform(data) #将转化成的二位数组重新变为字典格式

[{'city=北京': 1.0, 'temperature': 100.0},
 {'city=上海': 1.0, 'temperature': 60.0},
 {'city=深圳': 1.0, 'temperature': 30.0}]

### 文本特征抽取 
### `sklearn.feature_extraction.text.CountVectorizer`  and `sklearn.feature_extraction.text.TfidfVectorizer`

**count:**

    1. 统计所有文档中出现的所有词语（单个英文单词、汉字不统计）
    2. 计算各文档中各词出现的频次

**ti-idf：**
    
    1. 统计所有文档中出现的所有词语（单个英文单词、汉字不统计）
    2. 计算各文档中各词出现的频次（tf）
    3. 计算逆文档频率（idf）
    4. 计算tf-idf值：tf*idf

$idf = \log(\frac{总文档数量}{该词出现的文档数量})$

TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
TF-IDF作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

**CountVectorizer(max_df=1.0,min_df=1,…)**

返回词频矩阵

\---------------------

CountVectorizer.fit_transform(X,y)  

X:文本或者包含文本字符串的可迭代对象

返回值：返回sparse矩阵

\---------------------

CountVectorizer.inverse_transform(X)

X:array数组或者sparse矩阵

返回值:转换之前数据格式

\---------------------

CountVectorizer.get_feature_names()

返回值:单词列表

In [20]:
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer

In [21]:
etext = ["life is is short,i like python","life is too long,i dislike python"]
# 实例化一个countvectorizer
cv = CountVectorizer() #没有sparse参数，返回值只有sparse
data1 = cv.fit_transform(etext) #函数通过空格分隔单词，因此中文必须先进行分词
print(data1)

  (0, 2)	1
  (0, 1)	2
  (0, 6)	1
  (0, 3)	1
  (0, 5)	1
  (1, 2)	1
  (1, 1)	1
  (1, 5)	1
  (1, 7)	1
  (1, 4)	1
  (1, 0)	1


In [22]:
# 将sparse转成ndarray
print(data1.toarray())

[[0 2 1 1 0 1 1 0]
 [1 1 1 0 1 1 0 1]]


In [23]:
# 打印出特征
cv.get_feature_names()

['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']

**TfidfVectorizer(stop_words=None,…)**

返回词的权重矩阵

\---------------------

TfidfVectorizer.fit_transform(X,y) 

X:文本或者包含文本字符串的可迭代对象

返回值：返回sparse矩阵

\---------------------

TfidfVectorizer.inverse_transform(X)

X:array数组或者sparse矩阵

返回值:转换之前数据格式

\---------------------

TfidfVectorizer.get_feature_names()

返回值:单词列表

In [24]:
# 处理中文

text1 = '今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。'
text2 = '我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。'
text3 = '如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。'

In [25]:
import jieba

con1 = jieba.cut(text1)
con2 = jieba.cut(text2)
con3 = jieba.cut(text3)

In [26]:
cut1 = ' '.join(con1) #用空格联结列表里的元素，变成字符串
print(cut1)
cut2 = ' '.join(con2)
cut3 = ' '.join(con3)

今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。


In [1]:
# 实例化一个tfidfvectorizer
tv = TfidfVectorizer()
data2 = tv.fit_transform([cut1,cut2,cut3]) #data2为sparse数据格式
print(data2.toarray())

NameError: name 'TfidfVectorizer' is not defined

In [38]:
print(tv.get_feature_names())

['一种', '不会', '不要', '之前', '了解', '事物', '今天', '光是在', '几百万年', '发出', '取决于', '只用', '后天', '含义', '大部分', '如何', '如果', '宇宙', '我们', '所以', '放弃', '方式', '明天', '星系', '晚上', '某样', '残酷', '每个', '看到', '真正', '秘密', '绝对', '美好', '联系', '过去', '这样']


## 2. 数据的特征预处理 `sklearn.preprocessing`

- 通过特定的统计方法（数学方法）将数据转换成算法要求的数据

### 2.1 归一化

**定义：**

$X' = \frac{x - min}{max - min}$

$X'' = X' * (max_{new} - min_{new}) + min_{new}$

$max_{new}，min_{new}分别为指定区间值默认min_{new}为1，min_{new}为0。$

**缺点：容易受异常点影响。**

最大值与最小值非常容易受异常点影响，所以这种方法鲁棒性较差，只适合传统精确小数据场景。

**API:`sklearn.preprocessing.MinMaxScaler`**

MinMaxScalar(feature_range=(0,1)…)

每个特征缩放到给定范围(默认[0,1])

\--------------------------

MinMaxScalar.fit_transform(X)   

X:numpy array格式的数据

返回值：转换后的形状相同的array

In [5]:
from sklearn.preprocessing import MinMaxScaler

#实例化
mm = MinMaxScaler()
data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])
data

array([[1.        , 0.        , 0.        , 0.        ],
       [0.        , 1.        , 1.        , 0.83333333],
       [0.5       , 0.5       , 0.6       , 1.        ]])

### 2.2 标准化

**定义：**

$X'=\frac{x-\mu}{\delta}$

通过对原始数据进行变换把数据变换到均值为0,方差为1范围内!

对异常值的敏感度低于归一化

**API:`sklearn.proprecessing.StandardScaler`**

StandardScaler(…)

处理之后每列来说所有数据都聚集在均值0附近方差为1

\----------------------------------

StandardScaler.fit_transform(X,y)    

X:numpy array格式的数据

返回值：转换后的形状相同的array

\----------------------------------

StandardScaler.mean_

原始数据中每列特征的平均值

\----------------------------------

StandardScaler.std_

原始数据每列特征的方差

In [6]:
from sklearn.preprocessing import StandardScaler

#实例化
ss = StandardScaler()

data = ss.fit_transform([[ 1., -1., 3.],[ 2., 4., 2.],[ 4., 6., -1.]])
data

array([[-1.06904497, -1.35873244,  0.98058068],
       [-0.26726124,  0.33968311,  0.39223227],
       [ 1.33630621,  1.01904933, -1.37281295]])

### 2.3 缺失值处理

- 删除

- 插补`sklearn.propercessing.Imputer`

`Imputer(missing_values='NaN',strategy='mean',axis=0)`

完成缺失值插补,axis默认为0，表示按列插补

\------------------------------------

Imputer.fit_transform(X,y) 

X:numpy array格式的数据

返回值：转换后的形状相同的array

***np.nan***

numpy的数组中可以使用np.nan/np.NaN来代替缺失值，属于float类型

如果是文件中的一些缺失值，可以替换成nan，通过np.array转化成float型的数组即可

### 2.4 分类无序变量：one-hot编码

## 3. 数据的降维

- 特征选择

- 主成分分析PCA

### 3.1 特征选择

**定义：**

特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值、也不改变值，但是选择后的特征维数肯定比选择前小，毕竟我们只选择了其中的一部分特征。

**方法：**

1. Filter(过滤式):VarianceThreshold
2. Embedded(嵌入式)：正则化、决策树
3. Wrapper(包裹式)
4. 神经网络

**Filter:**

**`sklearn.feature_selection.VarianceThreshold`**

VarianceThreshold(threshold = 0.0)

删除所有低方差特征

\--------------------------------

Variance.fit_transform(X,y)    

X:numpy array格式的数据

返回值：训练集差异低于threshold的特征将被删除。默认值是保留所有非零方差特征，即删除所有样本中具有相同值的特征。

In [8]:
from sklearn.feature_selection import VarianceThreshold

#实例化
vt = VarianceThreshold(threshold=1.0)

data = vt.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])

data

array([[0],
       [4],
       [1]])

### 3.2 降维**`sklearn.decomposition`**

- 是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。
- PCA  LDA（线性判别分析）

**`sklearn.decomposition.PCA`**

PCA(n_components=None) **当 n 为小数，表示需要保留的数据集信息量，为整数时，表示留下的我维度，一般使用小数**

将数据分解为较低维数空间

\---------------------------

PCA.fit_transform(X) 

X:numpy array格式的数据

返回值：转换后指定维度的array

In [11]:
from sklearn.decomposition import PCA

pca = PCA(n_components=0.9)

data = pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])

data

array([[-3.13587302e-16,  3.82970843e+00],
       [-5.74456265e+00, -1.91485422e+00],
       [ 5.74456265e+00, -1.91485422e+00]])