### 特征工程 sklearn
- 特征抽取
- 数据特征预处理
- 特征选择

### sklearn
- 分类模型
- 回归模型
- 聚类模型
- 特征工程

### 特征值化
- 将字符串转换为数字

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
vector = CountVectorizer()
res = vector.fit_transform(['life is short, I love python','life is too long, I hate python'])
print(res.toarray())

[[0 1 1 0 1 1 1 0]
 [1 1 1 1 0 1 0 1]]


### 字典特征抽取
-API:
  - from sklearn.feature_extraction import Dict Vectorizer
  - fit_transform(X):X为字典或者字典的迭代器
  - inverse_transform(X) :X 为sparse矩阵或者array数组，返回值为转换之前的数据模式
  - get_feature_name():返回类别名称

In [2]:
from sklearn.feature_extraction import DictVectorizer
alist = [{'city':'BeiJing','temp':33},
         {'city':'SH','temp':40},
         {'city':'GZ','temp':42}
        ]
d= DictVectorizer(sparse=True)
feature = d.fit_transform(alist)
print(feature)
#输出结果：1为是，0为不是

  (0, 0)	1.0
  (0, 3)	33.0
  (1, 2)	1.0
  (1, 3)	40.0
  (2, 1)	1.0
  (2, 3)	42.0


### sparse矩阵
- 在Dicvectorizer类的构造方法中设定sparse = False 返回的是一个数组
  - get_feature_name():返回类别名称
- sparse矩阵是一个变相的数组或者列表，目的是为了节省内存

In [3]:
from sklearn.feature_extraction import DictVectorizer
alist = [{'city':'BeiJing','temp':33},
         {'city':'SH','temp':40},
         {'city':'GZ','temp':42}
        ]
d= DictVectorizer(sparse=False)
#返回的是一个二位列表
feature = d.fit_transform(alist)
print(d.get_feature_names_out())
print(feature)
#输出结果：1为是，0为不是

['city=BeiJing' 'city=GZ' 'city=SH' 'temp']
[[ 1.  0.  0. 33.]
 [ 0.  0.  1. 40.]
 [ 0.  1.  0. 42.]]


### OneHot编码
- 基于pandas实现onehot编码
- pd.get_dummies(df[;col'])

In [4]:
import pandas as pd
df = pd.DataFrame([    
    ['green','M',20,'class1'],
    ['red','L',21,'class2'],
    ['blue','XL',30,'class3']])
df.columns = ['color','size','weight','class label']
df

Unnamed: 0,color,size,weight,class label
0,green,M,20,class1
1,red,L,21,class2
2,blue,XL,30,class3


In [5]:
pd.get_dummies(df['color'],dtype=int)

Unnamed: 0,blue,green,red
0,0,1,0
1,0,0,1
2,1,0,0


###  文本特征抽取
- 作用：对文本数据进行特征值化
- API:from sklearn.feature_extraction.text import CountVectorizer
- fit_transform(x):x为文本或者包含文本字符串的可迭代对象，返回sparse矩阵
- inverse_transform(x):x为array数组或者sparse矩阵，返回转换之前的数据格式
- get_feature_names_out()
- toarray():将sparse矩阵转换成数组

In [6]:
from sklearn.feature_extraction.text import CountVectorizer
vector = CountVectorizer()
res = vector.fit_transform(['life is short, I love python','life is too long, I hate python'])
print(res) #sparse矩阵
print(vector.get_feature_names_out())
print(res.toarray())
#单字母补统计（因为单个字母代表不了实际含义），数字代表字母出现次数

  (0, 2)	1
  (0, 1)	1
  (0, 6)	1
  (0, 4)	1
  (0, 5)	1
  (1, 2)	1
  (1, 1)	1
  (1, 5)	1
  (1, 7)	1
  (1, 3)	1
  (1, 0)	1
['hate' 'is' 'life' 'long' 'love' 'python' 'short' 'too']
[[0 1 1 0 1 1 1 0]
 [1 1 1 1 0 1 0 1]]


- 中文文本特征抽取
  - 对有标点符号的中文文本进行特征抽取

In [7]:
from sklearn.feature_extraction.text import CountVectorizer
vector = CountVectorizer()
res = vector.fit_transform(['桃花坞里桃花庵，桃花庵里桃花仙','桃花仙人种桃树，又摘桃花换酒钱'])
print(res)
print(vector.get_feature_names_out())
print(res.toarray())

  (0, 2)	1
  (0, 3)	1
  (1, 1)	1
  (1, 0)	1
['又摘桃花换酒钱' '桃花仙人种桃树' '桃花坞里桃花庵' '桃花庵里桃花仙']
[[0 0 1 1]
 [1 1 0 0]]


- 对有标点符号且有空格的中文文本进行特征抽取

In [8]:
from sklearn.feature_extraction.text import CountVectorizer
vector = CountVectorizer()
res = vector.fit_transform(['桃花坞 里 桃花庵，桃花庵 里 桃花仙','桃花仙 人种桃树，又摘 桃花换酒钱'])
print(res)
print(vector.get_feature_names_out())
print(res.toarray())
#单个汉字不统计

  (0, 3)	1
  (0, 4)	2
  (0, 2)	1
  (1, 2)	1
  (1, 0)	1
  (1, 1)	1
  (1, 5)	1
['人种桃树' '又摘' '桃花仙' '桃花坞' '桃花庵' '桃花换酒钱']
[[0 0 1 1 2 0]
 [1 1 1 0 0 1]]


- 目前countVectorizer 只可以对有标点符号或者有分隔符的文本进行特征抽取

- jieba分词
  - 对中文文章进行分词处理
  - pip install jieba
- jieba分词的基本使用

In [9]:
#对文章进行分词
import jieba
jb = jieba.cut('桃花坞里桃花庵')
content = list(jb)
print(content)
ct = ''.join(content)
print(ct)#返回空格区的词语

Building prefix dict from the default dictionary ...
Dumping model to file cache C:\Users\53273\AppData\Local\Temp\jieba.cache
Loading model cost 0.533 seconds.
Prefix dict has been built successfully.


['桃花坞', '里', '桃花庵']
桃花坞里桃花庵


In [10]:
jb1 = jieba.cut('桃花坞里桃花庵，桃花庵里桃花仙? ')
ct1 = ' '.join(list(jb1))
jb2 = jieba.cut('桃花坞里桃花庵，桃花庵里桃花仙! ')
ct2 = ' '.join(list(jb2))
print(ct1,ct2)


桃花坞 里 桃花庵 ， 桃花庵 里 桃花仙 ?   桃花坞 里 桃花庵 ， 桃花庵 里 桃花仙 !  


In [11]:
#中文文本特征抽取
from sklearn.feature_extraction.text import CountVectorizer
vector = CountVectorizer()
res = vector.fit_transform([ct1,ct2])
print(res)
print(vector.get_feature_names_out())
print(res.toarray())
##单个汉字不统计

  (0, 1)	1
  (0, 2)	2
  (0, 0)	1
  (1, 1)	1
  (1, 2)	2
  (1, 0)	1
['桃花仙' '桃花坞' '桃花庵']
[[1 1 2]
 [1 1 2]]


### 特征预处理：对数值型数据
- 无量纲化：
  - 将不同规格的数据转换到统一规格，例如k-means聚类中，无量纲化可以提升模型精度。一个特例是决策树和树的集成算法，对决策树不需要无量纲化。
  - 通过特定的统计方法（函数）
  - 方法：
    - 归一化
    - 标准化

### 案例需求分析
- 海伦女士一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的任选，但她并不是喜欢每一个人。经过一番总结，她发现自己交往过的人可以进行如下分类：
  - 不喜欢的人
  - 魅力一般的人
  - 极具魅力的人
- 海伦收集约会数据已经有了一段时间，她把这些数据存放在文本文件datingTestSet.txt中，每个样本数据占据一行，总共有1000行。

- 海伦收集的样本数据主要包含以下3种特征：
  1. 每年获得的飞行常客里程数
  2. 玩视频游戏所消耗时间百分比
  3. 每周消费的冰淇淋公升数
  - <font color=red >统计人觉得三个特征同等重要

- 归一化实现
  - <font color=red >将原始数据映射到[0,1]之间
  - 公式：  
    X' = $\frac{ x - min }{ max - min }$<br> 
    X'' = X' * ($m_x$ - $m_i$)+$m_i$  
  - 作用于每一列，max为每一列最大值，X''为最终结果，$m_x$ 和 $m_i$分别为指定区间，默认值是1和0
  - 归一化后的数据服从正态分布

- API: from sklearn.preprocessing import MinMaxScaler
  - 参数： feature_range表示缩放范围，通常使用（0，1）
- 作用： 使得某一个特征值对最终结果不会造成很大影响 

In [12]:
from sklearn.preprocessing import MinMaxScaler
mm = MinMaxScaler(feature_range=(0,1))
data = [[90,2,10,40],[60,5,15,45],[73,3,13,45]]
data = mm.fit_transform(data)#
print(data)

[[1.         0.         0.         0.        ]
 [0.         1.         1.         1.        ]
 [0.43333333 0.33333333 0.6        1.        ]]


#### 数据中如果存在很多异常值，会对结果造成什么样的影响？
- 结合归一化计算公式可知，异常值对原始数据中最大值和最小值的影响很大，因此也会影响归一化后的值
- 标准化可以更好处理异常值问题

- 标准化的处理
  - 当数据按均值中心化后，再按标准差缩放，数据就会服从为均值为0，方差为1的正态分布，这个过程叫做数据标准化
  - 公式: X' = $\frac{x - mean}{\sigma}$ <br>
  注意：作用于每一列，mean为平均值，$\sigma$为标准差<br>
  var成为方差，var =  $\frac{(x_1 - mean)^2 +(x_2 - mean)^2  + ...}{n(每个特征的样本数)}$，$\sigma$ = $\sqrt{var}$<br>
  <font color=red > 方差考量数据的稳定性
    

- 归一化：异常值会影响特征的最大值和最小值，最终数据会受比较大的影响
- 标准化： 具有一定的数据量，少量的异常点对于平均值的影响不大
- 一般情况下，先使用standerdScaler 效果不好使用MinMaxScaler

In [15]:
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
data = [[90,2,10,40],[60,5,15,45],[73,3,13,45]]
data = ss.fit_transform(data)#
print(data)

[[ 1.27540458 -1.06904497 -1.29777137 -1.41421356]
 [-1.16685951  1.33630621  1.13554995  0.70710678]
 [-0.10854507 -0.26726124  0.16222142  0.70710678]]


#### 特征选择
- 人为对不想管特征进行主管摒弃
- 在已有特征和对应预测结果的基础上使用工具过滤掉一些无用或权重较低的特征
  - 工具：
    - Filter（过滤式）
    - Embedd（嵌入式）：决策树模型自己选择出重要的特征
    - PCA降维

#### Filter（方差过滤）
- 优先消除方差为0 或方差极低的特征
- API：from sklearn.feature_selection import VarianceThreshold
- Variance Threshold(threshold = x) threshold方差的值，删除所有方差低于x的特征，默认值为0
- fit_tranform(X) X为特征

In [None]:
from sklearn.feature_selection import VarianceThreshold
v = VarianceThreshold(threshold=0.5)
v.fit_transform([[0,2,4,3],[0,3,7,3],[0,9,6,3]])

- 留下一半的特征：找到中位数，将中位数作为参数
  - VarianceThreshold(np.median(X.var().values().fit_transform(X)
- 方差过滤的影响
  - KNN需要遍历每一个样本每一个特征，因此特征过多，KNN计算也会变慢

In [None]:
import numpy as np
feature = np.random.randint(0,100,size=(5,10))
feature

In [None]:
med = np.median(feature.var(axis=0))

In [None]:
v = VarianceThreshold(threshold=med)
v.fit_transform(feature)

#### PAC降维
- 原理：原始数据如果是二维，可以将原始特征映射到一维的线段上4
- PAC语法：
  - from sklearn.decomposition import PAC
  - pca = PAC(n_components=None)
    - n_components可以是小数（保留特征的百分比），整数（减少到的特征数量）
  - pca.fit_transform(X)

In [None]:
from sklearn.decomposition import PCA
pca = PCA(n_components=3)
pca.fit_transform([[0,2,4,3],[0,3,7,3],[0,9,6,3]])