# 特征抽取

In [1]:
import numpy as np
import pandas as pd
import sklearn.feature_extraction  #特征抽取

字典类型

In [2]:
from sklearn.feature_extraction import DictVectorizer #字典特征抽取

In [3]:
a=[{'city': '北京','temperature':100},
{'city': '上海','temperature':60},
{'city': '深圳','temperature':30}]
a

[{'city': '北京', 'temperature': 100},
 {'city': '上海', 'temperature': 60},
 {'city': '深圳', 'temperature': 30}]

In [4]:
dv=DictVectorizer(sparse=False) #sparse=False不显示稀疏矩阵
result=dv.fit_transform(a) #先拟合，再进行转换特征值
result

array([[  0.,   1.,   0., 100.],
       [  1.,   0.,   0.,  60.],
       [  0.,   0.,   1.,  30.]])

In [5]:
dv.get_feature_names() #查看特征名

['city=上海', 'city=北京', 'city=深圳', 'temperature']

In [6]:
dv.inverse_transform(result) #转换为之前的数据

[{'city=北京': 1.0, 'temperature': 100.0},
 {'city=上海': 1.0, 'temperature': 60.0},
 {'city=深圳': 1.0, 'temperature': 30.0}]

文本特征抽取

In [7]:
from sklearn.feature_extraction.text import CountVectorizer 

In [8]:
data=["life is short,i like python",
"life is too long,i dislike python"]
data

['life is short,i like python', 'life is too long,i dislike python']

In [9]:
cv=CountVectorizer() #自动分词
cve=cv.fit_transform(data)
cve.toarray() #toarray()转化为数组

array([[0, 1, 1, 1, 0, 1, 1, 0],
       [1, 1, 1, 0, 1, 1, 0, 1]], dtype=int64)

In [10]:
cv.get_feature_names()

['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']

中文特征抽取

In [11]:
#中文必须得空格才能提取词汇
data1=['我 爱 中国','我 喜欢 上海','我 在 浦东']
data1

['我 爱 中国', '我 喜欢 上海', '我 在 浦东']

In [12]:
cv1=CountVectorizer()
cve1=cv1.fit_transform(data1)
cve1.toarray()

array([[0, 1, 0, 0],
       [1, 0, 1, 0],
       [0, 0, 0, 1]], dtype=int64)

In [13]:
cv1.get_feature_names()

['上海', '中国', '喜欢', '浦东']

In [14]:
import jieba

In [18]:
con1=jieba.cut('今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。')
con2=jieba.cut('我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。')
con3=jieba.cut('如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。')
content1=list(con1)
content2=list(con2)
content3=list(con3)

In [19]:
c1=' '.join(content1)
c2=' '.join(content2)
c3=' '.join(content3)
[c1,c2,c3]

['今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。',
 '我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。',
 '如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。']

In [23]:
data2=cv1.fit_transform([c1,c2,c3])
pd.DataFrame(data2.toarray(),columns=cv1.get_feature_names())

Unnamed: 0,一种,不会,不要,之前,了解,事物,今天,光是在,几百万年,发出,...,残酷,每个,看到,真正,秘密,绝对,美好,联系,过去,这样
0,0,0,1,0,0,0,2,0,0,0,...,2,1,0,0,0,1,1,0,0,0
1,0,0,0,1,0,0,0,1,1,1,...,0,0,2,0,0,0,0,0,1,1
2,1,1,0,0,4,3,0,0,0,0,...,0,0,0,2,1,0,0,1,0,0


TF-IDF特征抽取

In [24]:
#TF:词的频率=该词数/总词数
#IDF:逆文档频率=log(总文档数/该词出现的文档数量)
#TF-IDF=tf*idf

In [25]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [29]:
tf=TfidfVectorizer()
data3=tf.fit_transform([c1,c2,c3])
pd.DataFrame(data3.toarray(),columns=tf.get_feature_names())

Unnamed: 0,一种,不会,不要,之前,了解,事物,今天,光是在,几百万年,发出,...,残酷,每个,看到,真正,秘密,绝对,美好,联系,过去,这样
0,0.0,0.0,0.218218,0.0,0.0,0.0,0.436436,0.0,0.0,0.0,...,0.436436,0.218218,0.0,0.0,0.0,0.218218,0.218218,0.0,0.0,0.0
1,0.0,0.0,0.0,0.241082,0.0,0.0,0.0,0.241082,0.241082,0.241082,...,0.0,0.0,0.482164,0.0,0.0,0.0,0.0,0.0,0.241082,0.241082
2,0.156983,0.156983,0.0,0.0,0.627932,0.470949,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.313966,0.156983,0.0,0.0,0.156983,0.0,0.0


# 特征处理

归一化

In [30]:
from sklearn.preprocessing import MinMaxScaler

In [32]:
d=np.array([[90,2,10,40],
[60,4,15,45],
[75,3,13,46]])
d

array([[90,  2, 10, 40],
       [60,  4, 15, 45],
       [75,  3, 13, 46]])

In [33]:
mm=MinMaxScaler()
data4=mm.fit_transform(d)
data4



array([[1.        , 0.        , 0.        , 0.        ],
       [0.        , 1.        , 1.        , 0.83333333],
       [0.5       , 0.5       , 0.6       , 1.        ]])

标准化

In [34]:
from sklearn.preprocessing import StandardScaler

In [35]:
ss=StandardScaler()
arr=ss.fit_transform([[1.,-1.,3.],[2.,4.,2.],[4.,6.,-1.]])
arr

array([[-1.06904497, -1.35873244,  0.98058068],
       [-0.26726124,  0.33968311,  0.39223227],
       [ 1.33630621,  1.01904933, -1.37281295]])

In [36]:
ss.mean_ #查看元素数据的均值

array([2.33333333, 3.        , 1.33333333])

In [37]:
ss.var_ #查看元素数据的方差

array([1.55555556, 8.66666667, 2.88888889])

缺失值处理

In [38]:
from sklearn.preprocessing import Imputer #插入缺失值

In [39]:
b=np.array([[2,4,6],[np.nan,3,4],[1,2,3]])
b

array([[ 2.,  4.,  6.],
       [nan,  3.,  4.],
       [ 1.,  2.,  3.]])

In [41]:
imp=Imputer(missing_values='NaN',strategy='mean',axis=0)
data5=imp.fit_transform(b)
data5

array([[2. , 4. , 6. ],
       [1.5, 3. , 4. ],
       [1. , 2. , 3. ]])

# 降维

特征选择

In [42]:
from sklearn.feature_selection import VarianceThreshold

In [43]:
var=VarianceThreshold(threshold=1.0) #方差阈值设置为1，低于1的数据剔除
data6=var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]])
data6

array([[0],
       [4],
       [1]])

PCA降维

In [44]:
#先求协方差矩阵，再求协方差矩阵的特征值与特征向量，标准化特征向量，最后选取最好的向量
#乘以原来的逆矩阵,就能得到降维后的数据

In [45]:
from sklearn.decomposition import PCA

In [46]:
pca=PCA(n_components=2) #n_components=维度
data7=pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])
data7

array([[ 1.22879107e-15,  3.82970843e+00],
       [ 5.74456265e+00, -1.91485422e+00],
       [-5.74456265e+00, -1.91485422e+00]])

In [47]:
np.array([[2,8,4,5],[6,3,0,8],[5,4,9,1]])

array([[2, 8, 4, 5],
       [6, 3, 0, 8],
       [5, 4, 9, 1]])