In [2]:
############################# 
## 特征抽取API: sklearn.feature_extraction
############################# 

# 对字典数据进行特征提取sklearn.feature_extraction.DictVectorizer
from sklearn.feature_extraction import DictVectorizer

# DictVectorizer.fit_transform(X)       
# X:字典或者包含字典的迭代器
# 返回值：返回sparse矩阵
# DictVectorizer.inverse_transform(X)
# X:array数组或者sparse矩阵
# 返回值:转换之前数据格式
# DictVectorizer.get_feature_names()
# 返回类别名称
# DictVectorizer.transform(X)
# 按照原先的标准转换

def dictVec(data):
    dict = DictVectorizer(sparse = False)
    data = dict.fit_transform(data)
    print(dict.get_feature_names())
    return data

dictVec([{'name': "Jim", 'Age': 18}, {'name': "Ben", 'Age': 28}])

['Age', 'name=Ben', 'name=Jim']


array([[18.,  0.,  1.],
       [28.,  1.,  0.]])

In [6]:
# 对文本特征抽取sklearn.feature_extraction.CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer 

# CountVectorizer.fit_transform(X,y)       
# X:文本或者包含文本字符串的可迭代对象
# 返回值：返回sparse矩阵
# CountVectorizer.inverse_transform(X)
# X:array数组或者sparse矩阵
# 返回值:转换之前数据格式
# CountVectorizer.get_feature_names()
# 返回值:单词列表

def textVec(data):
    text = CountVectorizer()
    data = text.fit_transform(data)
    
    # 返回单词列表
    print(text.get_feature_names())
    
    # toarary()将sparse矩阵转换成array
    print(data.toarray())
    
    return data

textVec(["I'm a student. Hey who are you ?", "how are you guys"])

['are', 'guys', 'hey', 'how', 'student', 'who', 'you']
[[1 0 1 0 1 1 1]
 [1 1 0 1 0 0 1]]


<2x7 sparse matrix of type '<class 'numpy.int64'>'
	with 9 stored elements in Compressed Sparse Row format>

In [None]:
############################# 
## 数据的特征处理
############################# 

#### 目的：通过特定的统计方法将数据转换成算法要求的数据
### 方法：
## 1.数值型数据
# 1). 归一化
# 2). 标准化
## 2. 类别型数据：one-hot编码
## 3. 时间型数据：时间的切分

In [None]:
############################# 
## 特征处理API: sklearn.preprocessing
############################# 

### 归一化：将数据映射到某个数值区间。默认是（0，1）
# 归一化API：sklearn.preprocessing.MinMaxScaler
# MinMaxScalar(feature_range=(0,1)…)
#  MinMaxScalar.fit_transform(X)       
#  X:numpy array格式的数据[n_samples,n_features]
#  返回值：转换后的形状相同的array

### 标准化：把数据变换到均值为0，方差为1的范围内
# 特征化API:  scikit-learn.preprocessing.StandardScaler
# StandardScaler.fit_transform(X,y)       
#  X:numpy array格式的数据[n_samples,n_features]
#  返回值：转换后的形状相同的array

# StandardScaler.mean_
# 原始数据中每列特征的平均值

# StandardScaler.std_
# 原始数据每列特征的方差


In [None]:
############################# 特征选择：从提取到的所有特征中选择部分特征作为训练集特征。
### 有三种方式：
### 1. Filter
### 2. Embedded
### 3. Wrapper

In [6]:
# Filter：删除方差低的特征
# VarianceThreshold
from sklearn.feature_selection import VarianceThreshold
def filterVariance(data):
    # 指定方差的阈值，低于该阈值的方差的特征会被删除
    var = VarianceThreshold(threshold = 0)
    data = var.fit_transform(data)
    
    return data


filterVariance([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])


array([[2, 0],
       [1, 4],
       [1, 1]])

In [15]:
############################# 
# 和特征选择具有相似功能的方法是降维，主成分分析（PCA）是一种常用的降维方法
# PCA可以减少回归或者聚类分析中特征的数量
from sklearn.decomposition import PCA
def pca(data):
    pca = PCA(n_components = 0.9)
    data = pca.fit_transform(data)
    
    return data


pca([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])

array([[-1.76504522],
       [ 2.35339362],
       [-0.58834841]])

In [None]:
# PCA和特征选择的比较
# 特征数量较多使用主成分分析

In [None]:
## 机器学习算法分类
# 监督学习：特征值+目标值。分类，回归
# 非监督学习：特征值。聚类