In [26]:
import sklearn 
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

## 一：特征抽取

### 1、字典特征抽取

#### 当数据集中有很多类别特征时：1、将数据集的特征->字典类型；2、DicrVectorizer转换

In [1]:
from sklearn.feature_extraction import DictVectorizer

# 字典特征提取
# sklearn.feature_extraction.DictVectorizer(sparse=True)

# 返回sparse矩阵
# DictVectorizer.fit_transform

In [2]:
data = [{'city':'北京','temperature':100},{'city':'上海','temperature':60},{'city':'深圳','temperature':30}]

# 实例化一个转化器类型
transfer = DictVectorizer(sparse=False)

# 调用fit_transform()
new_data = transfer.fit_transform(data)

# 特征名字
transfer.get_feature_names()

print(new_data)

[[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]


### 2、文本特征抽取

In [3]:
from sklearn.feature_extraction.text import CountVectorizer
import jieba

# 返回词频矩阵
# sklaern.feature_extracion.text.CountVectorizer(stop_words=[])

In [4]:
# # # # # # # # # # # # # # # # # # # # # # # # 英文文本 # # # # # # # #  # # # # # # # # # # # # # # # # # #

data = ["life is short, I like like python","lief is too long, I dislike python"]

# 实例化一个转化器类型
transfer = CountVectorizer(stop_words=['is','too'])
# 调用fit_transform()
new_data = transfer.fit_transform(data)

# 稀疏矩阵
# print(new_data)
# 二维矩阵
print(new_data.toarray())
print(transfer.get_feature_names())

[[0 0 1 2 0 1 1]
 [1 1 0 0 1 1 0]]
['dislike', 'lief', 'life', 'like', 'long', 'python', 'short']


In [5]:
# # # # # # # # # # # # # # # # # # # # # # # # # 中文文本 # # # # # # # # # # # # # # # # # # # # # # # # # 

data = ["我 爱 北京 天安门","天安门 上 太阳 升"]

# 实例化一个转化器类型
transfer = CountVectorizer()
# 调用fit_transform()
new_data = transfer.fit_transform(data)

# 稀疏矩阵
#print(new_data)
# 二维矩阵
print(new_data.toarray())
#print(transfer.get_feature_names())

[[1 1 0]
 [0 1 1]]


In [35]:
# # # # # # # # # # # # # # # # # # # # # # #中文文本/自动分词 # # # # # # # # # # # # # # # # # # # # # # # #

data = ["8月16日上午，大连市召开疫情防控新闻发布会，通报疫情最新进展和防控措施等情况。",
       "大连市工业和信息化局副局长张立志介绍，大连市复工复产组工信局、商务局、要求，结合当前疫情防控形势，提出了有序恢复营业的建议。",
       "考虑到部分营业机构服务对象和服务形式的特殊性，将根据疫情发展或上级主管部门要求，由行业主管部门适时决定开放时间。"]

# 分词函数
def cut_word(text):
    return " ".join(list(jieba.cut(text)))

data_new = [cut_word(data) for data in data]

# 实例化一个转化器类型
transfer = CountVectorizer(stop_words=["嘤嘤嘤"])
# 调用fit_transform()
new_data = transfer.fit_transform(data_new)

# 稀疏矩阵
# print(new_data)
# 二维矩阵
print(new_data.toarray())
print(transfer.get_feature_names())

### 3、特征词抽取

In [24]:
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba

data = ["8月16日上午，大连市召开疫情防控新闻发布会，通报疫情最新进展和防控措施等情况。",
       "大连市工业和信息化局副局长张立志介绍，大连市复工复产组工信局、商务局、要求，结合当前疫情防控形势，提出了有序恢复营业的建议。",
       "考虑到部分营业机构服务对象和服务形式的特殊性，将根据疫情发展或上级主管部门要求，由行业主管部门适时决定开放时间。"]

# 分词函数
def cut_word(text):
    return " ".join(list(jieba.cut(text)))

data_new = [cut_word(data) for data in data]

# 实例化一个转化器类型
transfer = TfidfVectorizer()
# 调用fit_transform()
new_data = transfer.fit_transform(data_new)

# 稀疏矩阵
# print(new_data)
# 二维矩阵
print(new_data.toarray())
print(transfer.get_feature_names())

['16', '上午', '上级', '主管部门', '介绍', '信局', '信息化', '决定', '副局长', '发展', '发布会', '召开', '商务局', '复产', '复工', '大连市', '对象', '工业', '建议', '开放', '当前', '形势', '形式', '恢复', '情况', '措施', '提出', '新闻', '时间', '最新进展', '有序', '服务', '机构', '根据', '特殊性', '疫情', '立志', '组工', '结合', '考虑', '营业', '行业', '要求', '适时', '通报', '部分', '防控']


## 二：特征预处理

### 1、归一化

In [1]:
# X' = (X-Xmin)/(Xmax-Xmin)         Xmax～Xmin当前列的最大值与最小值
# X" = X'*(mx-mi)+mi                mx~mi 为想要放缩的区间，比如0～1

In [19]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
path = '/Users/zhangqihao/Desktop/PYTHON/机器学习/机器学习资料1/02-代码/dating.txt'
data = pd.read_csv(path)

# 需要每一行，前3列
data = data.iloc[:,:3]

# 实例化一个转化器类型
transfer = MinMaxScaler(feature_range=[0,1])
# 调用fit_transform()
new_data = transfer.fit_transform(data)
new_data

### 2、标准化

In [None]:
# X' = (X-mean)/std                  std:标准差

In [21]:
from sklearn.preprocessing import StandardScaler

# 实例化一个转化器类型
transfer = StandardScaler()
# 调用fit_transform()
new_data = transfer.fit_transform(data)
new_data

## 三：特征降维

In [None]:
# 降维： 降低特征的个数。 效果： 特征与特征之间不相关。

### 1、特征选择

In [None]:
# 数据中包含冗余或相关变量，从原有特征中找出主要特征

##### （1）Fliter过滤式： 主要探究特征本身特点、特征与特征和目标值之间关联

In [54]:
# 方差选择法：低方差特征过滤（删除低方差的一些特征）

# 特征方差小：某个特征 大多样本的值比较相近
# 特征方差大：某个特征 很多样本的值都有差别

from sklearn.feature_selection import VarianceThreshold

In [59]:
path = '/Users/zhangqihao/Desktop/PYTHON/机器学习/机器学习资料1/02-代码/factor_returns.csv'
data = pd.read_csv(path)
data = data.iloc[:,1:-2]

# 实例化一个转化器类型
transfer = VarianceThreshold(threshold =10)
# 调用fit_transform()
new_data = transfer.fit_transform(data)
new_data.shape

(2318, 7)

In [62]:
# 相关系数: Pearson Correlation Coeifficent

# -1 < r < 1
# r > 0 为正相关；r < 0为负相关
# |r| < 0.4为低度相关; 0.4 < |r| < 0.7为显著性相关; 0.7 < |r| < 0.4为高线性相关

# 若相关性很高： 1、选取其中一个； 2、加权求和； 3、主成分分析

from scipy.stats import pearsonr

In [66]:
pearsonr(data["pe_ratio"], data["pb_ratio"])

(-0.004389322779936262, 0.8327205496564927)

##### （2）Embedded嵌入式：算法自动选择特征（特征与目标值之间的关联）

In [42]:
# 决策树：信息熵，信息增益
# 正则化： L1, L2
# 深度学习：卷积神经网络

### 2、主成分分析

In [75]:
# n_components: 小数 表示保留百分之多少的信息
#               整数 减少到多少特征

from sklearn.decomposition import PCA

In [84]:
data = [[2,8,4,5],[3,5,8,9],[5,7,9,8]]

# 实例化一个转化器类型
transfer = PCA(n_components=2)
# 调用fit_transform()
new_data = transfer.fit_transform(data)
new_data

array([[ 4.2423715 , -0.04779136],
       [-2.02483453,  1.60209606],
       [-2.21753697, -1.5543047 ]])