In [79]:
import numpy as np
import matplotlib as mpl
import pandas as pd
from matplotlib import pyplot as plt
import warnings
from sklearn import datasets  # 数据集
from sklearn import tree  # 决策树
from sklearn.tree import DecisionTreeClassifier   # 分类树
from sklearn.model_selection import train_test_split  # 拆分训练集与测试集
from sklearn.pipeline import Pipeline  # 管道
from sklearn.feature_selection import SelectKBest  # 特征选择
from sklearn.feature_selection import chi2,f_classif # 特征选择

from sklearn.preprocessing import MinMaxScaler,LabelEncoder  # 数据归一化
from sklearn.decomposition import PCA  # 主成分分析
from sklearn.model_selection import GridSearchCV  # 网格搜索交叉验证，用于选择最优的参数

In [80]:
## 设置属性防止中文乱码
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

In [81]:
warnings.filterwarnings("ignore",category=FutureWarning)

In [82]:
iris_featuer_E = 'sepal length', 'sepal width', 'petal length', 'petal width'  # 数据集特征列英文名称
iris_feature_C =  '花萼长度', '花萼宽度', '花瓣长度', '花瓣宽度'               # 数据集特征列中文名称
iris_class = 'Iris-setosa', 'Iris-versicolor', 'Iris-virginica'                # 样本类别

In [83]:
# 读取数据
path = "./datas/iris.data"
data = pd.read_csv(path,header=None)
# data.head()  
X = data[list(range(4))]  # 获取所有特征变量
le = LabelEncoder()


# 将样本类别标签转化成0，1，2 等数字类型

# y = le.fit_transform(data[4])

y = pd.Categorical(data[4]).codes

print("总样本数：%d;特征属性数目：%d" % X.shape)
print(y)

总样本数：150;特征属性数目：4
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


In [84]:
data.head()

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [85]:
# 对数据集进行分割【训练集和测试集】
x_train,x_test,y_train,y_test = train_test_split(X,y,train_size=0.8,random_state=14)
print("训练集样本数目：%d；测试集样本数目：%d" % (x_train.shape[0],x_test.shape[0]))
# 目标变量转化成数值类型
y_train = y_train.astype(np.int)
y_test = y_test.astype(np.int)

训练集样本数目：120；测试集样本数目：30


In [86]:
y_train

array([0, 1, 1, 0, 1, 0, 2, 1, 2, 1, 2, 0, 0, 1, 2, 2, 0, 0, 0, 1, 0, 0,
       2, 2, 1, 2, 2, 0, 1, 2, 1, 1, 2, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2,
       2, 0, 0, 2, 0, 2, 0, 0, 2, 1, 0, 1, 2, 2, 2, 1, 1, 2, 1, 2, 2, 2,
       0, 2, 1, 1, 0, 2, 1, 1, 1, 1, 1, 0, 0, 0, 0, 1, 2, 2, 0, 2, 0, 1,
       2, 0, 1, 0, 0, 2, 2, 2, 0, 2, 2, 1, 1, 0, 2, 2, 0, 2, 1, 0, 2, 0,
       0, 0, 2, 1, 2, 2, 1, 0, 1, 2])

In [87]:
x_train.head()

Unnamed: 0,0,1,2,3
39,5.1,3.4,1.5,0.2
93,5.0,2.3,3.3,1.0
73,6.1,2.8,4.7,1.2
14,5.8,4.0,1.2,0.2
69,5.6,2.5,3.9,1.1


In [88]:
#数据标准化
#StandardScaler (基于特征矩阵的列，将属性值转换至服从正态分布)
#标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，将样本的特征值转换到同一量纲下
#常用与基于正态分布的算法，比如回归

#数据归一化
#MinMaxScaler （区间缩放，基于最大最小值，将数据转换到0,1区间上的）
#提升模型收敛速度，提升模型精度
#常见用于神经网络

#Normalizer （基于矩阵的行，将样本向量转换为单位向量）
#其目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准
#常见用于文本分类和聚类、logistic回归中也会使用，有效防止过拟合

ss = MinMaxScaler()
# 用标准化方法对数据进行处理并转换

x_train = ss.fit_transform(x_train)
x_test = ss.transform(x_test)

print("原始数据各个特征的调整最小值：",ss.min_)
print("原始数据各个特征的缩放数据值：",ss.scale_)

原始数据各个特征的调整最小值： [-1.19444444 -0.83333333 -0.18965517 -0.04166667]
原始数据各个特征的缩放数据值： [0.27777778 0.41666667 0.17241379 0.41666667]


In [89]:
# 特征选择： 从已有的特征中选择出影响目标值最大的特征属性
# 常用方法：{分类：F统计量f_classif 卡方系数chi2,互信息mutual_info_classif(minepy)}
            # 连续：皮尔逊相关系数 F统计量 互信息mutual_info_classif
# SelectKBest(卡方系数)

ch2  = SelectKBest(chi2,k=3) # 使用SelectKBest从4个原始特征中选择出3个特征

# k默认为10



x_train = ch2.fit_transform(x_train,y_train) # 训练并转换


x_test = ch2.transform(x_test)  # 转换

# 获取筛选出的三个特征索引
select_name_index = ch2.get_support(indices=True)

print("对类别判断影响最大的三个特征属性分布是：",ch2.get_support(indices=False))
print(select_name_index)

对类别判断影响最大的三个特征属性分布是： [ True False  True  True]
[0 2 3]


In [90]:
# 降维： 对于数据而言，如果特征属性较多，在构建过程中，会比较复杂，这个时候，考虑将多维（高维）降至维度较少的数据（低维）
# 常用的方法：
# PCA   主成分分析（无监督）
# LDA 线性判别分析（有监督）类内方差最小，人脸识别，通常先做一次pac

pca = PCA(n_components=2)  # 构建pca对象，设置最终维度是2维

# 这里是为了后面画图方便，所以将维度设置成2维，一般用默认不设置参数即可

x_train = pca.fit_transform(x_train)  # 训练并转换
x_test = pca.transform(x_test)   # 转换

In [91]:
# 模型的构建
model = DecisionTreeClassifier(criterion="entropy",random_state=0)  # criterion 也可选gini


# 模型训练

model.fit(x_train,y_train)

# 模型预测
y_test_pred = model.predict(x_test)


In [113]:
# 模型结果的评
y_test2 = y_test.reshape(-1)
result = (y_test2 == y_test_pred)
print("准确率：%.2f%%" % (np.mean(result)*100))

# 实际可通过参数获取
print("Score:",model.score(x_test,y_test))
print("Classes:",model.classes_)

准确率：96.67%
Score: 0.9666666666666667
Classes: [0 1 2]


In [129]:
# 画图
N = 100
x1_min = np.min((x_train.T[0].min(),x_test.T[0].min()))
x1_max = np.min((x_train.T[0].max(),x_test.T[0].max()))
x2_min = np.min((x_train.T[1].min(),x_test.T[1].min()))
x2_max = np.min((x_train.T[1].max(),x_test.T[1].max()))

t1 = np.linspace(x1_min,x1_max,N)
t2 = np.linspace(x2_min,x2_max,N)

x1,x2 = np.meshgrid(t1,t2)  # 生成网格采样

x_show  = np.dstack((x1.flat,x2.flat))[0] # 测试点

y_show_hat = model.predict(x_show)  # 预测值
y_show_hat = y_show_hat.reshape(x1.shape) # 使之与输入的形状相同

print(y_show_hat.shape)

y_show_hat[0]

(100, 100)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [123]:
x_train.T[0].min()

-0.8079421562071482

In [124]:
np.min(1,2)

AxisError: axis 2 is out of bounds for array of dimension 0