# 数据集

In [2]:
from sklearn.datasets import load_iris  #导入机器学习库内置的iris（鸢尾花）数据集，类别有山鸢尾、变色鸢尾、维吉尼亚鸢尾三种。

In [3]:
data=load_iris( )  #以字典形式存储
x=data['data']#样本
y=data['target']#样本标签

In [5]:
data.keys() #['data', 'target', 'target_names', 'DESCR', 'feature_names']  DESCR：数据集说明。特征：萼片长度、萼片宽度、花瓣长度、花瓣宽度
# data['target_names']
data['feature_names']

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [4]:
# 从sklearn导出数据并保存，pandas是工具集；用于数据挖掘和数据分析，同时也提供数据清洗功能。
import pandas as pd
iris=pd.DataFrame(x)#DataFrame是二维表
iris.columns=data['feature_names']#二维表的列是样本的特征
iris['target']=y#赋值操作，将样本标签值赋值给target列
iris.to_csv(R'C:\Users\14660\Desktop\bigdata\cdata\2\irisshiyan.csv')#打开表

In [5]:
# 划分测试集和训练集
from sklearn.model_selection import train_test_split
x_tr,x_te,y_tr,y_te=train_test_split(x,y,test_size=0.2,random_state=123)#random_state:随机数种子，抽取数据的顺序是随机的，一定是整数

In [6]:
print('原始数据大小',x.shape)
print('训练集大小',x_tr.shape)
print('测试集大小',x_te.shape)

原始数据大小 (150, 4)
训练集大小 (120, 4)
测试集大小 (30, 4)


In [7]:
pd.Series(y_tr).value_counts( )#每种标签的样本数量

1    44
2    39
0    37
dtype: int64

In [8]:
# 数据标准化，通过标准化处理，可以使不同的特征具有相同的尺度（Scale），使特征的量纲和数值得量级一样
from sklearn.preprocessing import MinMaxScaler
scaler=MinMaxScaler( )
scaler.fit(x_tr)#无输出结果
#前两句等同于scaler=MinMaxScaler().fit(x_tr)
scaler.transform(x_tr)#计算标准化数据，fit和transfrom是配套使用

array([[0.85714286, 0.33333333, 0.86440678, 0.75      ],
       [0.45714286, 0.08333333, 0.6779661 , 0.58333333],
       [0.08571429, 0.5       , 0.10169492, 0.04166667],
       [0.2       , 0.625     , 0.06779661, 0.04166667],
       [0.45714286, 0.08333333, 0.50847458, 0.375     ],
       [0.17142857, 0.125     , 0.38983051, 0.375     ],
       [1.        , 0.75      , 0.91525424, 0.79166667],
       [0.28571429, 0.79166667, 0.11864407, 0.125     ],
       [0.28571429, 0.79166667, 0.05084746, 0.125     ],
       [0.4       , 0.29166667, 0.49152542, 0.45833333],
       [0.17142857, 0.        , 0.42372881, 0.375     ],
       [0.17142857, 0.5       , 0.03389831, 0.04166667],
       [0.68571429, 0.5       , 0.83050847, 0.91666667],
       [0.65714286, 0.41666667, 0.71186441, 0.91666667],
       [0.4       , 0.29166667, 0.69491525, 0.75      ],
       [0.4       , 0.33333333, 0.69491525, 0.95833333],
       [0.54285714, 0.58333333, 0.77966102, 0.95833333],
       [0.31428571, 0.125     ,

# 建模

In [9]:
#k-means聚类
from sklearn.cluster import KMeans
#构造模型
model = KMeans(n_clusters=3,random_state=333)# n_clusters=3 是想聚成3类，控制 KMeans 算法中随机过程的可复现性
#训练模型
x_tr_scaler=scaler.transform(x_tr)
model.fit(x_tr_scaler)
y_pre=model.labels_ #内置属性
y_pre
#查看聚类中心
model.cluster_centers_ #内置属性
pd.Series(y_pre).value_counts()#统计聚类结果，即每种标签的数量，轮廓系数和指数评价法无须真实值

2    50
1    37
0    33
dtype: int64

In [11]:
#模型评价
from sklearn.metrics import adjusted_rand_score,silhouette_score
#有真实值的评价
adjusted_rand_score(y_pre,y_tr)
#没有真实值的评价，表示畸变程度
for i in range(2,5):
    #构造模型
    model = KMeans(n_clusters=i,random_state=333)# n_clusters=3 是想聚成3类
    #训练模型
    model.fit(x_tr_scaler)
    y_pre=model.labels_ #内置属性
    print(silhouette_score(x_tr_scaler,y_pre))

0.6145063845065548
0.4856420332265787
0.433611140389592


In [12]:
#分类
from sklearn.tree import DecisionTreeClassifier
#建模
model=DecisionTreeClassifier()
#训练模型
model.fit(x_tr,y_tr)
#预测模型
sum(model.predict(x_te)==y_te)/len(y_te)

0.9666666666666667

In [13]:
#分类模型评估
from sklearn.metrics import classification_report
print(classification_report(y_te,model.predict(x_te)))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        13
           1       0.86      1.00      0.92         6
           2       1.00      0.91      0.95        11

    accuracy                           0.97        30
   macro avg       0.95      0.97      0.96        30
weighted avg       0.97      0.97      0.97        30



In [None]:
#分类
from sklearn.tree import DecisionTreeClassifier
#建模
model=DecisionTreeClassifier()
#训练模型
model.fit(x_tr,y_tr)
#预测模型
sum(model.predict(x_te)==y_te)/len(y_te)
