##  1. 基本学习模型


![image.png](attachment:image.png)

在sklearn中包含的经典学习模块主要有五种：

- 线性模型，回归任务中对应线性回归，分类任务则对应即逻辑回归，或者叫对数几率回归，实质是通过线性回归拟合对数几率的方式来实现二分类。
- K近邻，最简单易懂的机器学习模型，无需训练（惰性模型），仅仅是通过判断自己所处位置周边的样本判断类比或者拟合结果
- 决策树，这是一个直观而又强大的机器学习模型，训练过程主要包括特征选择-切分-剪枝，典型的3个决策树是ID3、C4.5和CART，其中CART树既可用于分类也可用于回归。
- 支持向量机，一个经典的机器学习模型，最初也是源于线性分类，通过最大化间隔实现最可靠的分类边界。

- 朴素贝叶斯，源于概率论中贝叶斯全概率公式，模型训练的过程就是拟合各特征分布概率的过程，而预测的过程则是标出具有最大概率的类比，是一个纯粹的依据概率完成分类任务的模型。

## 2. 基本使用流程


- 选择模型类: 选择需要的模型
- 选择模型超参数：对模型进行简单配置
- 用模型拟合训练数据：训练模型
- 用模型预测新数据的标签：预测结果
- 对模型进行评估-改进，循环到达到目标


In [2]:
# 例1 鸢尾花分类

from sklearn.datasets import load_iris

# 加载数据
iris = load_iris()

X = iris.data
y = iris.target

#使用ｋ临近分类器
#选择k临近模型
#这样的模型还有很多......也是我们学习的主要任务
from sklearn.neighbors import KNeighborsClassifier

#配置超参数n_neighbors=3
model  = KNeighborsClassifier(n_neighbors=3)

#训练模型
model.fit(X, y)

#利用训练好的模型预测结果
y_model = model.predict(X)

#计算模型准确率
from sklearn.metrics import accuracy_score
rst = accuracy_score(y, y_model)

print("模型准确率：{}％".format(rst * 100))

模型准确率：96.0％


In [15]:
# 例2 回归实例

#导入相关的包
import matplotlib.pyplot as plt
import numpy as np 
from sklearn import datasets,linear_model
from sklearn.metrics import mean_squared_error,r2_score

#加载数据集
X,y =datasets.load_diabetes(return_X_y=True)

print(X.shape)

# 可以看到有442个样本，每个样本有10个特征

#自己划分数据集
X_train=X[:-20]
X_test=X[-20:]
y_train=y[:-20]
y_test=y[-20:]

print(y_test.shape)
print(X_test.shape)

#从线性库中选择一个回归函数
regr=linear_model.LinearRegression()

# 训练模型
regr.fit(X_train,y_train)

#预测
y_pred=regr.predict(X_test)


#打印训练出来的系数
print(regr.coef_)

# 打印平均方差
print(mean_squared_error(y_test,y_pred))


(442, 10)
(20,)
(20, 10)
[ 3.03499549e-01 -2.37639315e+02  5.10530605e+02  3.27736980e+02
 -8.14131709e+02  4.92814588e+02  1.02848452e+02  1.84606489e+02
  7.43519617e+02  7.60951722e+01]
2004.5676026898211
