### 建立在NumPy、SciPy和matplotlib等科学计算库的基础上，用于机器学习的Python开源库

### 基础用法包括：
* 数据预处理：探索数据清洗、缩放和编码分类变量等工具。

* 训练集和测试集划分：使用Scikit-Learn的train_test_split函数将数据集划分为训练集和测试集。

* 模型训练：应用不同的机器学习算法，如线性回归、逻辑回归、决策树和随机森林，对数据集进行训练。

* 模型评估：使用准确率、精确率、召回率和F1分数等评估指标评估模型性能。

#### Scikit-Learn中默认携带了Iris（鸢尾花数据集）breast-cancer(乳腺癌数据集)，我们可以借助这两个数据集来进行sklearn的入门学习。本文使用Iris进行演示。

### 数据预处理
#### 读取数据集
datasets

### 默认数据格式
Sklearn 里模型能直接使用的数据有两种形式：

Numpy二维数组 (ndarray)的稠密数据 (dense data)，通常都是这种格式。
SciPy矩阵 (scipy.sparse.matrix)的稀疏数据 (sparse data)，比如文本分析每个单词(字典有100000个词)做独热编码得到矩阵有很多0，这时用ndarray就不合适了，太耗内存。

### 划分测试集
train_test_split(*arrays,test_size=None,train_size=None,random_state=None,shuffle=True,stratify=None):
* shuffle 是否在划分前打乱顺序
* stratify 当设置了 stratify 参数，数据集将以分层的方式被分割，以确保训练集和测试集中各类别（标签）的样本比例与整个原始数据集中的比例一致。

### 数据缩放
特征缩放是指将数据集中的特征值进行标准化或归一化的过程。
特征缩放的目的是为了消除特征之间的量纲差异，使得不同特征之间的比较更加合理和准确。

### 线性模型
from sklearn.linear_model import Perceptron
from sklearn.linear_model import LogisticRegression

### SVM
from sklearn.svm import SVC

#### 使用SVM核函数来处理非线性问题
在支持向量机（SVM）中，核技巧（kernel trick）是一种强大的方法，用于在高维空间中找到分离超平面，特别是当数据在原始特征空间中是非线性可分的。核技巧的核心思想是通过一个非线性映射将原始数据映射到一个更高维的空间，在这个新空间中，原本非线性可分的数据可能变得线性可分。

### 决策树
最大化信息增益 - 获取最大收益
from sklearn.tree import DecisionTreeClassifier
### 集成学习
from sklearn.ensemble import RandomForestClassifier

### KNN
K最近邻（K-Nearest Neighbors，简称KNN）算法主要被用作有监督学习中的分类和回归算法，而不是聚类算法。

### SGDClassifier
是一个使用随机梯度下降（Stochastic Gradient Descent，SGD）进行优化的通用线性分类器。
from sklearn.linear_model import SGDClassifier

ppn = SGDClassifier(loss='perceptron')
lr = SGDClassifier(loss='log')
svm = SGDClassifier(loss='hinge')

### 特征抽取

In [None]:
from sklearn.feature_extraction import DictVectorizer
v = DictVectorizer(sparse=False)
D = [{'foo': 1, 'bar': 2}, {'foo': 3, 'baz': 1}]
X = v.fit_transform(D)

### 特征选择

In [12]:
from sklearn.datasets import load_digits
from sklearn.feature_selection import SelectKBest, chi2
X, y = load_digits(return_X_y=True)
print(X.shape)
## 特征选择
X_new = SelectKBest(chi2, k=2).fit_transform(X, y)
print(X_new.shape)
# SelectKBest：这个方法用于选择最好的 K 个特征。它根据统计测试选择特征，以保留最相关的特征。
# chi2：卡方检验，用于分类任务。它评估每个特征和目标变量之间的独立性。卡方值越高，表明特征和目标变量的相关性越强。
# k=20：指定选择的特征数量。这意味着从所有可用特征中选择 20 个最重要的特征。

(1797, 64)
(1797, 2)
[[ 5. 11.]
 [ 0.  1.]
 [ 1. 16.]
 ...
 [ 0. 16.]
 [ 0.  0.]
 [ 0. 16.]]


### 拟合与预测
#### 拟合训练集
knn.fit(X_train,y_train)

#### 预测
y_pred=knn.predict(X_test)

### 模型评估
#### 求精度
knn.score(X_test,y_test)
#### 绘制混淆矩阵
from sklearn.metrics import confusion_matrix
#### 绘制ROC曲线
from sklearn.metrics import roc_curve,roc_auc_score