# sklearn中的数据集

## <mark style=background-color:pink>数据集获取<mark>
    
**sklearn.datasets**
- 获取流行数据集
- **datasets.load**_*()：获取小规模数据集，数据包含在datasets里
- **datasets.fetch**_*(data_home=None)：获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表示数据集下载的目录，默认是~/scikit_learn_data
    
**load**和**fetch**返回的数据类型都是datasets.base.Bunch(**字典格式**)：
- **data**：特征数据数组，是（n_samples，m_features）的二维numpy.ndarray数组
- **target**：标签数组，是一维numpy.ndarry数组(n,)
- **DESCR**：数据描述
- **feature_names**：特征名，新闻数据，手写数字，回归数据集没有
- **target_names**：标签名

## <mark style=background-color:pink>分类数据集<mark>

### <mark>①鸢尾花数据集<mark>

- 类别：3类，分别是'setosa'，'versicolor'，'virginica'
- 特征：4个，分别是'sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'
- 样本数量：150
- 每个类别数量：50
- 类：**sklearn.datasets.load_iris**

In [None]:
#导入鸢尾花数据集的类
from sklearn.datasets import load_iris

#实例化鸢尾花数据集的类
iris = load_iris()

#获取特征值
print(iris.data)

#获取目标值(标签)
print(iris.target)

#查看数据情况,(150,4)表示150个样本，对应四个特征值
print(iris.data.shape)

#查看鸢尾花数据集的特征
print(iris.feature_names)

#查看鸢尾花数据集的类别
print(iris.target_names)

#而以上信息，其实只需要用一下方式就可以看到
print(iris.DESCR)

### <mark>②数字数据集<mark>

- 类别：10类
- 特征：64个
- 样本数量：1797
- 类：**sklearn.datasets.load_digits**

In [None]:
#导入数字数据集的类
from sklearn.datasets import load_digits

#实例化数字数据集的类
digits = load_digits()

#获取特征值
print(digits.data)

#获取目标值(标签)
print(digits.target)

#查看数据情况,(150,4)表示150个样本，对应四个特征值
print(digits.data.shape)

#查看数字数据集的特征
print(digits.feature_names)

#查看数字数据集的类别
print(digits.target_names)

#而以上信息，其实只需要用一下方式就可以看到
print(digits.DESCR)

### <mark>③新闻数据集<mark>

- 用于分类的新闻大数据集
- 类：**sklearn.datasets.fetch_20newsgroups**
- 实例化语法：**sklearn.datasets.fetch_20newsgroups(data_home=None,subset='train'|'test'|'all')**
- 清除目录下的数据集：datasets.clear_data_home(data_home=None)
    

In [None]:
#导入新闻数据集的类
from sklearn.datasets import fetch_20newsgroups

#实例化新闻数据集的类
newsgroups = fetch_20newsgroups(data_home=r'E:\jupyterlab\ML',subset='all')

#获取特征值
print(newsgroups.data)

#获取目标值(标签)
print(newsgroups.target)


## <mark style=background-color:pink>回归数据集<mark>

### <mark>①波士顿房价数据集<mark>

- 类别：5-50
- 特征：13
- 样本数量：506
- 类：**sklearn.datasets.load_boston**

### <mark>②糖尿病数据集<mark>

- 类别：25-346
- 特征：10
- 样本数量：442
- 类：**sklearn.datasets.load_diabetes**

## <mark style=background-color:pink>数据集划分<mark>
    
机器学习一般的数据集都会划分为两个部分：
- **训练集**：用于训练，构建模型
- **测试集**：在模型校验时使用，用于评估模型是否有效
    
一般训练集和测试集的比例划分：
- 训练集：测试集 = 70% ：30%
- 训练集：测试集 = 80% ：20%
- 训练集：测试集 = **75% ：25%**

### <mark>sklearn中数据集划分<mark>

**sklearn.model_selection.train_test_split**
- sklearn.model_selection.train_test_split(*arrays,**options)
- X：数据集的特征值
- Y：数据集的标签值
- test_size：**测试集的大小**，一般为float
- random_state：随机数种子，不同的种子会造成不同的随机采样结果，相同的种子采样结果相同
- return：训练集特征值X_train，测试集特征值X_test，训练集标签Y_train，测试集标签Y_test (默认随机抽取)
    


### <mark>以鸢尾花数据集为例划分数据集<mark>

In [None]:
#导入
from sklearn.model_selection import train_test_split

#注意返回值：训练集特征值X_train，测试集特征值X_test，训练集标签Y_train，测试集标签Y_test
X_train,X_test,Y_train,Y_test = train_test_split(iris.data,iris.target,test_size=0.25)

#查看训练集和测试集
#print("训练集的特征值和目标值：",X_train,Y_train)
#print("测试集的特征值和目标值：",X_test,Y_test)