In [None]:
# Bunch对象 的简要描述
"""
在真正进入数据集学习之前需要先认识一个特别的数据结构: Bunch对象

Bunch 是 sklearn.utils 模块中定义的一个类，继承自 Python 的 dict
可以将 Bunch对象 理解为做了功能扩展的字典
"""

# Bunch对象 的设计目的，及其优势
"""
Bunch 对象是 scikit-learn 中专门设计的数据容器


支持点号属性访问：
    from sklearn.datasets import load_iris
    iris = load_iris()
    iris.data = value
    value = iris.data


数据科学优化：预定义标准键名，形成约定俗成的数据结构
    {
        'data':         ndarray,        # 特征矩阵 (n_samples, n_features)
        'target':       ndarray,        # 标签数组 (n_samples,)
        'feature_names':list,           # 特征名称列表
        'target_names': list,           # 类别名称列表
        'DESCR':        str,            # 数据集描述文本
        'filename':	    str,            # 数据集文件名 (scikit-learn < 1.2时返回完整文件路径)
        'frame':        pd.DataFrame,	# 包含数据的Pandas DataFrame（较新版本中已弃用）
        'data_module':	str	            # 数据集来源模块
    }
"""


# 在 scikit-learn 中 Bunch对象 的使用
"""
所有通过 load_* 和 fetch_* 加载的真实世界数据集都返回 Bunch 对象

    玩具数据集（load_* 函数），例如: load_iris(), load_digits(), load_wine() 等
        iris = load_iris()
        digits = load_digits()
        wine = load_wine()
        # 上面这三行代码都返回 Bunch 对象
    
    下载型数据集（fetch_* 函数），例如：fetch_california_housing(), fetch_20newsgroups() 等
        california_housing = fetch_california_housing()
        newsgroups = fetch_20newsgroups()
        # 上面两行代码都返回 Bunch 对象
"""

In [None]:
# 加载本地玩具数据集
from sklearn.datasets import load_iris
iris = load_iris()   # 加载鸢尾花数据集（返回一个 Bunch 对象）
"""
参数解释：
    return_X_y: bool = False,   # 控制函数返回的数据格式返回格式控制(False:返回Bunch对象(默认);True:返回(data, target)元组)
    as_frame: bool = False      # 控制数据是否以 Pandas DataFrame 格式返回(不但会将Bunch.data转换成DataFrame，而且会填充Bunch.frame属性)

注意：上面这两个参数是互斥的，不能同时为True
"""
print(iris.keys())  


data = iris.data    # 鸢尾花数据集的特征矩阵
print(data[:5])     # 输出前五个样本特征
# 注：此处 data 为 numpy.ndarray 类型，是一个二维数组，每一行代表一个样本，每一列代表一个特征


print(iris.target)  # 鸢尾花数据集的标签数组
# 注：标签数组中只有数字，每个数字对应 data 中的对应行的数据所对应的种类


print(iris.feature_names)   # 特征名称：['萼片长度', '萼片宽度', '花瓣长度', '花瓣宽度']
print(iris.target_names)    # 种类(标签)名称：'setosa-山鸢尾' 'versicolor-变色鸢尾' 'virginica-维基利亚鸢尾'


print(iris.filename)    # 数据集的文件名
print(iris.DESCR)       # 数据集的描述

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
['setosa' 'versicolor' 'virginica']
iris.csv
.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive attributes and the class
:Attribute Information:
    - sepal length in cm
    - sepal width in cm
    - petal length in cm
    - petal width in cm
    - class:
         

In [3]:
# 加载联网下载的数据集(会先在你指定的路径中寻找数据集，如果没有则下载)


# 查看数据集默认的下载路径
from sklearn import datasets
path = datasets.get_data_home()
print(path)     # C:\Users\26595\scikit_learn_data


# 以20篇新闻组数据集为例
from sklearn.datasets import fetch_20newsgroups
news = fetch_20newsgroups(data_home="./src")  
"""
参数详解：
    data_home: str | None = None,                   # [可选] 数据集存储路径
    subset: Literal['train', 'test', 'all'] = "train",  # 加载的数据子集
    categories: ArrayLike | None = None,            # [可选] 指定加载的新闻类别
    shuffle: bool = True,                           # 是否打乱数据顺序(仅在 subset='all' 时有效)
    random_state: Int | RandomState | None = 42,    # 随机种子
    remove: tuple = ...,                            # 移除文本中的元数据部分
                                                        可选值：
                                                            ('headers')：移除邮件头
                                                            ('footers')：移除邮件尾
                                                            ('quotes')：移除引用内容
                                                            ('headers', 'footers')：组合移除
    download_if_missing: bool = True,               # 缺失时自动下载
    return_X_y: bool = False                        # 返回格式控制(False:返回Bunch对象(默认);True:返回(data, target)元组)
"""


print(news.keys())

print(news.target_names)



C:\Users\26595\scikit_learn_data
dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])
['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']
['./src\\20news_home\\20news-bydate-train\\rec.autos\\102994'
 './src\\20news_home\\20news-bydate-train\\comp.sys.mac.hardware\\51861'
 './src\\20news_home\\20news-bydate-train\\comp.sys.mac.hardware\\51879'
 ...
 './src\\20news_home\\20news-bydate-train\\comp.sys.ibm.pc.hardware\\60695'
 './src\\20news_home\\20news-bydate-train\\comp.graphics\\38319'
 './src\\20news_home\\20news-bydate-train\\rec.motorcycles\\104440']


In [4]:
# 加载自己的数据
import pandas as pd
data=pd.read_csv("./src/ss.csv")
data=data.to_numpy()
print(data)

data=pd.read_excel("./src/data.xlsx")
print(data)

[['小王' 23 '女']
 ['小李' 34 '  男']
 ['小陶' 40 ' 32']]
    语文  数学  英语   综合
0  123  34  44  123
1   33  44  33  234
2   33  55  66  190
