### homework1：完成DictVectorizer，CountVectorizer, TfidfVectorizer的练习，并理解其原理

In [1]:
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA
import jieba
import numpy as np
from sklearn.impute import SimpleImputer

DictVectorizer

In [4]:
def dict_vectorizer_demo():
    """
    字典数据抽取示例
    将字典数据转换为特征矩阵，展示特征名称和反向转换结果
    :return: None
    """
    # 初始化 DictVectorizer 对象，设置 sparse=True 表示返回稀疏矩阵
    dictv = DictVectorizer(sparse=True)
    # 初始化 DictVectorizer 对象，设置 sparse=False 表示返回稠密矩阵
    # dict1 = DictVectorizer(sparse=False)

    # 定义字典数据，包含城市和温度信息
    # fit_transform 的作用是同时完成 拟合（学习数据特性） 和 转换（将数据转换为模型可用的格式）。
    data = dictv.fit_transform([{'city': '北京', 'temperature': 100},
                                {'city': '上海', 'temperature': 60},
                                {'city': '深圳', 'temperature': 30}])

    # 打印转换后的特征矩阵（稀疏矩阵格式）
    print(data)
    print('-' * 50)

    # 打印特征名称（即转换后的列名）
    print(dictv.get_feature_names_out())
    print('-' * 50)

    # 将特征矩阵反向转换为原始字典格式
    print(dictv.inverse_transform(data))
    return None


# 调用函数，运行示例
dict_vectorizer_demo()

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 6 stored elements and shape (3, 4)>
  Coords	Values
  (0, 1)	1.0
  (0, 3)	100.0
  (1, 0)	1.0
  (1, 3)	60.0
  (2, 2)	1.0
  (2, 3)	30.0
--------------------------------------------------
['city=上海' 'city=北京' 'city=深圳' 'temperature']
--------------------------------------------------
[{'city=北京': np.float64(1.0), 'temperature': np.float64(100.0)}, {'city=上海': np.float64(1.0), 'temperature': np.float64(60.0)}, {'city=深圳': np.float64(1.0), 'temperature': np.float64(30.0)}]


CountVectorizer

In [5]:
def count_vectorizer_demo():
    """
    文本特征提取示例
    使用 CountVectorizer 将文本数据转换为词频矩阵
    对文本进行特征值化,单个汉字单个字母不统计，因为单个汉字字母没有意义
    对汉字不能用空格来进行分割，所以需要使用 jieba 分词工具进行分词
    :return: None
    """
    # 初始化 CountVectorizer 对象
    cv = CountVectorizer()

    # 输入文本数据
    data = cv.fit_transform(["人生苦短，我 喜欢 python python", "人生漫长，不用 python"])

    # 打印特征名称（即词汇表中的单词）
    print("特征名称（词汇表）：")
    print(cv.get_feature_names_out())
    print('-' * 50)

    # 打印稀疏矩阵（只记录非零值的位置）
    print("稀疏矩阵：")
    print(data)
    print('-' * 50)

    # 将稀疏矩阵转换为稠密矩阵（二维数组），并打印
    print("稠密矩阵（词频矩阵）：")
    print(data.toarray())

    return None


# 调用函数，运行示例
count_vectorizer_demo()

特征名称（词汇表）：
['python' '不用' '人生漫长' '人生苦短' '喜欢']
--------------------------------------------------
稀疏矩阵：
<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 6 stored elements and shape (2, 5)>
  Coords	Values
  (0, 3)	1
  (0, 4)	1
  (0, 0)	2
  (1, 0)	1
  (1, 2)	1
  (1, 1)	1
--------------------------------------------------
稠密矩阵（词频矩阵）：
[[2 0 0 1 1]
 [1 1 1 0 0]]


掌握如何对中文进行分词

In [6]:
def cutword():
    """
    通过 jieba 对中文进行分词
    :return: 分词后的字符串（每个词用空格隔开）
    """
    # 使用 jieba 对中文文本进行分词，返回的是一个生成器
    con1 = jieba.cut("今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。")
    con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。")
    con3 = jieba.cut(
        "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")

    # 打印生成器的类型
    print("生成器类型：")
    print(type(con1))
    print('-' * 50)

    # 把生成器转换成列表
    content1 = list(con1)
    content2 = list(con2)
    content3 = list(con3)

    # 打印分词结果
    print("分词结果：")
    print(content1)
    print(content2)
    print(content3)
    print('-' * 50)

    # 把列表转换成字符串，每个词之间用空格隔开
    c1 = ' '.join(content1)
    c2 = ' '.join(content2)
    c3 = ' '.join(content3)

    return c1, c2, c3


def hanzivec():
    """
    中文特征值化
    使用 CountVectorizer 对分词后的中文文本进行特征提取
    :return: None
    """
    # 调用 cutword 函数，获取分词后的字符串
    c1, c2, c3 = cutword()

    # 打印分词后的字符串
    print("分词后的字符串：")
    print(c1)
    print(c2)
    print(c3)
    print('-' * 50)

    # 初始化 CountVectorizer 对象
    cv = CountVectorizer()

    # 使用 fit_transform 将分词后的文本转换为词频矩阵
    data = cv.fit_transform([c1, c2, c3])

    # 打印词汇表（特征名称）
    print("词汇表（特征名称）：")
    print(cv.get_feature_names_out())

    # 将稀疏矩阵转换为稠密矩阵（二维数组），并打印
    print("词频矩阵：")
    print(data.toarray())

    return None


# 调用 hanzivec 函数，运行示例
hanzivec()

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache


生成器类型：
<class 'generator'>
--------------------------------------------------


Loading model cost 0.340 seconds.
Prefix dict has been built successfully.


分词结果：
['今天', '很', '残酷', '，', '明天', '更', '残酷', '，', '后天', '很', '美好', '，', '但', '绝对', '大部分', '是', '死', '在', '明天', '晚上', '，', '所以', '每个', '人', '不要', '放弃', '今天', '。']
['我们', '看到', '的', '从', '很', '远', '星系', '来', '的', '光是在', '几百万年', '之前', '发出', '的', '，', '这样', '当', '我们', '看到', '宇宙', '时', '，', '我们', '是', '在', '看', '它', '的', '过去', '。']
['如果', '只用', '一种', '方式', '了解', '某样', '事物', '，', '你', '就', '不会', '真正', '了解', '它', '。', '了解', '事物', '真正', '含义', '的', '秘密', '取决于', '如何', '将', '其', '与', '我们', '所', '了解', '的', '事物', '相', '联系', '。']
--------------------------------------------------
分词后的字符串：
今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。
我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。
如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。
--------------------------------------------------
词汇表（特征名称）：
['一种' '不会' '不要' '之前' '了解' '事物' '今天' '光是在' '几百万年' '发出' '取决于' '只用' '后天' '含义'
 '大部分' '如何' '如果' '宇宙' '我们' '所以' '放弃' '方式' 

TfidfVectorizer

In [7]:
def tfidf_vectorizer_demo():
    """
    中文特征值化，计算 TF-IDF 值
    使用 TfidfVectorizer 对分词后的中文文本进行 TF-IDF 特征提取
    :return: None
    """
    # 调用 cutword 函数，获取分词后的字符串
    c1, c2, c3 = cutword()

    # 打印分词后的字符串
    print("分词后的字符串：")
    print(c1)
    print(c2)
    print(c3)
    print('-' * 50)

    # 初始化 TfidfVectorizer 对象，设置 smooth_idf=True 以平滑 IDF 值
    tf = TfidfVectorizer(smooth_idf=True)

    # 使用 fit_transform 将分词后的文本转换为 TF-IDF 矩阵
    data = tf.fit_transform([c1, c2, c3])

    # 打印词汇表（特征名称）
    print("词汇表（特征名称）：")
    print(tf.get_feature_names_out())
    print('-' * 50)

    # 打印 TF-IDF 矩阵的类型（稀疏矩阵）
    print("TF-IDF 矩阵类型：")
    print(type(data))
    print('-' * 50)

    # 将稀疏矩阵转换为稠密矩阵（二维数组），并打印
    print("TF-IDF 矩阵：")
    print(data.toarray())

    return None


# 调用 tfidf_vectorizer_demo 函数，运行示例
tfidf_vectorizer_demo()

生成器类型：
<class 'generator'>
--------------------------------------------------
分词结果：
['今天', '很', '残酷', '，', '明天', '更', '残酷', '，', '后天', '很', '美好', '，', '但', '绝对', '大部分', '是', '死', '在', '明天', '晚上', '，', '所以', '每个', '人', '不要', '放弃', '今天', '。']
['我们', '看到', '的', '从', '很', '远', '星系', '来', '的', '光是在', '几百万年', '之前', '发出', '的', '，', '这样', '当', '我们', '看到', '宇宙', '时', '，', '我们', '是', '在', '看', '它', '的', '过去', '。']
['如果', '只用', '一种', '方式', '了解', '某样', '事物', '，', '你', '就', '不会', '真正', '了解', '它', '。', '了解', '事物', '真正', '含义', '的', '秘密', '取决于', '如何', '将', '其', '与', '我们', '所', '了解', '的', '事物', '相', '联系', '。']
--------------------------------------------------
分词后的字符串：
今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。
我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 ， 这样 当 我们 看到 宇宙 时 ， 我们 是 在 看 它 的 过去 。
如果 只用 一种 方式 了解 某样 事物 ， 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。
--------------------------------------------------
词汇表（特征名称）：
['一种' '不会' '不要' '之前' '了解' '事物' '今天' '光是

### homework2：完成MinMaxScaler, StandardScaler的练习，并理解其原理

MinMaxScaler

![本地图片示例](./images/minmaxscaler.png )

In [8]:
def mm():
    """
    归一化处理
    使用 MinMaxScaler 对数据进行归一化，将特征值缩放到指定范围（默认是 [0, 1]）
    :return: None
    """
    # 初始化 MinMaxScaler 对象，设置特征值范围为 [0, 1]
    # feature_range 参数用于指定归一化后的范围，默认是 (0, 1)
    mm = MinMaxScaler(feature_range=(0, 1))

    # 输入数据，进行拟合和转换
    # fit_transform 会计算数据的最小值和最大值，并将数据缩放到指定范围
    # fit_transform 一般用于训练集，transform 一般用于测试集
    data = mm.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]])

    # 打印归一化后的数据
    print("归一化后的数据：")
    print(data)
    print('-' * 50)

    # 使用 transform 对新的数据进行归一化
    # transform 不会重新计算最小值和最大值，而是使用之前 fit_transform 计算的结果
    out = mm.transform([[1, 2, 3, 4], [6, 5, 8, 7]])

    # 打印新数据的归一化结果
    print("新数据的归一化结果：")
    print(out)

    return None


# 调用 mm 函数，运行示例
mm()

归一化后的数据：
[[1.         0.         0.         0.        ]
 [0.         1.         1.         0.83333333]
 [0.5        0.5        0.6        1.        ]]
--------------------------------------------------
新数据的归一化结果：
[[-1.96666667  0.         -1.4        -6.        ]
 [-1.8         1.5        -0.4        -5.5       ]]


StandardScaler

![本地图片示例](./images/standardscaler.png )

In [9]:
def stand():
    """
    标准化缩放
    使用 StandardScaler 对数据进行标准化处理，使数据均值为 0，方差为 1
    注意：标准化后的数据不是标准正态分布，只是均值为 0，方差为 1 的分布
    :return: 标准化后的数据
    """
    # 初始化 StandardScaler 对象
    std = StandardScaler()

    # 输入数据，进行拟合和转换
    # fit_transform 会计算数据的均值和方差，并将数据标准化
    data = std.fit_transform([[1., -1., 3.], [2., 4., 2.], [4., 6., -1.]])

    # 打印标准化后的数据
    print("标准化后的数据：")
    print(data)
    print('-' * 50)

    # 打印每列的均值
    print("每列的均值：")
    print(std.mean_)
    print('-' * 50)

    # 打印每列的方差
    print("每列的方差：")
    print(std.var_)

    # 打印已处理的样本数
    print("已处理的样本数：")
    print(std.n_samples_seen_)

    return data


# 调用 stand 函数，运行示例
data = stand()

标准化后的数据：
[[-1.06904497 -1.35873244  0.98058068]
 [-0.26726124  0.33968311  0.39223227]
 [ 1.33630621  1.01904933 -1.37281295]]
--------------------------------------------------
每列的均值：
[2.33333333 3.         1.33333333]
--------------------------------------------------
每列的方差：
[1.55555556 8.66666667 2.88888889]
已处理的样本数：
3


### homework3：完成SimpleImputer的练习

In [10]:
def im():
    """
    缺失值处理
    使用 SimpleImputer 对缺失值进行填补
    :return: None
    """
    # 初始化 SimpleImputer 对象
    # missing_values=np.nan 表示缺失值的类型是 NaN
    # strategy='mean' 表示使用均值填补缺失值
    im = SimpleImputer(missing_values=np.nan, strategy='mean')

    # 输入数据，包含缺失值（NaN）
    # fit_transform 会计算每列的均值，并用均值填补缺失值
    data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6], [3, 2]])

    # 打印填补后的数据
    print("填补后的数据：")
    print(data)

    return None


# 调用 im 函数，运行示例
im()

填补后的数据：
[[1.         2.        ]
 [3.66666667 3.        ]
 [7.         6.        ]
 [3.         2.        ]]


### homework4：完成VarianceThreshold，PCA的练习并理解原理

VarianceThreshold

In [11]:
def var():
    """
    特征选择 - 删除低方差的特征
    使用 VarianceThreshold 删除方差低于指定阈值的特征
    :return: None
    """
    # 初始化 VarianceThreshold 对象
    # threshold=0.1 表示删除方差小于 0.1 的特征
    # 默认情况下，threshold=0，即只删除方差为 0 的特征
    var = VarianceThreshold(threshold=0.1)

    # 输入数据
    # fit_transform 会计算每列的方差，并删除方差小于阈值的特征
    data = var.fit_transform([[0, 2, 0, 3],
                              [0, 1, 4, 3],
                              [0, 1, 1, 3]])

    # 打印处理后的数据
    print("处理后的数据：")
    print(data)

    # 获取剩余特征的列编号
    print('剩余特征的列编号：%s' % var.get_support(True))

    return None


# 调用 var 函数，运行示例
var()

处理后的数据：
[[2 0]
 [1 4]
 [1 1]]
剩余特征的列编号：[1 2]


PCA

In [16]:
def pca():
    """
    主成分分析（PCA）进行特征降维
    使用 PCA 对数据进行降维，保留指定比例的方差
    :return: None
    """
    # 原始数据
    original_value = np.array([[2, 8, 4, 5], [6, 3, 0, 8], [5, 4, 9, 1]])

    # 计算原始数据的总方差
    print("原始数据的总方差：")
    print(np.var(original_value, axis=0).sum())
    print('-' * 50)

    # 初始化 PCA 对象
    # n_components=0.9 表示保留 90% 的方差
    # n_components 可以是小数（表示保留的方差比例）或整数（表示降维后的特征数量）
    pca = PCA(n_components=0.9)

    # 对原始数据进行拟合和转换
    # fit_transform 会计算主成分，并将数据转换到新的低维空间
    data = pca.fit_transform(original_value)

    # 打印降维后的数据
    print("降维后的数据：")
    print(data)
    print("数据类型：")
    print(type(data))

    # 计算降维后数据的总方差
    print("降维后数据的总方差：")
    print(np.var(data, axis=0).sum())
    print('-' * 50)

    # 打印每个主成分解释的方差比例
    print("每个主成分解释的方差比例：")
    print(pca.explained_variance_ratio_)

    # 打印所有主成分解释的方差比例之和
    print("所有主成分解释的方差比例之和：")
    print(pca.explained_variance_ratio_.sum())

    return None


# 调用 pca 函数，运行示例
pca()

原始数据的总方差：
29.333333333333336
--------------------------------------------------
降维后的数据：
[[-1.28620952e-15  3.82970843e+00]
 [-5.74456265e+00 -1.91485422e+00]
 [ 5.74456265e+00 -1.91485422e+00]]
数据类型：
<class 'numpy.ndarray'>
降维后数据的总方差：
29.333333333333332
--------------------------------------------------
每个主成分解释的方差比例：
[0.75 0.25]
所有主成分解释的方差比例之和：
1.0


### homework5：完成load及fetch数据加载，搞清数据集的特征和目标，train_test_split样本切分

load数据加载

In [6]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_20newsgroups
from sklearn.datasets import fetch_california_housing
from pprint import pprint

In [18]:
# 加载鸢尾花数据集
li = load_iris()

# 打印特征值
print("获取特征值：")
# 查看特征值的数据类型
print(type(li.data))  # 输出特征值的数据类型
print('-' * 50)

# 查看特征值的形状（样本量和特征数量）
# shape 返回一个元组，格式为 (样本数量, 特征数量)
print("特征值的形状（样本量, 特征数量）：")
print(li.data.shape)  # 输出 (150, 4)，表示 150 个样本，每个样本有 4 个特征
print('-' * 50)

# 打印特征值（实际数据）
print("特征值数据：")
print(li.data)  # 输出所有样本的特征值

获取特征值：
<class 'numpy.ndarray'>
--------------------------------------------------
特征值的形状（样本量, 特征数量）：
(150, 4)
--------------------------------------------------
特征值数据：
[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0

In [19]:
# 打印目标值
print("目标值：")
# 目标值是每个样本对应的类别标签，是一个一维数组
print(li.target)  # 输出目标值
print('-' * 50)

# 打印数据集的描述信息
print("数据集描述信息：")
# DESCR 是数据集的详细描述，包括数据集的基本信息、特征描述等
print(li.DESCR)  # 输出数据集的描述信息
print('-' * 50)

# 打印特征名称
print("特征名称：")
# feature_names 是每个特征的名字，是一个列表
print(li.feature_names)  # 输出特征名称
print('-' * 50)

# 打印目标类别名称
print("目标类别名称：")
# target_names 是每个目标类别的名字，是一个列表
print(li.target_names)  # 输出目标类别名称

目标值：
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
--------------------------------------------------
数据集描述信息：
.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

:Number of Instances: 150 (50 in each of three classes)
:Number of Attributes: 4 numeric, predictive attributes and the class
:Attribute Information:
    - sepal length in cm
    - sepal width in cm
    - petal length in cm
    - petal width in cm
    - class:
            - Iris-Setosa
            - Iris-Versicolour
            - Iris-Virginica

:Summary Statistics:

                Min  Max   Mean    SD   Class Correlation
sepal length:   4.3  7.9   5.84   0.83    0.7826
sepal width:    2.0  4.4   3.05   0.43   -0.4194
petal lengt

In [20]:
# 打印特征值的形状
print("特征值的形状：")
# li.data.shape 返回一个元组，格式为 (样本数量, 特征数量)
# 对于鸢尾花数据集，输出为 (150, 4)，表示 150 个样本，每个样本有 4 个特征
print(li.data.shape)  # 输出 (150, 4)
print('-' * 50)

# 打印目标值的形状
print("目标值的形状：")
# li.target.shape 返回一个元组，表示目标值的形状
# 对于鸢尾花数据集，输出为 (150,)，表示 150 个样本的目标值
print(li.target.shape)  # 输出 (150,)

特征值的形状：
(150, 4)
--------------------------------------------------
目标值的形状：
(150,)


In [22]:
# 划分训练集和测试集
# train_test_split 用于将数据集划分为训练集和测试集
# li.data 是特征值，li.target 是目标值
# test_size=0.25 表示测试集占总数据的 25%，训练集占 75%
# random_state=1 设置随机种子，确保每次运行代码时划分结果一致
x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25, random_state=1)

# 打印训练集的特征值和目标值
print("训练集特征值和目标值：")
print("特征值：", x_train)  # 训练集特征值
print("目标值：", y_train)  # 训练集目标值
print("训练集特征值 shape：", x_train.shape)  # 训练集特征值的形状
print('-' * 50)

# 打印测试集的特征值和目标值
print("测试集特征值和目标值：")
print("特征值：", x_test)  # 测试集特征值
print("目标值：", y_test)  # 测试集目标值
print("测试集特征值 shape：", x_test.shape)  # 测试集特征值的形状

训练集特征值和目标值：
特征值： [[6.5 2.8 4.6 1.5]
 [6.7 2.5 5.8 1.8]
 [6.8 3.  5.5 2.1]
 [5.1 3.5 1.4 0.3]
 [6.  2.2 5.  1.5]
 [6.3 2.9 5.6 1.8]
 [6.6 2.9 4.6 1.3]
 [7.7 2.6 6.9 2.3]
 [5.7 3.8 1.7 0.3]
 [5.  3.6 1.4 0.2]
 [4.8 3.  1.4 0.3]
 [5.2 2.7 3.9 1.4]
 [5.1 3.4 1.5 0.2]
 [5.5 3.5 1.3 0.2]
 [7.7 3.8 6.7 2.2]
 [6.9 3.1 5.4 2.1]
 [7.3 2.9 6.3 1.8]
 [6.4 2.8 5.6 2.2]
 [6.2 2.8 4.8 1.8]
 [6.  3.4 4.5 1.6]
 [7.7 2.8 6.7 2. ]
 [5.7 3.  4.2 1.2]
 [4.8 3.4 1.6 0.2]
 [5.7 2.5 5.  2. ]
 [6.3 2.7 4.9 1.8]
 [4.8 3.  1.4 0.1]
 [4.7 3.2 1.3 0.2]
 [6.5 3.  5.8 2.2]
 [4.6 3.4 1.4 0.3]
 [6.1 3.  4.9 1.8]
 [6.5 3.2 5.1 2. ]
 [6.7 3.1 4.4 1.4]
 [5.7 2.8 4.5 1.3]
 [6.7 3.3 5.7 2.5]
 [6.  3.  4.8 1.8]
 [5.1 3.8 1.6 0.2]
 [6.  2.2 4.  1. ]
 [6.4 2.9 4.3 1.3]
 [6.5 3.  5.5 1.8]
 [5.  2.3 3.3 1. ]
 [6.3 3.3 6.  2.5]
 [5.5 2.5 4.  1.3]
 [5.4 3.7 1.5 0.2]
 [4.9 3.1 1.5 0.2]
 [5.2 4.1 1.5 0.1]
 [6.7 3.3 5.7 2.1]
 [4.4 3.  1.3 0.2]
 [6.  2.7 5.1 1.6]
 [6.4 2.7 5.3 1.9]
 [5.9 3.  5.1 1.8]
 [5.2 3.5 1.5 0.2]
 [5.1 3.3 1.7 

fetch数据加载

In [3]:
# 加载 20 类新闻数据集
# subset='all' 表示下载全部数据（包括训练集和测试集）
# data_home='../data' 表示将数据存储到当前目录的上一级目录中的 data 文件夹
news = fetch_20newsgroups(subset='all', data_home='../data')

# 打印第一个样本的内容
print('第一个样本：')
print(news.data[0])  # 输出第一个样本的文本内容
print('-' * 50)

# 打印特征类型
print('特征类型：')
print(type(news.data))  # 输出特征的数据类型，通常是列表
print('-' * 50)

# 打印前 15 个样本的目标值（类别标签）
print('前 15 个样本的目标值：')
print(news.target[0:15])  # 输出前 15 个样本的类别标签
print('-' * 50)

# 打印目标类别名称
# 使用 pprint 格式化输出，使列表更易读
print('目标类别名称：')
pprint(list(news.target_names))  # 输出所有目标类别的名称

第一个样本：
From: Mamatha Devineni Ratnam <mr47+@andrew.cmu.edu>
Subject: Pens fans reactions
Organization: Post Office, Carnegie Mellon, Pittsburgh, PA
Lines: 12
NNTP-Posting-Host: po4.andrew.cmu.edu



I am sure some bashers of Pens fans are pretty confused about the lack
of any kind of posts about the recent Pens massacre of the Devils. Actually,
I am  bit puzzled too and a bit relieved. However, I am going to put an end
to non-PIttsburghers' relief with a bit of praise for the Pens. Man, they
are killing those Devils worse than I thought. Jagr just showed you why
he is much better than his regular season stats. He is also a lot
fo fun to watch in the playoffs. Bowman should let JAgr have a lot of
fun in the next couple of games since the Pens are going to beat the pulp out of Jersey anyway. I was very disappointed not to see the Islanders lose the final
regular season game.          PENS RULE!!!


--------------------------------------------------
特征类型：
<class 'list'>
------------------

In [4]:
# 打印分隔线
print('-' * 50)

# 打印数据集中的样本数量
# len(news.data) 返回数据集中的样本数量
print(len(news.data))  # 输出数据集中的样本数量

# 打印提示信息
print('新闻所有的标签')

# 打印数据集的目标值（标签）
# news.target 是一个一维数组，表示每个样本的类别标签
print(news.target)  # 输出所有样本的类别标签

# 打印分隔线
print('-' * 50)

# 打印目标值的最小值和最大值
# min(news.target) 返回目标值的最小值
# max(news.target) 返回目标值的最大值
print(min(news.target), max(news.target))  # 输出目标值的最小值和最大值

--------------------------------------------------
18846
新闻所有的标签
[10  3 17 ...  3  1  7]
--------------------------------------------------
0 19


In [8]:
# 加载加州房价数据集
# data_home='data' 表示将数据存储到当前目录下的 data 文件夹中
house = fetch_california_housing(data_home='../data')

# 打印提示信息
print("获取特征值")

# 打印第一个样本的特征值
# house.data[0] 返回第一个样本的特征值，是一个一维数组
print(house.data[0])  # 输出第一个样本的特征值

# 打印样本的形状
# house.data.shape 返回数据集的形状，格式为 (样本数量, 特征数量)
print('样本的形状')
print(house.data.shape)  # 输出数据集的形状

# 打印分隔线
print('-' * 50)

获取特征值
[   8.3252       41.            6.98412698    1.02380952  322.
    2.55555556   37.88       -122.23      ]
样本的形状
(20640, 8)
--------------------------------------------------


In [9]:
# 打印提示信息
print("目标值")

# 打印前 10 个样本的目标值
# house.target[0:10] 返回前 10 个样本的目标值，是一个一维数组
print(house.target[0:10])  # 输出前 10 个样本的目标值

# 打印分隔线
print('-' * 50)

# 打印数据集的描述信息
# house.DESCR 返回数据集的详细描述，包括数据集的基本信息、特征描述等
print(house.DESCR)  # 输出数据集的描述信息

# 打印分隔线
print('-' * 50)

# 打印特征名称
# house.feature_names 返回每个特征的名字，是一个列表
print(house.feature_names)  # 输出特征名称

# 打印分隔线
print('-' * 50)

目标值
[4.526 3.585 3.521 3.413 3.422 2.697 2.992 2.414 2.267 2.611]
--------------------------------------------------
.. _california_housing_dataset:

California Housing dataset
--------------------------

**Data Set Characteristics:**

:Number of Instances: 20640

:Number of Attributes: 8 numeric, predictive attributes and the target

:Attribute Information:
    - MedInc        median income in block group
    - HouseAge      median house age in block group
    - AveRooms      average number of rooms per household
    - AveBedrms     average number of bedrooms per household
    - Population    block group population
    - AveOccup      average number of household members
    - Latitude      block group latitude
    - Longitude     block group longitude

:Missing Attribute Values: None

This dataset was obtained from the StatLib repository.
https://www.dcc.fc.up.pt/~ltorgo/Regression/cal_housing.html

The target variable is the median house value for California districts,
expressed in h