## 【例3.1】使用 OpenML 模块获取数据集。
首先，在OpenML网站查找iris数据集的元数据信息（见图 3.9），得到数据ID为61，然后再代码中按照ID获取数据。

In [None]:
import openml
iris = openml.datasets.get_dataset(61)
X, y, a, b = iris.get_data()
X


In [None]:
import openml

# Explicitly set download parameters to suppress the FutureWarning
iris = openml.datasets.get_dataset(61, download_data=True, download_qualities=True, download_features_meta_data=True)

# Retrieve features (X) and labels (y)
X, y, a, b = iris.get_data()
X


In [None]:
print(y)

In [None]:
print(a)

In [None]:
print(b)

In [None]:
import openml

# Get the Iris dataset (ID 61)
iris = openml.datasets.get_dataset(61)

# Retrieve features (X) and labels (y)
data_tuple = iris.get_data()
X, y, _, _ = data_tuple

# Print features and labels
print("Features (X):")
print(X)
print("\nLabels (y):")
print(y)



## 【例3.2】演示Scikit-learn获取OpenML数据集。数据集的名称可以在OpenML网站上查询获得，这里数据集的名称为iris，。

In [None]:

from sklearn.datasets import fetch_openml
# 获取openml数据集
dataset=fetch_openml(name='iris', version=1, data_home='./data', return_X_y=False, as_frame=True,parser='auto')
print(type(dataset))
# 输出数据集的描述信息
print(dataset.DESCR)
# 输出特征数据和标签数据
X = dataset.data
y = dataset.target
print(X.shape, y.shape)
print(type(X),type(y))


In [None]:
import openml

# 获取Iris数据集
iris = openml.datasets.get_dataset(61)
print(iris.features)

# 获取数据集的元数据信息
dataset_info = iris.get_data()
print("\n数据集介绍:")
print(f"{iris.name} 数据集包含 {iris.qualities['NumberOfInstances']} 个样本，每个样本有 {iris.qualities['NumberOfFeatures']} 个特征。")
print(f"该数据集用于 {iris.format} 任务，目标是 {iris.default_target_attribute}。")
print(f"描述: {iris.description}")



In [None]:
info=iris.get_data() #返回一个包含四个元素的元组 (X, y, attribute_names, _)

for i in info:
    print(f'类型：{type(i)}\n{i}')

In [None]:
，其中：

X: 特征数据，通常是一个二维数组或 Pandas DataFrame。
y: 标签数据，通常是一个一维数组或 Pandas Series。
attribute_names: 特征的名称列表。
_: 其他信息，这里通常为空。
你可以根据需要使用其中的信息，比如 X 和 y 是构成数据集的特征和标签数据，attribute_names 是特征的名称列表。在你的示例中，你只需关注 X 和 y。

In [None]:
from sklearn.datasets import load_iris

# 加载Scikit-learn内置的数据集，这里以鸢尾花数据集为例
data = load_iris()

# 输出数据集的元数据信息
print("数据集名称:", data['DESCR'])
print("特征数:", data['data'].shape[1])
print("样本数:", data['data'].shape[0])
print("类别:", set(data['target']))
# 可以输出其他元数据信息



In [None]:
【例3.4】使用scikit-learn模块load_wine函数加酒数据集的示例代码：

In [None]:
from sklearn.datasets import load_wine
wine = load_wine()
print(wine.DESCR)

## 【例3.3】演示Scikit-learn获取OpenML数据集iris、wine、mnist。

In [None]:

from sklearn.datasets import fetch_openml
from joblib import Parallel, delayed

# 使用 Parallel 和 delayed 函数并行下载数据集
datasets = ['iris', 'wine', 'mnist_784']
results = Parallel(n_jobs=-1, verbose=2)(
    delayed(fetch_openml)(name=d, version=1,cache=True,parser='auto') for d in datasets)

# 打印下载完成的数据集的名称
for r in results:
    print(r['details']['name'])


In [None]:
from sklearn.datasets import fetch_openml
from joblib import Parallel, delayed

# 使用 Parallel 和 delayed 函数并行下载数据集
datasets = ['iris', 'wine', 'mnist_784']
results = Parallel(n_jobs=-1, verbose=2)(
    delayed(fetch_openml)(name=d, version=1, cache=True, parser='auto') for d in datasets)

# 打印下载完成的数据集的名称和信息
for r in results:
    print(f"Dataset Name: {r['details']['name']}")
    print(f"Dataset Info: {r['details']['info']}")
    print()


In [None]:
from sklearn.datasets import load_boston
boston = load_boston()
print(boston.DESCR)


In [None]:
from sklearn.datasets import fetch_california_housing

# Load the California housing dataset
california_housing = fetch_california_housing()

# Print the dataset description
print(california_housing.DESCR)


In [None]:
from sklearn.datasets import load_wine
wine = load_wine()
print(wine.DESCR)


## 【例3.5】使用make_blobs、make_classification、make_regression函数生成数据集的示例代码。

In [None]:
from sklearn.datasets import make_blobs, make_classification, make_regression
# 使用 make_blobs 生成 2 类聚类数据集
X, y = make_blobs(n_samples=100, centers=2, random_state=42)
# 使用 make_classification 生成 3 类多分类数据集
X, y = make_classification(n_samples=100, n_classes=3, random_state=42)
# 使用 make_regression 生成回归数据集
X, y = make_regression(n_samples=100, n_features=2, noise=0.1, random_state=42)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs, make_classification, make_regression

# Set a random seed for reproducibility
np.random.seed(42)

# Example 3.5: Generating datasets using make_blobs, make_classification, and make_regression

# 1. make_blobs: Create a blob of points with specified centers and standard deviation
X_blob, y_blob = make_blobs(n_samples=300, centers=3, random_state=42, cluster_std=1.0)
plt.scatter(X_blob[:, 0], X_blob[:, 1], c=y_blob, cmap='viridis')
plt.title("make_blobs Example")
# Save the figure as a high-resolution image
plt.savefig("make_blobs_example.png", dpi=300)
plt.show()

# 2. make_classification: Create a random classification dataset with specified parameters
X_class, y_class = make_classification(n_samples=300, n_features=2, n_informative=2,
                                       n_redundant=0, n_clusters_per_class=1, random_state=42)
plt.scatter(X_class[:, 0], X_class[:, 1], c=y_class, cmap='viridis')
plt.title("make_classification Example")
# Save the figure as a high-resolution image
plt.savefig("make_classification_example.png", dpi=300)
plt.show()

# 3. make_regression: Create a random regression dataset with specified parameters
X_reg, y_reg = make_regression(n_samples=300, n_features=1, noise=20, random_state=42)
plt.scatter(X_reg, y_reg, color='blue')
plt.title("make_regression Example")
# Save the figure as a high-resolution image
plt.savefig("make_regression_example.png", dpi=300)
plt.show()



In [None]:
【例3.6】使用scikit-learn 划分iris数据集的训练集、验证集和测试集。

In [None]:
from sklearn.model_selection import train_test_split
# 加载 iris 数据集
from sklearn.datasets import load_iris
iris = load_iris()
X, y = iris.data, iris.target

# 划分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 再从训练集中划分为训练集和验证集
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=42)

# 打印划分结果的形状
print("训练集形状:", X_train.shape, y_train.shape)
print("验证集形状:", X_val.shape, y_val.shape)
print("测试集形状:", X_test.shape, y_test.shape)

In [None]:
from sklearn.utils import resample
from sklearn.datasets import load_iris

# 加载 iris 数据集
iris = load_iris()
X, y = iris.data, iris.target

# 设置 Bootstrap 抽样的次数
n_iterations = 5  # 你可以根据需要设置不同的次数

# 执行 Bootstrap 数据划分
for iteration in range(n_iterations):
    # 使用 resample 函数进行 Bootstrap 抽样
    X_bootstrap, y_bootstrap = resample(X, y, random_state=iteration)
    
    # 在这里，你可以使用 X_bootstrap 和 y_bootstrap 进行模型训练和评估
    # 例如，可以使用 X_bootstrap 和 y_bootstrap 训练一个模型，然后在测试集上进行评估
    # 这里仅作为演示，你可以根据具体任务进行模型的训练和评估
    print(f"Iteration {iteration + 1}: Sampled {len(X_bootstrap)} data points")


In [None]:
【例3.6】数据的统计特征获取。可以使用Pandas中DataFrame对象的相关函数实现。

In [None]:
import pandas as pd

# 创建一个包含数据的DataFrame
data = {'Value': [5, 10, 15, 20, 25, 30, 35, 40, 45, 50]}
df = pd.DataFrame(data)

# (1) 最小值
min_value = df['Value'].min()

# (2) 最大值
max_value = df['Value'].max()

# (3) 平均数
mean_value = df['Value'].mean()

# (4) 中位数
median_value = df['Value'].median()

# (5) 众数
mode_value = df['Value'].mode()[0]  # 众数可能有多个，取第一个

# (6) 方差
variance_value = df['Value'].var()

# (7) 标准差
std_deviation_value = df['Value'].std()

# (8) 百分位数
percentile_value = df['Value'].quantile(0.75)  # 例如，获取第75个百分位数

# (9) 偏度
skewness_value = df['Value'].skew()

# (10) 峰度
kurtosis_value = df['Value'].kurt()

# 打印结果
print(f"最小值: {min_value}")
print(f"最大值: {max_value}")
print(f"平均数: {mean_value}")
print(f"中位数: {median_value}")
print(f"众数: {mode_value}")
print(f"方差: {variance_value}")
print(f"标准差: {std_deviation_value}")
print(f"百分位数(75%): {percentile_value}")
print(f"偏度: {skewness_value}")
print(f"峰度: {kurtosis_value}")

In [None]:
【例3.7】切比雪夫距离计算示例。
使用NumPy库可以很方便地计算切比雪夫距离，例如：

In [None]:
import numpy as np
# 两个n维向量
A = np.array([1, 2, 3])
B = np.array([4, 7, 15])
# 计算切比雪夫距离
d = np.abs(A - B).max()
print("切比雪夫距离：", d)

In [None]:
from sklearn.metrics.pairwise import pairwise_distances
import numpy as np
# 多组n维向量
X = np.array([[3, 2, 1], [11, 22,33]])
# 计算多组向量之间的切比雪夫距离
d = pairwise_distances(X, metric='chebyshev')
print("切比雪夫距离矩阵：\n", d)


In [None]:
d = pairwise_distances(X, metric='chebyshev')
d = pairwise_distances(X, metric='euclidean')
d = pairwise_distances(X, metric='minkowski', p=2)
d = pairwise_distances(X, metric='manhattan')


In [None]:
from sklearn.metrics.pairwise import pairwise_distances
import numpy as np
# 示例数据
X = np.array([[1, 2, 3], [7, 8, 9]])
dis=['euclidean','manhattan','chebyshev','minkowski','cosine','jaccard','correlation']
for d in dis:
    dd=pairwise_distances(X, metric=d)
    print(f'{d=}\n',dd)



In [None]:
欧氏距离 ('euclidean'):

计算两点之间的直线距离。
曼哈顿距离 ('manhattan'):

计算两点之间在坐标轴上的绝对距离之和。
切比雪夫距离 ('chebyshev'):

计算两点之间在所有坐标轴上的最大绝对差值。
明可夫斯基距离 ('minkowski'):

通过设置参数 p 来指定，当 p=2 时即为欧氏距离。
汉明距离 ('hamming'):

用于二进制数据的距离度量，计算两个相同长度的二进制向量之间的不同位数。
余弦相似度 ('cosine'):

计算两个向量之间的余弦值，用于测量它们的夹角的余弦。
Jaccard 距离 ('jaccard'):

用于计算两个集合之间的 Jaccard 距离，即交集与并集的比率的补集。
汉明贝塔距离 ('hamming_beta'):

汉明贝塔距离是汉明距离的一种变体。
布雷柯莱距离 ('braycurtis'):

计算两个向量之间的布雷柯莱距离，用于测量它们的绝对差值的比率。
皮尔逊相关系数 ('correlation'):

计算两个向量之间的皮尔逊相关系数。

In [None]:
from sklearn.metrics.pairwise import pairwise_distances
import numpy as np

# 示例数据
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
dis=['euclidean','manhattan','chebyshev','minkowski','cosine','jaccard','correlation']

for d in dis:
    dd=pairwise_distances(X, metric=d)
    print(d)
    print(dd)

In [None]:
from scipy.stats import pearsonr
# 计算两个变量之间的皮尔逊相关系数和p值
x=[1, 2, 3]
y=[4, 5, 6]
corr, p_value = pearsonr(x, y)
print('Pearson correlation coefficient:', corr)
print('p-value:', p_value)


In [None]:
【例3.8】曼哈顿距离计算示例。

In [None]:
from sklearn.metrics.pairwise import pairwise_distances
import numpy as np

# 示例数据
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 计算欧氏距离矩阵
euclidean_distance_matrix = pairwise_distances(X, metric='euclidean')

# 计算闵可夫斯基距离矩阵（p=2 对应欧氏距离）
minkowski_distance_matrix = pairwise_distances(X, metric='minkowski', p=2)

print("欧氏距离矩阵:")
print(euclidean_distance_matrix)

print("\n闵可夫斯基距离矩阵:")
print(minkowski_distance_matrix)


In [None]:
from sklearn.metrics.pairwise import pairwise_distances
import numpy as np

# 示例数据矩阵
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 计算曼哈顿距离矩阵
manhattan_distance_matrix = pairwise_distances(X, metric='manhattan')

print("曼哈顿距离矩阵:")
print(manhattan_distance_matrix)


In [None]:
from sklearn.metrics.pairwise import pairwise_distances
import numpy as np

# 示例数据矩阵
X = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 计算欧氏距离矩阵
euclidean_distance_matrix = pairwise_distances(X, metric='euclidean')

print("欧氏距离矩阵:")
print(euclidean_distance_matrix)


In [None]:
import numpy as np
# 二维空间中两个点的曼哈顿距离
point1 = np.array([1, 2])
point2 = np.array([4, 6])
manhattan_distance = np.sum(np.abs(point1 - point2))
print(manhattan_distance) # 输出 7

# 三维空间中两个点的曼哈顿距离
point1 = np.array([1, 2, 3])
point2 = np.array([4, 6, 8])
manhattan_distance = np.sum(np.abs(point1 - point2))
print(manhattan_distance) 

In [None]:
from sklearn.metrics.pairwise import manhattan_distances
# 二维空间中两个点的曼哈顿距离
point1 = np.array([1, 2])
point2 = np.array([4, 6])
manhattan_distance = manhattan_distances([point1], [point2])[0][0]
print(manhattan_distance) # 输出 7

# 三维空间中两个点的曼哈顿距离
point1 = np.array([1, 2, 3])
point2 = np.array([4, 6, 8])
manhattan_distance = manhattan_distances([point1], [point2])[0][0]
print(manhattan_distance) 


In [None]:
【例3.9】欧几里得距离计算示例。

In [None]:
import numpy as np
x00 = np.array([1, 2, 3])
x01 = np.array([4, 5, 6])
x10 = np.array([7, 8, 9])
x11 = np.array([10, 11, 12])
distance00 = np.linalg.norm(x00 - x10)
distance01 = np.linalg.norm(x00 - x11)
distance10 = np.linalg.norm(x01 - x10)
distance11 = np.linalg.norm(x01 - x11)
print(distance00,distance01,distance10,distance11)

In [None]:
from sklearn.metrics.pairwise import euclidean_distances
X = np.array([[1, 2, 3], [4, 5, 6]])
Y = np.array([[7, 8, 9], [10, 11, 12]])
distances = euclidean_distances(X, Y)
print(distances)


In [None]:
【例3.10】闵可夫斯基距离计算示例。

In [None]:
import numpy as np
# 二维空间中两个点的闵可夫斯基距离（p=1）
point1 = np.array([1, 2])
point2 = np.array([4, 6])
minkowski_distance = np.power(np.sum(np.power(np.abs(point1 - point2), 1)), 1/1)
print(minkowski_distance) # 输出 7
# 三维空间中两个点的闵可夫斯基距离（p=2）
point1 = np.array([1, 2, 3])
point2 = np.array([4, 6, 8])
minkowski_distance = np.power(np.sum(np.power(np.abs(point1 - point2), 2)), 1/2)
print(minkowski_distance) 

In [None]:
from scipy.spatial.distance import minkowski

# 计算二维空间中两个点的闵可夫斯基距离
point1 = np.array([1, 2])
point2 = np.array([4, 6])
minkowski_distance = minkowski(point1, point2, p=3)
print(minkowski_distance)  # 输出 4.49794144528

# 计算三维空间中两个点的闵可夫斯基距离
point1 = np.array([1, 2, 3])
point2 = np.array([4, 6, 8])
minkowski_distance = minkowski(point1, point2, p=4)
print(minkowski_distance)


In [None]:
【例3.11】余弦相似度计算示例。
在numpy中，可以使用 numpy.dot() 函数和 numpy.linalg.norm() 函数计算两个向量的点积和向量范数，从而计算它们之间的余弦相似度。示例如下。

In [None]:
import numpy as np
# 计算两个向量的余弦相似度
vector1 = np.array([1, 2, 3])
vector2 = np.array([4, 5, 6])
cosine_similarity = np.dot(vector1, vector2) / (np.linalg.norm(vector1) * np.linalg.norm(vector2))
print(cosine_similarity) # 输出 0.974631846198

In [None]:
在scikit-learn中，可以使用 sklearn.metrics.pairwise.cosine_similarity() 函数计算两个向量之间的余弦相似度。示例如下：

In [None]:
from sklearn.metrics.pairwise import cosine_similarity
# 计算两个向量的余弦相似度
vector1 = np.array([1, 2, 3])
vector2 = np.array([4, 5, 6])
cosine_similarity = cosine_similarity([vector1], [vector2])[0][0]
print(cosine_similarity) # 输出 0.974631846198

In [None]:
【例3.12】Jaccard相似系数计算示例。
在Numpy中，可以使用 intersect1d 和 union1d 函数来计算两个集合的交集和并集。使用方法如下：

In [None]:
import numpy as np
# 计算两个集合的交集和并集
intersection = np.intersect1d(A, B)
union = np.union1d(A, B)
# 计算Jaccard相似系数
jaccard_similarity = intersection.size / union.size
print('Jaccard similarity coefficient:', jaccard_similarity)

In [None]:
其中，A 和 B 分别是要计算相似度的两个集合，intersection 和 union 分别是它们的交集和并集，jaccard_similarity 是它们的Jaccard相似系数。
在scikit-learn中，可以使用 jaccard_score 函数来计算两个集合的Jaccard相似系数。使用方法如下：

In [None]:
from sklearn.metrics import jaccard_score
import numpy as np

# Example multiclass targets
y_true = np.array([0, 1, 2, 2, 3])
y_pred = np.array([0, 2, 2, 2, 3])

# Calculate Jaccard similarity coefficient
jaccard_similarity = jaccard_score(y_true, y_pred, average='micro')
print('Jaccard similarity coefficient:', jaccard_similarity)


In [None]:
【例3.13】VDM计算示例。

In [None]:
import numpy as np
def calculate_vdm(feature, target):
    unique_values = np.unique(feature)  # 获取特征的唯一取值
    vdm_scores = {}  # 用于存储每个取值的VDM得分

    for value in unique_values:
        indices = np.where(feature == value)[0]  # 获取特征取值等于value的样本索引
        class_counts = np.bincount(target[indices])  # 统计对应样本索引的目标类别计数

        total_instances = len(indices)  # 特征取值等于value的样本总数
        class_probabilities = class_counts / total_instances  # 目标类别的概率分布

        vdm_score = np.sum(np.abs(class_probabilities - 1/len(np.unique(target))))  # 计算VDM得分
        vdm_scores[value] = vdm_score

    return vdm_scores

# 示例数据
feature = np.array(['A', 'A', 'B', 'B', 'B', 'C', 'C', 'C', 'C'])
target = np.array([0, 0, 1, 1, 1, 0, 0, 1, 1])

vdm_scores = calculate_vdm(feature, target)
print("VDM scores:")
for value, score in vdm_scores.items():
    print(f"{value}: {score}")

In [None]:
from sklearn.metrics.pairwise import pairwise_distances
import numpy as np

# 示例二进制数据矩阵（适用于 Jaccard 相似系数）
binary_X = np.array([[0, 1, 0], [1, 0, 1], [1, 1, 0]])

# 计算 Jaccard 相似系数矩阵
jaccard_similarity_matrix = pairwise_distances(binary_X, metric='jaccard')

print("Jaccard 相似系数矩阵:")
print(jaccard_similarity_matrix)


In [None]:
from sklearn.metrics.pairwise import pairwise_distances
import pandas as pd

df=pd.DataFrame([[0, 1, 0], [1, 0, 1], [1, 1, 0]])
df

In [None]:
df.values

In [None]:
# 示例二进制数据矩阵（适用于 Jaccard 相似系数）
binary_X = np.array([[0, 1, 0], [1, 0, 1], [1, 1, 0]])

# 计算 Jaccard 相似系数矩阵
jaccard_similarity_matrix = pairwise_distances(df.values, metric='jaccard')

print("Jaccard 相似系数矩阵:")
print(jaccard_similarity_matrix)

In [None]:
from sklearn.metrics.pairwise import pairwise_distances
import pandas as pd
import numpy as np

# 创建 DataFrame
df = pd.DataFrame([[0, 1, 0], [1, 0, 1], [1, 1, 0]])

# 将 DataFrame 转换为 NumPy 数组
data_array = df.to_numpy()

# 计算 Jaccard 相似系数矩阵
jaccard_similarity_matrix = pairwise_distances(data_array, metric='jaccard')

# 打印 Jaccard 相似系数矩阵
print("Jaccard 相似系数矩阵:")
print(jaccard_similarity_matrix)



In [None]:
from sklearn.datasets import *

In [None]:
fetch_california_housing()

In [None]:
【例3.14】皮尔逊相关系数计算案例。

In [None]:
from scipy.stats import pearsonr
# 计算两个变量之间的皮尔逊相关系数和p值
corr, p_value = pearsonr(x, y)
print('Pearson correlation coefficient:', corr)
print('p-value:', p_value)

In [None]:
import numpy as np
from scipy.stats import pearsonr

x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 3, 5, 8, 10])

# 使用 NumPy 计算皮尔逊相关系数
r_np = np.corrcoef(x, y)[0, 1]
print('NumPy 计算的皮尔逊相关系数：', r_np)

# 使用 SciPy 计算皮尔逊相关系数
r_sp, p_value = pearsonr(x, y)
print('SciPy 计算的皮尔逊相关系数：', r_sp)


In [None]:
【例3.15】斯皮尔曼相关系数计算案例。
使用NumPy和SciPy库可以计算斯皮尔曼相关系数，代码示例如下：

In [None]:
import numpy as np
from scipy.stats import spearmanr

# 创建两个随机变量
x = np.array([1, 2, 3, 4, 5])
y = np.array([5, 4, 3, 2, 1])

# 计算斯皮尔曼相关系数和p值
corr, p_value = spearmanr(x, y)

print("Spearman correlation coefficient:", corr)
print("p-value:", p_value)

In [None]:
在 scikit-learn 中，可以使用 spearmanr 函数计算两个变量之间的斯皮尔曼相关系数。示例如下：

In [None]:
from scipy.stats import spearmanr
# 定义两个变量
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
# 计算斯皮尔曼相关系数和 p 值
corr, p_value = spearmanr(x, y)
print("斯皮尔曼相关系数：", corr)
print("p 值：", p_value)