# 第7章：使用cuML进行机器学习

<img src="images/chapter-07/rapids_logo.png" style="width:600px;"/>

作为NVIDIA RAPIDS套件的一部分,cuML在加速端到端机器学习流程方面非常有用,从数据预处理到模型训练和评估,都能利用NVIDIA GPU的并行处理能力。

与其他RAPIDS库一样,cuML致力于模仿其在Python科学计算生态系统中的对应产品scikit-learn的行为。通过匹配scikit-learn API,已经熟悉scikit-learn语法和功能的用户可以轻松过渡到cuML以获得GPU加速。


## cuML基础

cuML是一个在GPU上实现了一套机器学习算法的库,它提供了一个易于使用的类似scikit-learn的接口,从而实现显著的性能提升。

### 使用cuML的优势

cuML提供了几个优势,使其成为希望加速机器学习工作流程的数据科学家的理想选择:
- **速度:** 通过利用GPU加速,cuML可以显著减少训练模型和进行预测所需的时间。
- **可扩展性:** 它设计为可以从单个GPU扩展到多GPU设置,能够更高效地处理大型数据集。
- **易用性:** cuML的API与scikit-learn相似,使已经熟悉这个流行的Python机器学习库的用户容易上手。


### 何时使用cuML
如果您遇到以下任何情况,cuML都能提供非凡的优势:
- 大型数据集导致计算速度变慢
- 对性能要求严格的机器学习应用
- 希望利用GPU处理的原始能力


### 使用场景
- 大数据分析：适用于需要处理大量数据的应用,如金融分析或实时分析。
- 深度学习预处理：在机器学习工作流程中用于预处理步骤,显著减少训练深度学习模型时的瓶颈。
- 时间序列预测：加速涉及海量数据集的时间序列模型训练。
  

### cuML的局限性

- **GPU要求：** cuML设计为在NVIDIA GPU上运行,这意味着您需要访问兼容的硬件。对于没有NVIDIA GPU的用户来说,cuML不是一个选项,与基于CPU的库如scikit-learn相比,其可访问性受限。

- **CUDA依赖：** 该库依赖于CUDA,NVIDIA的并行计算平台和编程模型。这意味着用户必须安装兼容的CUDA版本,这可能会带来兼容性问题和额外的设置复杂性。

- **GPU内存限制：** cuML算法的性能和可扩展性直接与GPU的内存容量相关。对于非常大的数据集,这可能成为瓶颈,因为整个数据集和中间计算需要适应GPU内存,而GPU内存通常比系统RAM更有限。

- **算法选择有限：** 虽然cuML提供了一系列常用的机器学习算法,但其选择不如scikit-learn全面。某些特定或非常新的算法可能不可用,这对某些项目来说可能是一个限制。

- **扩展挑战：** 虽然cuML支持某些算法的多GPU配置,但扩展到多个GPU可能会在设置和代码方面带来额外的复杂性。管理跨GPU的数据分布和聚合可能具有挑战性,特别是对于那些本质上不是为分布式计算设计的算法。

- **与其他库的集成：** 数据科学家在其工作流程中经常使用各种工具和库。cuML与其他Python库的集成通常很好,特别是在RAPIDS生态系统内,但在与不支持GPU的库集成时可能会遇到挑战,需要在CPU和GPU内存之间进行额外的数据传输。

- **生态系统兼容性：** 与其他机器学习和数据处理框架深度集成的项目在整合cuML时可能会遇到挑战,特别是如果这些框架不原生支持GPU加速或对基于CPU的算法有特定依赖。

- **对GPU计算的熟悉度：** 要充分利用cuML并解决出现的任何问题,用户可能需要对GPU计算原理有基本的了解,这对于只熟悉基于CPU计算的用户来说可能需要一定的学习曲线。

- **文档和社区支持：** 虽然RAPIDS生态系统正在增长,但cuML的文档和社区支持可能不如更成熟的库(如scikit-learn)那么广泛或成熟。这可能使解决特定问题或理解高级功能变得更具挑战性。

## cuML的高级功能

### 多GPU支持

cuML支持多GPU设置,允许您进一步扩展计算。这对于极大的数据集或受益于分布式处理的复杂模型特别有用。

### 与其他RAPIDS库的集成

cuML与其他RAPIDS库(如cuDF(用于数据操作)、cuGraph(用于图分析)和cuSpatial(用于空间数据))集成良好。这种协同作用允许您在GPU上构建全面的数据科学工作流程。


## 有用的参考链接

cuML文档：https://docs.rapids.ai/api/cuml/stable/

cuML API参考：https://docs.rapids.ai/api/cuml/stable/api/ 

Scikit-learn文档：https://scikit-learn.org/stable/  

<img src="images/chapter-07/nvidia-cuda-ml.jpg" style="width:800px;"/>

# 编码指南

### 安装
请使用cuDF RAPIDS安装指南获取适合您的硬件和Python环境的安装说明：https://docs.rapids.ai/install/ 

# 示例

## 创建一个简单的DataFrame

In [None]:
import cudf
import numpy as np

# 创建一个随机DataFrame
data = cudf.DataFrame({
    'x1': np.random.rand(1000),
    'x2': np.random.rand(1000),
    'y': np.random.randint(0, 2, size=1000)
})

data.head()

### 💡 挑战：修改上面DataFrame中的行数并观察输出如何变化。

## 训练机器学习模型 - 简单逻辑回归

In [None]:
from cuml.linear_model import LogisticRegression
from cuml.model_selection import train_test_split

#将数据分为训练集和测试集
X = data[['x1', 'x2']]
y = data['y']
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size = 0.8)
model = LogisticRegression()
model.fit(X_train, y_train)

predictions = model.predict(X_test)

### 💡 挑战：尝试不同的参数、不同的求解器或添加正则化。会发生什么？

## 使用准确率评估模型性能

In [None]:
from cuml.metrics.accuracy import accuracy_score

accuracy = accuracy_score(y_test, predictions)
print(f"模型准确率: {accuracy:.4f}")

## 使用网格搜索进行超参数调优

In [None]:
from cuml.model_selection import GridSearchCV

# 定义参数网格
param_grid = {
    'fit_intercept': [True, False],
    'max_iter': [100, 200]
}

grid_search = GridSearchCV(model, param_grid, scoring='accuracy', cv=3)
grid_search.fit(X_train, y_train)

# 获取最佳参数和分数
print(f"最佳参数: {grid_search.best_params_}")
print(f"最佳分数: {grid_search.best_score_:.4f}")

## 交叉验证

In [None]:
from cuml.model_selection import cross_val_score

scores = cross_val_score(model, X_train, y_train, cv=5)
print(f"交叉验证分数: {scores}")
print(f"平均交叉验证分数: {scores.mean():.4f}")

## 比较GPU和CPU模型

In [None]:
import time 

# 计时GPU模型训练
start_time = time.time()
model = LogisticRegression()
model.fit(X_train, y_train)
gpu_time = time.time() - start_time
print(f"GPU训练时间: {gpu_time:.4f} 秒")

在CPU上训练模型：

In [None]:
from sklearn.linear_model import LogisticRegression as SklearnLogisticRegression
from sklearn.model_selection import train_test_split
import pandas as pd

# 使用pandas创建一个大型随机DataFrame
data_pd = pd.DataFrame({
    'x1': np.random.rand(1000000),
    'x2': np.random.rand(1000000),
    'y': np.random.randint(0, 2, size=1000000)
})

X_pd = data_pd[['x1', 'x2']]
y_pd = data_pd['y']
X_train_pd, X_test_pd, y_train_pd, y_test_pd = train_test_split(X_pd, y_pd, test_size=0.2)


# 计时CPU模型训练
start_time = time.time()
cpu_model = SklearnLogisticRegression()
cpu_model.fit(X_train_pd, y_train_pd)

cpu_time = time.time() - start_time
print(f"CPU训练时间: {cpu_time:.4f} 秒")

**注意：** 虽然表面上代码看起来几乎相同,但使用cuML的模型比仅使用scikit-learn的模型快了近100倍。cuML在GPU上可以显著优于传统的基于CPU的机器学习库,特别是对于大型数据集。随着数据规模的增加,时间节省变得更加明显,展示了利用GPU加速进行机器学习任务的优势。

### 💡 挑战：如果您有特定的数据集或模型,可以运行上述示例亲自查看时间差异！


## 保存和加载模型

In [None]:
!pip install joblib

In [None]:
# 使用cuML的joblib保存训练好的模型
import joblib

joblib.dump(model, 'logistic_regression_model.pkl')

# 加载模型
loaded_model = joblib.load('logistic_regression_model.pkl')

## K-均值聚类

In [None]:
# 📊 使用K-均值聚类
# 让我们演示使用cuML进行K-均值聚类。

from cuml.cluster import KMeans
from cupy import cp 

# 生成用于聚类的合成数据
X_clustering = cp.random.rand(10000, 2)  # 10,000个样本, 2个特征

# 初始化KMeans
kmeans = KMeans(n_clusters=3)
kmeans.fit(X_clustering)

# 预测聚类标签
labels = kmeans.predict(X_clustering)

# 显示前几个标签
print(labels[:10])


## 使用PCA进行降维

In [None]:
# 📊 使用PCA进行降维
# 对数据集执行PCA以进行降维。

from cuml.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print(f"PCA转换后的形状: {X_pca.shape}")
