# Google Colab 实用教程

专注于机器学习项目中最实用的功能：数据集管理、模型训练与保存。

## 📋 核心功能
1. [云盘挂载与数据集加载](#1-云盘挂载与数据集加载)
2. [GPU配置与验证](#2-GPU配置与验证)  
3. [模型训练与保存](#3-模型训练与保存)
4. [实用技巧](#4-实用技巧)

---

## 1. 云盘挂载与数据集加载

### 1.1 挂载Google Drive


In [2]:

from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


### 1.2 加载数据集

以下是常见的数据集加载方式：

In [None]:
# 1. 从云盘加载数据集
import pandas as pd
import numpy as np
import os

# 设置数据集路径（云盘中的路径）
dataset_path = "/content/drive/MyDrive/datasets/"

# 加载CSV数据集
# df = pd.read_csv(dataset_path + "train.csv")
# print(f"数据集形状: {df.shape}")

# 2. 从云盘加载图像数据集
from PIL import Image
import matplotlib.pyplot as plt

# 图像数据集路径示例
# image_folder = "/content/drive/MyDrive/datasets/images/"
# image_files = os.listdir(image_folder)
# print(f"找到 {len(image_files)} 个图像文件")

# 3. 从云盘加载预处理好的numpy数组
# X_train = np.load("/content/drive/MyDrive/datasets/X_train.npy")
# y_train = np.load("/content/drive/MyDrive/datasets/y_train.npy")
# print(f"训练数据形状: {X_train.shape}, 标签形状: {y_train.shape}")

print("数据集加载模板已准备好，请根据实际路径修改代码")

Mon Sep 22 14:13:29 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15              Driver Version: 550.54.15      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  NVIDIA A100-SXM4-40GB          Off |   00000000:00:04.0 Off |                    0 |
| N/A   32C    P0             45W /  400W |       0MiB /  40960MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
                                                

## 2. GPU配置与验证

### 2.1 查看分配的GPU

**重要提示**: 要使用GPU，请先设置运行时类型：
- 点击 **运行时** → **更改运行时类型** → **硬件加速器** → 选择 **GPU**


In [None]:
# 查看分配到的GPU详细信息
gpu_info = !nvidia-smi
gpu_info = '\n'.join(gpu_info)
if gpu_info.find('failed') >= 0:
  print('❌ 未连接到GPU')
  print('请检查运行时设置: 运行时 -> 更改运行时类型 -> GPU')
else:
  print('✅ GPU信息:')
  print(gpu_info)

print("\n" + "="*60)

# 检查GPU和深度学习框架
import torch
import tensorflow as tf

print("=== 深度学习框架 GPU 支持检查 ===")

# PyTorch GPU检查
print(f"PyTorch版本: {torch.__version__}")
print(f"CUDA可用: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"GPU设备: {torch.cuda.get_device_name(0)}")
    print(f"GPU内存: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.1f} GB")
    print(f"当前GPU设备: cuda:{torch.cuda.current_device()}")

print()

# TensorFlow GPU检查  
print(f"TensorFlow版本: {tf.__version__}")
gpus = tf.config.experimental.list_physical_devices('GPU')
print(f"TensorFlow检测到的GPU: {len(gpus)} 个")
for gpu in gpus:
    print(f"  - {gpu}")

# 设置GPU内存增长（避免占用全部显存）
if gpus:
    try:
        for gpu in gpus:
            tf.config.experimental.set_memory_growth(gpu, True)
        print("✅ GPU内存增长模式已设置")
    except RuntimeError as e:
        print(f"❌ 设置GPU内存增长失败: {e}")


## 3. 模型训练与保存

### 3.1 模型保存到云盘


In [None]:
# 模型保存示例
import os
from datetime import datetime

# 创建模型保存目录
model_save_path = "/content/drive/MyDrive/models/"
os.makedirs(model_save_path, exist_ok=True)

# 1. PyTorch模型保存
"""
# 训练完成后保存模型
model_name = f"my_model_{datetime.now().strftime('%Y%m%d_%H%M')}.pth"
torch.save(model.state_dict(), model_save_path + model_name)
print(f"PyTorch模型已保存: {model_save_path + model_name}")

# 保存完整模型（包括架构）
torch.save(model, model_save_path + f"complete_model_{datetime.now().strftime('%Y%m%d_%H%M')}.pth")
"""

# 2. TensorFlow/Keras模型保存
"""
# 保存整个模型
model.save(model_save_path + f"tf_model_{datetime.now().strftime('%Y%m%d_%H%M')}.h5")

# 保存权重
model.save_weights(model_save_path + f"tf_weights_{datetime.now().strftime('%Y%m%d_%H%M')}.h5")

# 保存为SavedModel格式（推荐）
model.save(model_save_path + f"saved_model_{datetime.now().strftime('%Y%m%d_%H%M')}")
"""

# 3. 保存训练历史和配置
"""
import json
import pickle

# 保存训练配置
config = {
    'learning_rate': 0.001,
    'batch_size': 32,
    'epochs': 100,
    'model_architecture': 'ResNet50'
}
with open(model_save_path + 'config.json', 'w') as f:
    json.dump(config, f, indent=2)

# 保存训练历史
with open(model_save_path + 'training_history.pkl', 'wb') as f:
    pickle.dump(history.history, f)
"""

print(f"模型保存目录已创建: {model_save_path}")
print("请在训练完成后取消注释相应代码来保存模型")


### 3.2 模型加载与断点续训


In [None]:
# 模型加载和断点续训
import glob

# 1. 从云盘加载预训练模型
def load_latest_model(model_dir, model_type="pytorch"):
    """加载最新的模型文件"""
    if model_type == "pytorch":
        model_files = glob.glob(os.path.join(model_dir, "*.pth"))
    else:  # tensorflow
        model_files = glob.glob(os.path.join(model_dir, "*.h5"))
    
    if model_files:
        latest_model = max(model_files, key=os.path.getctime)
        print(f"找到最新模型: {latest_model}")
        return latest_model
    else:
        print("未找到模型文件")
        return None

# 2. PyTorch模型加载示例
"""
# 加载模型权重
model = YourModel()  # 先创建模型实例
latest_model_path = load_latest_model(model_save_path, "pytorch")
if latest_model_path:
    model.load_state_dict(torch.load(latest_model_path))
    print("PyTorch模型权重加载完成")

# 加载完整模型
# model = torch.load(latest_model_path)
"""

# 3. TensorFlow模型加载示例
"""
from tensorflow.keras.models import load_model

latest_model_path = load_latest_model(model_save_path, "tensorflow") 
if latest_model_path:
    model = load_model(latest_model_path)
    print("TensorFlow模型加载完成")
"""

# 4. 断点续训设置
"""
# 设置检查点回调
from tensorflow.keras.callbacks import ModelCheckpoint

checkpoint_path = model_save_path + "checkpoint_epoch_{epoch:02d}.h5"
checkpoint_callback = ModelCheckpoint(
    filepath=checkpoint_path,
    save_weights_only=True,
    save_freq='epoch',  # 每个epoch保存一次
    verbose=1
)

# 训练时使用回调
# model.fit(X_train, y_train, callbacks=[checkpoint_callback])
"""

print("模型加载和断点续训代码模板已准备好")


## 4. 实用技巧

### 4.1 防止连接超时


In [None]:
# Colab实用技巧合集

# 1. 防止连接超时的JavaScript代码
from IPython.display import display, Javascript

def prevent_colab_timeout():
    """防止Colab因为不活跃而断开连接"""
    display(Javascript('''
    function ClickConnect(){
        console.log("Working");
        document.querySelector("colab-connect-button").click()
    }
    setInterval(ClickConnect,60000)
    '''))

# 运行此函数来防止超时
# prevent_colab_timeout()

# 2. 清理GPU内存
def clear_gpu_memory():
    """清理GPU内存"""
    if torch.cuda.is_available():
        torch.cuda.empty_cache()
        print("PyTorch GPU内存已清理")
    
    # TensorFlow清理
    try:
        from tensorflow.keras import backend as K
        K.clear_session()
        print("TensorFlow内存已清理")
    except:
        pass

# 3. 监控训练进度
def setup_training_monitor():
    """设置训练监控"""
    code = """
    # 可以在训练循环中使用
    from tqdm import tqdm
    import matplotlib.pyplot as plt
    
    # 进度条
    for epoch in tqdm(range(num_epochs), desc="Training"):
        # 训练代码
        pass
    
    # 实时绘图
    from IPython.display import clear_output
    
    def plot_training_progress(train_losses, val_losses):
        clear_output(wait=True)
        plt.figure(figsize=(10, 4))
        plt.subplot(1, 2, 1)
        plt.plot(train_losses, label='Training Loss')
        plt.plot(val_losses, label='Validation Loss')
        plt.legend()
        plt.title('Training Progress')
        plt.show()
    """
    print("训练监控代码模板:")
    print(code)

setup_training_monitor()


### 4.2 常用命令和快捷键


In [None]:
# 常用技巧总结

print("=== Colab 实用技巧总结 ===")
print()

print("📌 重要提示:")
print("1. 免费版GPU使用时间有限(约12小时)，合理安排训练时间")
print("2. 运行时会在12小时后或不活跃90分钟后重置")
print("3. 重要数据务必保存到云盘！")
print()

print("⌨️ 常用快捷键:")
print("- Ctrl+Enter: 运行当前单元格")
print("- Shift+Enter: 运行当前单元格并选择下一个")
print("- Ctrl+M+A: 在上方插入单元格")
print("- Ctrl+M+B: 在下方插入单元格")
print("- Ctrl+M+D: 删除单元格")
print("- Ctrl+M+Y: 切换为代码单元格")
print("- Ctrl+M+M: 切换为Markdown单元格")
print()

print("💡 最佳实践:")
print("- 定期保存checkpoints到云盘")
print("- 使用相对路径引用云盘文件")
print("- 训练前检查GPU可用性")
print("- 长时间训练建议开启防断线功能")
print("- 及时清理不需要的文件释放空间")
print()

print("🔧 调试技巧:")
print("- 使用 !nvidia-smi 查看GPU使用情况")
print("- 使用 !df -h 查看磁盘空间")
print("- 使用 !ps aux | grep python 查看运行进程")
print("- 训练卡住时重启运行时: 运行时 -> 重启运行时")

# 快速设置代码模板
print("\n" + "="*50)
print("🚀 快速开始模板:")
print("1. 挂载云盘: drive.mount('/content/drive')")
print("2. 检查GPU: torch.cuda.is_available()")
print("3. 设置路径: data_path = '/content/drive/MyDrive/...'")
print("4. 开始训练并定期保存到云盘")
