# MaiChart AI - Colab Training (Deep Optimized)

1. **Check GPU**: Runtime -> Change runtime type -> T4 GPU.
2. **Features**:
    *   **Auto-Resume**: 自动寻找最新的 `epoch_X.pt` 并接力轮数训练。
    *   **Cloud Priority**: 挂载网盘后自动保存到 `MyDrive/maimai/models`。
    *   **Auto-Download**: 即使不挂载网盘，每轮训练完也会自动触发浏览器下载保存权重。
    *   **Full States**: `best.pt` 也包含优化器状态，支持完美恢复。


In [1]:
!nvidia-smi

Wed Jan 21 18:03:59 2026       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15              Driver Version: 550.54.15      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  Tesla T4                       Off |   00000000:00:04.0 Off |                    0 |
| N/A   41C    P8              9W /   70W |       0MiB /  15360MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                

In [8]:
import os

# 1. 确保回到根目录，彻底清理可能有问题的旧文件夹
%cd /content
!rm -rf /content/maimai-chat-ai

# 2. 重新克隆仓库
!git clone https://github.com/lvyirgil/maimai-chat-ai.git

# 3. 进入文件夹
%cd /content/maimai-chat-ai

# 4. 检查文件列表（现在应该能看到很多文件了，确认有 requirements.txt）
print("\n--- 当前目录下的文件 ---")
!ls

# 5. 如果看到了 requirements.txt，再安装依赖
if os.path.exists('requirements.txt'):
    !pip install -r requirements.txt
else:
    print("\n❌ 错误：仓库里依然没有找到 requirements.txt，请检查 GitHub 地址是否正确。")


/content
Cloning into 'maimai-chat-ai'...
remote: Enumerating objects: 1883, done.[K
remote: Counting objects: 100% (1883/1883), done.[K
remote: Compressing objects: 100% (1840/1840), done.[K
remote: Total 1883 (delta 42), reused 1874 (delta 37), pack-reused 0 (from 0)[K
Receiving objects: 100% (1883/1883), 4.39 MiB | 17.21 MiB/s, done.
Resolving deltas: 100% (42/42), done.
/content/maimai-chat-ai

--- 当前目录下的文件 ---
check_cuda.py  GPU_TRAINING.md		 README.md	   tests
configs        IMPORT_TOOL_INSTALLED.md  requirements.txt  train_gpu.bat
data	       models			 scripts	   train_gpu.py
docs	       notebooks		 src		   train.ps1
Collecting flash-attn>=2.0.0 (from -r requirements.txt (line 12))
  Downloading flash_attn-2.8.3.tar.gz (8.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.4/8.4 MB[0m [31m86.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting hydra-core>=1.3.0 (from -r requirements.txt (line 28))
  Downl

In [12]:
import zipfile
import os
import shutil

zip_path = '/content/drive/MyDrive/maimai_data.zip'
# 目标：让 .txt 进 data/raw，让音频进 data/audio
target_base = '/content/maimai-chat-ai/data'

def force_unzip():
    if not os.path.exists(zip_path):
        print("❌ 错误：在网盘里没找到 maimai_data.zip，请确保 drive.mount 已运行且文件名正确！")
        return

    # 先清理一遍空文件夹
    shutil.rmtree(os.path.join(target_base, 'audio'), ignore_errors=True)
    shutil.rmtree(os.path.join(target_base, 'raw'), ignore_errors=True)
    os.makedirs(os.path.join(target_base, 'audio'), exist_ok=True)
    os.makedirs(os.path.join(target_base, 'raw'), exist_ok=True)

    print("正在强力解压中，请稍后（4.6GB 可能需要 2-3 分钟）...")
    with zipfile.ZipFile(zip_path, 'r') as z:
        for info in z.infolist():
            # 1. 修复编码
            try:
                name = info.filename.encode('cp437').decode('gbk')
            except:
                name = info.filename

            name = name.replace('\\', '/')

            # 2. 识别文件类型并分类存放
            if name.endswith(('.mp3', '.wav', '.ogg', '.flac', '.MP3')):
                # 无论原来路径在哪，都只要文件名，强行塞进 data/audio/
                fname = os.path.basename(name)
                if fname:
                    with z.open(info) as source, open(os.path.join(target_base, 'audio', fname), 'wb') as target:
                        shutil.copyfileobj(source, target)

            elif name.endswith('.txt'):
                # 强行塞进 data/raw/
                fname = os.path.basename(name)
                if fname:
                    with z.open(info) as source, open(os.path.join(target_base, 'raw', fname), 'wb') as target:
                        shutil.copyfileobj(source, target)

    print(f"✅ 解压完成！")
    print(f"当前音频数: {len(os.listdir(os.path.join(target_base, 'audio')))}")
    print(f"当前谱面数: {len(os.listdir(os.path.join(target_base, 'raw')))}")

force_unzip()

正在强力解压中，请稍后（4.6GB 可能需要 2-3 分钟）...
✅ 解压完成！
当前音频数: 1757
当前谱面数: 1810


In [9]:
# 1. 进入项目文件夹
%cd /content/maimai-chat-ai

# 2. 确认一下文件在不在（应该能看到 requirements.txt）
!ls

# 3. 再安装依赖
!pip install -r requirements.txt

/content/maimai-chat-ai
check_cuda.py  GPU_TRAINING.md		 README.md	   tests
configs        IMPORT_TOOL_INSTALLED.md  requirements.txt  train_gpu.bat
data	       models			 scripts	   train_gpu.py
docs	       notebooks		 src		   train.ps1


In [13]:
!python -m src.data.preprocess

警告: 找不到 M@GICAL☆CURE! LOVE ♥ SHOT! 的音频文件
警告: 找不到 Freak Out Hr 的音频文件
警告: 找不到 デビルじゃないもん 的音频文件
警告: 找不到 てらてら 的音频文件
警告: 找不到 Ref_rain (for 7th Heaven) 的音频文件
警告: 找不到 Colorfull_Encounter 的音频文件
警告: 找不到 美夜月鏡 的音频文件
警告: 找不到 MYTH Re：LEASE 的音频文件
警告: 找不到 はいよろこんで 的音频文件
警告: 找不到 sølips 的音频文件
警告: 找不到 廃墟にいますキャンペーン 的音频文件
警告: 找不到 Flashback 的音频文件
警告: 找不到 Hainuwele 的音频文件
警告: 找不到 抜錨 的音频文件
警告: 找不到 お呪い 的音频文件
警告: 找不到 [嘘] ライアーダンサー 的音频文件
警告: 找不到 Chronomia 的音频文件
警告: 找不到 あいたい星人 的音频文件
警告: 找不到 HYP3RTRIBE 的音频文件
警告: 找不到 ㋰責任集合体 的音频文件
警告: 找不到 カーニバルハッピー 的音频文件
警告: 找不到 唱 的音频文件
警告: 找不到 アンダーキッズ 的音频文件
警告: 找不到 ハオ 的音频文件
警告: 找不到 しゅ～しん？変身☆ハカイシンzzZ 的音频文件
警告: 找不到 Pixel Galaxy 的音频文件
警告: 找不到 偉大なる悪魔は実は大天使パトラちゃん様なのだ！ 的音频文件
警告: 找不到 マツケンサンバⅡ 的音频文件
警告: 找不到 Beginning together! 的音频文件
警告: 找不到 ビビデバ 的音频文件
警告: 找不到 [X] 人マニア 的音频文件
警告: 找不到 Lover_s Trick 的音频文件
警告: 找不到 つづみぐさ 的音频文件
警告: 找不到 サウンドプレイヤー 的音频文件
警告: 找不到 シスターシスター 的音频文件
警告: 找不到 FLΛME-FRΦST 的音频文件
警告: 找不到 Divide et impera! 的音频文件
警告: 找不到 シュガーホリック 的音频文件
警告: 找不到 NO ONE YES MAN 的音频文件
警告: 找不到 Bri

In [None]:
import os
import glob

# 1. 定义网盘中的备份路径 (建议与 train.py 中的 /content/drive/MyDrive/maimai/models 保持一致)
drive_models_path = '/content/drive/MyDrive/maimai/models'
local_models_path = '/content/maimai-chat-ai/models'

# 2. 挂载网盘（如果还没挂载）
if not os.path.exists('/content/drive'):
    from google.colab import drive
    drive.mount('/content/drive')

# 3. 创建网盘目录
!mkdir -p {drive_models_path}

# 4. 建立软链接，确保训练器能直接识别并保存到网盘
if os.path.exists(local_models_path) and not os.path.islink(local_models_path):
    print("正在合并本地模型到网盘...")
    !cp -rn {local_models_path}/* {drive_models_path}/ 2>/dev/null
    !rm -rf {local_models_path}
    !ln -s {drive_models_path} {local_models_path}
elif not os.path.exists(local_models_path):
    !ln -s {drive_models_path} {local_models_path}
print(f"✅ 同步已就绪。所有 epoch 和 best.pt 将保存至: {drive_models_path}")

# 5. 自动寻找最新的 epoch 检查点进行恢复
checkpoints = glob.glob(f"{local_models_path}/epoch_*.pt")
latest_resume = ""
if checkpoints:
    # 按照数字大小排序找到最后一个 epoch
    latest_resume = max(checkpoints, key=lambda x: int(os.path.basename(x).split('_')[1].split('.')[0]))
    print(f"检测到最新检查点: {latest_resume}，将从该轮数继续训练。")
elif os.path.exists(f"{local_models_path}/best.pt"):
    latest_resume = f"{local_models_path}/best.pt"
    print("未找到 epoch 检查点，但检测到 best.pt，将从最佳状态恢复。")

# 6. 启动训练
resume_cmd = f"--resume {latest_resume}" if latest_resume else ""
!python train_gpu.py --config configs/default.yaml {resume_cmd} --epochs 100


正在建立实时同步软链接...
✅ 实时同步已就绪：现在模型保存会直接写入网盘。
载入配置文件: configs/default.yaml

GPU 信息
✓ CUDA 可用
✓ GPU 数量: 1

GPU 0: Tesla T4
  - 计算能力: 7.5
  - 总显存: 14.7 GB
  - 当前显存占用: 0.0 GB

✓ PyTorch 版本: 2.9.0+cu126
✓ 混合精度: 启用 (FP16)

训练配置:
  - 设备: cuda
  - Batch Size: 4
  - 学习率: 1e-4
  - 混合精度: 启用
  - 最大轮数: 100
  - 梯度累积步数: 4

✓ 检测到 GPU，启用混合精度和优化参数
加载样本: 100% 1757/1757 [00:52<00:00, 33.59it/s]
加载了 1757 个样本
从 /content/maimai-chat-ai/models/best.pt 加载检查点 (epoch 5)
开始训练，设备: cuda
训练集大小: 1405
验证集大小: 175
Epoch 0: 352it [09:17,  1.58s/it, loss=0.2331, lr=1.00e-04]
Epoch 0: train_loss = 0.2534
Validating: 44it [00:18,  2.37it/s]
Epoch 0: val_loss = 0.2489
检查点已保存到 models/best.pt
Epoch 1:  31% 110/351 [02:56<06:26,  1.60s/it, loss=0.2553, lr=1.00e-04]

In [23]:
!git fetch origin && git reset --hard origin/main

remote: Enumerating objects: 5, done.[K
remote: Counting objects:  20% (1/5)[Kremote: Counting objects:  40% (2/5)[Kremote: Counting objects:  60% (3/5)[Kremote: Counting objects:  80% (4/5)[Kremote: Counting objects: 100% (5/5)[Kremote: Counting objects: 100% (5/5), done.[K
remote: Compressing objects: 100% (1/1)[Kremote: Compressing objects: 100% (1/1), done.[K
remote: Total 3 (delta 2), reused 3 (delta 2), pack-reused 0 (from 0)[K
Unpacking objects:  33% (1/3)Unpacking objects:  66% (2/3)Unpacking objects: 100% (3/3)Unpacking objects: 100% (3/3), 401 bytes | 401.00 KiB/s, done.
From https://github.com/lvyirgil/maimai-chat-ai
   af80070..12043b4  main       -> origin/main
HEAD is now at 12043b4 Add --resume argument support to train_gpu.py
