# So sánh các thuật toán tối ưu trong Deep Learning

Notebook này sẽ so sánh hiệu suất của các thuật toán tối ưu khác nhau (SGD, Adam, RMSprop) trên bộ dữ liệu MNIST để phân tích:
1. Tốc độ hội tụ
2. Độ chính xác cuối cùng
3. Sự thay đổi của gradient và learning rate
4. Khả năng tránh local minima

In [None]:
import sys
sys.path.append('../src')

import torch
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import matplotlib.pyplot as plt
import seaborn as sns

from models import SimpleCNN
from trainer import ModelTrainer
from utils import plot_training_curves, save_results_to_csv, compare_convergence_speed

# Set random seed for reproducibility
torch.manual_seed(42)
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f'Using device: {device}')

## Chuẩn bị dữ liệu

In [None]:
# Định nghĩa transform
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,))
])

# Tải dữ liệu MNIST
train_dataset = datasets.MNIST('../data', train=True, download=True, transform=transform)
test_dataset = datasets.MNIST('../data', train=False, transform=transform)

# Tạo DataLoader
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=64)

## Thử nghiệm với các Optimizer

In [None]:
def train_with_optimizer(optimizer_name, learning_rate=0.01, momentum=0.9):
    model = SimpleCNN().to(device)
    
    if optimizer_name == 'SGD':
        optimizer = optim.SGD(model.parameters(), lr=learning_rate, momentum=momentum)
    elif optimizer_name == 'Adam':
        optimizer = optim.Adam(model.parameters(), lr=learning_rate)
    elif optimizer_name == 'RMSprop':
        optimizer = optim.RMSprop(model.parameters(), lr=learning_rate)
    else:
        raise ValueError(f'Optimizer {optimizer_name} không được hỗ trợ')
    
    trainer = ModelTrainer(model, device)
    train_metrics, val_metrics = trainer.train_model(
        optimizer=optimizer,
        train_loader=train_loader,
        val_loader=test_loader,
        epochs=10
    )
    
    return train_metrics, val_metrics

# Thử nghiệm với các optimizer
optimizers = ['SGD', 'Adam', 'RMSprop']
learning_rates = [0.01, 0.001, 0.0001]
results = {}

for opt_name in optimizers:
    for lr in learning_rates:
        print(f'\nTraining with {opt_name}, learning rate = {lr}')
        key = f'{opt_name}_lr_{lr}'
        results[key] = train_with_optimizer(opt_name, learning_rate=lr)

## Phân tích kết quả

In [None]:
# Vẽ đồ thị so sánh
plot_training_curves(results)
plt.savefig('../results/optimizer_comparison.png')
plt.show()

# Lưu kết quả vào file CSV
results_df = save_results_to_csv(results)
display(results_df)

# So sánh tốc độ hội tụ
convergence_epochs = compare_convergence_speed(results, target_accuracy=95.0)
print('\nSố epoch cần để đạt độ chính xác 95%:')
for opt_name, epochs in convergence_epochs.items():
    print(f'{opt_name}: {epochs if epochs != float("inf") else "Không đạt target"} epochs')

## Kết luận

Từ các kết quả trên, chúng ta có thể rút ra một số nhận xét:

1. **Tốc độ hội tụ**:
   - Adam thường hội tụ nhanh nhất
   - SGD với momentum hội tụ chậm hơn nhưng ổn định
   - RMSprop có tốc độ hội tụ trung bình

2. **Độ chính xác cuối cùng**:
   - So sánh độ chính xác cuối cùng giữa các optimizer
   - Phân tích sự khác biệt giữa train và validation accuracy

3. **Ảnh hưởng của learning rate**:
   - Các optimizer phản ứng khác nhau với các giá trị learning rate
   - Adam thường ít nhạy cảm hơn với việc chọn learning rate
   - SGD cần tinh chỉnh learning rate cẩn thận hơn

4. **Đề xuất sử dụng**:
   - Adam: Phù hợp cho hầu hết các bài toán, đặc biệt khi cần hội tụ nhanh
   - SGD với momentum: Phù hợp cho các bài toán cần độ ổn định cao
   - RMSprop: Là một lựa chọn tốt cho các mạng RNN và các bài toán có gradient thay đổi nhiều

5. **Các yếu tố cần cân nhắc khi lựa chọn optimizer**:
   - Kích thước và độ phức tạp của model
   - Yêu cầu về tốc độ huấn luyện
   - Tính chất của dữ liệu và bài toán
   - Tài nguyên tính toán sẵn có