# Project Setup for Google Colab

Notebook này sẽ hướng dẫn bạn cách upload và tổ chức project trên Google Drive để chạy trên Colab.

## 1. Mount Google Drive

Đầu tiên, chúng ta cần mount Google Drive để có thể upload và tổ chức files.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

# Tạo thư mục project
import os

PROJECT_DIR = "/content/drive/MyDrive/text_summarization_project"
os.makedirs(PROJECT_DIR, exist_ok=True)

# Tạo cấu trúc thư mục
directories = [
    'data/raw',
    'data/processed',
    'models/tinyllama_base',
    'models/finetuned_qlora',
    'src'
]

for dir_path in directories:
    os.makedirs(os.path.join(PROJECT_DIR, dir_path), exist_ok=True)

## 2. Upload Source Files

Chúng ta sẽ upload các file source code cần thiết từ local lên Google Drive.

In [None]:
from google.colab import files

# Upload các file source code
src_files = [
    'config.py',
    'dataset_utils.py',
    'evaluate.py',
    'metrics_utils.py',
    'predict.py'
]

print("Vui lòng upload các file sau từ thư mục src:")
for file in src_files:
    print(f"- {file}")

uploaded = files.upload()

# Di chuyển các file đã upload vào thư mục src
import shutil

for filename in uploaded.keys():
    if filename in src_files:
        shutil.move(filename, os.path.join(PROJECT_DIR, 'src', filename))
        print(f"Đã di chuyển {filename} vào thư mục src")

## 3. Upload Model Files

Upload các file cấu hình của mô hình TinyLlama.

In [None]:
# Upload các file model
model_files = [
    'chat_template.jinja',
    'special_tokens_map.json',
    'tokenizer_config.json',
    'tokenizer.json'
]

print("Vui lòng upload các file sau từ thư mục models/tinyllama_base:")
for file in model_files:
    print(f"- {file}")

uploaded = files.upload()

# Di chuyển các file đã upload vào thư mục models/tinyllama_base
for filename in uploaded.keys():
    if filename in model_files:
        shutil.move(filename, os.path.join(PROJECT_DIR, 'models', 'tinyllama_base', filename))
        print(f"Đã di chuyển {filename} vào thư mục models/tinyllama_base")

## 4. Upload Data Files

Upload dữ liệu đã xử lý từ thư mục data/processed.

In [None]:
# Upload các file dữ liệu
data_files = [
    'train.csv',
    'validation.csv',
    'test.csv'
]

print("Vui lòng upload các file sau từ thư mục data/processed:")
for file in data_files:
    print(f"- {file}")

uploaded = files.upload()

# Di chuyển các file đã upload vào thư mục data/processed
for filename in uploaded.keys():
    if filename in data_files:
        shutil.move(filename, os.path.join(PROJECT_DIR, 'data', 'processed', filename))
        print(f"Đã di chuyển {filename} vào thư mục data/processed")

## 5. Kiểm tra Cấu trúc Project

Kiểm tra xem tất cả các file đã được upload và sắp xếp đúng vị trí chưa.

In [None]:
def check_files(base_path, file_list, dir_path):
    missing = []
    for file in file_list:
        if not os.path.exists(os.path.join(base_path, dir_path, file)):
            missing.append(file)
    return missing

# Kiểm tra source files
missing_src = check_files(PROJECT_DIR, src_files, 'src')
if missing_src:
    print("❌ Thiếu các file trong thư mục src:")
    for file in missing_src:
        print(f"  - {file}")
else:
    print("✅ Đã đủ các file trong thư mục src")

# Kiểm tra model files
missing_model = check_files(PROJECT_DIR, model_files, 'models/tinyllama_base')
if missing_model:
    print("\n❌ Thiếu các file trong thư mục models/tinyllama_base:")
    for file in missing_model:
        print(f"  - {file}")
else:
    print("\n✅ Đã đủ các file trong thư mục models/tinyllama_base")

# Kiểm tra data files
missing_data = check_files(PROJECT_DIR, data_files, 'data/processed')
if missing_data:
    print("\n❌ Thiếu các file trong thư mục data/processed:")
    for file in missing_data:
        print(f"  - {file}")
else:
    print("\n✅ Đã đủ các file trong thư mục data/processed")