# Về tổ chức dự án

Tên dự án: **ThyroidCancerClassifier**

Cách tổ chức thư mục cho dự án này:

```markdown
ThyroidCancerClassifier/
│
├── data/                        # Thư mục chứa dữ liệu
│   ├── raw/                     # Dữ liệu thô chưa qua xử lý
│   ├── processed/               # Dữ liệu đã được tiền xử lý
│   └── augmentation/            # Dữ liệu được tăng cường
│
├── models/                      # Thư mục chứa mô hình đã được huấn luyện và thông tin mô hình
│   ├── checkpoints/             # Checkpoints trong quá trình huấn luyện
│   └── final/                   # Mô hình cuối cùng đã được huấn luyện
│
├── notebooks/                   # Jupyter notebooks cho thử nghiệm và phân tích
│
├── src/                         # Mã nguồn cho dự án
│   ├── data_preparation/        # Scripts để chuẩn bị và tiền xử lý dữ liệu
│   ├── model/                   # Scripts định nghĩa mô hình
│   ├── training/                # Scripts để huấn luyện mô hình
│   └── evaluation/              # Scripts để đánh giá mô hình
│
├── docs/                        # Tài liệu dự án
│
├── tests/                       # Thư mục chứa các bài test
│
├── requirements.txt             # File liệt kê các thư viện cần thiết
└── README.md                    # README cho thông tin tổng quan về dự án
```

### Mô tả chi tiết:

- **data/**: Chứa dữ liệu thô và đã qua xử lý. Có thể bao gồm các ảnh gốc và ảnh đã qua tiền xử lý hoặc tăng cường.
- **models/**: Lưu trữ mô hình đã được huấn luyện, bao gồm cả checkpoints để có thể tiếp tục huấn luyện nếu cần.
- **notebooks/**: Chứa Jupyter notebooks, nơi bạn có thể thực hiện các thí nghiệm, phân tích dữ liệu, và trực quan hóa.
- **src/**: Mã nguồn chính của dự án, bao gồm tiền xử lý dữ liệu, định nghĩa mô hình, huấn luyện, và đánh giá mô hình.
- **docs/**: Tài liệu dự án, bao gồm thiết kế, yêu cầu, và hướng dẫn sử dụng.
- **tests/**: Thư mục này chứa các bài test để đảm bảo mã nguồn hoạt động đúng.
- **requirements.txt**: File này liệt kê tất cả các thư viện cần thiết để chạy dự án.
- **README.md**: Cung cấp một cái nhìn tổng quan về dự án, cách cài đặt và sử dụng.

Cách tổ chức này giúp dự án có cấu trúc rõ ràng, dễ quản lý và mở rộng.

# Về cách lưu lịch sử để phân tích

Trong thư mục `models/logs/`, bạn có thể lưu trữ các loại tệp nhật ký (log files) liên quan đến quá trình huấn luyện mô hình của bạn. Dưới đây là một số ví dụ về những gì có thể được lưu trữ tại đây:

1. **Nhật Ký Huấn Luyện (Training Logs):** Thông tin chi tiết về quá trình huấn luyện, bao gồm:
   - Độ lỗi (loss) và độ chính xác (accuracy) sau mỗi epoch.
   - Thời gian huấn luyện cho mỗi epoch.
   - Các thông số cấu hình huấn luyện, như tỷ lệ học (learning rate), kích thước lô (batch size), v.v.

2. **Nhật Ký Kiểm Định (Validation Logs):** Thông tin về quá trình kiểm định mô hình, bao gồm độ lỗi và độ chính xác trên tập kiểm định sau mỗi epoch.

3. **Nhật Ký Thử Nghiệm (Testing Logs):** Kết quả của việc đánh giá mô hình trên tập thử nghiệm, bao gồm độ lỗi, độ chính xác, và các chỉ số đánh giá khác.

4. **Nhật Ký Tối Ưu Hóa Hyperparameters:** Thông tin về quá trình tìm kiếm và tối ưu hóa các hyperparameters của mô hình, bao gồm các giá trị thử nghiệm và kết quả tương ứng.

5. **Biểu Đồ và Trực Quan Hóa:** Các biểu đồ và hình ảnh trực quan hóa quá trình huấn luyện và kiểm định, như đồ thị độ lỗi và độ chính xác qua từng epoch, ma trận nhầm lẫn (confusion matrix), v.v.

6. **Nhật Ký Tự Do:** Bất kỳ thông tin bổ sung nào mà bạn muốn ghi lại, như ghi chú về các thử nghiệm cụ thể, ý tưởng cho các cải tiến mô hình, v.v.

Lưu trữ nhật ký trong quá trình phát triển mô hình giúp bạn theo dõi tiến độ, phân tích và so sánh hiệu suất của các mô hình khác nhau, và điều chỉnh chiến lược huấn luyện dựa trên dữ liệu cụ thể.

# Code khởi tạo cấu trúc dự án

```bash
#!bash.sh
cd /path/to/have/the/project/
mkdir -p ThyroidCancerClassifier/data/raw ThyroidCancerClassifier/data/processed ThyroidCancerClassifier/data/augmentation
mkdir -p ThyroidCancerClassifier/models/checkpoints ThyroidCancerClassifier/models/final ThyroidCancerClassifier/models/log
mkdir -p ThyroidCancerClassifier/notebooks
mkdir -p ThyroidCancerClassifier/src/data_preparation ThyroidCancerClassifier/src/model ThyroidCancerClassifier/src/training ThyroidCancerClassifier/src/evaluation
mkdir -p ThyroidCancerClassifier/docs
mkdir -p ThyroidCancerClassifier/tests
touch ThyroidCancerClassifier/guide.ipynb
touch ThyroidCancerClassifier/data/description.txt
touch ThyroidCancerClassifier/.gitignore
touch ThyroidCancerClassifier/requirements.txt
touch ThyroidCancerClassifier/README.md
```

# Về việc public code và dùng trên colab

Có thể clone một dự án GitHub private về trên Google Colab, nhưng bạn cần xác thực để truy cập vào dự án private đó. Dưới đây là một cách thực hiện:

1. **Tạo Personal Access Token trên GitHub:**
   - Đi tới `Settings` > `Developer settings` > `Personal access tokens` > `Generate new token`.
   - Chọn các quyền bạn cần cho token (ít nhất là `repo` để có thể clone dự án private).
   - Lưu token này lại, bạn sẽ cần nó để xác thực.

2. **Sử dụng Token để Clone trong Google Colab:**
   - Trong một cell của Google Colab, bạn có thể sử dụng lệnh `!git clone` với URL được chỉnh sửa để bao gồm token của bạn. **Lưu ý:** Đừng chia sẻ hoặc công khai notebook này vì token của bạn có thể bị lộ.

```python
!git clone https://<token>:x-oauth-basic@<github_repo_url>
```

Thay `<token>` bằng Personal Access Token của bạn và `<github_repo_url>` bằng URL của repo GitHub (không bao gồm `https://`).

**Lưu ý quan trọng:** Để bảo mật, bạn không nên để lộ Personal Access Token của mình. Nếu bạn cần chia sẻ notebook, hãy xóa hoặc ẩn cell chứa token trước khi chia sẻ. Google Colab cũng cung cấp các biện pháp để nhập dữ liệu một cách an toàn, như sử dụng biến môi trường hoặc nhập từ bàn phím, để tránh để lộ thông tin nhạy cảm trong notebook.

# Về việc lưu trữ data trên Github

Tải dữ liệu lên dự án GitHub có thể không phải là lựa chọn tốt nhất trong một số trường hợp, đặc biệt là khi dữ liệu có kích thước lớn hoặc chứa thông tin nhạy cảm. Dưới đây là một số điểm cần xem xét:

1. **Kích thước Dữ liệu:** GitHub giới hạn kích thước file và dung lượng kho lưu trữ. Nếu dữ liệu của bạn lớn, việc tải lên GitHub có thể không khả thi.

2. **Bảo Mật và Quyền Riêng Tư:** Nếu dữ liệu chứa thông tin cá nhân hoặc nhạy cảm, việc tải lên một kho lưu trữ công khai hoặc thậm chí là private có thể không an toàn.

3. **Quyền Truy Cập:** Dữ liệu trong dự án GitHub có thể được truy cập bởi những người có quyền truy cập vào kho lưu trữ. Điều này có thể không phù hợp nếu bạn muốn hạn chế quyền truy cập vào dữ liệu.

### Các Lựa Chọn Khác:

- **Sử dụng Git LFS:** Nếu bạn cần tải dữ liệu lên GitHub, hãy xem xét sử dụng Git Large File Storage (LFS) để quản lý các file lớn.

- **Lưu Trữ Bên Ngoài:** Lưu trữ dữ liệu trên một dịch vụ lưu trữ đám mây bên ngoài (như Google Drive, Dropbox, hoặc AWS S3) và chia sẻ liên kết trong dự án GitHub của bạn.

- **Mô Tả Dữ Liệu:** Thay vì tải dữ liệu lên, bạn có thể mô tả cách để thu thập hoặc truy cập dữ liệu trong tài liệu của dự án, bao gồm các bước cần thiết để người khác có thể tự lấy dữ liệu.

Trong hầu hết các trường hợp, việc chia sẻ dữ liệu thông qua các dịch vụ lưu trữ đám mây và cung cấp hướng dẫn chi tiết về cách truy cập dữ liệu trong tài liệu dự án là một lựa chọn tốt hơn.