# CV Starter — Colab/Kaggle Quickstart

> Author : Badr TAJINI

**Academic year:** 2025–2026  
**School:** ECE  
**Course:** Machine Learning & Deep Learning 2 

---


Welcome! This notebook is intentionally beginner-friendly. Follow the steps exactly and you will confirm that the starter project works on a free GPU runtime.



## M0: Environment Setup

Nous allons utiliser **Colab** pour entrainer notre modèle, cette section décrit comment mettre en place le projet pour l'exécuter dans cet environment.

### Before you run anything

1. **Open the notebook in Google Colab or Kaggle.**
2. **Change the hardware accelerator to GPU (T4 preferred): Runtime` → `Change runtime type` → Hardware accelerator `GPU` → Save.**

### Project files

Ouvrez le terminal Colab et entrez cette commande pour télécharger le projet:
`git clone https://github.com/Draune/cv-project cv-project`

Vous devriez maintenant avoir le dossier `/content/cv-project`.

### Confirm the GPU is ready

La cellule suivante nous permet de vérifier que le GPU est bien actif.

In [None]:
!nvidia-smi || echo "nvidia-smi unavailable (CPU runtime)"

### Point the notebook at the project folder

Cette cellule permet de s'assurer que le projet est bien présent dans `/content/cv-project`.

In [None]:
import os
import sys
from pathlib import Path

PROJECT_ROOT = Path.cwd().resolve()
if PROJECT_ROOT.name == "notebooks":
    PROJECT_ROOT = PROJECT_ROOT.parent.resolve()
elif PROJECT_ROOT.name == "content":
    candidate = PROJECT_ROOT / "cv-project"
    if candidate.exists():
        PROJECT_ROOT = candidate.resolve()

if not (PROJECT_ROOT / "src").exists():
    raise FileNotFoundError(
        f"Could not locate project root at {PROJECT_ROOT}. Clone or upload cv-project before proceeding."
    )

os.chdir(PROJECT_ROOT)
if str(PROJECT_ROOT / "src") not in sys.path:
    sys.path.append(str(PROJECT_ROOT / "src"))
print(f"Project root: {PROJECT_ROOT}")

### Install the project requirements

Ensuite nous installons les dépendances du projet.

In [None]:
# Install project dependencies listed in requirements.txt
!pip install -r requirements.txt

## M1: Problem Scoping & Data Validation

Notre dataset sera le CIFAR-10, il contient 60 000 images couleurs de dimension 32x32 réparties en 10 classes différentes.

Les 10 classes du dataset sont : airplanes, cars, birds, cats, deer, dogs, frogs, horses, ships, et trucks.

Il s'agit d'un dataset créé par l'université de Toronto sous licence MIT (libre pour l’usage éducatif et commercial).

Les potentiels biais sont les suivants :

- Les images sont très petites, on a donc un perte d'information visuelle
- Les images sont peu représentative de la réalité (images propres, peu de bruit, faible résolution)

Cependant le format "petit" du dataset permet de tester rapidement différents algorithmes, est parfait pour l'usage éducatif et permet de comparer ses résultats avec d'autres recherches car il est très utilisé.

Le dataset est déja divisé en train/validation subset avec 50 000 images pour l'entrainement et 10 000 pour la validation.

## M2: Baseline Model Implementation

Nous allons utiliser l'implémentation fournie par `CV starter` donc nous allons utiliser le modèle ResNet-18.

Ainsi, nous allons utiliser le fichier train.py afin d'entrainer notre modèle et evaluate.py pour analyser les résultats de l'entrainement.

### Run the smoke test

Le smoke test permet de s'assurer que le model fonctionne bien en ne réalisant qu'une seule epoch et sauvegarde ses résultats dans `outputs/smoke_metrics.json`.

L'output de la cellule dois être un court JSON comme `{"loss": ..., "batch_size": 64, ...}`.

Ainsi nous pouvons nous assurer que :
- l'on peut télécharger et lire le dataset, 
- le modèle s'exécute correctement, 
- les dépendances sont bien installées.

In [None]:
from src import smoke_check

smoke_path = smoke_check.run_smoke("configs/cv_cifar10_fast.yaml")
print(smoke_path.read_text())

### Training to establish a performance baseline

L'entrainement se déroule suivant les configuration YAML dans le dossier `configs` (ex. `configs/cv_cifar10_fast.yaml` pour le smoke test). Pour la baseline nous allons utilisé la configuration `configs/cv_cifar10_baseline.yaml`.

In [None]:
!python src/train.py --config configs/cv_cifar10_fast.yaml

In [None]:
!python src/evaluate.py --config configs/cv_cifar10.yaml --ckpt outputs/best.pt

### Step 4 — What should I see now?
- `outputs/best.pt`: saved checkpoint.
- `outputs/log.csv`: training history (loss/accuracy per epoch).
- `outputs/eval.json`, `per_class_metrics.csv`, `confusion_matrix.png`, `leaderboard.png`: evaluation artefacts.

If any of these files are missing, scroll up for errors in the training/evaluation cells.


## 3. Mirror this workflow for other tracks

1. Duplicate this notebook and rename it (e.g., `00_nlp_quickstart.ipynb`).
2. Copy the corresponding starter folder into your Colab/Kaggle workspace (`nlp-project`, `od-project`, `ts-project`).
3. Update the install cell so it matches that starter's `requirements.txt`.
4. Replace `from src import smoke_check` with the helper module provided in the new starter (each repo ships with one).
5. Point the train/eval commands at the new `configs/*.yaml` file.
6. Optionally tweak the markdown text so instructions mention the right dataset and metrics.

By following the same structure—GPU check → install → smoke test → full run—students can master all four tracks with a consistent workflow.