
# 🧩 Structures de données & manipulation de fichiers
_Master IA‑GI — Notebook 2_

**Objectifs d’apprentissage**
- Maîtriser les **structures natives** de Python : `list`, `tuple`, `dict`, `set`
- Savoir choisir la structure adaptée (mutabilité, ordre, unicité)
- Lire/écrire des fichiers **texte**, **CSV**, **JSON**, (aperçu **Excel**)
- Gérer les **erreurs d’E/S**, **encodages**, et les **chemins** avec `pathlib`
- Préparer le terrain pour **NumPy** et **Pandas**

**Pré‑requis** : Notebook 1 (bases Python)  
**Durée estimée** : 2h



---
## 1) Tour d’horizon des structures natives
- `list` : séquence **mutable** et **ordonnée**
- `tuple` : séquence **immuable**
- `dict` : **mapping** clé → valeur (ordonné depuis Python 3.7+)
- `set`  : **ensemble** d’éléments **uniques** (non ordonné)

> Règle pratique : *Commence par `list`/`dict`; utilise `tuple` pour figer des données; `set` pour tester l'appartenance rapide et supprimer les doublons.*


In [None]:

# Démonstrations express
cities = ["Fès", "Meknès", "Khouribga"]
coords = (34.0, -5.0)              # tuple = immuable
student = {"name": "Sara", "age": 23, "grade": 16.0}
tags = {"python", "data", "python"} # set supprime les doublons

cities.append("Casablanca")
student["age"] += 1

print("cities:", cities)
print("coords:", coords)
print("student:", student)
print("tags:", tags)



**Exercice 1.1 — Choisir la bonne structure**  
Pour représenter chacun des objets suivants, quelle structure choisir ? Pourquoi ?
1) Une liste d'étudiants **ordonnée** par date d'inscription  
2) Les coordonnées `(lat, lon)` d'une ville  
3) Un répertoire **sans doublon** de mots‑clés (tags)  
4) Un enregistrement étudiant (nom, âge, note)

<details>
<summary>✅ Proposition</summary>

1) `list` (ordre important)  
2) `tuple` (données fixes, immuables)  
3) `set` (unicité)  
4) `dict` (clé → valeur)
</details>



---
## 2) Listes & compréhensions
- Opérations fréquentes : `append`, `extend`, `insert`, `pop`, `remove`, slicing
- **Compréhensions** : concises, rapides, lisibles


In [None]:

nums = [1, 4, 9, 16, 25]
roots = [n**0.5 for n in nums if n % 2 == 0]  # garder pairs, racines carrées
print("roots:", roots)

# Slicing
print("slice 1:4 ->", nums[1:4])
print("last two ->", nums[-2:])



**Exercice 2.1 — Nettoyage**  
À partir de `raw = ["  AI  ", "python", "Data  ", "  science"]`, crée une liste nettoyée :
- strip des espaces
- tout en minuscules
- sans doublons tout en **conservant l'ordre**

<details>
<summary>💡 Hint</summary>
Utilise une boucle + `if x not in seen:` avec un `set` *seen*.
</details>

<details>
<summary>✅ Solution</summary>

```python
raw = ["  AI  ", "python", "Data  ", "  science", "python"]
clean = []
seen = set()
for x in raw:
    y = x.strip().lower()
    if y not in seen:
        seen.add(y)
        clean.append(y)
clean
```
</details>



---
## 3) Tuples, dictionnaires et sets — astuces utiles
- **Tuple unpacking** : `name, age = ("Sara", 23)`
- **Dict** : `keys()`, `values()`, `items()`, `get`, `setdefault`
- **Set** : opérations ensemblistes `| & - ^`


In [None]:

person = ("Sara", 23)
name, age = person
print(f"{name=} {age=}")

grades = {"Ali": 14.5, "Sara": 16.0, "Youssouf": 12.0}
passed = {k: (v >= 10) for k, v in grades.items()}
print("passed:", passed)

a = {"ai", "python", "ml"}
b = {"python", "data"}
print("union:", a | b, "intersection:", a & b, "diff:", a - b)



---
## 4) Fichiers texte, encodage & chemins (`pathlib`)
- `Path` pour manipuler des chemins indépendamment de l’OS
- Lire/écrire un **fichier texte** (`.write_text`, `.read_text`)
- **Encodage** : toujours préciser `encoding="utf-8"`


In [None]:

from pathlib import Path

data_dir = Path("data")
data_dir.mkdir(exist_ok=True)

p = data_dir / "hello.txt"
p.write_text("Bonjour Data Science 👋", encoding="utf-8")
content = p.read_text(encoding="utf-8")
print(content)
print("exists?", p.exists(), "| size:", p.stat().st_size, "bytes")



---
## 5) Lire/Écrire des **CSV** (sans Pandas)
- Module standard `csv` : robuste, clair
- `DictWriter` / `DictReader` pour travailler **par colonnes** (noms)


In [None]:

import csv
from pathlib import Path

csv_path = Path("data") / "students.csv"
rows = [
    {"name": "Ali", "age": 21, "grade": 14.5},
    {"name": "Sara", "age": 23, "grade": 16.0},
    {"name": "Youssouf", "age": 20, "grade": 12.0},
]
with csv_path.open("w", newline="", encoding="utf-8") as f:
    writer = csv.DictWriter(f, fieldnames=["name", "age", "grade"])
    writer.writeheader()
    writer.writerows(rows)

# Lecture
with csv_path.open(encoding="utf-8") as f:
    reader = csv.DictReader(f)
    data = list(reader)

# Conversion de types
for r in data:
    r["age"] = int(r["age"])
    r["grade"] = float(r["grade"])

data



**Exercice 5.1 — Statistiques depuis CSV**  
À partir de `data` (déjà chargé ci‑dessus), calcule :
- la **moyenne** des `grade`
- le **meilleur** étudiant (par `grade`)
- le **nombre** de validés (≥ 10)

<details>
<summary>✅ Solution</summary>

```python
grades = [r["grade"] for r in data]
mean = sum(grades)/len(grades)
best = max(data, key=lambda r: r["grade"])
passed = sum(1 for r in data if r["grade"] >= 10)
(mean, best, passed)
```
</details>



---
## 6) Lire/Écrire du **JSON**
- Format clé‑valeur **structuré** (idéal pour échanges API)
- `json.dump` / `json.load` pour fichiers
- `json.dumps` / `json.loads` pour chaînes


In [None]:

import json
from pathlib import Path

json_path = Path("data") / "students.json"
payload = {"students": data, "meta": {"cohort": "IA-GI", "year": 2025}}

with json_path.open("w", encoding="utf-8") as f:
    json.dump(payload, f, ensure_ascii=False, indent=2)

with json_path.open(encoding="utf-8") as f:
    loaded = json.load(f)

loaded["meta"], len(loaded["students"])



---
## 7) (Bonus) Écrire un **Excel** simple (openpyxl)
> Aperçu pour montrer la transition vers Pandas (qui facilitera tout ça).


In [None]:

# Installation légère si besoin dans Colab
try:
    import openpyxl  # noqa: F401
except Exception:
    !pip -q install openpyxl

from openpyxl import Workbook
from pathlib import Path

xlsx_path = Path("data") / "students.xlsx"
wb = Workbook()
ws = wb.active
ws.title = "Students"
ws.append(["name", "age", "grade"])
for r in data:
    ws.append([r["name"], r["age"], r["grade"]])
wb.save(xlsx_path)

xlsx_path.exists(), xlsx_path.stat().st_size > 0



---
## 8) Erreurs fréquentes & E/S robustes
- `FileNotFoundError`, `PermissionError`, `UnicodeDecodeError`
- Stratégie : `try/except`, vérification `Path.exists()`, encodage explicite


In [None]:

from pathlib import Path

def safe_read_text(path: Path, encoding="utf-8"):
    try:
        return path.read_text(encoding=encoding)
    except FileNotFoundError:
        return f"[ERREUR] Fichier introuvable : {path}"
    except UnicodeDecodeError:
        return "[ERREUR] Problème d'encodage — essayez encoding='latin-1'"

print(safe_read_text(Path("data/hello.txt")))
print(safe_read_text(Path("data/missing.txt")))



---
## 9) 🎯 Mini‑projet — *Répertoire d’étudiants*
**Tâche** : Construire un petit programme en **3 fonctions** :  
1) `load_students(path_csv)` ➜ retourne une `list[dict]` (conversion types)  
2) `summarize(students)` ➜ retourne `{"mean": ..., "best": ..., "passed": ..., "count": ...}`  
3) `save_json(report, path_json)` ➜ écrit un rapport JSON (joli format)  

**Spécifications**
- Entrée : `data/students.csv` (déjà créé plus haut)
- Sorties : affichage **et** fichier `data/summary.json`
- Bonus : ignorer proprement les lignes incomplètes

> Objectif : orchestrer `csv`, `json`, `pathlib`, structures natives, compréhensions.


In [None]:

from pathlib import Path
import csv, json

def load_students(path_csv: Path):
    students = []
    with path_csv.open(encoding="utf-8") as f:
        reader = csv.DictReader(f)
        for row in reader:
            try:
                students.append({
                    "name": row["name"],
                    "age": int(row["age"]),
                    "grade": float(row["grade"]),
                })
            except (KeyError, ValueError):
                # ligne incomplète ou invalide
                continue
    return students

def summarize(students):
    if not students:
        return {"mean": None, "best": None, "passed": 0, "count": 0}
    grades = [s["grade"] for s in students]
    best = max(students, key=lambda s: s["grade"])
    return {
        "mean": sum(grades)/len(grades),
        "best": best,
        "passed": sum(1 for s in students if s["grade"] >= 10),
        "count": len(students),
    }

def save_json(report: dict, path_json: Path):
    with path_json.open("w", encoding="utf-8") as f:
        json.dump(report, f, ensure_ascii=False, indent=2)

# Run
base = Path("data")
stu = load_students(base / "students.csv")
rep = summarize(stu)
save_json(rep, base / "summary.json")
rep, (base / "summary.json").exists()



---
## 10) (Aperçu) Faire la même chose avec **Pandas** (2 lignes)
> *Teaser* du prochain notebook


In [None]:

try:
    import pandas as pd  # noqa: F401
except Exception:
    !pip -q install pandas

import pandas as pd
df = pd.read_csv("data/students.csv")
df["passed"] = df["grade"] >= 10
df.describe(include="all"), df.sort_values("grade", ascending=False).head(1)



---
## 📚 Ressources
- `csv` : https://docs.python.org/3/library/csv.html  
- `json` : https://docs.python.org/3/library/json.html  
- `pathlib` : https://docs.python.org/3/library/pathlib.html  
- `openpyxl` : https://openpyxl.readthedocs.io/  

**Prochain notebook** : **NumPy — Calcul scientifique et tableaux**
