# Devoir : Manipulation du dataset Netflix
## Pipeline de données avec pandas 



Vous devez travailler sur le dataset `netflix_titles.csv` (par exemple celui de Kaggle)
en utilisant **pandas** dans un autre notebook ou dans ce fichier après l'avoir complété.

Votre objectif est de construire un mini **pipeline de données** :
- chargement du dataset,
- exploration,
- validation,
- nettoyage,
- normalisation,
- transformation,
- préparation au stockage.


## 1. Chargement du dataset

**Tâches à réaliser (en code, de votre côté) :**

1. Importer la bibliothèque `pandas`.
2. Charger le fichier `netflix_titles.csv` dans un DataFrame `df`.
3. Afficher :
   - les 5 premières lignes (`head()`),
   - les informations générales (`info()`),
   - un résumé statistique (`describe(include='all')`).

**Questions :**
- Combien y a-t-il de lignes et de colonnes ?
- Quelles sont les colonnes principales ?
- Quels types de données voyez-vous (object, int, float, datetime...)?


## 2. Exploration et visualisation simple

**Tâches (en code à faire par vous) :**

1. Calculer la répartition de la colonne `type` (Movie vs TV Show).
2. Identifier les colonnes qui contiennent le plus de valeurs manquantes
   (par exemple en calculant le pourcentage de `NaN` par colonne).
3. Afficher les 10 années de sortie (`release_year`) les plus fréquentes.

**Questions :**
- Y a-t-il plus de films ou de séries ?
- Quelles colonnes semblent les moins complètes (beaucoup de valeurs manquantes) ?
- L'offre de contenus semble-t-elle plutôt récente ou ancienne ? Justifiez avec `release_year`.


## 3. Validation des données

On souhaite vérifier la **qualité minimale** du DataFrame.

**Tâches à faire en code :**

1. Vérifier que `show_id` est **unique** (pas de doublons).
2. Vérifier que la colonne `type` ne contient que les valeurs `"Movie"` et `"TV Show"`.
3. Vérifier qu'il n'existe pas d'années de sortie (`release_year`) manifestement aberrantes
   (par exemple avant 1920 ou dans le futur).

**Questions :**
- Avez-vous trouvé des doublons sur `show_id` ? Si oui, combien ? Que décidez-vous d'en faire ?
- Avez-vous trouvé des valeurs inattendues dans `type` ?
- Avez-vous trouvé des valeurs suspectes dans `release_year` ? Comment les gérez-vous ?


## 4. Nettoyage

L'objectif est d'obtenir un DataFrame plus propre.

**Tâches (en code) :**

1. Supprimer les lignes en doublon sur `show_id` (si nécessaire).
2. Convertir la colonne `date_added` en type datetime (`to_datetime`) avec `errors='coerce'`.
3. Gérer les valeurs manquantes pour :
   - `country` (par exemple en remplaçant `NaN` par `'Unknown'`),
   - `director` (par `'Unknown'`),
   - toute autre colonne que vous jugez importante.

**Questions :**
- Quelles décisions avez-vous prises pour les valeurs manquantes ? Pourquoi ?
- Quelles colonnes avez-vous laissées avec des `NaN` (si c'est le cas) ? Pourquoi ?


## 5. Normalisation

On va rendre certaines colonnes plus homogènes et plus faciles à analyser.

**Tâches (en code) :**

1. Créer deux nouvelles colonnes à partir de `date_added` :
   - `year_added` (année d'ajout sur Netflix),
   - `month_added` (mois d'ajout).
2. Analyser la colonne `duration` et en dériver :
   - une colonne `duration_minutes` (durée en minutes, pour les films),
   - une colonne `duration_seasons` (nombre de saisons, pour les séries).
3. Vérifier que ces nouvelles colonnes ont des valeurs cohérentes.

**Questions :**
- Y a-t-il des valeurs de `duration` difficiles à interpréter ? Que faites-vous dans ces cas ?
- Comment interprétez-vous la différence entre `duration_minutes` et `duration_seasons` ?


## 6. Transformation pour l'analyse

On souhaite produire des résultats exploitables pour un analyste (ou un dashboard).

**Tâches (en code) :**

1. Calculer :
   - le nombre de titres par `release_year` ;
   - le nombre de titres par `type` et par `release_year` ;
   - le nombre de titres par pays (`country`).
2. Pour la colonne `listed_in` (genres), créer une structure permettant de comptabiliser
   le nombre de titres par genre (pensez à séparer les genres quand il y en a plusieurs dans la même cellule).

**Questions :**
- Quelles sont les années les plus riches en contenus ?
- Quels sont les genres les plus présents ?
- Quels sont les pays les plus représentés dans le catalogue ?


## 7. Préparation au stockage

Imaginez que vous deviez stocker ces données nettoyées pour des usages futurs.

**Tâches (conceptuelles) :**

1. Décider quelles colonnes doivent absolument être conservées dans une version "analytique" du dataset
   (par exemple pour un tableau de bord Netflix).
2. Décider si vous stockeriez ce jeu de données nettoyé plutôt :
   - en CSV,
   - en Parquet,
   - dans une base SQL.
3. Expliquer les avantages et les inconvénients de votre choix.
4. (Facultatif, mais recommandé) : écrire le DataFrame nettoyé dans un fichier (CSV ou Parquet).

**Questions :**
- Quel format de stockage vous semble le plus adapté dans un contexte réel ? Pourquoi ?
- Comment un outil de BI (Tableau, Power BI, etc.) pourrait se connecter à ces données ?


## 8. Conclusion


- Quelles ont été, selon vous, les étapes les plus importantes du pipeline (chargement, validation, nettoyage, normalisation, transformation) ?
- Quelles difficultés avez-vous rencontrées lors de la manipulation du dataset Netflix ?
- Que feriez-vous ensuite si vous deviez transformer ce travail en projet complet
  (dashboard, API, modèle de recommandation, etc.) ?

---
