# Module 32: Data Cleaning and Storage
## Module 32 : Nettoyage et stockage des données

## 1. Why This Matters / 1. Pourquoi c'est important
- **English:** Clean data before analysis to ensure accuracy, and store results in formats or databases for later use.
- **Français :** Nettoyez les données avant l'analyse pour garantir la précision, puis stockez-les dans des formats ou bases de données pour réutilisation.

## 2. Spaced & Interleaved Review / 2. Révision espacée et mélangée
- **Flash-back:** How do you read JSON or CSV files? / Comment lit-on des fichiers JSON ou CSV ?
- **Interleaving:** How could you fill missing values in a DataFrame? / Comment remplir les valeurs manquantes dans un DataFrame ?

## 3. Quick Quiz / 3. Quiz rapide
1. True or False: You should remove duplicates before analysis. / Vrai ou Faux : Vous devez supprimer les doublons avant l'analyse.
2. Which pandas method drops rows with any NaN? / Quelle méthode Pandas supprime les lignes contenant des NaN ?
3. How do you write a DataFrame to a JSON file? / Comment écrire un DataFrame dans un fichier JSON ?
4. Name one Python library for working with SQL databases. / Nommez une bibliothèque Python pour travailler avec des bases SQL.

## 4. Learning Objectives / 4. Objectifs d'apprentissage
By the end, you can: / À la fin, vous pourrez :
- Perform basic data cleaning (missing values, duplicates). / Effectuer un nettoyage de base (valeurs manquantes, doublons).
- Save cleaned data to CSV and JSON. / Sauvegarder les données nettoyées en CSV et JSON.
- Store data in a SQLite database using `sqlite3` or SQLAlchemy. / Stocker les données dans une base SQLite avec `sqlite3` ou SQLAlchemy.
- Load data back from storage for analysis. / Recharger les données depuis le stockage pour l'analyse.

## 5. Core Content / 5. Contenu principal
- **Pandas cleaning / Nettoyage avec Pandas:**
  ```python
  import pandas as pd
  df = pd.read_csv('raw_data.csv')
  df = df.drop_duplicates()
  df = df.dropna(subset=['important_column'])
  df['column'] = df['column'].fillna('unknown')
  ```
- **Export to CSV/JSON / Export vers CSV/JSON:**
  ```python
  df.to_csv('clean_data.csv', index=False)
  df.to_json('clean_data.json', orient='records')
  ```
- **SQLite with sqlite3 / SQLite avec sqlite3:**
  ```python
  import sqlite3
  conn = sqlite3.connect('data.db')
  df.to_sql('table_name', conn, if_exists='replace', index=False)
  loaded = pd.read_sql('SELECT * FROM table_name', conn)
  conn.close()
  ```
- **SQLAlchemy (optional) / SQLAlchemy (en option):**
  ```python
  from sqlalchemy import create_engine
  engine = create_engine('sqlite:///data.db')
  df.to_sql('table_name', engine, if_exists='replace', index=False)
  ```


## 6. Starter Code (Incomplete) / 6. Code de démarrage (incomplet)
Complete the TODOs to clean and store data. / Complétez les TODO pour nettoyer et stocker les données.

In [None]:
# data_cleaning_storage_starter.py
import pandas as pd
import sqlite3

# TODO: load 'raw_data.csv' into DataFrame df
df = None

# TODO: drop duplicate rows and rows with missing 'id'

# TODO: fill missing 'value' with 0

# TODO: save df to 'clean_data.csv' and 'clean_data.json'

# TODO: store df in SQLite table 'clean_table' in 'data.db'


## 7. Hands-On Project: Clean and Store Dataset / 7. Projet pratique : Nettoyer et stocker un jeu de données
- **Description:**
  1. Load a provided raw CSV with columns: id, name, value, date.
  2. Remove duplicates and rows with missing id or name.
  3. Convert the date column to datetime type.
  4. Save the cleaned data to CSV, JSON, and a SQLite database table.
- **Rubric / Barème :**
  - Cleaning accuracy: 40% / Nettoyage précis : 40%
  - Data type conversion: 20% / Conversion des types : 20%
  - Storage to files and DB: 30% / Stockage fichiers et BD : 30%
  - Code clarity & comments: 10% / Clarté du code et commentaires : 10%

## 8. Stretch Tasks / 8. Tâches supplémentaires
- Add validation checks for data types and ranges. / Ajouter des vérifications de type et plage.
- Use SQLAlchemy to manage the database session. / Utiliser SQLAlchemy pour gérer la session BD.
- Schedule the cleaning script to run daily with a timestamped backup. / Planifier le script pour exécution quotidienne avec sauvegarde horodatée.

## 9. Reflection / 9. Réflexion
- **Summary:** How does cleaning improve data quality? / Comment le nettoyage améliore-t-il la qualité des données ?
- **Muddiest point:** Any confusion with to_sql parameters? / Des doutes sur les paramètres to_sql ?

## 10. Resources / 10. Ressources
- https://pandas.pydata.org/docs/user_guide/cookbook.html#cleaning-data
- https://docs.python.org/3/library/json.html
- https://docs.python.org/3/library/sqlite3.html
- https://docs.sqlalchemy.org/