<h1 style="color: red; font-family: 'Times New Roman'; font-size: 36px; text-align: center; text-decoration: underline;">
    Python avancé 
</h1>

<h3 style="color:#428ef4; font-family: 'Times New Roman'; font-size: 30px; text-align: center;">
   Problème : Analyse d'un Grand Ensemble de Données de Ventes
</h3>

<h3 style="font-family: 'Times New Roman'; font-size: 30px; text-align: center;">
   AYA AMAL 
</h3>

<div style="font-family: 'Times New Roman';color: blue;">
    
## **1. Échantillonnage et Sous-ensemble de Données**


-------
    
> _**` Chargez un échantillon aléatoire de 1 % des lignes du fichier sales_data.csv.`**_

-------

In [1]:
import pandas as pd

In [3]:
df_sample = pd.read_csv('sales_data.csv', nrows=1000000)  # Charger 1 million de lignes
df_sample = df_sample.sample(frac=0.01, random_state=42)  # Échantillon de 1%

<div style="font-family: 'Times New Roman';">

 **Explication:**  

1) Charger les premières 1 million de lignes du fichier `sales_data.csv` pour *éviter de surcharger la mémoire* si le fichier est `trop grand.`:  
   + `df_sample = pd.read_csv('sales_data.csv', nrows=1000000)`  
     - On charge le fichier CSV `sales_data.csv` dans un DataFrame.  
     - Le paramètre `nrows=1000000` indique de charger 1 million de lignes.  

2) Réduire les données à un sous-ensemble représentatif pour effectuer des analyses rapides ou pour simplifier le traitement tout en conservant une distribution aléatoire:  
   + `df_sample.sample()` : Cette méthode est utilisée pour sélectionner un échantillon aléatoire de lignes à partir du DataFrame `df_sample`.  
   + `frac=0.01` : Cela spécifie que 1% des données du DataFrame doivent être sélectionnées. Par exemple, si le DataFrame contient 1 million de lignes, il sélectionnera 10,000 lignes.  
   + `random_state=42` : Ce paramètre fixe la graine aléatoire pour garantir que les résultats sont reproductibles. Si vous réexécutez le code avec le même `random_state`, vous obtiendrez le même échantillon.  

</div>


-----
>_**`Sélectionnez uniquement les colonnes customer_id, product_id, quantity, et price.`**_

------

In [4]:
df_sample = df_sample[['customer_id', 'product_id', 'quantity', 'price']]

<div style="font-family: 'Times New Roman';"> 
    
**Explication:**
- On sélectionne uniquement les colonnes nécessaires pour réduire la taille des données.

-----    
    
  > _**`Spécifiez les types de données appropriés pour chaque colonne afin de réduire la consommation de mémoire.`**_

------ 

In [6]:
# Spécifier les types de données pour réduire la mémoire
df_sample['customer_id'] = df_sample['customer_id'].astype('int32')
df_sample['product_id'] = df_sample['product_id'].astype('int32')
df_sample['quantity'] = df_sample['quantity'].astype('int16')
df_sample['price'] = df_sample['price'].astype('float32')

print(df_sample.head())

        customer_id  product_id  quantity       price
987231        88263        3439         4  221.270004
79954         46796        3185         1   53.209999
567130        77686        7024         9  474.829987
500891        26723        5717         4  149.539993
55399         55299        5463         3   51.570000


<div style="font-family: 'Times New Roman';"> 
    
### Conversion des types de données pour réduire la mémoire

- **`df_sample['customer_id'] = df_sample['customer_id'].astype('int32')`** :
  - On convertit la colonne `customer_id` en type `int32` pour réduire l'utilisation de mémoire (au lieu de `int64` par défaut).

- **`df_sample['product_id'] = df_sample['product_id'].astype('int32')`** :
  - Même chose pour `product_id`.

- **`df_sample['quantity'] = df_sample['quantity'].astype('int16')`** :
  - On convertit `quantity` en `int16` car les quantités sont petites (entre 1 et 10).

- **`df_sample['price'] = df_sample['price'].astype('float32')`** :
  - On convertit `price` en `float32` pour réduire la mémoire (au lieu de `float64`).

- **`print(df_sample.head())`** :
  - On affiche les 5 premières lignes du DataFrame pour vérifier les données.

<div style="font-family: 'Times New Roman';color: blue;">
    
## **2. Conversion en Formats de Fichiers Efficaces**


-----    
    
  > _**`Convertissez l'échantillon de données chargé en format Feather et Parquet.`**_

------ 

In [7]:
# pip install pandas pyarrow

Note: you may need to restart the kernel to use updated packages.


In [8]:
# Convertir en format Feather
df_sample.to_feather('sales_sample.feather')
print("Fichier Feather 'sales_sample.feather' sauvegardé avec succès.")

Fichier Feather 'sales_sample.feather' sauvegardé avec succès.


<div style="font-family: 'Times New Roman';">
    
### **Explication du code**
- **Code** :
  ```python
  df_sample.to_feather('sales_sample.feather'):
  + Convertit le DataFrame df_sample en format Feather et le sauvegarde dans un fichier nommé sales_sample.feather.
  
<span style="color: green;"> 📌 Feather est un format binaire qui permet une lecture/écriture très rapide, idéal pour des échanges de données entre Python et d'autres langages comme R.</span>


In [10]:
# Convertir en format Parquet
df_sample.to_parquet('sales_sample.parquet')
print("Fichier Parquet 'sales_sample.parquet' sauvegardé avec succès.")

Fichier Parquet 'sales_sample.parquet' sauvegardé avec succès.


<div style="font-family: 'Times New Roman';">
    
### **Explication :**

#### **Conversion du DataFrame en format Parquet**
- **Code** :
  ```python
  df_sample.to_parquet('sales_sample.parquet')
+ Convertit le DataFrame df_sample en format Parquet et le sauvegarde dans un fichier nommé sales_sample.parquet.

<span style="color: green;"> 📌 Parquet est un format colonnaire qui permet une compression efficace et une lecture rapide, surtout pour les grands ensembles de données.</span>


-----    
    
  > _**`Comparez la taille des fichiers résultants avec celle du fichier CSV d'origine.`**_

------ 

In [11]:
import os

# Obtenir la taille des fichiers
feather_size = os.path.getsize('sales_sample.feather')
parquet_size = os.path.getsize('sales_sample.parquet')
csv_size = os.path.getsize('sales_data.csv')  # Taille du fichier CSV d'origine

# Afficher les tailles
print(f"Taille du fichier Feather: {feather_size} octets")
print(f"Taille du fichier Parquet: {parquet_size} octets")
print(f"Taille du fichier CSV: {csv_size} octets")

Taille du fichier Feather: 178282 octets
Taille du fichier Parquet: 227171 octets
Taille du fichier CSV: 47976227 octets


<div style="font-family: 'Times New Roman';">
    
### **Résultats :**

- <span style="color: green;"> **Le fichier Feather** </span>sera généralement plus petit que le CSV, mais plus grand que le Parquet.
- <span style="color: green;">**Le fichier Parquet** </span>sera le plus petit grâce à sa compression efficace.


-----    
    
  > _**`Mesurez le temps de chargement pour chaque format et expliquez les différences.`**_

------ 


In [14]:
import time

# Mesurer le temps de chargement pour Feather
start_time = time.time()
df_feather = pd.read_feather('sales_sample.feather')
feather_load_time = time.time() - start_time

# Mesurer le temps de chargement pour Parquet
start_time = time.time()
df_parquet = pd.read_parquet('sales_sample.parquet')
parquet_load_time = time.time() - start_time
# Mesurer le temps de chargement pour CSV
start_time = time.time()
df_csv = pd.read_csv('sales_data.csv')
csv_load_time = time.time() - start_time

# Afficher les temps de chargement
print(f"Temps de chargement Feather: {feather_load_time:.4f} secondes")
print(f"Temps de chargement Parquet: {parquet_load_time:.4f} secondes")
print(f"Temps de chargement CSV: {csv_load_time:.4f} secondes")

Temps de chargement Feather: 0.0051 secondes
Temps de chargement Parquet: 0.0066 secondes
Temps de chargement CSV: 0.5882 secondes


<div style="font-family: 'Times New Roman';">

### **Les différences de temps de chargement entre Feather, Parquet et CSV**

Les différences de temps de chargement entre **Feather**, **Parquet** et **CSV** s'expliquent par leurs formats et leurs optimisations :

- <span style="color: green;">**Feather (0.0051 s)** : </span>
  - Format binaire optimisé pour la vitesse, **sans compression**.
  - Idéal pour des **échanges rapides** de données.

- <span style="color: green;">**Parquet (0.0066 s)** :</span>
  - Format binaire **compressé**, légèrement plus lent que Feather mais efficace pour le stockage.
  - Parfait pour les **grands ensembles de données**.

- <span style="color: green;">**CSV (0.5882 s)** :</span>
  - Format texte, **lent** car il nécessite une analyse et une conversion des données.
  - Universel, mais **peu performant**.

---

### **En résumé :**

- <span style="color: green;">**Feather** :</span> Rapide, pas de compression.
- <span style="color: green;">**Parquet** :</span> Rapide et compressé, idéal pour le stockage.
- <span style="color: green;">**CSV** : </span>Lent, mais universel et facile à utiliser.

</div>

<div style="font-family: 'Times New Roman';color: blue;">

## **3. Utilisation de HDF5**

-----    
    
  > _**`Créez un fichier HDF5 (sales_data.h5) et stockez l'échantillon de données dans une table appelée sales_sample.`**_

------ 


In [15]:
#pip install h5py

Note: you may need to restart the kernel to use updated packages.


In [16]:
# Créer un fichier HDF5 et stocker l'échantillon de données
with pd.HDFStore('sales_data.h5') as store:
    store.put('sales_sample', df_sample)

print("Fichier HDF5 'sales_data.h5' créé avec succès.")
print("Les données ont été stockées dans la table 'sales_sample'.")

Fichier HDF5 'sales_data.h5' créé avec succès.
Les données ont été stockées dans la table 'sales_sample'.


<div style="font-family: 'Times New Roman';">

### **Explication ligne par ligne :**

1. **`import pandas as pd`** :
   - On importe la bibliothèque **pandas** pour manipuler les données.

2. **`with pd.HDFStore('sales_data.h5') as store:`** :
   - On crée un fichier **HDF5** nommé `sales_data.h5` et on l'ouvre en mode écriture.
   - Le mot-clé **`with`** garantit que le fichier sera correctement fermé après utilisation.

3. **`store.put('sales_sample', df_sample)`** :
   - On stocke le DataFrame **`df_sample`** dans une table nommée **`sales_sample`** à l'intérieur du fichier HDF5.
   - La méthode **`put`** permet d'ajouter des données à une table spécifique.

4. **`print("Fichier HDF5 'sales_data.h5' créé avec succès.")`** :
   - On affiche un message pour confirmer que le fichier HDF5 a été créé.

5. **`print("Les données ont été stockées dans la table 'sales_sample'.")`** :
   - On affiche un message pour confirmer que les données ont été stockées dans la table **`sales_sample`**.

</div>

In [18]:
# Filtrer les transactions avec un prix > 100 DH
df_high_price = df_sample[df_sample['price'] > 100]

# Ajouter cette table au fichier HDF5
with pd.HDFStore('sales_data.h5') as store:
    store.put('high_price_transactions', df_high_price)

print("Table 'high_price_transactions' ajoutée avec succès.")

Table 'high_price_transactions' ajoutée avec succès.


In [19]:
# Lire les données de la table 'sales_sample' dans le fichier HDF5
with pd.HDFStore('sales_data.h5') as store:
    df_sales_sample = store['sales_sample']

# Afficher les 5 premières lignes
print("Aperçu des données de la table 'sales_sample':")
print(df_sales_sample.head())

Aperçu des données de la table 'sales_sample':
        customer_id  product_id  quantity       price
987231        88263        3439         4  221.270004
79954         46796        3185         1   53.209999
567130        77686        7024         9  474.829987
500891        26723        5717         4  149.539993
55399         55299        5463         3   51.570000



<div style="font-family: 'Times New Roman';color: blue;">

## **4. Lecture par Morceaux**

In [20]:
# Définir la taille d'un morceau (chunk)
chunk_size = 100000

# Lire le fichier CSV par morceaux
for chunk in pd.read_csv('sales_data.csv', chunksize=chunk_size):
    # Traiter chaque morceau ici
    print(f"Morceau de {len(chunk)} lignes chargé :")
    print(chunk.head())  # Afficher les 5 premières lignes du morceau
    print("\n---\n")

Morceau de 100000 lignes chargé :
   transaction_id  customer_id  product_id  quantity   price transaction_date  \
0               1        15796         111         7  336.48       2023-10-03   
1               2          861        3214         3  471.86       2022-06-01   
2               3        76821        3079         5  473.96       2023-09-20   
3               4        54887        9037         4  466.34       2020-12-11   
4               5         6266        7572         7   39.62       2023-07-04   

          region  
0  North America  
1      Australia  
2         Europe  
3         Europe  
4  North America  

---

Morceau de 100000 lignes chargé :
        transaction_id  customer_id  product_id  quantity   price  \
100000          100001        26688        2350         6  411.01   
100001          100002        82651        6569         4   28.28   
100002          100003        95529        3075         3  473.58   
100003          100004        37961        4113  

<div style="font-family: 'Times New Roman';">

### **Explication ligne par ligne :**

1. **`import pandas as pd`** :
   - On importe la bibliothèque **pandas** pour manipuler les données.

2. **`chunk_size = 100000`** :
   - On définit la taille d'un morceau à **100 000 lignes**.

3. **`for chunk in pd.read_csv('sales_data.csv', chunksize=chunk_size):`** :
   - On lit le fichier CSV **`sales_data.csv`** par morceaux de **100 000 lignes**.
   - Le paramètre **`chunksize`** permet de diviser le fichier en morceaux de la taille spécifiée.
   - Chaque morceau est un **DataFrame** contenant **100 000 lignes** (ou moins pour le dernier morceau).

4. **`print(f"Morceau de {len(chunk)} lignes chargé :")`** :
   - On affiche le nombre de lignes dans le morceau actuel.

5. **`print(chunk.head())`** :
   - On affiche les **5 premières lignes** du morceau pour vérifier les données.

6. **`print("\n---\n")`** :
   - On ajoute une **séparation visuelle** entre les morceaux.

</div>

In [28]:
# Définir la taille d'un morceau (chunk)
chunk_size = 100000

# Initialiser une liste pour stocker les résultats filtrés
filtered_chunks = []

# Lire le fichier CSV par morceaux
for chunk in pd.read_csv('sales_data.csv', chunksize=chunk_size):
    # Filtrer les transactions avec une quantité > 10
    filtered_chunk = chunk[chunk['quantity'] > 10]
    
    # Ajouter le morceau filtré à la liste
    filtered_chunks.append(filtered_chunk)

# Combiner tous les morceaux filtrés en un seul DataFrame
df_filtered = pd.concat(filtered_chunks)

# Afficher les 5 premières lignes du résultat final
print("Transactions avec une quantité > 10 :")
print(df_filtered.head())

# Afficher le nombre total de transactions filtrées
print(f"Nombre total de transactions avec une quantité > 10 : {len(df_filtered)}")

Transactions avec une quantité > 10 :
Empty DataFrame
Columns: [transaction_id, customer_id, product_id, quantity, price, transaction_date, region]
Index: []
Nombre total de transactions avec une quantité > 10 : 0


<div style="font-family: 'Times New Roman';color:red;">

### Le résultat indique qu'il n'y a aucune transaction dans le fichier sales_data.csv ayant une quantité supérieure à 10.

</div>

In [22]:
# Charger les 10 premières lignes du fichier CSV
df_sample = pd.read_csv('sales_data.csv', nrows=10)

# Afficher les données
print("Aperçu des données :")
print(df_sample)

Aperçu des données :
   transaction_id  customer_id  product_id  quantity   price transaction_date  \
0               1        15796         111         7  336.48       2023-10-03   
1               2          861        3214         3  471.86       2022-06-01   
2               3        76821        3079         5  473.96       2023-09-20   
3               4        54887        9037         4  466.34       2020-12-11   
4               5         6266        7572         7   39.62       2023-07-04   
5               6        82387        9041         6   60.97       2021-11-26   
6               7        37195         371         1  491.98       2020-11-05   
7               8        87499        4566         2  497.23       2021-08-17   
8               9        44132        1056         5  405.97       2020-06-16   
9              10        60264         448         3   91.68       2020-12-11   

          region  
0  North America  
1      Australia  
2         Europe  
3         E

In [29]:
df_sample.head()

Unnamed: 0,transaction_id,customer_id,product_id,quantity,price,transaction_date,region
0,1,15796,111,7,336.48,2023-10-03,North America
1,2,861,3214,3,471.86,2022-06-01,Australia
2,3,76821,3079,5,473.96,2023-09-20,Europe
3,4,54887,9037,4,466.34,2020-12-11,Europe
4,5,6266,7572,7,39.62,2023-07-04,North America


In [30]:
# Combiner tous les morceaux filtrés en un seul DataFrame
df_filtered = pd.concat(filtered_chunks)

# Afficher les 5 premières lignes du résultat final
print("Transactions avec une quantité > 10 :")
print(df_filtered.head())

# Afficher le nombre total de transactions filtrées
print(f"Nombre total de transactions avec une quantité > 10 : {len(df_filtered)}")

Transactions avec une quantité > 10 :
Empty DataFrame
Columns: [transaction_id, customer_id, product_id, quantity, price, transaction_date, region]
Index: []
Nombre total de transactions avec une quantité > 10 : 0


In [31]:
# Calculer le total des ventes pour les transactions filtrées
total_sales = (df_filtered['quantity'] * df_filtered['price']).sum()

# Afficher le total des ventes
print(f"Total des ventes pour les transactions avec une quantité > 10 : {total_sales:.2f} DH")

Total des ventes pour les transactions avec une quantité > 10 : 0.00 DH



<div style="font-family: 'Times New Roman';color: blue;">

## **5. Chargement dans une Base de Données**

In [32]:
import sqlite3

In [33]:
# Créer une connexion à la base de données SQLite 
conn = sqlite3.connect('sales.db')

In [35]:
# Charger le DataFrame dans la table 'sales'
df_sample.to_sql('sales', conn, if_exists='replace', index=False)

# Fermer la connexion à la base de données
conn.close()

print("Base de données 'sales.db' créée avec succès.")
print("Les données ont été chargées dans la table 'sales'.")

Base de données 'sales.db' créée avec succès.
Les données ont été chargées dans la table 'sales'.


In [37]:
##Vérifier les données dans la base de données
# Ouvrir une connexion à la base de données
conn = sqlite3.connect('sales.db')

# Exécuter une requête SQL pour afficher les 5 premières lignes de la table 'sales'
query = "SELECT * FROM sales LIMIT 5"
df_sample = pd.read_sql_query(query, conn)

# Afficher les données
print("Aperçu des données dans la table 'sales' :")
print(df_sample)

# Fermer la connexion à la base de données
conn.close()

Aperçu des données dans la table 'sales' :
   transaction_id  customer_id  product_id  quantity   price transaction_date  \
0               1        15796         111         7  336.48       2023-10-03   
1               2          861        3214         3  471.86       2022-06-01   
2               3        76821        3079         5  473.96       2023-09-20   
3               4        54887        9037         4  466.34       2020-12-11   
4               5         6266        7572         7   39.62       2023-07-04   

          region  
0  North America  
1      Australia  
2         Europe  
3         Europe  
4  North America  


In [39]:
# Utiliser un gestionnaire de contexte pour gérer la connexion
with sqlite3.connect('sales.db') as conn:
    # Définir la requête SQL
    query = """
    SELECT * FROM sales
    WHERE region = 'Europe' AND price > 50
    """

    # Exécuter la requête et stocker les résultats dans un DataFrame
    df_europe_high_price = pd.read_sql_query(query, conn)

    # Afficher les résultats
    print("Transactions dans la région 'Europe' avec un prix > 50 DH :")
    print(df_europe_high_price)

    # Calculer le total des ventes pour les transactions filtrées
    total_sales = (df_europe_high_price['quantity'] * df_europe_high_price['price']).sum()

    # Afficher le total des ventes
    print(f"Total des ventes pour les transactions en 'Europe' avec un prix > 50 DH : {total_sales:.2f} DH")

Transactions dans la région 'Europe' avec un prix > 50 DH :
   transaction_id  customer_id  product_id  quantity   price transaction_date  \
0               3        76821        3079         5  473.96       2023-09-20   
1               4        54887        9037         4  466.34       2020-12-11   
2               9        44132        1056         5  405.97       2020-06-16   

   region  
0  Europe  
1  Europe  
2  Europe  
Total des ventes pour les transactions en 'Europe' avec un prix > 50 DH : 6265.01 DH


<div style="font-family: 'Times New Roman';">
    
### Explication étape par étape :

+ ouverture du connexion à la base de données sales.db. Le gestionnaire de contexte assure que la connexion est fermée après lexécution du code.
    
* La requête query sélectionne toutes les colonnes de la table sales pour les transactions dans la région 'Europe' où le prix est supérieur à 50 DH.
+ Exécute la requête SQL et place les résultats dans un DataFrame pandas pour un traitement facile.
+ Affiche les transactions filtrées pour la région 'Europe' avec un prix supérieur à 50 DH.
+ Le total des ventes est affiché avec une précision de deux décimales grâce à :.2f.
     


<div style="font-family: 'Times New Roman';color:red;">

_With, la connexion est automatiquement fermée à la fin du bloc, même en cas d'erreur._

</div>

In [40]:
# Calculer le total des ventes pour ces transactions
total_sales = (df_europe_high_price['quantity'] * df_europe_high_price['price']).sum()

# Afficher le résultat
print(f"Total des ventes pour les transactions en 'Europe' avec un prix > 50 DH : {total_sales:.2f} DH")

# Fermer la connexion à la base de données
conn.close()

Total des ventes pour les transactions en 'Europe' avec un prix > 50 DH : 6265.01 DH


<div style="font-family: 'Times New Roman';">
    
## Explication simplifiée du code

- **Calcul du total des ventes :** Multiplie la quantité (`quantity`) par le prix (`price`) pour chaque transaction et additionne les valeurs avec `.sum()`.
- **Affichage du total des ventes :** Affiche le total des ventes formaté avec deux décimales.
- **Fermeture de la connexion :** Ferme la connexion à la base de données pour libérer les ressources.


<div style="font-family: 'Times New Roman';color: blue;">

## **Questions sur les Techniques d'Analyse de Données de Ventes**

-----    
    
  >#### _**`Échantillonnage et Sous-ensemble de Données `**_

------ 


<div style="font-family: 'Times New Roman';color: green;">

#### **1.Pourquoi est-il utile de charger un échantillon aléatoire de données plutôt que l'ensemble complet ?**

<div style="font-family: 'Times New Roman';">
    
+ Parce que le fichier est trop gros pour être chargé en mémoire en une seule fois. Un échantillon permet de faire des analyses plus rapidement et avec moins de mémoire.

<div style="font-family: 'Times New Roman';color: green;">

#### **2.Comment la spécification des types de données réduit-elle la consommation de mémoire ?**

<div style="font-family: 'Times New Roman';">
    
+ La spécification des types de données réduit la consommation de mémoire en allouant uniquement l'espace nécessaire pour stocker les données. Par exemple, utiliser `int32` au lieu de `int64` divise par deux l'espace mémoire utilisé.

-----    
    
  >#### _**`Conversion en Formats de Fichiers Efficaces `**_

------ 


<div style="font-family: 'Times New Roman';color: green;">

#### **1.Quels sont les avantages des formats Feather et Parquet par rapport au format CSV ?**

<div style="font-family: 'Times New Roman';">
    
+ __Feather__ : Lecture et écriture rapides, idéal pour échanger des données entre Python et R.

+ __Parquet__ : Compression efficace, lecture sélective de colonnes, idéal pour le stockage de gros fichiers.

+ __CSV__ : Simple, mais lent et prend plus de place.

<div style="font-family: 'Times New Roman';color: green;">

#### **2.Dans quels cas préféreriez-vous utiliser Feather plutôt que Parquet, et vice versa ?**

<div style="font-family: 'Times New Roman';">

+ __Feather__ : À utiliser pour des échanges rapides de données entre Python et R, ou pour des fichiers temporaires.
+ __Parquet__ : À utiliser pour le stockage à long terme de gros fichiers, surtout en Big Data, grâce à sa compression et sa lecture sélective de colonnes.

-----    
    
  >#### _**`Utilisation de HDF5  `**_

------ 


<div style="font-family: 'Times New Roman';color: green;">

#### **1.Qu'est-ce qu'un fichier HDF5 et comment est-il structuré ?**

<div style="font-family: 'Times New Roman';">
    
+ C'est un format de fichier pour stocker de grandes quantités de données. Il est organisé en groupes et datasets, comme un système de fichiers.

<div style="font-family: 'Times New Roman';color: green;">

#### **2.Pourquoi est-il utile de stocker des données dans un fichier HDF5 plutôt que dans un fichier CSV ?**

<div style="font-family: 'Times New Roman';">

+ Parce que HDF5 est plus efficace pour stocker et lire de gros fichiers, il supporte la compression et permet une lecture sélective des données.

-----    
    
  >#### _**`Lecture par Morceaux `**_

------ 


<div style="font-family: 'Times New Roman';color: green;">

#### **1.Pourquoi est-il nécessaire de lire un fichier volumineux par morceaux ?**

<div style="font-family: 'Times New Roman';">

+ Parce que le fichier est trop gros pour être chargé en mémoire en une seule fois. Lire par morceaux permet de traiter les données sans saturer la mémoire.

<div style="font-family: 'Times New Roman';color: green;">

#### **2.Comment pouvez-vous filtrer et combiner des données provenant de plusieurs morceaux ?**

<div style="font-family: 'Times New Roman';">
         
+ On lit le fichier par morceaux avec _`chunksize`_, on __`filtre chaque morceau`__, et on combine les résultats avec `pd.concat().`


-----    
    
  >#### _**` Chargement dans une Base de Données `**_

------ 


<div style="font-family: 'Times New Roman';color: green;">

#### **1.Quels sont les avantages de stocker des données dans une base de données SQLite plutôt que dans un fichier CSV ?**

<div style="font-family: 'Times New Roman';">
    
+ __`SQLite`__ permet de faire des `requêtes SQL complexes` _(jointures, filtres, etc.)_ et est plus efficace pour __`les gros fichiers grâce à l'indexation.`__

<div style="font-family: 'Times New Roman';color: green;">

#### **2.Comment pouvez-vous exécuter des requêtes SQL sur une base de données SQLite à partir de Python ?**

+ On utilise la bibliothèque __`sqlite3`__ pour se connecter à la base de données et exécuter des requêtes SQL avec `cursor.execute().`