In [None]:
import pandas as pd
import sqlite3

## Partie 1 – ETL (Extract, Transform, Load)

### Exercice 1 - Extraction depuis un fichier CSV
---

Vous disposez d'un fichier CSV contenant des informations sur des ventes fichier ventes.csv (Google Drive) :

- Date,Produit
- Quantité
- Prix_unitaire

Tâches :

- Lire le fichier CSV à l'aide de Python (pandas ou un autre outil).
- Afficher les données sous forme de tableau.

In [None]:
# Chargement des données depuis le fichier CSV
df_ventes = pd.read_csv('ventesTP1.csv')
print(df_ventes.shape)
print(df_ventes.columns)
df_ventes.head()

(100, 4)
Index(['Date', 'Produit', 'Quantite', 'Prix_unitaire'], dtype='object')


Unnamed: 0,Date,Produit,Quantite,Prix_unitaire
0,2024-02-21,Cahier,7,32.82
1,2024-04-02,Stylo,9,6.04
2,2024-01-15,Souris,7,9.76
3,2024-03-12,Souris,1,45.13
4,2024-03-01,Souris,1,31.11


### Exercice 2 - Transformation des données
---

Utilisez les données extraites dans l’exercice 1 pour ajouter une colonne 'Revenu' calculée comme suit : Revenu = Quantité * Prix_unitaire.

Tâches :

1. Ajouter une colonne 'Revenu' au tableau.
2. Filtrer les lignes où le revenu est supérieur à 30.

In [None]:
# Calcul du revenu pour chaque vente
df_ventes["Revenu"] = df_ventes["Quantite"] * df_ventes["Prix_unitaire"]
df_ventes.head()

Unnamed: 0,Date,Produit,Quantite,Prix_unitaire,Revenu
0,2024-02-21,Cahier,7,32.82,229.74
1,2024-04-02,Stylo,9,6.04,54.36
2,2024-01-15,Souris,7,9.76,68.32
3,2024-03-12,Souris,1,45.13,45.13
4,2024-03-01,Souris,1,31.11,31.11


In [None]:
# Filtrer les ventes avec un revenu supérieur à 30
df_Revenu_sup_30 = df_ventes[df_ventes["Revenu"] > 30]
print(df_Revenu_sup_30.shape)
df_Revenu_sup_30.head()

(80, 5)


Unnamed: 0,Date,Produit,Quantite,Prix_unitaire,Revenu
0,2024-02-21,Cahier,7,32.82,229.74
1,2024-04-02,Stylo,9,6.04,54.36
2,2024-01-15,Souris,7,9.76,68.32
3,2024-03-12,Souris,1,45.13,45.13
4,2024-03-01,Souris,1,31.11,31.11


### Exercice 3 - Chargement dans une base de données
---
L'objectif est de charger les données transformées dans une table SQL nommée 'ventes' avec le schéma suivant :

```sql
CREATE TABLE ventes (
    Date DATE,
    Produit VARCHAR(50),
    Quantite INT,
    Prix_unitaire FLOAT,
    Revenu FLOAT
);
```

Tâches :

1. Charger les données filtrées dans la table 'ventes' en utilisant une base SQLite ou autres types d’outils de votre choix.
2. Vérifier que les données ont bien été insérées.


In [None]:
# Insertion des données dans une nouvelle table 'ventes'
conn = sqlite3.connect('ventesTP1.db')
df_ventes.to_sql('ventes', conn, if_exists='replace', index=False)

100

In [7]:
# Récupération des données depuis la base SQLite
df_from_db = pd.read_sql('SELECT * FROM ventes', conn)
print(df_from_db.shape)
df_from_db.head()

(100, 5)


Unnamed: 0,Date,Produit,Quantite,Prix_unitaire,Revenu
0,2024-02-21,Cahier,7,32.82,229.74
1,2024-04-02,Stylo,9,6.04,54.36
2,2024-01-15,Souris,7,9.76,68.32
3,2024-03-12,Souris,1,45.13,45.13
4,2024-03-01,Souris,1,31.11,31.11


In [None]:
# Fermeture de la connexion à la base de données
conn.close()

### Exercice 4 - ETL complet
---

Rassemblez les étapes précédentes dans un script complet qui :

1. Extrait les données d'un fichier CSV.
2. Transforme les données (ajout de la colonne 'Revenu' et filtrage).
3. Charge les données filtrées dans une base de données.

In [None]:
# Script complet pour le TP1
import pandas as pd
import sqlite3

# Chargement des données depuis le fichier CSV
df_ventes = pd.read_csv('ventesTP1.csv')
print(df_ventes.shape)
print(df_ventes.columns)
print(df_ventes.head())

# Calcul du revenu pour chaque vente
df_ventes["Revenu"] = df_ventes["Quantite"] * df_ventes["Prix_unitaire"]
print(df_ventes.head())

# Filtrage des ventes avec un revenu supérieur à 30
df_Revenu_sup_30 = df_ventes[df_ventes["Revenu"] > 30]
print(df_Revenu_sup_30.shape)
print(df_Revenu_sup_30.head())

# Stockage des données dans une base de données SQLite
conn = sqlite3.connect('ventesTP1.db')
df_ventes.to_sql('ventes', conn, if_exists='replace', index=False)

# Récupération des données depuis la base SQLite
df_from_db = pd.read_sql('SELECT * FROM ventes', conn)
print(df_from_db.shape)
print(df_from_db.head())

# Fermeture de la connexion à la base de données
conn.close()

(100, 4)
Index(['Date', 'Produit', 'Quantite', 'Prix_unitaire'], dtype='object')
         Date Produit  Quantite  Prix_unitaire
0  2024-02-21  Cahier         7          32.82
1  2024-04-02   Stylo         9           6.04
2  2024-01-15  Souris         7           9.76
3  2024-03-12  Souris         1          45.13
4  2024-03-01  Souris         1          31.11
         Date Produit  Quantite  Prix_unitaire  Revenu
0  2024-02-21  Cahier         7          32.82  229.74
1  2024-04-02   Stylo         9           6.04   54.36
2  2024-01-15  Souris         7           9.76   68.32
3  2024-03-12  Souris         1          45.13   45.13
4  2024-03-01  Souris         1          31.11   31.11
(80, 5)
         Date Produit  Quantite  Prix_unitaire  Revenu
0  2024-02-21  Cahier         7          32.82  229.74
1  2024-04-02   Stylo         9           6.04   54.36
2  2024-01-15  Souris         7           9.76   68.32
3  2024-03-12  Souris         1          45.13   45.13
4  2024-03-01  Souris   

## Partie 2 – ELT (Extract, Load, Transform)

### Exercice 5 - Processus ELT – Transformation dans la base
---

Cette fois, on va inverser l’ordre des étapes : les données sont d’abord chargées brutes dans la base, puis transformées via SQL.

Tâches :
1. Extraire les données du fichier ventes.csv sans transformation.
2. Charger ces données dans une table 'ventes_brutes' dans SQLite.
3. Dans SQLite, créer une nouvelle table 'ventes_filtrees' à partir de la précédente :
- Ajouter une colonne Revenu = Quantité * Prix_unitaire
- Filtrer les lignes avec Revenu > 30
4. Afficher le résultat final avec pandas.

Exemple de requête SQL :
```sql
CREATE TABLE ventes_filtrees AS
SELECT Date, Produit, Quantité, Prix_unitaire, (Quantité * Prix_unitaire) AS Revenu
FROM ventes_brutes
WHERE (Quantité * Prix_unitaire) > 30;
```

**Objectif : Comprendre la différence entre ETL et ELT et savoir où effectuer les transformations selon le contexte.**

In [10]:
# Chargement des données depuis le fichier CSV
df_ventes = pd.read_csv('ventesTP1.csv')
print(df_ventes.shape)
print(df_ventes.columns)
print(df_ventes.head())

(100, 4)
Index(['Date', 'Produit', 'Quantite', 'Prix_unitaire'], dtype='object')
         Date Produit  Quantite  Prix_unitaire
0  2024-02-21  Cahier         7          32.82
1  2024-04-02   Stylo         9           6.04
2  2024-01-15  Souris         7           9.76
3  2024-03-12  Souris         1          45.13
4  2024-03-01  Souris         1          31.11


In [None]:
# Insertion des données dans une nouvelle table 'ventes_brutes'
conn = sqlite3.connect('ventesTP1.db')
df_ventes.to_sql('ventes_brutes', conn, if_exists='replace', index=False)

100

In [None]:
# Création de la table 'ventes_filtrees' avec le filtrage sur le revenu
conn.execute('''
    CREATE TABLE ventes_filtrees AS
    SELECT
    Date,
    Produit,
    Quantite,
    Prix_unitaire,
    (Quantite * Prix_unitaire) AS Revenu
    FROM ventes_brutes
    WHERE (Quantite * Prix_unitaire) > 30;
''')
conn.commit()

In [None]:
# Récupération des données depuis la table 'ventes_filtrees'
df_vente_filtrees = pd.read_sql('SELECT * FROM ventes_filtrees', conn)
print(df_vente_filtrees.shape)
df_vente_filtrees.head()

(80, 5)


Unnamed: 0,Date,Produit,Quantite,Prix_unitaire,Revenu
0,2024-02-21,Cahier,7,32.82,229.74
1,2024-04-02,Stylo,9,6.04,54.36
2,2024-01-15,Souris,7,9.76,68.32
3,2024-03-12,Souris,1,45.13,45.13
4,2024-03-01,Souris,1,31.11,31.11


In [None]:
# Fermeture de la connexion à la base de données
conn.close()