# Création d'un pipeline ETL basique
Nous allons d'abord créer un fichier csv contenant les données d'études.

In [1]:
import pandas as pd
import names
import numpy as np

In [2]:
person = {"id": [i+1 for i in range(50)],
          "names": [names.get_full_name() for i in range(50)],
          "ages": list(np.random.randint(low=18, high=35, size=50))
         }

Définir un index pour notre dataframe

In [11]:
data.set_index('id', inplace=True)

In [12]:
data = pd.DataFrame(person)
data.head()

Unnamed: 0,id,names,ages
0,1,Stephen Gehrke,19
1,2,Carol Brown,33
2,3,Alonzo Kirkland,27
3,4,Dorcas Tracy,20
4,5,Geneva Wilson,24


In [13]:
data.to_csv("data_etl.csv")

Assure-toi d’avoir les bibliothèques nécessaires en Python : pandas pour manipuler les données et sqlite3 pour créer une base de données SQLite.

## Extraction : Lire les données à partir du fichier CSV.

In [14]:
dt = pd.read_csv("data_etl.csv")
dt.head()

Unnamed: 0.1,Unnamed: 0,id,names,ages
0,0,1,Stephen Gehrke,19
1,1,2,Carol Brown,33
2,2,3,Alonzo Kirkland,27
3,3,4,Dorcas Tracy,20
4,4,5,Geneva Wilson,24


## Transformation : Ajouter une nouvelle colonne age_category en fonction de l'âge.

In [17]:
def categorize_age(age):
    if age < 25:
        return 'Young'
    elif age < 35:
        return 'Adult'
    else:
        return 'Senior'

data['age_category'] = data['ages'].apply(categorize_age)
data.head()

Unnamed: 0,id,names,ages,age_category
0,1,Stephen Gehrke,19,Young
1,2,Carol Brown,33,Adult
2,3,Alonzo Kirkland,27,Adult
3,4,Dorcas Tracy,20,Young
4,5,Geneva Wilson,24,Young


## Chargement : Charger les données transformées dans une base de données SQLite.

In [18]:
import sqlite3

In [19]:
# Connexion à la base de données
conn = sqlite3.connect('example.db')
data.to_sql('users', conn, if_exists='replace', index=False)

print("\nDonnées chargées dans la base SQLite")


Données chargées dans la base SQLite


## Validation : Vérifie que les données sont bien chargées.

In [20]:
# Vérification
result = pd.read_sql("SELECT * FROM users", conn)
print("\nDonnées dans la base de données :")
print(result)
conn.close()


Données dans la base de données :
    id                 names  ages age_category
0    1        Stephen Gehrke    19        Young
1    2           Carol Brown    33        Adult
2    3       Alonzo Kirkland    27        Adult
3    4          Dorcas Tracy    20        Young
4    5         Geneva Wilson    24        Young
5    6       Aubrey Williams    22        Young
6    7        William Schick    28        Adult
7    8           John Sigler    23        Young
8    9    Florencio Jellison    30        Adult
9   10     Matilda Guillaume    33        Adult
10  11           Susan Jones    26        Adult
11  12      Georgia Anderson    30        Adult
12  13       Lourdes Brazile    18        Young
13  14        Lillie Manahan    24        Young
14  15          Annie Colvin    25        Adult
15  16          Betty Lester    26        Adult
16  17          Carolyn Knox    22        Young
17  18          Patrick Gate    21        Young
18  19          Thomas Kelly    18        Young
19  2