# TD `pandas`

## Préparation de l'environnement

### Installation de Python

Sur windows, téléchargez et installez Python depuis le site officiel : https://www.python.org/downloads/

### Installation de pip

pip est un gestionnaire de paquets utilisé pour installer et gérer des paquets de logiciels écrits en Python. Il est installé par défaut avec Python 2 >=2.7.9 ou Python 3 >=3.4.

### Installation de Docker

Docker est un logiciel libre qui permet de créer, déployer et exécuter des applications dans des conteneurs logiciels. Il est disponible pour Windows, macOS et Linux.

Pour installer Docker, téléchargez et installez Docker Desktop depuis le site officiel : https://www.docker.com/products/docker-desktop

### Installation de MariaDB

MariaDB est un système de gestion de base de données relationnelle (SGBDR) libre et open source. Il est disponible pour Windows, macOS et Linux.

Démarrer le conteneur MariaDB en exécutant la commande suivante :

```bash
docker-compose up -d
```

### Création d'un environnement virtuel

Un environnement virtuel est un outil qui aide à garder les dépendances requises pour un  projet de façon séparé des autres. Il s'agit d'un dossier contenant des copies spécifiques des bibliothèques Python nécessaires pour les projets Python.

Pour créer un environnement virtuel, exécutez la commande suivante :

```bash
py -m venv .venv
```

Pour activer l'environnement virtuel :
```bash
./.venv/Scripts/activate
```

Pour faire en sorte que l'environnement virtuel Python s'active automatiquement pour ce projet :

1. Ouvrez le fichier `.vscode/settings.json`
2. Ajoutez-y les deux lignes suivantes et sauvegardez :
    ```
    {
        "python.defaultInterpreterPath": "./.venv/Scripts/python.exe",
        "python.terminal.activateEnvironment": true,
    }
    ```

## Étapes

- Installation des dépendances
- Lire le fichier CSV
- Créer une connexion à la base de données
- Créer un curseur
- Insérer les données dans la base de données

## Étape 1 : Installation des dépendances

Assurez-vous d'avoir installé les modules requis : pandas et pymysql. Vous pouvez les installer en utilisant pip:

```bash
pip install pandas pymysql
```

## Étape 2 : Créez un fichier CSV

Créez un fichier CSV nommé "clients.csv" avec le contenu suivant :

```csv
id,firstname,lastname,email,profession,country,city
1,Juliane,Ramona,Juliane.Ramona@yopmail.com,worker,Mexico,Chennai
2,Jsandye,Marlie,Jsandye.Marlie@yopmail.com,doctor,Malta,Lahore
3,Calla,Christal,Calla.Christal@yopmail.com,doctor,Tokelau,Douglas
```

## Étape 3 : Créez un fichier Python

Créez un fichier Python nommé "import_csv.py". Ce fichier contiendra le code pour lire le fichier CSV et l'importer dans la base de données.


### Étape 3.1 : Importer les modules

Importez les modules pandas et pymysql dans le fichier Python.

In [34]:
import pandas as pd
import pymysql

### Étape 3.2 : Lire le fichier CSV

1. Lisez le fichier CSV "clients.csv" et affichez le contenu.
2. Affichez de la ligne 2 à la ligne 4 du fichier CSV.

In [74]:
df = pd.read_csv('clients.csv', index_col='id', header=0)
df[0:4]

Unnamed: 0_level_0,firstname,lastname,email,profession,country,city
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Clary,Gilmour,Clary.Gilmour@yopmail.com,doctor,"Micronesia, Federated States of",Kobe
2,Sean,Saunderson,Sean.Saunderson@yopmail.com,developer,Ethiopia,Rotterdam
3,Leontine,Wenoa,Leontine.Wenoa@yopmail.com,worker,Comoros,Roseau
4,Anthia,Dash,Anthia.Dash@yopmail.com,developer,Slovenia,Batticaloa


3. Placer le code dans une fonction nommée "lire_csv" et appeler cette fonction dans le fichier Python. Cette fonction aura comme signature : `lire_csv(nom_fichier: str) -> pd.DataFrame`

In [75]:
def lire_csv(nom_fichier: str, *args, **kwargs) -> pd.DataFrame:
    return pd.read_csv('clients.csv', *args, **kwargs)

df = lire_csv(nom_fichier='clients.csv', index_col='id', header=0)
df

Unnamed: 0_level_0,firstname,lastname,email,profession,country,city
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Clary,Gilmour,Clary.Gilmour@yopmail.com,doctor,"Micronesia, Federated States of",Kobe
2,Sean,Saunderson,Sean.Saunderson@yopmail.com,developer,Ethiopia,Rotterdam
3,Leontine,Wenoa,Leontine.Wenoa@yopmail.com,worker,Comoros,Roseau
4,Anthia,Dash,Anthia.Dash@yopmail.com,developer,Slovenia,Batticaloa
5,Barbara,Ulphia,Barbara.Ulphia@yopmail.com,worker,British Indian Ocean Territory,Perth
...,...,...,...,...,...,...
996,Ezmeralda,Connelly,Ezmeralda.Connelly@yopmail.com,firefighter,Northern Mariana Islands,Odessa
997,Annabela,Lanita,Annabela.Lanita@yopmail.com,doctor,Slovakia,Valletta
998,Glynnis,Cherianne,Glynnis.Cherianne@yopmail.com,firefighter,Czech Republic,Kaohsiung
999,Ardys,Jacobah,Ardys.Jacobah@yopmail.com,developer,Hungary,Toronto


### Étape 3.3 : Importer des données dans la base de données

#### Étape 3.3.1 : Créer une connexion à la base de données

Créez une fonction nommée "creer_connexion" qui aura comme signature : `se_connecter_db() -> pymysql.Connection`. Cette fonction aura pour but de créer une connexion à la base de données.

Testez la fonction en appelant la fonction "se_connecter_db" dans le fichier Python.

In [20]:
def se_connecter_db(host, user, password, database):
    conn = pymysql.connect(host=host, user=user, password=password, database=database)
    return conn

#### Étape 3.3.2 : Insérer les données dans la base de données

Fabriquez une liste d'utilisateurs à partir du fichier CSV.

Insérez des données utilisateurs dans la base de données.

In [117]:
import pandas as pd
import pymysql
import time

dataset_filename = 'clients.csv'
db_host = "localhost"
db_username = "user"
db_password = "user"
db_database = "exercice"
req_sql = """
INSERT INTO clients (
    id, prenom, nom, email, profession, pays, ville
) VALUES (%s, %s, %s, %s, %s, %s, %s)
"""

df = pd.read_csv(dataset_filename, index_col='id', header=0)
start_time = time.time()
with pymysql.connect(host=db_host,
                    user=db_username,
                    password=db_password,
                    database=db_database) as conn:
    cursor = conn.cursor()
    for index, row in df.iterrows():
        data_row = (row[col_name] for col_name in df.columns.tolist())
        cursor.execute(req_sql, (index, *data_row))
    conn.commit()
print(f"Temps écoulé :", time.time() - start_time, "secondes")

Temps écoulé : 0.8515191078186035 secondes


À titre de comparaison, une autre manière d'insérer des données CSV dans une base de données consiste à utiliser la bibliothèque Python `sqlalchemy`:

In [119]:
import pandas as pd
import sqlalchemy
import time

dataset_filename = 'clients.csv'
db_host = "localhost"
db_username = "user"
db_password = "user"
db_database = "exercice"
table_name = 'clients'
req_sql = """
INSERT INTO clients (
    id, prenom, nom, email, profession, pays, ville
) VALUES (%s, %s, %s, %s, %s, %s, %s)
"""

df = pd.read_csv(dataset_filename, index_col='id', header=0)
engine = sqlalchemy.create_engine(f'mysql+pymysql://{db_username}:{db_password}@{db_host}/{db_database}')
map_df_to_db_col_names = {
    'firstname': 'prenom',
    'lastname': 'nom',
    'email': 'email',
    'profession': 'profession',
    'country': 'pays',
    'city': 'ville'
}
start_time = time.time()
df.rename(columns=map_df_to_db_col_names).to_sql(name=table_name, con=engine, if_exists='replace', index_label='id')
print(f"Temps écoulé :", time.time() - start_time, "secondes")

Temps écoulé : 0.31548357009887695 secondes


La seconde méthode est manifestement plus rapide que la première.