##### Cours : OpenClassRooms

Intervention sur les données avec Pandas (suite)

##### Date : 24-01-23
***

In [1]:
import pandas as pd
import numpy as np

In [3]:
# Importation du fichier des clients
clients = pd.read_csv("data/clients.csv")
clients.head()

Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M


In [2]:
# Importation du fichier des prêts
prets = pd.read_csv('https://raw.githubusercontent.com/benjaminmrl/data-4452741/main/prets.csv')
prets.head()

Unnamed: 0,identifiant,ville,CP,revenu,remboursement,duree,type,taux
0,0,TOULOUSE,31100,3669.0,1130.05,240,immobilier,1.168
1,1,PARIS,75009,5310.0,240.0,64,automobile,3.701
2,1,PARIS,75009,5310.0,1247.85,300,immobilier,1.173
3,2,MARSEILLE,13010,1873.0,552.54,240,immobilier,0.972
4,3,MARSEILLE,13010,1684.0,586.03,180,immobilier,1.014


##### <font color = 'green'>Fusionner des fichiers = ajouter des colonnes</font>

On appelle une jointure la fusion de plusieurs fichiers <br>.
Pour effectuer correctement une jointure, il faut avoir une clé commune. <br>
(similaire à la modélisation dans Power BI)<br><br>

La fonction ou méthode prévue par Pandas pour faire une jointure se nomme merge : <br>
-> via la fonction Pandas. Dans ce cas-là, l’écriture sera  pd.merge(A, B) <br>
-> via la méthode de data frame. Dans ce cas-là, l'écriture sera  A.merge(B) <<br>
Quelque soit l'écriture utilisée (fonction ou méthode), le résultat est le même <br><br>

La clé pour joindre les fichiers : <br>
-> lorsque la clé porte le même nom dans chaque data frame, on peut utiliser l’argument 'on' <br>
-> lorsque la clé n’a pas le même nom, il est nécessaire de préciser quelle clé on va utiliser dans chaque data frame. On aura alors besoin des argumentsright_on  et  left_on qui correspondront à la clé dans le data frame à droite et celle dans le data frame à gauche.


<font color = 'yellow'>Jointure entre 2 dataframes A et B :<br>
pd.merge(A, B, on='id') </font><br><br>
C’est une jointure simple sur une clé id. <br>
Cela suppose donc qu’il y a dans le data frame A et dans le data frame B, une colonne qui porte ce nom. <br>
Cela renverra une erreur dans le cas contraire


<font color = 'yellow'>Jointure entre 2 dataframes A et C :<br>
C.merge(A, left_on='identifiant', right_on='id') </font><br><br>
La data frame considérée comme left est la data frame sur laquelle on effectue la jointure : ici, il s’agit donc de la data frame C. <br>
La data frame A est considérée comme étant à droite. <br>
La jointure est réalisée sur la clé identifiant pour la data frame de gauche (ici, C), et id pour l’autre


<font color = 'yellow'>Jointure entre 2 dataframes A et B :<br>
pd.merge(A, B, left_on='id', right_on='identifiant') </font><br><br>
Le data frame considéré comme left est le premier renseigné, donc ici A. <br>
B est le data frame right. <br>
La jointure est réalisée avec la cléid du data frame de gauche (ici, A), et identifiant du data frame de droite.


In [4]:
# Jointure des DF clients et prets chargés ci-avant
data = pd.merge(clients, prets, on='identifiant')
data.head()

Unnamed: 0,identifiant,email,nom,genre,ville,CP,revenu,remboursement,duree,type,taux
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M,TOULOUSE,31100,3669.0,1130.05,240,immobilier,1.168
1,1,GuyMarois@fleckens.hu,Guy Marois,M,PARIS,75009,5310.0,240.0,64,automobile,3.701
2,1,GuyMarois@fleckens.hu,Guy Marois,M,PARIS,75009,5310.0,1247.85,300,immobilier,1.173
3,2,BeaufortLesage@einrot.com,Beaufort Lesage,M,MARSEILLE,13010,1873.0,552.54,240,immobilier,0.972
4,3,RussellDurand@armyspy.com,Russell Durand,M,MARSEILLE,13010,1684.0,586.03,180,immobilier,1.014


##### <font color = 'green'>Les différentes types de jointure</font>
Il existe 4 types de jointures : <br>
-> interne (how='inner') : jointure par défaut, les lignes qui n'ont pas la même clé sur différents fichiers, ne sont pas prises en compte dans la jointure<br>
-> à gauche (how='left') : elle conserve toutes les lignes de la table de gauche et affiche la mention 'NaN' pour les valeurs manquantes<br>
-> à droite (how='right') : elle conserve toutes les lignes de la table de droite et affiche la mention 'NaN' pour les valeurs manquantes<br>
-> externe (how='outer') : elle conserve toutes les lignes des tables fusionnées et affiche la mention 'NaN' pour les valeurs manquantes

##### <font color = 'green'>La concaténation = ajouter des lignes</font>
La concaténation intervient lorsqu’on souhaite assembler plusieurs data frames qui ont la même structure, les mêmes colonnes, les mêmes types, mais des informations différentes. <br>
La fonction pour concaténer est : pd.concat([df1, df2], ignore_index=True) <br>
Le paramètre ignore_index=True évite d'avoir des index en doublon

##### <font color = 'green'>Cas pratique</font>
Votre tâche cette fois-ci va être de construire un jeu de données qui soit le plus complet possible. <br>
Pour cela, vous devez utiliser l’ensemble des jeux de données à votre disposition (les deux fichiers clients et le fichier de prêts) et appliquer l’ensemble des méthodes pour les fusionner ensemble.

In [9]:
# traitement réalisés précédemment
prets = pd.read_csv('https://raw.githubusercontent.com/benjaminmrl/data-4452741/main/prets.csv')

# calcul du taux d'endettement
prets['taux_endettement'] = round(prets['remboursement'] * 100 / prets['revenu'], 2)

# renommer taux en taux_interet
prets.rename(columns={'taux':'taux_interet'}, inplace=True)

# calculer le cout total du pret
prets['cout_total'] = prets['remboursement'] * prets['duree']

# calculer les bénéfices mensuels réalisés
prets['benefices'] = round((prets['cout_total'] * prets['taux_interet']/100)/(24), 2)

# création d'une variable risque
prets['risque'] = 'Non'
prets.loc[prets['taux_endettement'] > 35, 'risque'] = 'Oui'

# dataframe de profils clients
profil_clients = prets.groupby('identifiant')[['remboursement','taux_endettement','cout_total','benefices']].sum()
profil_clients.reset_index(inplace=True)
profil_clients.head()

prets.head()

Unnamed: 0,identifiant,ville,CP,revenu,remboursement,duree,type,taux_interet,taux_endettement,cout_total,benefices,risque
0,0,TOULOUSE,31100,3669.0,1130.05,240,immobilier,1.168,30.8,271212.0,131.99,Non
1,1,PARIS,75009,5310.0,240.0,64,automobile,3.701,4.52,15360.0,23.69,Non
2,1,PARIS,75009,5310.0,1247.85,300,immobilier,1.173,23.5,374355.0,182.97,Non
3,2,MARSEILLE,13010,1873.0,552.54,240,immobilier,0.972,29.5,132609.6,53.71,Non
4,3,MARSEILLE,13010,1684.0,586.03,180,immobilier,1.014,34.8,105485.4,44.57,Non


In [10]:
# Importation du 1er fichier client
clients_1 = pd.read_csv('https://raw.githubusercontent.com/benjaminmrl/data-4452741/main/clients.csv')
clients_1.head()

Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M


In [11]:
# Importation du 2ème fichier client
clients_2 = pd.read_csv('https://raw.githubusercontent.com/benjaminmrl/data-4452741/main/clients_suite.csv')
clients_2.head()

Unnamed: 0,identifiant,email,nom,genre
0,150,RochMireault@gustr.com,Roch Mireault,M
1,151,NathalieCormier@cuvox.de,Nathalie Cormier,F
2,152,VallisMainville@gustr.com,Vallis Mainville,M
3,153,DanielleNeufville@teleworm.us,Danielle Neufville,F
4,154,AllyrianeRacine@gustr.com,Allyriane Racine,F


La première mission va être de rassembler les deux dataframes clients_1 et clients_2 en un gros dataframe clients qui contiendra l'ensemble des informations de notre clientèle !

In [13]:
client = pd.concat([clients_1, clients_2], ignore_index=True)

A présent, vous allez fusionner ce fichier clients avec les profils clients créés précédemment. Ces derniers se trouve dans le dataframe profil_clients qui a été généré en case 2. Vous pouvez nommer le dataframe final data :

In [17]:
data = pd.merge(client, profil_clients, on='identifiant', how='inner')
data.head()

Unnamed: 0,identifiant,email,nom,genre,remboursement,taux_endettement,cout_total,benefices
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M,1130.05,30.8,271212.0,131.99
1,1,GuyMarois@fleckens.hu,Guy Marois,M,1487.85,28.02,389715.0,206.66
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M,552.54,29.5,132609.6,53.71
3,3,RussellDurand@armyspy.com,Russell Durand,M,586.03,34.8,105485.4,44.57
4,4,AlexisRiel@rhyta.com,Alexis Riel,M,423.61,28.7,101666.4,51.21


Le service marketing de la banque nous a fourni un fichier dans lequel se trouve l'age de TOUS les clients de notre banque.

In [18]:
clients_age = pd.read_csv('https://raw.githubusercontent.com/benjaminmrl/data-4452741/main/client_age.csv')
clients_age.head()

Unnamed: 0,identifiant,age
0,0,54
1,1,23
2,2,30
3,3,42
4,4,47


Ajoutez l'information de l'age au dataframe data. <br>
Cependant, il semble que certains des clients ayant contracté un prêt n'apparaissent pas dans ce fichier. <br>
On souhaite cependant garder toutes les informations de notre dataframe data : choisissez donc avec précaution les arguments !

In [19]:
data = pd.merge(data, clients_age, on='identifiant', how='left')
data.head()

Unnamed: 0,identifiant,email,nom,genre,remboursement,taux_endettement,cout_total,benefices,age
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M,1130.05,30.8,271212.0,131.99,54.0
1,1,GuyMarois@fleckens.hu,Guy Marois,M,1487.85,28.02,389715.0,206.66,23.0
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M,552.54,29.5,132609.6,53.71,30.0
3,3,RussellDurand@armyspy.com,Russell Durand,M,586.03,34.8,105485.4,44.57,42.0
4,4,AlexisRiel@rhyta.com,Alexis Riel,M,423.61,28.7,101666.4,51.21,47.0


_Il est ici nécessaire de faire une jointure centrée sur le dataframe data (dans le code ci dessus à gauche). <br>
En effet, il y a beaucoup plus de clients dans le fichier clients_age que dans le fichier data. <br>
Cependant, certains clients du fichier data n'apparaissent pas dans clients_age.<br>La jointure à gauche (ou à droite) est donc nécessaire pour conserver l'ensemble des informations de data, en ajoutant l'age lorsqu'il est disponible_