# Contexte
Nos informations sont partagées dans plusieurs fichiers. En effet, nous avons d’une part le fichier contenant l’ensemble des informations de prêts, que nous avons déjà utilisé à plusieurs reprises.  Nous avons d’autre part les informations sur nos clients qui se trouvent non pas dans un, mais dans deux autres fichiers.

Il serait bien plus pratique de pouvoir rassembler l’ensemble de ces fichiers en un seul.

# Consignes
Votre tâche cette fois-ci va être de rassembler ces différents fichiers pour ouvrir les possibilités de traitement, d’analyse, etc. Pour cela, vous devez utiliser l’ensemble des jeux de données à votre disposition (les deux fichiers clients et le fichier de prêts), et appliquer les différentes méthodes Pandas présentées dans cette partie, pour les fusionner.

In [2]:
#Importation des bibliothèques de calculs scientifiques et traitement des dataframes
import numpy as np
import pandas as pd

In [12]:
# traitement réalisé
prets = pd.read_csv('https://raw.githubusercontent.com/OpenClassrooms-Student-Center/fr-4452741-decouvrez-les-librairies-python-pour-la-data-science/main/data/prets.csv')

# calcul du taux d'endettement
prets['taux_endettement'] = round(prets['remboursement'] * 100 / prets['revenu'], 2)

# renommer taux en taux_interet
prets.rename(columns={'taux':'taux_interet'}, inplace=True)

# calculer le cout total du pret
prets['cout_total'] = prets['remboursement'] * prets['duree']

# calculer les bénéfices mensuels réalisés
prets['benefices'] = round((prets['cout_total'] * prets['taux_interet']/100)/(24), 2)

# création d'une variable risque
prets['risque'] = 'Non'
prets.loc[prets['taux_endettement'] > 35, 'risque'] = 'Oui'

# dataframe de profils clients
profil_clients = prets.groupby('identifiant')[['remboursement','taux_endettement','cout_total','benefices']].sum()
profil_clients.reset_index(inplace=True)
profil_clients



Unnamed: 0,identifiant,remboursement,taux_endettement,cout_total,benefices
0,0,1130.05,30.80,271212.0,131.99
1,1,1487.85,28.02,389715.0,206.66
2,2,552.54,29.50,132609.6,53.71
3,3,586.03,34.80,105485.4,44.57
4,4,423.61,28.70,101666.4,51.21
...,...,...,...,...,...
223,223,672.13,31.60,161311.2,83.95
224,224,1486.99,29.05,380592.0,196.75
225,225,876.43,37.20,157757.4,77.04
226,226,2910.96,57.10,698630.4,331.85


In [10]:
prets.head()

Unnamed: 0,identifiant,ville,CP,revenu,remboursement,duree,type,taux_interet,taux_endettement,cout_total,benefices,risque
0,0,TOULOUSE,31100,3669.0,1130.05,240,immobilier,1.168,30.8,271212.0,131.99,Non
1,1,PARIS,75009,5310.0,240.0,64,automobile,3.701,4.52,15360.0,23.69,Non
2,1,PARIS,75009,5310.0,1247.85,300,immobilier,1.173,23.5,374355.0,182.97,Non
3,2,MARSEILLE,13010,1873.0,552.54,240,immobilier,0.972,29.5,132609.6,53.71,Non
4,3,MARSEILLE,13010,1684.0,586.03,180,immobilier,1.014,34.8,105485.4,44.57,Non


## Importation des 2 fichiers clients

In [4]:
clients_1 = pd.read_csv('https://raw.githubusercontent.com/OpenClassrooms-Student-Center/fr-4452741-decouvrez-les-librairies-python-pour-la-data-science/main/data/clients.csv')
clients_1.head()

Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M


In [5]:
clients_2 = pd.read_csv('https://raw.githubusercontent.com/OpenClassrooms-Student-Center/fr-4452741-decouvrez-les-librairies-python-pour-la-data-science/main/data/clients_suite.csv')
clients_2.head()

Unnamed: 0,identifiant,email,nom,genre
0,150,RochMireault@gustr.com,Roch Mireault,M
1,151,NathalieCormier@cuvox.de,Nathalie Cormier,F
2,152,VallisMainville@gustr.com,Vallis Mainville,M
3,153,DanielleNeufville@teleworm.us,Danielle Neufville,F
4,154,AllyrianeRacine@gustr.com,Allyriane Racine,F


La première mission va être de rassembler les deux dataframes `clients_1` et `clients_2` en un gros dataframe `clients` qui contiendra l'ensemble des informations de notre clientèle !

In [8]:
#Etant donnée que les 2 dataframes ont la même structure, les mêmes colonnes,
#types, nous allons appliquer la methode de concatenation

clients=pd.concat([clients_1, clients_2],ignore_index=True)
clients

Unnamed: 0,identifiant,email,nom,genre
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M
1,1,GuyMarois@fleckens.hu,Guy Marois,M
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M
3,3,RussellDurand@armyspy.com,Russell Durand,M
4,4,AlexisRiel@rhyta.com,Alexis Riel,M
...,...,...,...,...
223,223,ClaudeDandonneau@jourrapide.com,Claude Dandonneau,F
224,224,ApollineMichaud@superrito.com,Apolline Michaud,F
225,225,PascalineBeaudry@rhyta.com,Pascaline Beaudry,F
226,226,FleurCaouette@jourrapide.com,Fleur Caouette,F


A présent, Nous allons fusionner ce fichier clients avec les profils clients créés précédemment. Ces derniers se trouve dans le dataframe `profil_clients` qui a été généré en case 2. Nous allons nommer le dataframe final `data` :

In [11]:
#Nous allons appliquer ici, une fusion des 2 dataframes ayant 
#pour clé commune identifiant

In [15]:
data=pd.merge(clients,profil_clients,on='identifiant')
data.head()

Unnamed: 0,identifiant,email,nom,genre,remboursement,taux_endettement,cout_total,benefices
0,0,LaurentDagenais@rhyta.com,Laurent Dagenais,M,1130.05,30.8,271212.0,131.99
1,1,GuyMarois@fleckens.hu,Guy Marois,M,1487.85,28.02,389715.0,206.66
2,2,BeaufortLesage@einrot.com,Beaufort Lesage,M,552.54,29.5,132609.6,53.71
3,3,RussellDurand@armyspy.com,Russell Durand,M,586.03,34.8,105485.4,44.57
4,4,AlexisRiel@rhyta.com,Alexis Riel,M,423.61,28.7,101666.4,51.21


Le service marketing de la banque nous a fourni un fichier dans lequel se trouve l'age de TOUS les clients de notre banque.

In [17]:
clients_age = pd.read_csv('https://raw.githubusercontent.com/OpenClassrooms-Student-Center/fr-4452741-decouvrez-les-librairies-python-pour-la-data-science/main/data/client_age.csv')
clients_age

Unnamed: 0,identifiant,age
0,0,54
1,1,23
2,2,30
3,3,42
4,4,47
...,...,...
990,995,37
991,996,53
992,997,49
993,998,41


A présent, nous allons ajouter l'information de l'age au dataframe `data`. Cependant, il semble que certains des clients ayant contracté un prêt n'apparaissent pas dans ce fichier. Etant donné la direction souhaite cependant garder **toutes** les informations de notre dataframe `data` : Nous allons donc fixer toutes les clés du dataframe `data` et ajouter les infos existant de l'age s'ils existent !

In [24]:
data=pd.merge(clients_age,data,on='identifiant',how='right')
data.head()

Unnamed: 0,identifiant,age,email,nom,genre,remboursement,taux_endettement,cout_total,benefices
0,0,54.0,LaurentDagenais@rhyta.com,Laurent Dagenais,M,1130.05,30.8,271212.0,131.99
1,1,23.0,GuyMarois@fleckens.hu,Guy Marois,M,1487.85,28.02,389715.0,206.66
2,2,30.0,BeaufortLesage@einrot.com,Beaufort Lesage,M,552.54,29.5,132609.6,53.71
3,3,42.0,RussellDurand@armyspy.com,Russell Durand,M,586.03,34.8,105485.4,44.57
4,4,47.0,AlexisRiel@rhyta.com,Alexis Riel,M,423.61,28.7,101666.4,51.21


In [25]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 228 entries, 0 to 227
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   identifiant       228 non-null    int64  
 1   age               223 non-null    float64
 2   email             228 non-null    object 
 3   nom               228 non-null    object 
 4   genre             228 non-null    object 
 5   remboursement     228 non-null    float64
 6   taux_endettement  228 non-null    float64
 7   cout_total        228 non-null    float64
 8   benefices         228 non-null    float64
dtypes: float64(5), int64(1), object(3)
memory usage: 17.8+ KB
