![openclassrooms](https://s3.eu-west-1.amazonaws.com/course.oc-static.com/courses/6204541/1+HnqdJ-5ofxiPP9HIxdNdpw.jpeg)

# Manipulez un dataframe

Nous allons travailler à présent sur notre fichier de prêts immobiliers.

Pour expliquer rapidement ce fichier, chaque ligne correspond à un prêt qui a été accordé à un de nos clients. Chaque client est identifié par… son identifiant ! Nous avons les informations suivantes :
- la ville et le code postale de l’agence où le client a contracté le prêt
- le revenu mensuel du client
- les mensualités remboursées par le client
- la durée du prêt contracté, en nombre de mois
- le type de prêt
- et enfin le taux d’intérêt

Votre rôle cette fois ci va être de modifier ce jeu de données pour calculer différentes variables nécessaires pour identifier les clients qui sont à la limite de leur capacité de remboursement et déterminer les bénéfices réalisées par la banque.


In [29]:
import numpy as np
import pandas as pd

Commençons par importer notre fichier csv. Celui ci sera disponible via un lien, pour faciliter le bon fonctionnement avec Google Colab, mais promis, c'est **le même fichier** que celui que vous pouvez télécharger [sur le lien suivant](https://raw.githubusercontent.com/OpenClassrooms-Student-Center/fr-4452741-decouvrez-les-librairies-python-pour-la-data-science/main/data/prets.csv) *(click droit, enregistrer sous)*

In [30]:
prets = pd.read_csv("https://raw.githubusercontent.com/OpenClassrooms-Student-Center/fr-4452741-decouvrez-les-librairies-python-pour-la-data-science/main/data/prets.csv")
prets.head()

Unnamed: 0,identifiant,ville,CP,revenu,remboursement,duree,type,taux
0,0,TOULOUSE,31100,3669.0,1130.05,240,immobilier,1.168
1,1,PARIS,75009,5310.0,240.0,64,automobile,3.701
2,1,PARIS,75009,5310.0,1247.85,300,immobilier,1.173
3,2,MARSEILLE,13010,1873.0,552.54,240,immobilier,0.972
4,3,MARSEILLE,13010,1684.0,586.03,180,immobilier,1.014


Dans un premier temps, créez une nouvelle variable calculant le taux d'endettement de chaque individu. Ce taux correspond au pourcentage du revenu remboursé chaque mois par un individu. Vous arrondirez le résultat à 2 chiffres après la virgule :

In [31]:
prets['taux_endettement'] = round(prets['remboursement']  * 100 / prets['revenu'], 2)
display(prets.head())

Unnamed: 0,identifiant,ville,CP,revenu,remboursement,duree,type,taux,taux_endettement
0,0,TOULOUSE,31100,3669.0,1130.05,240,immobilier,1.168,30.8
1,1,PARIS,75009,5310.0,240.0,64,automobile,3.701,4.52
2,1,PARIS,75009,5310.0,1247.85,300,immobilier,1.173,23.5
3,2,MARSEILLE,13010,1873.0,552.54,240,immobilier,0.972,29.5
4,3,MARSEILLE,13010,1684.0,586.03,180,immobilier,1.014,34.8


Pour éviter toute confusion, renommez la variable `taux` en `taux_interet` :

In [32]:
prets.rename(columns={'taux': 'taux_interet'}, inplace=True)

Le dataframe devrait ressembler à cela :

In [33]:
prets.head()

Unnamed: 0,identifiant,ville,CP,revenu,remboursement,duree,type,taux_interet,taux_endettement
0,0,TOULOUSE,31100,3669.0,1130.05,240,immobilier,1.168,30.8
1,1,PARIS,75009,5310.0,240.0,64,automobile,3.701,4.52
2,1,PARIS,75009,5310.0,1247.85,300,immobilier,1.173,23.5
3,2,MARSEILLE,13010,1873.0,552.54,240,immobilier,0.972,29.5
4,3,MARSEILLE,13010,1684.0,586.03,180,immobilier,1.014,34.8


Nous allons à présent créer deux dernières variables :
- `cout_total` correspondant au cout total du pret à partir du `remboursement` et de la `duree`
- `benefices` correspondant aux **bénéfices mensuels** réalisés par la banque sur le prêt

Nous simplifierons ici le calcul des bénéfices par :

bénéfices = $\dfrac{C * T}{24} $

avec :
- C = cout total du prêt
- T = taux d'intérêt

In [36]:
# Cout_total du pret
print("Coût total du pret: \n")
prets['cout_total'] = prets['remboursement']  * prets['duree']
# Bénéfices réalisé par la banque
print("\n Bénéfices \n")
prets['benefices'] = round((prets['cout_total'] * prets['taux_interet']) / 24
, 2)

Coût total du pret: 


 Bénéfices 



Vous devriez obtenir les 5 premières lignes suivantes :

In [37]:
prets.head()

Unnamed: 0,identifiant,ville,CP,revenu,remboursement,duree,type,taux_interet,taux_endettement,cout_total,benefices
0,0,TOULOUSE,31100,3669.0,1130.05,240,immobilier,1.168,30.8,271212.0,13198.98
1,1,PARIS,75009,5310.0,240.0,64,automobile,3.701,4.52,15360.0,2368.64
2,1,PARIS,75009,5310.0,1247.85,300,immobilier,1.173,23.5,374355.0,18296.6
3,2,MARSEILLE,13010,1873.0,552.54,240,immobilier,0.972,29.5,132609.6,5370.69
4,3,MARSEILLE,13010,1684.0,586.03,180,immobilier,1.014,34.8,105485.4,4456.76


A présent, nous souhaitons connaitre les 5 prêts sur lesquels nous produisons le plus de bénéfices. Mettez en place une solution pour les afficher :

In [42]:
print("Affichage des 5 clients potentiels \n")
prets_trie = prets.sort_values(by='benefices')
prets_top_5 = prets_trie.tail(5)
print(prets_top_5)

Affichage des 5 clients potentiels 

     identifiant  ville     CP  revenu  remboursement  duree        type  \
181          168  PARIS  75003  6366.0        2807.41    240  immobilier   
242          226  PARIS  75002  5098.0        2910.96    240  immobilier   
186          173  PARIS  75006  6784.0        3744.77    180  immobilier   
23            22   NICE   6300  5838.0        3018.25    240  immobilier   
8              7   NICE   6000  5486.0        2956.95    300  immobilier   

     taux_interet  taux_endettement  cout_total  benefices  
181         1.176              44.1    673778.4   33015.14  
242         1.140              57.1    698630.4   33184.94  
186         1.248              55.2    674058.6   35051.05  
23          1.229              51.7    724380.0   37094.29  
8           1.184              53.9    887085.0   43762.86  


Beau travail ! Que diriez vous à présent de comparez vos réponses [avec la correction](https://colab.research.google.com/github/OpenClassrooms-Student-Center/fr-4452741-decouvrez-les-librairies-python-pour-la-data-science/blob/main/notebooks/P2/P2C2%20-%20Manipulez%20un%20dataframe%20-%20correction.ipynb) ?