![openclassrooms](https://s3.eu-west-1.amazonaws.com/course.oc-static.com/courses/6204541/1+HnqdJ-5ofxiPP9HIxdNdpw.jpeg)

# Filtrez les données du dataframe

Nous allons à présent aller un peu plus loin dans la manipulation de nos prêts bancaires. Les demandes suivantes ont été formulées par le responsable du service prêt de notre établissement :
- Le taux d’endettement autorisé est de 35%. Pourriez vous me communiquer le nombre de personnes ayant dépassé ce seuil ?
- Même question, mais cette fois ci uniquement sur l’agence Parisienne
- Pour faciliter le traitement d’éventuelles futures demandes de prêts, pourriez vous ajouter une variable nommée `risque` qui nous permettrait d’identifier les clients risqués facilement
- Combien de prêts automobiles ont été accordés ? Quel est le coût total moyen de ces derniers ?
- Quel est le bénéfice mensuel total réalisé par l’agence Toulousaine ?

Vous allez devoir mettre en application l’ensemble des processus de sélection présentés ci-dessus pour répondre à ces différentes demandes.

In [2]:
import numpy as np
import pandas as pd

In [3]:
# traitement réalisés précédemment
prets = pd.read_csv('https://raw.githubusercontent.com/OpenClassrooms-Student-Center/fr-4452741-decouvrez-les-librairies-python-pour-la-data-science/main/data/prets.csv')

# calcul du taux d'endettement
prets['taux_endettement'] = round(prets['remboursement'] * 100 / prets['revenu'], 2)

# renommer taux en taux_interet
prets.rename(columns={'taux':'taux_interet'}, inplace=True)

# calculer le cout total du pret
prets['cout_total'] = prets['remboursement'] * prets['duree']

# calculer les bénéfices mensuels réalisés
prets['benefices'] = round((prets['cout_total'] * prets['taux_interet']/100)/(24), 2)

prets.head()

Unnamed: 0,identifiant,ville,CP,revenu,remboursement,duree,type,taux_interet,taux_endettement,cout_total,benefices
0,0,TOULOUSE,31100,3669.0,1130.05,240,immobilier,1.168,30.8,271212.0,131.99
1,1,PARIS,75009,5310.0,240.0,64,automobile,3.701,4.52,15360.0,23.69
2,1,PARIS,75009,5310.0,1247.85,300,immobilier,1.173,23.5,374355.0,182.97
3,2,MARSEILLE,13010,1873.0,552.54,240,immobilier,0.972,29.5,132609.6,53.71
4,3,MARSEILLE,13010,1684.0,586.03,180,immobilier,1.014,34.8,105485.4,44.57


Le taux d’endettement autorisé est de 35%. Pourriez vous me communiquer le nombre de personnes ayant dépassé ce seuil ? vous pourrez me stocker la liste dans une variable à part nommé `clients_risque`

In [4]:
nombre_client_risque = prets.loc[prets['taux_endettement'] > 35, :].shape[0]
print('Il y a', nombre_client_risque, 'clients qui ont dépassé le seuil autorisé')

Il y a 58 clients qui ont dépassé le seuil autorisé


*Pour expliquer rapidement cette ligne de code :*
- *dans un premier temps nous utilisons la fonction .loc, pour sélectionner l'ensemble des lignes dont le taux d'endettement est supérieur à 35%*
- *nous utilisons ensuite la méthode `.shape` pour calculer le nombre de clients concernés*

Même question, mais cette fois ci uniquement sur l’agence Parisienne

In [5]:
nombre_client_risque = prets.loc[(prets['taux_endettement'] > 35) & (prets['ville'] == 'PARIS'), :].shape[0]
print('Il y a', nombre_client_risque, "clients qui ont dépassé le seuil autorisé à l'agence Parisienne")

Il y a 16 clients qui ont dépassé le seuil autorisé à l'agence Parisienne


Pour faciliter le traitement d’éventuelles futures demandes de prêts, pourriez vous ajouter une variable nommée `risque` qui aurait pour valeur `Oui` si le client est risqué (taux d’endettement > 35%), `Non` sinon.
Pour se faire, je vous conseille de créer la variable `risque` en l'initialisant à `Non` (ou `Oui`, à votre préférence) et de ne modifier que les lignes concernées par la valeur inverse :

In [4]:
prets['risque'] = 'Non'
prets.loc[prets['taux_endettement'] > 35, 'risque'] = 'Oui'

Combien de prêts automobiles ont été accordés ? Quel est le coût total moyen de ces derniers ?

In [5]:
prets_auto = prets.loc[prets['type'] == 'automobile', :]
print('Nous avons accordé', prets_auto.shape[0], 'prêts automobiles, dont le coût total moyen est de',
      prets_auto['cout_total'].mean(), '€')

Nous avons accordé 16 prêts automobiles, dont le coût total moyen est de 13665.0 €


*Pour expliquer rapidement ces lignes de code :*
- *nous opérons une sélection sur les prêts étant de type automobile. Le résultat de cette sélection est stocké dans un dataframe nommé `prets_auto`*
- *nous utilisons la méthode `.shape` comme précédemment pour déterminer le nombre de prêts concernés*
- *nous calculons ensuite la moyenne de la variable `cout_total` de ce dataframe nouvellement créé*

Quel est le bénéfice mensuel total réalisé par l’agence Toulousaine ?

In [8]:
prets.loc[prets['ville'] == 'TOULOUSE', 'benefices'].sum()

np.float64(2138.0699999999997)

In [9]:
prets['ville'].value_counts()

Unnamed: 0_level_0,count
ville,Unnamed: 1_level_1
PARIS,77
MARSEILLE,75
LYON,28
TOULOUSE,27
NICE,21
BORDEAUX,16


In [6]:
Table_pret_pourc= prets['ville'].value_counts(normalize=True)*100
Table_pret_pourc['Total'] = Table_pret_pourc.sum()
Table_pret_pourc

Unnamed: 0_level_0,proportion
ville,Unnamed: 1_level_1
PARIS,31.557377
MARSEILLE,30.737705
LYON,11.47541
TOULOUSE,11.065574
NICE,8.606557
BORDEAUX,6.557377
Total,100.0


In [None]:
prets.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   identifiant       244 non-null    int64  
 1   ville             244 non-null    object 
 2   CP                244 non-null    int64  
 3   revenu            244 non-null    float64
 4   remboursement     244 non-null    float64
 5   duree             244 non-null    int64  
 6   type              244 non-null    object 
 7   taux_interet      244 non-null    float64
 8   taux_endettement  244 non-null    float64
 9   cout_total        244 non-null    float64
 10  benefices         244 non-null    float64
 11  Risque            244 non-null    object 
dtypes: float64(6), int64(3), object(3)
memory usage: 23.0+ KB


In [None]:
table_prets= pd.crosstab(prets['ville'], columns='Effectif',margins=True, margins_name= 'Total')
table_prets = table_prets.iloc[:, 0]
table_prets

Unnamed: 0_level_0,Effectif
ville,Unnamed: 1_level_1
BORDEAUX,16
LYON,28
MARSEILLE,75
NICE,21
PARIS,77
TOULOUSE,27
Total,244


In [None]:
# Simple et direct - évite complètement la duplication
counts = prets['ville'].value_counts()
counts['Total'] = counts.sum()
counts

Unnamed: 0_level_0,count
ville,Unnamed: 1_level_1
PARIS,77
MARSEILLE,75
LYON,28
TOULOUSE,27
NICE,21
BORDEAUX,16
Total,244


In [10]:
prets.groupby('ville').sum()

Unnamed: 0_level_0,identifiant,CP,revenu,remboursement,duree,type,taux_interet,taux_endettement,cout_total,benefices,risque
ville,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
BORDEAUX,1718,531800,50816.0,15330.59,3660,immobilierimmobilierimmobilierimmobilierimmobi...,18.767,496.9,3441385.2,1681.32,NonNonNonNonNonNonOuiNonNonNonOuiNonOuiNonOuiOui
LYON,2833,1932134,95354.0,26064.67,6251,immobilierimmobilierimmobilierimmobilierimmobi...,38.918,791.78,6199332.2,3014.8,OuiOuiNonNonOuiOuiNonNonNonNonNonNonNonOuiNonN...
MARSEILLE,7946,975732,145926.0,40895.72,16420,immobilierimmobilierimmobilierimmobilierimmobi...,92.538,2123.32,9109388.4,4395.91,NonNonNonOuiNonNonNonNonOuiOuiNonNonNonNonNonO...
NICE,2375,129100,85288.0,23544.24,4460,immobilierimmobilierimmobilierimmobilierimmobi...,27.706,572.33,5559354.6,2682.75,OuiNonOuiNonNonNonNonNonNonNonNonNonNonOuiNonN...
PARIS,9849,5776019,335459.0,94052.61,16686,automobileimmobilierimmobilierimmobilierimmobi...,100.073,2114.75,20813944.4,10016.35,NonNonNonNonNonNonNonNonNonNonNonNonNonNonNonN...
TOULOUSE,3162,843300,75617.0,19286.18,5643,immobilierimmobilierimmobilierimmobilierimmobi...,38.217,697.53,4256987.0,2138.07,NonOuiNonNonOuiNonNonNonOuiNonNonNonNonNonNonN...


In [11]:
prets.groupby(['ville', 'type']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,identifiant,CP,revenu,remboursement,duree,taux_interet,taux_endettement,cout_total,benefices,risque
ville,type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
BORDEAUX,immobilier,1718,531800,50816.0,15330.59,3660,18.767,496.9,3441385.2,1681.32,NonNonNonNonNonNonOuiNonNonNonOuiNonOuiNonOuiOui
LYON,automobile,360,207018,11531.0,788.8,131,10.083,23.68,33796.4,47.39,NonNonNon
LYON,immobilier,2473,1725116,83823.0,25275.87,6120,28.835,768.1,6165535.8,2967.41,OuiOuiNonNonOuiOuiNonNonNonNonNonNonOuiNonNonO...
MARSEILLE,automobile,404,39031,5842.0,839.6,160,9.535,46.02,46145.4,61.36,NonNonNon
MARSEILLE,immobilier,7542,936701,140084.0,40056.12,16260,83.003,2077.3,9063243.0,4334.55,NonNonNonOuiNonNonNonNonOuiOuiNonNonNonNonNonO...
NICE,automobile,187,12300,7607.0,612.8,80,6.104,16.23,24624.0,31.15,NonNon
NICE,immobilier,2188,116800,77681.0,22931.44,4380,21.602,556.1,5534730.6,2651.6,OuiNonOuiNonNonNonNonNonNonNonNonOuiNonNonNonN...
PARIS,automobile,612,375054,22834.0,1426.6,246,17.271,33.95,69591.2,99.5,NonNonNonNonNon
PARIS,immobilier,9237,5400965,312625.0,92626.01,16440,82.802,2080.8,20744353.2,9916.85,NonNonNonNonNonNonNonNonNonNonNonNonNonNonNonO...
TOULOUSE,automobile,442,93400,7803.0,718.8,183,9.868,30.63,44483.0,61.22,NonNonNon


In [12]:
prets.groupby(['ville', 'type'])['remboursement'].sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,remboursement
ville,type,Unnamed: 2_level_1
BORDEAUX,immobilier,15330.59
LYON,automobile,788.8
LYON,immobilier,25275.87
MARSEILLE,automobile,839.6
MARSEILLE,immobilier,40056.12
NICE,automobile,612.8
NICE,immobilier,22931.44
PARIS,automobile,1426.6
PARIS,immobilier,92626.01
TOULOUSE,automobile,718.8


In [17]:
prets.groupby('ville').agg({'remboursement': ['sum', 'mean'],
    'revenu': ['max','min']})

Unnamed: 0_level_0,remboursement,remboursement,revenu,revenu
Unnamed: 0_level_1,sum,mean,max,min
ville,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
BORDEAUX,15330.59,958.161875,3691.0,2239.0
LYON,26064.67,930.881071,4771.0,1867.0
MARSEILLE,40895.72,545.276267,2962.0,1200.0
NICE,23544.24,1121.154286,5987.0,2433.0
PARIS,94052.61,1221.462468,6807.0,1851.0
TOULOUSE,19286.18,714.302963,3993.0,1529.0


In [20]:
data= prets.pivot_table(index= 'ville', columns= 'type', values= 'remboursement', aggfunc= 'sum')
data

type,automobile,immobilier
ville,Unnamed: 1_level_1,Unnamed: 2_level_1
BORDEAUX,,15330.59
LYON,788.8,25275.87
MARSEILLE,839.6,40056.12
NICE,612.8,22931.44
PARIS,1426.6,92626.01
TOULOUSE,718.8,18567.38


In [22]:
data= data.reset_index()
data

type,index,ville,automobile,immobilier
0,0,BORDEAUX,,15330.59
1,1,LYON,788.8,25275.87
2,2,MARSEILLE,839.6,40056.12
3,3,NICE,612.8,22931.44
4,4,PARIS,1426.6,92626.01
5,5,TOULOUSE,718.8,18567.38


In [25]:
data.melt (id_vars= 'ville', value_vars = ['automobile', 'immobilier'])

Unnamed: 0,ville,type,value
0,BORDEAUX,automobile,
1,LYON,automobile,788.8
2,MARSEILLE,automobile,839.6
3,NICE,automobile,612.8
4,PARIS,automobile,1426.6
5,TOULOUSE,automobile,718.8
6,BORDEAUX,immobilier,15330.59
7,LYON,immobilier,25275.87
8,MARSEILLE,immobilier,40056.12
9,NICE,immobilier,22931.44


In [7]:
prets.describe()

Unnamed: 0,identifiant,CP,revenu,remboursement,duree,taux_interet,taux_endettement,cout_total,benefices
count,244.0,244.0,244.0,244.0,244.0,244.0,244.0,244.0,244.0
mean,114.27459,41754.446721,3231.393443,898.254139,217.704918,1.29598,27.854959,202378.654918,98.070492
std,65.444935,28596.17722,1464.896418,596.421485,64.671145,0.541555,11.053319,146931.049983,69.829476
min,0.0,6000.0,1200.0,199.64,24.0,0.919,4.52,5955.0,8.49
25%,59.75,13011.0,2104.5,461.215,180.0,1.10775,19.025,104166.6,51.015
50%,114.5,31500.0,2863.0,763.94,240.0,1.166,27.0,165788.4,82.365
75%,169.25,75005.0,4092.75,1131.735,240.0,1.215,34.8,264103.8,125.7975
max,227.0,75116.0,6807.0,3744.77,300.0,3.701,57.3,887085.0,437.63


In [8]:
prets['ville'].nunique()

6

In [9]:
prets['ville'].unique()

array(['TOULOUSE', 'PARIS', 'MARSEILLE', 'LYON', 'NICE', 'BORDEAUX'],
      dtype=object)

In [12]:
prets['revenu'].nlargest()

Unnamed: 0,revenu
137,6807.0
186,6784.0
83,6783.0
129,6536.0
206,6490.0


In [13]:
prets['revenu'].nsmallest(5)

Unnamed: 0,revenu
144,1200.0
61,1201.0
230,1266.0
157,1288.0
158,1288.0


In [14]:
prets.nlargest(5, ['revenu', 'age'])

KeyError: 'age'