# Model Banque

## 1 - Etapes 

- Importer / Définir
- Pandas profiling
- Signification
- Identifier et corriger les valeurs nulles
- Sélectionner
- Encoder les valeurs catégorielles
- Faire un modèle

### 2 - Réalisation

#### 2.1 - Importations

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
from pandas_profiling import ProfileReport
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

#### 2.2 - Récupération des données

In [None]:
df = pd.read_csv("datas/bank/bank-full.csv")

#### 2.3 - Formatage des données

In [None]:
df['default'] = df['default'].map({'yes':1 ,'no':0}) 
df['loan'] = df['loan'].map({'yes':1 ,'no':0}) 
df['Target'] = df['Target'].map({'yes':1 ,'no':0}) 
df['housing'] = df['housing'].map({'yes':1 ,'no':0})
df['marital'] = df['marital'].map({'single':0 ,'married':1,'divorced':2})
df['education'] = df['education'].map({'unknown':0 ,'primary':1,'secondary':2,'tertiary':3})
df['contact'] = df['contact'].map({'unknown':0 ,'cellular':1,'telephone':1})
df['poutcome'] = df['poutcome'].map({'unknown':0, 'success':1,'failure':2,'other':3})
df['month'] = df['month'].map({'jan':1, 'feb':2, 'mar':3, 'apr':4, 'may':5, 'jun':6,'jul':7,'aug':8,'sep':9, 'oct':10,'nov':11,'dec':12})


df.drop(["job"], axis=1, inplace=True)

df

#### 2.4 - Vérification des types de données

In [None]:
df.dtypes

#### 2.5 - Vérification des valeurs nulles

In [None]:
df.isnull().sum()

#### 2.6 - Séparation des données pour obtenir une 1er tableau

In [None]:
dfClientData = df[['age','marital','education','default','balance','housing','loan','Target']]
dfClientData

#### 2.7 - Séparation des données pour obtenir une 2ème tableau

In [None]:
dfBankCampaignData = df[['contact','day','month','duration','campaign','pdays','previous','poutcome','Target']]
dfBankCampaignData

#### 2.8 - **Premier modèle**

- préparation des variables nécessaires

In [None]:
y = dfClientData.Target
x = dfClientData.drop(['Target'], axis = 1)

x_train,x_test, y_train, y_test = train_test_split(x,y,test_size = .2, random_state = 42)

- RandomForestClassifier : méta estimateur qui adapte un certain nombre de classificateurs d'arbre de décision sur divers sous-échantillons de l'ensemble de données et utilise la moyenne pour améliorer la précision prédictive et contrôler le surajustement.

In [None]:
rf = RandomForestClassifier(n_estimators = 100, random_state = 23, max_features = 2)

- génération des valeurs du modèle

In [None]:
rf.fit(X=x_train, y=y_train)

- Création d'un tableau de données :
    *Chaque colonne elle prend en compte à 8% Pclass, 25% le Sex etc, ainsi c'est l'importance des données en entrer*

In [None]:
pd.DataFrame(rf.feature_importances_*100,x_train.columns, columns=['Importance en %'])

In [None]:
def print_score(learn_obj, x_train=x_train, y_train=y_train, x_test=x_test, y_test=y_test):
	print("Score train : ", learn_obj.score(x_train, y_train,)*100, "%")
	print("Score test : ", learn_obj.score(x_test, y_test,)*100, "%")
print_score(rf)

#### 2.9 - **Deuxième modèle**

In [None]:
y = dfBankCampaignData.Target
x = dfBankCampaignData.drop(['Target'], axis = 1)

x_train,x_test, y_train, y_test = train_test_split(x,y,test_size = .2, random_state = 42)

In [None]:
rf = RandomForestClassifier(n_estimators = 100, random_state = 23, max_features = 2)

In [None]:
rf.fit(X=x_train, y=y_train)

In [None]:
pd.DataFrame(rf.feature_importances_*100,x_train.columns, columns=['Importance en %'])

In [None]:
def print_score(learn_obj, x_train=x_train, y_train=y_train, x_test=x_test, y_test=y_test):
	print("Score train : ", learn_obj.score(x_train, y_train,)*100, "%")
	print("Score test : ", learn_obj.score(x_test, y_test,)*100, "%")
print_score(rf)

#### 3.0 - Création de graphiques

##### 3.0.1 - Rapport de données

- Création d'un rapport de profil permettant de fournir un portefeuille graphique complet.

In [None]:
profileDfClientData = ProfileReport(dfClientData)
profileDfCampaignData = ProfileReport(dfBankCampaignData)

In [None]:
profileDfClientData.to_file('model_bank_clients.html')
profileDfCampaignData.to_file('model_bank_campaign.html')

In [None]:
##### 3.0.2 - Graphiques de données

In [None]:
fig = px.histogram(dfClientData.age, x="age")
fig.show()

fig = px.histogram(dfBankCampaignData.day, x="day")
fig.show()

In [None]:
fig = px.scatter(x=dfClientData['age'], y=dfClientData['balance'], color=dfClientData['balance'])
fig.show()

fig = px.scatter(x=dfBankCampaignData['day'], y=dfBankCampaignData['duration'], color=dfBankCampaignData['duration'])
fig.show()