<div style="background-color:#9dedde; padding: 20px">
<h2>Projet 7 : Implémentez un modèle de Scoring</h2>
</div>

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go
from plotly import tools
import plotly.express as px
from datetime import datetime
import datetime

# pd.set_option('display.max_columns', 200)
# pd.set_option('display.max_rows', 1000)

<div style="background-color:#d699f2; padding: 10px">
    <h2>
        <b>Chargement des données</b>
    </h2>
</div>


In [2]:
df = pd.read_csv("D:\\Projet\\P07\\P07_Implementez_outils_scoring\\p7-ml\\fichier_ml\\app_train_sample_clean.csv")

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df.dtypes

In [None]:
df.tail()

In [None]:
df.head()

<div style="background-color:#d699f2; padding: 10px">
    <h2>
        <b> Analyse Exploratoire ---- Features numériques</b>
    </h2>
</div>


In [8]:
numeric_columns = df.select_dtypes(include=np.number)

In [None]:
fig = plt.subplots(1, 1, figsize=(10, 10))
corr = numeric_columns.sample(frac=0.1).corr()
mask = np.triu(corr)
sns.heatmap(corr, annot=True, cmap="coolwarm", vmin=-1, vmax=1, mask=mask, fmt=".2f")

In [None]:
df.CIBLE.value_counts()

In [None]:
note_pie = df["CIBLE"].value_counts()

plt.figure(figsize=(12, 8))
plt.pie(note_pie, labels=note_pie.index, autopct="%1.1f%%", pctdistance=0.7)
plt.title("Répartition CIBLE")
plt.show()

<div style="background-color:#a2f5aa; padding: 1px; max-width: 350px;">
    <h2>
        <b> Relation Cible x Age</b>
    </h2>
</div>


In [None]:
age_group_cible = df.groupby([pd.cut(df["AGE"], bins=5), "CIBLE"]).size().unstack()

age_group_cible.plot(kind="bar", stacked=False, figsize=(10, 6))
plt.xlabel("Tranche d'âge")
plt.ylabel("Fréquence")
plt.title(
    "Distribution de la Cible pour chaque tranche d'âge",
    fontsize=20,
    fontweight="bold",
    color="RoyalBlue",
)
plt.legend(title="CIBLE", labels=["0", "1"])
plt.show()

In [None]:
custom_colors = ["#33b4ff", "#debefa"]  # Définir des couleurs personnalisées


sns.set(style="white", palette=custom_colors, font_scale=1.2)


plt.figure(figsize=(10, 6))
sns.kdeplot(
    data=df, x="AGE", hue="CIBLE", fill=True, common_norm=False, alpha=0.6, linewidth=0
)
plt.xlabel("Âge", fontsize=14)
plt.ylabel("Densité", fontsize=14)
plt.title(
    "Distribution des cibles en fonction de l'âge",
    fontsize=20,
    fontweight="bold",
    color="RoyalBlue",
)
plt.grid(False)  # Retirer la grille
plt.show()

<div style="background-color:#a2f5aa; padding: 1px; max-width: 600px;">
    <h2>
        <b> Relation Cible x Nombre membre de la famille</b>
    </h2>
</div>


In [None]:
df.columns.tolist()

In [None]:
# Définition de la palette de couleurs personnalisée
custom_palette = ["#33b4ff", "#debefa"]

# Paramètres de style pour personnaliser le graphique
sns.set(style="whitegrid")

# Tracer le graphique catégoriel
plt.figure(figsize=(10, 6))
ax = sns.countplot(x="NBR_MEMBRES_FAMILLE", hue="CIBLE", data=df, palette=custom_palette)

# Ajouter des titres et des étiquettes
plt.xlabel("Nombre de membres de la famille")
plt.ylabel("Fréquence")
plt.title(
    "Relation entre le nombre de membres de la famille et la cible",
    fontsize=20,
    fontweight="bold",
    color="RoyalBlue",
)
plt.legend(loc="upper right")
# Afficher le graphique
plt.show()

<div style="background-color:#a2f5aa; padding: 1px; max-width: 350px;">
    <h2>
        <b> Relation Cible x Total Credit</b>
    </h2>
</div>


In [None]:
df.columns.tolist()

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(x="CIBLE", y="MONTANT_CREDIT", data=df)
plt.title("Distribution du total du crédit par catégorie de la cible")
plt.xlabel("Cible")
plt.ylabel("Total du crédit")
plt.show()

In [None]:
df["MONTANT_CREDIT"].describe().T

<div style="background-color:#d699f2; padding: 10px">
    <h2>
        <b> Analyse Exploratoire ---- Features catégorielles</b>
    </h2>
</div>


<div style="background-color:#a2f5aa; padding: 1px; max-width: 350px;">
    <h2>
        <b> Relation Cible x Biens immo</b>
    </h2>
</div>


In [None]:
df.columns

In [None]:
custom_palette = ["#33b4ff", "#debefa"]

sns.set(style="whitegrid")

g = sns.catplot(
    x="PROPRIETAIRE_BIEN_IMMO",
    y="AGE",
    hue="CIBLE",
    col="GENRE",
    data=df,
    kind="bar",
    ci=None,
    palette=custom_palette,
    height=6,
    aspect=0.7,
)

g.set_axis_labels("Type de contrat", "Âge")
g.set_titles("Genre {col_name}")

for ax in g.axes.flat:
    for p in ax.patches:
        if p.get_height() > 0:
            height = p.get_height()
            ax.text(
                p.get_x() + p.get_width() / 2.0,
                height,
                "{:.1f}%".format(height),
                ha="center",
            )

plt.show()

<div style="background-color:#a2f5aa; padding: 1px; max-width: 350px;">
    <h2>
        <b> Relation Age x ANNEE TRAVAILLE</b>
    </h2>
</div>


In [None]:
# Diagramme à barres de 'YEARS_EMPLOYED' par groupe d'âge
df['TRANCHE_AGE'] = pd.cut(df['AGE'], bins=[0, 20, 30, 40, 50, 60, 70, 80])
plt.figure(figsize=(10, 6))
sns.barplot(x='TRANCHE_AGE', y='ANNEES_EMPLOI', data=df)
plt.title('Années d\'emploi par groupe d\'âge')
plt.xlabel('Tranche d\'âge')
plt.ylabel('Années d\'emploi')
plt.show()

<div style="background-color:#a2f5aa; padding: 1px; max-width: 300px;">
    <h2>
        <b>Relation Cible x Voiture</b>
    </h2>
</div>


In [None]:
custom_palette = ["#33b4ff", "#debefa"]

sns.set(style="whitegrid")

g = sns.catplot(
    x="PROPRIETAIRE_VOITURE",
    y="AGE",
    hue="CIBLE",
    col="GENRE",
    data=df,
    kind="bar",
    ci=None,
    palette=custom_palette,
    height=6,
    aspect=0.7,
)

g.set_axis_labels("Possession voiture", "Âge")
g.set_titles("Genre {col_name}")

for ax in g.axes.flat:
    for p in ax.patches:
        if p.get_height() > 0:
            height = p.get_height()
            ax.text(
                p.get_x() + p.get_width() / 2.0,
                height,
                "{:.1f}%".format(height),
                ha="center",
            )

plt.show()

<div style="background-color:#a2f5aa; padding: 1px; max-width: 500px;">
    <h2>
        <b>Relation Cible x Type de Contrat x Genre</b>
    </h2>
</div>


In [None]:
custom_palette = ["#33b4ff", "#debefa"]
note_pie = df["TYPE_CONTRAT"].value_counts()

plt.figure(figsize=(12, 8))
plt.pie(
    note_pie,
    labels=note_pie.index,
    colors=custom_palette,
    autopct="%1.1f%%",
    pctdistance=0.7,
)
plt.title(
    "Répartition des types de contrats",
    fontsize=20,
    fontweight="bold",
    color="RoyalBlue",
)
plt.show()

In [None]:
custom_palette = ["#33b4ff", "#debefa"]

sns.set(style="whitegrid")

g = sns.catplot(
    x="TYPE_CONTRAT",
    y="AGE",
    hue="CIBLE",
    col="GENRE",
    data=df,
    kind="bar",
    ci=None,
    palette=custom_palette,
    height=6,
    aspect=0.7,
)

g.set_axis_labels("Type de contrat", "Âge")
g.set_titles("Genre {col_name}")

for ax in g.axes.flat:
    for p in ax.patches:
        if p.get_height() > 0:
            height = p.get_height()
            ax.text(
                p.get_x() + p.get_width() / 2.0,
                height,
                "{:.1f}%".format(height),
                ha="center",
            )

plt.show()

In [None]:
custom_palette = ["#33b4ff", "#debefa"]
note_pie = df["GENRE"].value_counts()

plt.figure(figsize=(12, 8))
plt.pie(
    note_pie,
    labels=note_pie.index,
    colors=custom_palette,
    autopct="%1.1f%%",
    pctdistance=0.7,
)
plt.title("Répartition des genres", fontsize=20, fontweight="bold", color="RoyalBlue")
plt.show()

In [None]:
df["GENRE"].value_counts()

In [27]:
df = df[df["GENRE"] != "XNA"]

In [None]:
# Définition de la palette de couleurs personnalisée
custom_palette = ["#33b4ff", "#debefa"]

# Paramètres de style pour personnaliser le graphique
sns.set(style="whitegrid")
plt.figure(figsize=(10, 10))

# Tracer le graphique catégoriel
ax = sns.catplot(x="GENRE", hue="CIBLE", data=df, kind="count", palette=custom_palette)

total = float(len(df))
for p in ax.ax.patches:
    height = p.get_height()
    ax.ax.text(
        p.get_x() + p.get_width() / 2.0,
        height + 3,
        "{:.1f}%".format((height / total) * 100),
        ha="center",
    )

# Ajouter des titres et des étiquettes
plt.xlabel("Genre")
plt.ylabel("Fréquence")
plt.title(
    "Relation entre le genre et la cible",
    fontsize=20,
    fontweight="bold",
    color="RoyalBlue",
)


# Afficher le graphique
plt.show()

<div style="background-color:#a2f5aa; padding: 1px; max-width: 800px;">
    <h2>
        <b>Relation Cible x Satut familial</b>
    </h2>
</div>


In [None]:
# Définition de la palette de couleurs personnalisée
custom_palette = ["#33b4ff", "#debefa"]

# Paramètres de style pour personnaliser le graphique
sns.set(style="whitegrid")

# Tracer le graphique catégoriel
plt.figure(figsize=(10, 10))
ax = sns.countplot(x="NIVEAU_EDUCATION", hue="CIBLE", data=df, palette=custom_palette)

total = float(len(df))
for p in ax.patches:
    height = p.get_height()
    ax.text(
        p.get_x() + p.get_width() / 2.0,
        height + 3,
        "{:.1f}%".format((height / total) * 100),
        ha="center",
    )

# Ajouter des titres et des étiquettes
plt.xlabel("Niveau scolaire")
plt.ylabel("Fréquence")
plt.title(
    "Relation entre le niveau scolaire et la cible",
    fontsize=20,
    fontweight="bold",
    color="RoyalBlue",
)
plt.xticks(rotation=45)
# Afficher le graphique
plt.show()

<div style="background-color:#a2f5aa; padding: 1px; max-width: 800px;">
    <h2>
        <b>Relation Cible x Type de revenus</b>
    </h2>
</div>


In [None]:
df["TYPE_REVENUS"].value_counts()

In [None]:
# Définition de la palette de couleurs personnalisée
custom_palette = ["#33b4ff", "#debefa"]

# Paramètres de style pour personnaliser le graphique
sns.set(style="whitegrid")

# Tracer le graphique catégoriel
plt.figure(figsize=(10, 10))
ax = sns.countplot(x="TYPE_REVENUS", hue="CIBLE", data=df, palette=custom_palette)

total = float(len(df))
for p in ax.patches:
    height = p.get_height()
    ax.text(
        p.get_x() + p.get_width() / 2.0,
        height + 3,
        "{:.1f}%".format((height / total) * 100),
        ha="center",
    )

# Ajouter des titres et des étiquettes
plt.xlabel("Type de revenus")
plt.ylabel("Fréquence")
plt.title(
    "Relation entre le type de revenu et la cible",
    fontsize=20,
    fontweight="bold",
    color="RoyalBlue",
)
plt.xticks(rotation=45)
# Afficher le graphique
plt.show()

In [None]:
df.columns.tolist()

<div style="background-color:#d699f2; padding: 10px">
    <h2>
        <b> Préparation données pour modélisation</b>
    </h2>
</div>


Traitement des variables catégorielles

In [None]:
df.dtypes

In [34]:
df.drop(columns=['TRANCHE_AGE'], inplace=True)


In [None]:
liste = df.select_dtypes(include='object').columns.to_list()
print("nombre de variables catégorielle :", len(liste), end="\n")
liste

In [None]:
col_cat = ['TYPE_CONTRAT',
 'STATUT_FAMILIAL','PROPRIETAIRE_BIEN_IMMO',
 'TYPE_REVENUS',
 'GENRE',
 'NIVEAU_EDUCATION',
 'PROPRIETAIRE_VOITURE']


# Afficher les valeurs uniques pour chaque colonne
for col in col_cat:
    print(col, df[col].unique())

In [None]:
df[col_cat].isna().mean().round(2)

In [None]:
df.dtypes

In [None]:
df.columns.tolist()

In [40]:
var_cat_nominale = ['TYPE_CONTRAT',
 'STATUT_FAMILIAL','PROPRIETAIRE_BIEN_IMMO',
 'TYPE_REVENUS',
 'GENRE',
 'NIVEAU_EDUCATION',
 'PROPRIETAIRE_VOITURE','JOURS_ENREGISTREMENT',
 'JOURS_ID_PUBLICATION','JOURS_DERNIER_CHANGEMENT_TEL']

In [41]:
# Encoder les variables catégorielles nominales
df = pd.get_dummies(df, columns=var_cat_nominale, drop_first=True)

# Convertir les colonnes booléennes en type entier (0 et 1)
colonnes_bool = df.select_dtypes(include='bool').columns
df[colonnes_bool] = df[colonnes_bool].astype(int)





In [None]:

df.dtypes

In [None]:
df['STATUT_FAMILIAL_Married']

In [None]:
df['NBR_MEMBRES_FAMILLE'].unique()

In [None]:
# Définir la fonction de mapping
def map_nbr_enfants(x):
    if x == 1:
        return 0
    elif x == 2:
        return 1
    else:
        return 2

# Appliquer la fonction de mapping pour créer 'nbr_enfants'
df['nbr_membre'] = df['NBR_MEMBRES_FAMILLE'].apply(map_nbr_enfants)

df = df.copy()


In [None]:
df['nbr_membre'].unique()

In [None]:
df

In [None]:
df['NIVEAU_EDUCATION_Higher education'].unique()


<div style="background-color:#d699f2; padding: 10px">
    <h2>
        <b> Export & Save</b>
    </h2>
</div>


In [49]:
df.to_csv("app_train_sample_clean.csv", index=False)

In [None]:
df

In [None]:
df.columns.tolist()

In [None]:
df['AGE'].unique()

In [None]:
# Vérifier si YEARS_EMPLOYED dépasse AGE, ce qui serait une incohérence
anomalies = df[df['ANNEES_EMPLOI'] > df['AGE']]
anomalies


In [None]:
# Vérifier les cas où les années d'emploi sont supérieures ou égales à l'âge
suspect_cases = df[(df['ANNEES_EMPLOI'] >= df['AGE'] - 1) & (df['ANNEES_EMPLOI'] < df['AGE'])]
print(suspect_cases)


In [55]:
num_col = df.select_dtypes(include=np.number)

In [None]:
fig = plt.subplots(1, 1, figsize=(10, 10))
corr = numeric_columns.sample(frac=0.1).corr()
mask = np.triu(corr)
sns.heatmap(corr, annot=True, cmap="coolwarm", vmin=-1, vmax=1, mask=mask, fmt=".2f")

In [None]:
df['GENRE_M'].unique()