<a href="https://colab.research.google.com/github/Sela80/s/blob/main/credit_score_classification_using_python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

1. # Importation des librairies nécessaires

In [None]:
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
import plotly.io as pio
pio.templates.default = "plotly_white"
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import seaborn as sns

In [None]:
# Affichons notre dataset
data= pd.read_csv('/content/train.csv')


# Jetons un coup d'œil aux informations sur les colonnes de l'ensemble de données :



In [None]:
data.head()

2. # Analyse exploratoire du dataset ou Data mining

In [None]:
2.1 # Informations générales sur le dataset
data.info()

In [None]:
2.2 # Statistiques descriptives
data.describe()

In [None]:
2.3 # Vérification des valeurs manquantes
data.isnull().sum()

# Avant d'aller de l'avant, regardons si l'ensemble de données contient ou non des valeurs nulles :



In [None]:
2.4 # Vérification des valeurs dupliquées
data.duplicated().sum()

In [None]:
2.5 # Vérification des valeurs uniques
data.nunique()

In [None]:
2.6 # Vérification des valeurs aberrantes
# Create a boxplot for each numeric column
for col in data.select_dtypes(include=np.number):
  sns.boxplot(x=data[col])
  plt.show()


In [None]:
# prompt: gère toutes les valeurs aberrantes dans data

import numpy as np
# Loop through each numeric column
for col in data.select_dtypes(include=np.number):
  # Calculate the interquartile range (IQR)
  Q1 = data[col].quantile(0.25)
  Q3 = data[col].quantile(0.75)
  IQR = Q3 - Q1

  # Define the lower and upper bounds
  lower_bound = Q1 - 1.5 * IQR
  upper_bound = Q3 + 1.5 * IQR

  # Replace outliers with the bounds
  data[col] = data[col].clip(lower=lower_bound, upper=upper_bound)


In [None]:
# Selection des colonne numérique
numeric_data = data.select_dtypes(include=np.number)
numeric_data.head()

In [None]:
# prompt: imprimer le graphique de correlation avec numeric_data

corr_matrix = numeric_data.corr()

fig, ax = plt.subplots(figsize=(17, 10))
sns.heatmap(corr_matrix, annot=True, fmt=".2f", ax=ax, cmap="coolwarm", square=True)
plt.show()


3. # Visualisation des données

# L'ensemble de données ne contient aucune valeur nulle. Comme cet ensemble de données est étiqueté, examinons les valeurs de la colonne Credit_Score :



In [None]:
data['Credit_Score'].value_counts()

# L'ensemble de données comporte de nombreuses fonctionnalités qui peuvent former un modèle de Machine Learning pour la classification des scores de crédit. Explorons toutes les fonctionnalités une par une.

# Je vais commencer par explorer la fonction profession pour savoir si la profession de la personne affecte les cotes de crédit :

In [None]:
# tableau structurer avec Distribution_by_Profession
Distribution_by_Profession = data.groupby('Occupation')['Credit_Score'].value_counts().reset_index(name='Count')
df_pivot = Distribution_by_Profession.pivot(index='Occupation', columns='Credit_Score', values='Count')
print(df_pivot)


In [None]:
Distribution_by_Profession = data.groupby('Occupation')['Credit_Score'].value_counts().reset_index(name='Count')
# Use the 'Occupation' column as x and 'Count' as y
fig = px.bar(Distribution_by_Profession, x='Occupation', y='Count', color='Credit_Score')
fig.update_layout(title='Distribution of Credit Score by Profession', xaxis_title='Profession', yaxis_title='Count')
fig.show()

#Il n'y a pas beaucoup de différence dans les cotes de crédit de toutes les professions mentionnées dans les données. Voyons maintenant si le revenu annuel de la personne a un impact ou non sur vos cotes de crédit :

In [None]:
# Distribution de crédits_score en fonctionne Annual_Income   avec express
fig = px.histogram(data, x="Credit_Score", y="Annual_Income", color="Credit_Score", marginal="rug", opacity=0.7)
fig.update_layout(title='Distribution of Credit Score and Annual Income', xaxis_title='Credit Score', yaxis_title='Annual Income')
fig.show()


#Comme pour le revenu annuel, plus vous gagnez de salaire mensuel, meilleure sera votre cote de crédit. Voyons maintenant si le fait d'avoir plus de comptes bancaires a un impact ou non sur les cotes de crédit :

In [None]:
#Distribution de crédits_score en fonction Num_Bank_Accounts    avec express

fig = px.histogram(data, x="Credit_Score", y="Num_Bank_Accounts", color="Credit_Score", marginal="rug", opacity=0.7)
fig.update_layout(title='Distribution of Credit Score and Number of Bank Accounts', xaxis_title='Credit Score', yaxis_title='Number of Bank Accounts')
fig.show()


#Tenir plus de cinq comptes n’est pas bon pour avoir une bonne cote de crédit. Une personne ne devrait avoir que 2 à 3 comptes bancaires. Avoir plus de comptes bancaires n’a donc pas d’impact positif sur les cotes de crédit. Voyons maintenant l'impact sur les cotes de crédit en fonction du nombre de cartes de crédit que vous possédez :

In [None]:
Distribution_by_Num_Credit_Card = data.groupby('Num_Credit_Card')['Credit_Score'].value_counts().reset_index(name='Count')
fig= px.bar(Distribution_by_Num_Credit_Card, x='Num_Credit_Card', y='Count', color='Credit_Score', barmode='group'
)
fig.update_layout(title='Distribution of Credit Score by Number of Credit Cards', xaxis_title='Number of Credit Cards', yaxis_title='Count')
fig.show()

#Tout comme le nombre de comptes bancaires, le fait d’avoir plus de cartes de crédit n’aura pas d’impact positif sur vos cotes de crédit. Avoir 3 à 5 cartes de crédit est bon pour votre pointage de crédit. Voyons maintenant l'impact sur les cotes de crédit en fonction du montant d'intérêt moyen que vous payez sur les prêts et les EMI :



In [None]:
 # distribution Distribution_by_Interest_Rate avec pie

Distribution_by_Interest_Rate = data.groupby('Interest_Rate')['Credit_Score'].value_counts().reset_index(name='Count')
fig = px.pie(Distribution_by_Interest_Rate, values='Count', names='Credit_Score', title='Distribution of Credit Score by Interest Rate')
fig.update_layout(title='Distribution of Credit Score by Interest Rate', xaxis_title='Credit Score', yaxis_title='Count')
fig.show()


#Si le taux d’intérêt moyen est de 4 à 11 %, la cote de crédit est bonne. Avoir un taux d’intérêt moyen supérieur à 15 % est mauvais pour votre cote de crédit. Voyons maintenant combien de prêts vous pouvez contracter à la fois pour obtenir une bonne cote de crédit :

In [None]:
Distribution_by_Num_of_Loan = data.groupby('Num_of_Loan')['Credit_Score'].value_counts().reset_index(name='Count')
df_pivot = Distribution_by_Num_of_Loan.pivot(index='Num_of_Loan', columns='Credit_Score', values='Count')
print(df_pivot)

In [None]:
# Distribution de Distribution_by_Num_of_Loan

Distribution_by_Num_of_Loan = data.groupby('Num_of_Loan')['Credit_Score'].value_counts().reset_index(name='Count')

fig = px.pie(Distribution_by_Num_of_Loan, values='Count', names='Credit_Score', title='Distribution of Credit Score by Number of Loans')
fig.update_layout(title='Distribution of Credit Score by Number of Loans')
fig.show()


#Pour avoir une bonne cote de crédit, vous ne devez pas contracter plus de 1 à 3 prêts à la fois. Avoir plus de trois prêts à la fois aura un impact négatif sur votre cote de crédit. Voyons maintenant si le retard des paiements à la date d'échéance a un impact ou non sur vos cotes de crédit :

In [None]:
Distribution_by_Delay_from_due_date = data.groupby('Delay_from_due_date')['Credit_Score'].value_counts().reset_index(name='Count')


In [None]:
# Distribution de Distribution_by_Delay_from_due_date avec barplot

Distribution_by_Delay_from_due_date = data.groupby('Delay_from_due_date')['Credit_Score'].value_counts().reset_index(name='Count')
plt.figure(figsize=(9,11))
fig = px.bar(Distribution_by_Delay_from_due_date, x='Delay_from_due_date', y='Count', color='Credit_Score')
fig.update_layout(title='Distribution of Credit Score by Delay from Due Date', xaxis_title='Delay from Due Date', yaxis_title='Count')
fig.show()


#Vous pouvez donc reporter votre paiement par carte de crédit de 5 à 14 jours à compter de la date d'échéance. Le fait de retarder vos paiements de plus de 17 jours à compter de la date d'échéance aura un impact négatif sur votre cote de crédit. Voyons maintenant si le fait de retarder fréquemment les paiements aura un impact sur votre cote de crédit ou non :

In [None]:
#Distribution de Distribution_by_Num_of_Delayed_Payment avec px
Distribution_by_Num_of_Delayed_Payment = data.groupby('Num_of_Delayed_Payment')['Credit_Score'].value_counts().reset_index(name='count')
fig = px.bar(Distribution_by_Num_of_Delayed_Payment, x='Num_of_Delayed_Payment', y='count', color='Credit_Score')
fig.update_layout(title='Distribution of Credit Score by Number of Delayed Payments', xaxis_title='Number of Delayed Payments', yaxis_title='Count')
fig.show()


#Ainsi, retarder 4 à 12 paiements par rapport à la date d’échéance n’affectera pas vos cotes de crédit. Mais retarder plus de 12 paiements par rapport à la date d’échéance affectera négativement vos cotes de crédit. Voyons maintenant si avoir plus de dettes affectera ou non les cotes de crédit :

In [None]:
fig = px.box(data,
             x="Credit_Score",
             y="Outstanding_Debt",
             color="Credit_Score",
             title="Credit Scores Based on Outstanding Debt",
             color_discrete_map={'Poor':'red',
                                 'Standard':'yellow',
                                 'Good':'green'})
fig.update_traces(quartilemethod="exclusive")
fig.show()

#Une dette impayée de 380 $ à 1 150 $ n’affectera pas vos cotes de crédit. Mais avoir toujours une dette de plus de 1 338 $ aura un impact négatif sur votre cote de crédit. Voyons maintenant si un taux d'utilisation du crédit élevé affectera ou non les cotes de crédit :

In [None]:
fig = px.box(data,
             x="Credit_Score",
             y="Credit_Utilization_Ratio",
             color="Credit_Score",
             title="Credit Scores Based on Credit Utilization Ratio",
             color_discrete_map={'Poor':'red',
                                 'Standard':'yellow',
                                 'Good':'green'})
fig.update_traces(quartilemethod="exclusive")
fig.show()

#Le taux d’utilisation du crédit désigne votre dette totale divisée par votre crédit total disponible.  Selon le graphique ci-dessus, votre taux d'utilisation du crédit n'affecte pas vos cotes de crédit. Voyons maintenant comment l'âge des antécédents de crédit d'une personne affecte les cotes de crédit :



In [None]:
# distribution  avec Credit_History_Age et credit_score avec px

fig = px.histogram(data, x="Credit_History_Age", y="Credit_Score", color="Credit_Score", marginal="rug", opacity=0.7)
fig.update_layout(title='Distribution of Credit Score by Credit History Age', xaxis_title='Credit History Age', yaxis_title='Credit Score')
fig.show()


#Ainsi, avoir un long historique de crédit se traduit par de meilleurs scores de crédit. Voyons maintenant combien d'EMI vous pouvez avoir en un mois pour avoir une bonne cote de crédit :



In [None]:
#distribution avec Total_EMI_per_month et credit_score avec px

fig = px.histogram(data, x="Total_EMI_per_month", y="Credit_Score", color="Credit_Score", marginal="rug", opacity=0.7)
fig.update_layout(title='Distribution of Credit Score by Total EMI per Month', xaxis_title='Total EMI per Month', yaxis_title='Credit Score')
fig.show()


# Le nombre d’EMI que vous payez en un mois n’affecte pas beaucoup les cotes de crédit. Voyons maintenant si vos investissements mensuels affectent ou non vos cotes de crédit :



In [None]:
#  Distribution avec Amount_invested_monthly et credit_score avec px

fig = px.histogram(data, x="Credit_Score", y="Amount_invested_monthly", color="Credit_Score", marginal="rug", opacity=0.7)
fig.update_layout(title='Distribution of Credit Score by Amount Invested Monthly', xaxis_title='Credit Score', yaxis_title='Amount Invested Monthly')
fig.show()


#Le montant d'argent que vous investissez chaque mois n'a pas beaucoup d'impact sur votre score de crédit. Voyons maintenant si le fait d'avoir un faible montant à la fin du mois affecte ou non votre score de crédit :



In [None]:
# Distribution Monthly_Balance  et credit_score par px

fig = px.histogram(data, x="Credit_Score", y="Monthly_Balance", color="Credit_Score", marginal="rug", opacity=0.7)
fig.update_layout(title='Distribution of Credit Score by Monthly Balance', xaxis_title='Credit Score', yaxis_title='Monthly Balance')
fig.show()


#Ainsi, avoir un solde mensuel élevé sur votre compte à la fin du mois est bon pour votre cote de crédit. Un solde mensuel inférieur à 250 $ est mauvais pour les cotes de crédit.



# **Modèle de classification des cotes de crédit**

#Une autre caractéristique importante (Credit Mix) de l'ensemble de données est utile pour déterminer les scores de crédit. La fonction Credit Mix indique les types de crédits et de prêts que vous avez contractés.

#Comme la colonne Credit_Mix est catégorique, je vais la transformer en fonctionnalité numérique afin que nous puissions l'utiliser pour entraîner un modèle de Machine Learning pour la tâche de classification des scores de crédit

In [None]:
data["Credit_Mix"] = data["Credit_Mix"].map({"Standard": 1,
                               "Good": 2,
                               "Bad": 0})

#Je vais maintenant diviser les données en fonctionnalités et étiquettes en sélectionnant les fonctionnalités que nous avons trouvées importantes pour notre modèle :

In [None]:
from sklearn.model_selection import train_test_split
x = np.array(data[["Annual_Income", "Monthly_Inhand_Salary",
                   "Num_Bank_Accounts", "Num_Credit_Card",
                   "Interest_Rate", "Num_of_Loan",
                   "Delay_from_due_date", "Num_of_Delayed_Payment",
                   "Credit_Mix", "Outstanding_Debt",
                   "Credit_History_Age", "Monthly_Balance"]])
y = np.array(data[["Credit_Score"]])

# Maintenant, divisons les données en ensembles de formation et de test et poursuivons en formant un modèle de classification des scores de crédit :



In [None]:
# Add a 'fill_value' parameter to the map function to handle missing values
data["Credit_Mix"] = data["Credit_Mix"].map({"Standard": 1, "Good": 2, "Bad": 0}, na_action='ignore')

# Impute missing values using SimpleImputer
import numpy as np
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy='most_frequent')  # Replace missing values with the most frequent value
x = imputer.fit_transform(x)

# Split the data into training and testing sets
xtrain, xtest, ytrain, ytest = train_test_split(x, y, test_size=0.33, random_state=42)

# Train the RandomForestClassifier
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(xtrain, ytrain)

#Maintenant, faisons des prédictions à partir de notre modèle en fournissant des entrées à notre modèle en fonction des fonctionnalités que nous avons utilisées pour entraîner le modèle :



In [None]:
print("Credit Score Prediction : ")
a = float(input("Annual Income: "))
b = float(input("Monthly Inhand Salary: "))
c = float(input("Number of Bank Accounts: "))
d = float(input("Number of Credit cards: "))
e = float(input("Interest rate: "))
f = float(input("Number of Loans: "))
g = float(input("Average number of days delayed by the person: "))
h = float(input("Number of delayed payments: "))
i = int(input("Credit Mix (Bad: 0, Standard: 1, Good: 2) : ")) # Cast input to integer
j = float(input("Outstanding Debt: "))
k = float(input("Credit History Age: "))
l = float(input("Monthly Balance: "))

# Ensure the 'features' array has the correct number of features (11 in this case)
features = np.array([[a, b, c, d, e, f, g, h, i, j, k]])

print("Predicted Credit Score = ", model.predict(features))

#Voici donc comment vous pouvez utiliser l’apprentissage automatique pour la tâche de classification des scores de crédit à l’aide de Python.



**Résumé**
#La classification des clients en fonction de leurs cotes de crédit aide les banques et les sociétés émettrices de cartes de crédit à accorder immédiatement des prêts aux clients présentant une bonne solvabilité. Une personne ayant une bonne cote de crédit obtiendra des prêts auprès de n’importe quelle banque et institution financière. J'espère que vous avez aimé cet article sur la classification des scores de crédit avec l'apprentissage automatique à l'aide de Python. N'hésitez pas à poser des questions précieuses dans la section commentaires ci-dessous.

