In [2]:
# Import des bibliothèques nécessaires
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from imblearn.over_sampling import SMOTE
from imblearn.under_sampling import RandomUnderSampler
import matplotlib.pyplot as plt

# Chargement des données
df = pd.read_csv('../dataset/train.csv')

# Encodage de toutes les colonnes catégorielles
label_encoders = {}
for column in df.select_dtypes(include=['object']).columns:
    le = LabelEncoder()
    df[column] = le.fit_transform(df[column])
    label_encoders[column] = le

# Affichage des valeurs encodées pour vérification
print(df.head())

# Sous-échantillonnage de la catégorie majoritaire
rus = RandomUnderSampler(sampling_strategy={'Standard': 17828, 'Good': 17828})
X_resampled, y_resampled = rus.fit_resample(df.drop(columns=['Credit_Score']), df['Credit_Score'])

# Sur-échantillonnage des catégories minoritaires
smote = SMOTE(sampling_strategy={'Poor': 17828})
X_resampled, y_resampled = smote.fit_resample(X_resampled, y_resampled)

# Reconstruction du DataFrame
balanced_df = pd.concat([pd.DataFrame(X_resampled, columns=df.columns[:-1]), pd.DataFrame(y_resampled, columns=['Credit_Score'])], axis=1)

# Décodage des valeurs de 'Credit_Score' pour revenir aux valeurs originales
balanced_df['Credit_Score'] = label_encoders['Credit_Score'].inverse_transform(balanced_df['Credit_Score'])

# Affichage du nombre d'échantillons par catégorie
print(balanced_df['Credit_Score'].value_counts())

# Visualisation du nouveau dataset
plt.figure(figsize=(8, 6))
balanced_df['Credit_Score'].value_counts().plot(kind='bar', color=['blue', 'orange', 'green'])
plt.title('Nombre de Clients par Catégorie de Score de Crédit (Équilibré)')
plt.xlabel('Catégorie de Score de Crédit')
plt.ylabel('Nombre de Clients')
plt.xticks(rotation=0)
plt.show()


     ID  Customer_ID  Month  Name   Age          SSN  Occupation  \
0  5634         3392      1    11  23.0  821000265.0          12   
1  5635         3392      2    11  23.0  821000265.0          12   
2  5636         3392      3    11  23.0  821000265.0          12   
3  5637         3392      4    11  23.0  821000265.0          12   
4  5638         3392      5    11  23.0  821000265.0          12   

   Annual_Income  Monthly_Inhand_Salary  Num_Bank_Accounts  ...  Credit_Mix  \
0       19114.12            1824.843333                3.0  ...           1   
1       19114.12            1824.843333                3.0  ...           1   
2       19114.12            1824.843333                3.0  ...           1   
3       19114.12            1824.843333                3.0  ...           1   
4       19114.12            1824.843333                3.0  ...           1   

   Outstanding_Debt  Credit_Utilization_Ratio  Credit_History_Age  \
0            809.98                 26.822620  

ValueError: The {'Standard', 'Good'} target class is/are not present in the data.