# Analyse Exploratoire et Nettoyage des Données

## Distribution
![Distribution](imgs/Distribution.png)

In [6]:
import pandas as pd
import seaborn as sns
import missingno as msno
import matplotlib.pyplot as plt
import matplotlib

matplotlib.use("Qt5Agg")

# Charger le CSV
df = pd.read_csv("data/fichier-de-donnees-numeriques.csv")

# Description du fichier
print(f"Description : {df.describe}")

# Affichage de la distribution des données (les données sont toutes numériques)
plt.figure(figsize=(15, 12))

for i, col in enumerate(df.columns, 1):
    plt.subplot(3, 3, i)     # 3x3 pour 9 colonnes
    sns.histplot(df[col], kde=True, bins=30)
    plt.title(f"Distribution de {col}")
    plt.xlabel(col)
    plt.ylabel("Fréquence")

plt.tight_layout()
plt.show()

Description : <bound method NDFrame.describe of       age  taille  poids  revenu_estime_mois  historique_credits  \
0      73   161.1   67.3                 857                 NaN   
1      44   168.2   74.9                5245                 2.0   
2      71   160.3   45.5                3792                 0.0   
3      62   161.9   87.7                3291                 NaN   
4      18   178.0   77.6                3893                 NaN   
...   ...     ...    ...                 ...                 ...   
9995   37   163.6   96.7                3894                 1.0   
9996   19   157.2   55.3                2969                 0.0   
9997   71   163.0   77.2                2893                 NaN   
9998   54   165.7   73.2                1193                 NaN   
9999   54   173.9   77.8                 500                 NaN   

      risque_personnel  score_credit  loyer_mensuel  montant_pret  
0                 0.11         615.0        1377.97  13157.101646  

## Heatmap

![Correlation](imgs/Correlation.png)

In [3]:
# Heatmap de corrélation
plt.figure(figsize=(10, 8))
corr = df.corr(numeric_only=True)

sns.heatmap(corr, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Matrice de corrélation")
plt.show()

## Identifier les valeurs manquantes

Utilisation de missingno

![Colonnes manquantes](imgs/Colonnes.png)
![Colonnes manquantes 2](imgs/Colonnes2.png)

In [5]:
# Visualiser la matrice des valeurs manquantes
msno.matrix(df)
plt.show()

# Visualiser le barplot des colonnes manquantes
msno.bar(df)
plt.show()

# Nombre de lignes avec au moins une valeur manquante
missing_line = df.isna().any(axis=1).sum()
total_line = df.shape[0]
print(f"Nb lignes manquantes : {missing_line} / {total_line}")

Nb lignes manquantes : 8446 / 10000


3 colonnes sont partielles, les autres sont complètes. Je fais donc le choix d'éliminer des colonnes plutôt que les lignes avec des données manquantes.
Car si on éliminait les lignes incomplète, on retirerait 8446 / 10000 lignes.

## Identifier les colonnes utiles au résultat




## Catégorisation / Normalisation
Toutes les colonnes sont de types numériques, donc pas besoin des catégoriser. Il faudra par contre les normaliser.