In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Lire le fichier CSV directement depuis le lien et le stocker dans une variable
# Assurez-vous de remplacer 'application_train' par le chemin vers votre fichier CSV
data = pd.read_csv('application_train.csv')

# Affichage des noms des colonnes
print("Noms des colonnes :")
print(data.columns)

# Affichage des premières lignes
print("\nAperçu des premières lignes :")
print(data.head())

# Informations sur les données
print("\nInformations sur les données :")
print(data.info())

# Description statistique des variables numériques
print("\nDescription statistique des variables numériques :")
print(data.describe())

# Vérification des valeurs manquantes
print("\nValeurs manquantes par colonne :")
print(data.isnull().sum())

# Analyse du pourcentage de classes
plt.figure(figsize=(8, 6))
sns.countplot(data['TARGET'])
plt.title('Distribution des classes')
plt.xlabel('Classe')
plt.ylabel("Nombre d'occurrences")
plt.show()


Noms des colonnes :
Index(['SK_ID_CURR', 'TARGET', 'NAME_CONTRACT_TYPE', 'CODE_GENDER',
       'FLAG_OWN_CAR', 'FLAG_OWN_REALTY', 'CNT_CHILDREN', 'AMT_INCOME_TOTAL',
       'AMT_CREDIT', 'AMT_ANNUITY',
       ...
       'FLAG_DOCUMENT_18', 'FLAG_DOCUMENT_19', 'FLAG_DOCUMENT_20',
       'FLAG_DOCUMENT_21', 'AMT_REQ_CREDIT_BUREAU_HOUR',
       'AMT_REQ_CREDIT_BUREAU_DAY', 'AMT_REQ_CREDIT_BUREAU_WEEK',
       'AMT_REQ_CREDIT_BUREAU_MON', 'AMT_REQ_CREDIT_BUREAU_QRT',
       'AMT_REQ_CREDIT_BUREAU_YEAR'],
      dtype='object', length=122)

Aperçu des premières lignes :
   SK_ID_CURR  TARGET NAME_CONTRACT_TYPE CODE_GENDER FLAG_OWN_CAR  \
0      100002       1         Cash loans           M            N   
1      100003       0         Cash loans           F            N   
2      100004       0    Revolving loans           M            Y   
3      100006       0         Cash loans           F            N   
4      100007       0         Cash loans           M            N   

  FLAG_OWN_REA

## Questions
1. Y a-t-il un déséquilibre entre les clients ayant remboursé leur prêt et ceux en défaut de paiement ?
2. Quelles sont les caractéristiques avec le plus de valeurs manquantes et comment les gérer ?
3. Existe-t-il des corrélations entre les différentes variables ?
4. Comment varient les revenus et le montant des crédits accordés aux clients ?
5. Quelle est la répartition des clients en fonction de leur genre, du type de contrat, etc. ?
6. Comment interpréter la variable `DAYS_BIRTH` en termes d'âge des clients ?
7. Comment interpréter la variable `DAYS_EMPLOYED` en termes d'expérience professionnelle des clients ?
8. Quelles informations peuvent être tirées des variables liées aux demandes de crédit antérieures des clients ?

In [None]:

# Question 1: Déséquilibre entre les clients ayant remboursé leur prêt et ceux en défaut de paiement
plt.figure(figsize=(6, 6))
sns.countplot(data['TARGET'])
plt.title('Répartition des clients en remboursement ou défaut de paiement')
plt.xlabel('Statut du prêt')
plt.ylabel('Nombre de clients')
plt.show()

# Il semble y avoir un déséquilibre, avec beaucoup plus de clients ayant remboursé leur prêt que ceux en défaut.

# Question 2: Caractéristiques avec le plus de valeurs manquantes et gestion de ces valeurs
missing_values = data.isnull().sum().sort_values(ascending=False)
print("Caractéristiques avec le plus de valeurs manquantes :\n", missing_values.head())

# Question 3: Corrélations entre les différentes variables
plt.figure(figsize=(12, 10))
correlation_matrix = data.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matrice de corrélation des variables numériques')
plt.show()

# Certaines variables sont fortement corrélées, ce qui peut être utile pour la modélisation.

# Question 4: Variation des revenus et des montants de crédit accordés aux clients
plt.figure(figsize=(10, 6))
sns.boxplot(x=data['TARGET'], y=data['AMT_INCOME_TOTAL'])
plt.title('Revenu des clients en fonction du statut de remboursement')
plt.xlabel('Statut du prêt')
plt.ylabel('Revenu')
plt.show()

plt.figure(figsize=(10, 6))
sns.boxplot(x=data['TARGET'], y=data['AMT_CREDIT'])
plt.title('Montant du crédit accordé en fonction du statut de remboursement')
plt.xlabel('Statut du prêt')
plt.ylabel('Montant du crédit')
plt.show()

# Les clients en défaut de paiement ont tendance à avoir un revenu et un montant de crédit inférieurs.

# Question 5: Répartition des clients en fonction de leur genre
plt.figure(figsize=(6, 6))
sns.countplot(data['CODE_GENDER'])
plt.title('Répartition des clients par genre')
plt.xlabel('Genre')
plt.ylabel('Nombre de clients')
plt.show()

# Il y a plus de femmes que d'hommes dans l'échantillon de données.

# Question 5 (suite): Répartition des clients en fonction du type de contrat
plt.figure(figsize=(8, 6))
sns.countplot(data['NAME_CONTRACT_TYPE'])
plt.title('Répartition des clients par type de contrat')
plt.xlabel('Type de contrat')
plt.ylabel('Nombre de clients')
plt.show()

# La plupart des clients ont souscrit à des prêts de type "Cash loans".

# Question 6: Interprétation de la variable DAYS_BIRTH en termes d'âge des clients
data['AGE'] = round(-data['DAYS_BIRTH'] / 365, 1)
plt.figure(figsize=(10, 6))
sns.histplot(data['AGE'], bins=30, kde=True)
plt.title('Distribution de l\'âge des clients')
plt.xlabel('Âge')
plt.ylabel('Nombre de clients')
plt.show()

# La distribution montre que la plupart des clients sont relativement jeunes.

# Question 7: Interprétation de la variable DAYS_EMPLOYED en termes d'expérience professionnelle des clients
data['YEARS_EMPLOYED'] = round(-data['DAYS_EMPLOYED'] / 365, 1)
plt.figure(figsize=(10, 6))
sns.histplot(data['YEARS_EMPLOYED'], bins=30, kde=True)
plt.title('Distribution de l\'expérience professionnelle des clients')
plt.xlabel('Années d\'expérience professionnelle')
plt.ylabel('Nombre de clients')
plt.show()

# Il y a des valeurs aberrantes dans les années d'emploi, ce qui nécessite une enquête approfondie.

# Question 8: Informations tirées des variables liées aux demandes de crédit antérieures des clients
previous_credit_columns = [col for col in data.columns if 'AMT_REQ_CREDIT_BUREAU' in col]
previous_credit_data = data[previous_credit_columns]
plt.figure(figsize=(12, 8))
sns.boxplot(data=previous_credit_data)
plt.title('Variables liées aux demandes de crédit antérieures')
plt.xlabel('Variables')
plt.ylabel('Valeurs')
plt.xticks(rotation=45)
plt.show()

# Certaines variables ont des valeurs aberrantes ou une distribution déséquilibrée, nécessitant une attention particulière.