On va travailler avec une base de données qui contient les informations des clients d'une banque. On va essayer d'analyser le dataset en effectuant des analyses statistique pour bien comprendre notre data.

# Importer les bibliothèques nécessaires.

In [None]:
from matplotlib import pyplot as plt
from collections import Counter
from sklearn.decomposition import PCA

import pandas as pd
data  = pd.read_csv("../input/credit-card-customers/BankChurners.csv")
import seaborn as sns

In [None]:
import numpy as np
from sklearn import decomposition
from sklearn import preprocessing

# Histogramme de distribution des clients selon leur profession

In [None]:
data['Education_Level'].value_counts().plot(kind='bar')
plt.xlabel("Professions")
plt.ylabel("count")
plt.title("Distribution des clients selon leur profession")

On peut conclure que les étudiants avec mention "Graduate" representent la majorité de nos clients. Tandit que les "Doctorante" représentent la minorité.

# la distribution des salaires des clients selon leur sexe.

In [None]:
df=sns.countplot(x='Income_Category',hue='Gender',data=data)
df.plot(figsize=(500,50));

# Matrice de correlation

In [None]:

corr_data = data.corr()

plt.figure(figsize=(20,12))
sns.heatmap(corr_data.abs(), annot=True, fmt='.3f',cmap='coolwarm',square=True)
plt.show()

La matrice de corrélation nous montre premièrement que les deux dernières variable de la base de donnée sont identique. 
On remarque aussi une corrélation entre la variable 'customer age' et 'Months on book', c'est a dire une relation entre l’âge du client et la période qu'il passé en étant client avec la banque.
On constate aussi une corrélation entre la variable 'Total_trans_ct' et 'Total_trans_amt', et donc une corrélation entre le nombre de transaction par un client pendant 12 mois et la valeur total de la transaction d'un client pendant 12 mois.


# Analyse ACP

L'analyse ACP nous permet de mieux comprendre la répartition de notre dataset, selon les paramètres qu'on souhaite. Il s'agit de visualiser la distribution de toute notre dataset, selon les dimensions qu'on souhaite. Dans cette analyse, nous allons spécifier les variables d'entrée (features) et nous allons représenter la distribution des données de ces variables dans 2 dimension, selon la variables cible ( education_level) que nous avons choisi.

In [None]:
features = ["CLIENTNUM","Dependent_count","Months_on_book","Credit_Limit","Avg_Open_To_Buy","Total_Trans_Amt"]

Voilà à quoi ressemble la base de données que l'on souhaite visualiser, c'est juste un subset de la base de données "crédit-card-customers", et la raison dans laquelle nous n’avons pas choisis de prendre toute la dataset est qu'elle contient des variables de type string. 

In [None]:
d1=data[features]
d1

In [None]:
from sklearn.preprocessing import StandardScaler
x = data.loc[:, features].values
y = data.loc[:,['Education_Level']].values
x = StandardScaler().fit_transform(x)

In [None]:
pca = PCA(n_components=2)
principalComponents = pca.fit_transform(x)
principalDf = pd.DataFrame(data = principalComponents
             , columns = ['principal component 1', 'principal component 2'])

In [None]:
finalDf = pd.concat([principalDf, data[['Education_Level']]], axis = 1)

Comme vous pouvez le voir ci-dessous, on a transformé notre base de donnée d1, à celle-ci en dessous !on est passé de 6 variable d'entée, à seulement 2. C'est ça le principe du PCA, c'est de réduire la dimensionnalité de la base de données.

In [None]:
finalDf

Ci-dessous, on essaie de visualiser la répartition de notre nouvelle base de donnée avec 2 composant principale selon la variable cible "Education_level".

In [None]:
fig = plt.figure(figsize = (8,8))
ax = fig.add_subplot(1,1,1) 
ax.set_xlabel('Principal Component 1', fontsize = 15)
ax.set_ylabel('Principal Component 2', fontsize = 15)
ax.set_title('2 component PCA', fontsize = 20)
targets = ['College', 'Graduate','Unknown','Post-Graduate','High School','Doctorate','Uneducated']
colors = ['r', 'g','b','y','k','m','c']
for target, color in zip(targets,colors):
    indicesToKeep = finalDf['Education_Level'] == target
    ax.scatter(finalDf.loc[indicesToKeep, 'principal component 1']
               , finalDf.loc[indicesToKeep, 'principal component 2']
               , c = color
               , s = 50)
ax.legend(targets)
ax.grid()

Et voilà, içi j'ai juste essayé de vous montrer l'utilité de l'utilisation de l'analyse PCA, c'est vrai que le graphe qu'on a obtenu n'est pas interprétable, mais c'est juste à cause du choix de la variable cible. Cette analyse est très importante en statique car ils nous permettent de visualiser notre base de donnée d'une coté, et de réduire la dimensionnalité de dataset d'une autre coté.