<h4 style="text-align:left;color:#5c5828">Authors </h4>
<h4 style="text-align:left;color:#5c5828">-------------------------------------------</h4>
<h5 style="text-align:left;color:#2d1d40">@ Hamza Dabaghi</h6>
<h5 style="text-align:left;color:#2d1d40">@ Firass Mohammed</h6>
<h5 style="text-align:left;color:#2d1d40">@ Yasmine Lhore</h6>
<h4 style="text-align:left;color:#5c5828">-------------------------------------------</h4>

<br/><br/>

<h2 style="text-align:center;color:#fca103">Importation de Librairies</h2><br/>

In [None]:

# pandas : panel data , pour une facile manipulation des données.
import pandas as pd 

# numpy : numerical python extensions , pour la manipulation de tableaux et les opérations mathématiques.
import numpy as np

# decomposition : Package pour l'analyse en composantes principales de scikit learn.
from sklearn.decomposition import PCA

# preprocessing : package pour centrer et normaliser les données avant d'effectuer l'ACP.
from sklearn.preprocessing import StandardScaler

# matplotlib : pour dessiner des graphiques, des tracés ...
import matplotlib.pyplot as plt


<h2 style="text-align:center;color:#fca103">Importation de données</h2><br/>

In [None]:

# importer les données de notre fichier dataset demo.
demographic_data = pd.read_csv("./demo_dt.csv")

# informations sur les données
demographic_data.info()


<h2 style="text-align:center;color:#fca103">Vérification</h2><br/>

In [None]:

# La méthode Head renvoie les 5 premières lignes de données
print( demographic_data.head() )


In [None]:

# L'attribut shape renvoie les dimensions de notre demographic_data
print( demographic_data.shape )

# il y a 51 échantillons et 8 variables, (Etat : étiquette )


<h2 style="text-align:center;color:#fca103">Prétraitement</h2><br/>

In [None]:

# séparation des variables non numériques


# l'index pour les données , inplace(true): modifie le meme objet DataFrame sans créer un autre modifié.
demographic_data.set_index('Etat', inplace=True)
print(  demographic_data.head()  )


<h2 style="text-align:center;color:#fca103">Normalisation</h2><br/>

In [None]:

# normalisation et centrage des données
# moyenne =0, variance=1, les échantillons doivent être des lignes sinon vous devez les transposer (demographic_data.T)

scaled_demographic_data = StandardScaler().fit_transform(demographic_data)

# round , 2 chiffres significatifs
print (" moyenne : ", np.round(scaled_demographic_data.mean(), 2))
print (" variance : ", np.round(scaled_demographic_data.std(), 2))


<h2 style="text-align:center;color:#fca103">ACP</h2><br/>

In [None]:

# instanciation d'un objet ACP à entraîner avec notre jeu de données , nombre de composantes à garder : 3
pca_var = PCA(n_components=3)
pca=pca_var.fit_transform(scaled_demographic_data)


In [None]:

# explained_variance_ratio_ : les valeurs propres des composantes principale. (valeurs propres)
print ( pca_var.explained_variance_ratio_ )

# les 3 premiers vecteurs propres représentent 77% de la variance , ils seront conservés
print ( pca_var.explained_variance_ratio_[:3].sum() )




<h2 style="text-align:center;color:#fca103">Graphiques des valeurs propres</h2><br/>

In [None]:
# les valeurs propres
per_var = np.round(pca_var.explained_variance_ratio_,decimals=1)

# création des étiquettes pour les composantes principales
labels = ['PC' + str(x) for x in range( 1 , len(per_var) +1 ) ]

# création du graphe
plt.bar( x=range( 1,len(per_var)+1 ), height=per_var, tick_label=labels)
plt.ylabel('Valeurs propres')
plt.xlabel('Composantes principales')
plt.title('Graphe')
plt.show()




<h2 style="text-align:center;color:#fca103">Étiquetage et renommage des composantes</h2><br/>


In [None]:

pca = pd.DataFrame(pca[:, :3], index=demographic_data.index)
pca.rename(columns={0:'c1',1:'c2',2:'c3'}, inplace=True)


In [None]:

# on voit que les 3 vecteurs sont orthogonaux
np.round(pca.corr(), 2)


<h2 style="text-align:center;color:#fca103">Interprétation des composantes</h2><br/>

<h5 style="text-align:left;color:#fca103">Composante une</h5><br/>


In [None]:
# copier les 3 composantes dans la variable vects
vects = pca_var.components_[:3]
one = pd.Series(vects[0], index=demographic_data.columns)
one.sort_values(ascending=False)

<h5 style="text-align:left;color:#fca103">Composante deux</h5><br/>

In [None]:
two = pd.Series(vects[1], index=demographic_data.columns)
two.sort_values(ascending=False)

<h5 style="text-align:left;color:#fca103">Composante trois</h5><br/>

In [None]:
three = pd.Series(vects[2], index=demographic_data.columns)
three.sort_values(ascending=False)