# Projet IA - 4BiM - 2021

#### Auteurs : Aurélie Fischer et Nicolas Mendiboure 
#### Enseignants : Sergio Peignier et Chistophe Rigotti 


In [None]:
%matplotlib inline 

In [None]:
import scipy
import numpy
import math
import sklearn
import pandas as pds
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.cluster.hierarchy as sch

#import sergio_peignier as sp
#import chistophe_rigotti as cr

# 1. Lecture des données:

Au départ, nous avons construit un jeu de données à partir du site http://databank.worldbank.org . Celui-ci contient diverses informations sur les pays du monde entier. Au total, nous avons alors 217 pays pour lesquels nous avons sélectionné 50 variables différentes, qui vont nous permettre de les caractériser. 

In [None]:
sparse_df = pds.read_csv("./datas/Data-IA-World-Development-Indicator.txt", sep="\t", header=0)

In [None]:
sparse_df.shape

In [None]:
#sparse_df.head()
#sparse_df.tail()

In [None]:
# Quelques statistiques :
sparse_df.describe() 

# 2. Création des classes (continents) :

Pour anticiper les analyses que nous allons effectuer sur le jeu de données, nous avions besoin d'établir des classes auxquelles chaque pays que l'on considère est susceptible d'appartenir. Il nous a paru naturel de choisir les continents pour classer chaque pays. Pour cela, on utilise une librairie *pycountry_convert* qui associe un code pays (par exemple "CHN" pour la Chine) à un code continent : 

* AS pour l'Asie
* AF pour l'Afrique
* NA pour l'Amérique du nord
* OC pour l'Océanie
* AN pour l'Antarctique
* EU pour l'Europe
* SA pour l'Amérique du sud

On retient donc qu'on pourrait classer les pays dans 7 classes possibles.

In [None]:
import pycountry_convert as pc

In [None]:
country_code = sparse_df[["Country Name", "Country Code"]]

In [None]:
country_code_np = country_code["Country Code"].values

In [None]:
def country_to_continent(country_code):
    res = []
    for code3 in country_code :
        if (code3 == "CHI"):
            code2 = "GB"
        elif (code3 == "XKX"):
            code2 = "XK"
        else:
            code2 = pc.country_alpha3_to_country_alpha2(code3)
            
        
        if (code2 == "TL"):
            country_continent_code = "AS"
        elif (code2 == "SX"):
            country_continent_code = "SA"
        else:
            country_continent_code = pc.country_alpha2_to_continent_code(code2)
        country_continent_name = pc.convert_continent_code_to_continent_name(country_continent_code)
        res.append(country_continent_name)
    return res

In [None]:
continents = country_to_continent(country_code_np)

In [None]:
sparse_df["Continents"] = continents

# 3. Selection et filtrage des données :

Avant de pouvoir effectuer un clustering, on réalise une sélection des attributs ainsi que des pays (les objets étudiés ici) de sorte à ce qu'on ait assez d'informations à traiter.

## 3.1 Selection des attributs (colonnes) :

On commence par sélectionner les attributs. Ceux-ci sont choisis de sorte à ce qu'ils aient de l'information pour un maximum de pays possible. Dans l'idéal, on aimerait avoir de l'information pour chaque pays et chaque attribut, mais cela est très rare. Ainsi, nous avons défini une limite de nombre manquant de données (nombre de NaN) par attribut. Si l'attribut a un nombre de données manquantes supérieur à cette limite, alors on le considère plus dans notre étude. Cette limite a été fixée à 40 après plusieurs essais. Elle est suffisamment basse pour garder les colonnes contenant un maximum de données, tout en étant assez haute pour conserver une large gamme d'attributs.

In [None]:
#Fonction qui supprime une colonne (attribut) si le nb de NaN >= limit

def delete_NaN_col(df, limit):
    NaN_col = df.isna().sum()
    tmp = df.copy(deep=True) 
    
    for i in range(df.shape[1]):
        if NaN_col[i] >= limit:
            df = df.drop(columns = tmp.columns[i])
            
    return(df)

In [None]:
sparse_df2 = delete_NaN_col(sparse_df, 40)

In [None]:
# On enlèvre les colonnes 'Time' et 'Time Code' qui ne nous interessent pas ici
def remove_useless_col(df):
    df = df.drop(columns = ["Time", "Time Code", "Country Code"])
    return (df)

In [None]:
sparse_df2 = remove_useless_col(sparse_df2)

In [None]:
#Visualisation du nombre de donnees manquantes par colonne apres selection
sparse_df2.isna().sum()

## 3.2 Selection des objets (lignes) :

En suivant la même logique que pour les attributs, on sélectionne les objets, donc les pays, pour lesquels on a assez d'informations pour les attributs restants. 

Ainsi, on obtient un jeu de données assez complet où on pourra réellement comparer chaque objet en fonction de comment il est caractérisé par les différents attributs.

In [None]:
#Fonction qui supprime une ligne (object) si le nb de NaN >= limit

def delete_NaN_row(df, limit):
    NaN_row = df.isna().sum(axis=1)
    tmp = df.copy(deep=True) #temporary df
    
    for i in range(df.shape[0]):
        if NaN_row[i] >= limit:
            df = df.drop([i], axis = 0)
            
    return(df)

In [None]:
sparse_df3 = delete_NaN_row(sparse_df2, 1)

In [None]:
#On remplace les indexes des ligne {0, 1, 2, ..n} par les noms de pays
#Puis on supprime la colonne "Country Name" pour n'avoir plus que des valeurs numeriques
sparse_df3.index = sparse_df3['Country Name']
sparse_df3 = sparse_df3.drop(columns = ['Country Name'])

In [None]:
#Visualisation du jeu de donnees apres selection des attributs et des objets
sparse_df3.head()

## 3.3 Études des correlations :

Après sélection des objets et des attributs selon la quantité d'informations manquantes, on va étudier la corrélation présente au sein des données. Cela permet de se rendre compte de la redondance de l'information qui y est présente. L'objectif est alors d'éviter cette redondance en ne considérant uniquement des attributs faiblement corrélés. 

In [None]:
#Mesure de la correlation de nos donnees
corr_df = sparse_df3.corr()

In [None]:
# Représentation graphique des correlations
plt.figure(figsize= (15, 12))
sns.heatmap(corr_df,annot=True)
plt.show()

In [None]:
sns.clustermap(corr_df,
               figsize= (16, 12),
               annot=True,
               dendrogram_ratio=(0.1, 0.2),
               row_cluster=False)
plt.show()

In [None]:
def delete_corr(df, limit):
    #On construit notre matrice de correlation en valeur absolue
    corr_matrix = df.corr().abs()
    
    #Triangle supérieur de la matrice de corrélation : 
    upper = corr_matrix.where(np.triu(np.ones(corr_matrix.shape), k=1).astype(np.bool))
    to_drop = [column for column in upper.columns if any(upper[column] > limit)]
    df = df.drop(df[to_drop], axis=1)
    return(df)

In [None]:
#Selection des attributs avec une limite de correlation = 55%
df = delete_corr(sparse_df3, 0.55)

In [None]:
df.shape

In [None]:
#Représentation graphique des correlations après selection
plt.figure(figsize= (15, 12))
sns.heatmap(df.corr().abs(), annot = True)
plt.show()

Comme il nous reste une dizaine d'attributs, nous avons décidé de retirer à la main la colonne "Crédit net domestique" dont on ne savait pas réellement à quoi elle correspondait et qu'il aurait fallu normaliser par la suite.

In [None]:
df = df.drop(columns=["Net domestic credit (current LCU) [FM.AST.DOMS.CN]"]) 

In [None]:
# On renomme les labels des colonnes pour plus de fluidite
df = df.rename(columns={"Access to clean fuels and technologies for cooking (% of population) [EG.CFT.ACCS.ZS]" : "Clean fuels and technologies for cooking access (% pop)"})
df = df.rename(columns={"Aquaculture production (metric tons) [ER.FSH.AQUA.MT]" : "Aquaculture prod (metric tons)"})
df = df.rename(columns={"Compulsory education, duration (years) [SE.COM.DURS]" : "Compulsory education duration (years)"})
df = df.rename(columns={"Death rate, crude (per 1,000 people) [SP.DYN.CDRT.IN]" : "Death rate (per 10e3 )"})
df = df.rename(columns={"Incidence of tuberculosis (per 10e5 people) [SH.TBS.INCD]" : "Incidence of tuberculosis (per 100 000)"})
df = df.rename(columns={"Number of infant deaths [SH.DTH.IMRT]" : "Number of infant deaths"})
df = df.rename(columns={"Preprimary education, duration (years) [SE.PRE.DURS]" : "Preprimary education duration (years)"})

In [None]:
#Visualisation du jeu de donnees après toutes les sélections d'attributs et d'objets
df.head()

A cette étape-ci, nous avons pu sélectionner tous les attributs et tous les objets de notre étude. Le jeu de données que nous allons analyser est donc composer de **133 pays et de 7 attributs différents** (la huitième colonne correspond aux continents, donc aux classes que nous avons rajouté nous-mêmes au début de l'étude): 

* Access to clean fuels and technologies for cooking (% of population) [EG.CFT.ACCS.ZS]
* Aquaculture production (metric tons) [ER.FSH.AQUA.MT]
* Compulsory education, duration (years) [SE.COM.DURS]
* Death rate, crude (per 1,000 people) [SP.DYN.CDRT.IN]
* Incidence of tuberculosis (per 10e5 people) [SH.TBS.INCD]
* Number of infant deaths [SH.DTH.IMRT]
* Preprimary education, duration (years) [SE.PRE.DURS]

## 3.4 Normalisation relative (aux surfaces et populations par pays) :

Le jeu de données obtenus contient deux attributs que l'on doit normaliser, puisqu'ils ne sont pas relatifs à la distribution du pays, alors que les autres le sont. Il s'agit de la **production d'aquaculture** que l'on va chercher à normaliser par rapport la surface du pays, et du **nombre de morts infantiles**, que l'on va normaliser par rapport à la taille de la population du pays. 

In [None]:
def remove_country(df, df_ref):
    tmp = df.copy(deep = True)
    for i, country in  enumerate( tmp["Country Name"]):
        if country not in df_ref.index.values:
            df = df.drop(tmp.index[i], axis = 0)
    return (df)

In [None]:
#On récupère les données de la taille de la population uniquement pour les 133 pays étudiés
population_size = pds.read_csv("./datas/Popula-schtroumpf/Population-size-per-country.txt", sep="\t", header=0)
population_size = remove_useless_col(population_size)
population_size = delete_NaN_row(population_size, 1)
population_size = remove_country(population_size, df)

In [None]:
#On récupère les données de la surface du territoire uniquement pour les 133 pays étudiés
surfaces = pds.read_csv("./datas/Surfa-schtroumpf/Country-surfaces.txt", sep="\t", header=0)
surfaces = remove_useless_col(surfaces)
surfaces = delete_NaN_row(surfaces, 1)
surfaces = remove_country(surfaces, df)

In [None]:
print (len(population_size) == len(df), len(surfaces)== len(df))

In [None]:
df2 = df.copy(deep = True)
print("Avant la normalisation relative des données :", "\n")
df2.head()

In [None]:
df2.iloc[:, 1] =  df2.iloc[:, 1].values/surfaces.iloc[:, 1].values
df2 = df2.rename(columns={"Aquaculture prod (metric tons)" : "Aquaculture prod (metric tons/m²)"})
df2.iloc[:, 5] =  df2.iloc[:, 5].values/population_size.iloc[:, 1].values
df2 = df2.rename(columns={"Number of infant deaths" : "Rate of infant deaths in the population"})

print("Après la normalisation relative des données :", "\n")
df2.head()

## 3.5 Normalisation par centrage - réduction :

Enfin, pour terminer la partie de traitement de données, nous décidons de normaliser les données par centrage-réduction, selon la formule suivante : 

\begin{equation*}
    X = \frac{X - \mu}{\sigma}
\end{equation*}

En effet en visualisant les données sans cette normalisation, on voit que les ordres de grandeur, ainsi que les variances pour chaque attribut ne sont pas homogènes. On va donc centrer et réduire nos données pour corriger ce défaut.

In [None]:
#Visualisation des donnees sans centrage-reduction
sns.pairplot(data=df2)
plt.show()

In [None]:
#Visualisation de boxplot des donnees sans centrage-reduction
plt.figure(figsize=(12,12))
sns.boxplot(data = df2)
plt.show()

#On voit que les ordres de grandeur de nos données ainsi que leur variances ne sont pas du tout homogènes.
#On va donc les normaliser (centrer - réduire) pour corriger ce défaut  

In [None]:
# Fonction qui centre et réduit une colonne de données pour les normaliser
def normalizer (data):
    # Quelques statistiques :
    mean = np.mean(data)
    var = np.var(data)
    sd = math.sqrt(var)
    
    norm = []
    for x in data:
        norm.append((x-mean)/sd)
    
    return (norm)

In [None]:
def norm_whole_df (df):
    normed_df = df.copy(deep = True)
    for i in df.columns:
        normed_df[i] = normalizer(df[i])
        
    return (normed_df)

In [None]:
normed_df = norm_whole_df(df2.drop(columns = "Continents" ))
normed_df["Continents"] = df2["Continents"]

In [None]:
normed_df.head()

In [None]:
normed_df.shape

In [None]:
#Visualisation de boxplot des donnees après centrage-reduction
plt.figure(figsize=(12,15))
sns.boxplot(data = normed_df)
plt.show()

Le boxplot ainsi obtenu nous permet d'avoir une vue sur les possibles points "outliers" qui pourraient nous gêner pour l'analyse. On cherche donc à enlever les pays qui y sont associés.

In [None]:
from scipy import stats

In [None]:
def search_outliers_row(df, limit):
    z_scores = stats.zscore(df.drop(columns = "Continents" )) #calcule le z-score de df
    abs_z_scores = np.abs(z_scores) # on passe en valeurs absolues
    filtered_outliers = (abs_z_scores < limit).all(axis=1) # on ne garde que les lignes avec des valeurs > limit
    new_df = df[filtered_outliers] #nouveau df
    return (new_df)

In [None]:
df3 = search_outliers_row(normed_df, 3)

In [None]:
df3.shape

In [None]:
plt.figure(figsize=(12,15))
sns.boxplot(data = df3)
plt.show()

In [None]:
#Pairplot après standardisation
sns.pairplot(data=df3)
plt.show()

On refait ci-dessous des statistiques basiques sur notre nouveau jeu de données df3. On voit bien que notre moyenne est centrée sur 0 et que notre écart-type varie autour de 1 pour chaque attribut. La normalisation a donc fonctionné. De plus, on voit bien sur le boxplot qu'on a enlevé les outliers.

In [None]:
df_stats = df3.describe()
df_stats = df_stats.drop('count',axis=0)
sns.heatmap(df_stats,annot=True,cmap='coolwarm')
plt.show()

Finalement, le jeu de données que l'on va étudier contient **123 pays et 7 attributs**, présentés en section 3.3. 

# 4. Clustering :

## 4.1 K-means 

Commençons notre analyse par la méthode K-Means. On cherche à identifier des clusters parmi nos données, sans avoir de classes référentes.

### 4.1.1 Création des clusters :

In [None]:
from sklearn.cluster import KMeans
from sklearn import metrics

In [None]:
df4 = df3.drop(columns = "Continents" )
classes = df3.Continents

Nous allons utilisé le jeu de données fraîchement filtré et normalisé df4 :

In [None]:
df4.head()

In [None]:
# Création d'un objet KMeans en cherchant 4 clusters:
km = KMeans(n_clusters=4, init='k-means++',n_init=10, random_state=50, max_iter=300)
km.fit(df4)

In [None]:
#On stocke les clusters
km_clusters = km.labels_

In [None]:
# On stocke les centroides obtenus :
centroids = km.cluster_centers_

In [None]:
#Les prédictions de K-Means sur le jeu de données
predict = km.predict(df4)

L'algorithme de K-Means a sorti des prédictions de clusters pour notre jeu de données. Il a rangé chaque pays dans un des quatre clusters possibles, comme on le voit ci-dessous. Notons qu'il est possible de lancer K-Means en réglant le nombre de clusters. Un de nos objectifs sera d'établir le nombre de clusters optimal pour nos données.

In [None]:
print(predict)

On peut visualiser les clusters obtenus dans l'espace pour les situer les uns par rapport aux autres, en se plaçant sur un plan 2D. Ici, on s'est placé par exemple dans le plan présentant la "Compulsory education duration" en fonction du "Clean fuels and technologies for cooking access". 

In [None]:
#Affichage des clusters 
plt.scatter(df4["Clean fuels and technologies for cooking access (% pop)"], df4["Compulsory education duration (years)"], c=km_clusters)
plt.title('Data in Space', fontsize=14)
plt.xlabel("Clean fuels and technologies for cooking access (% pop)",fontsize=14)
plt.ylabel("Compulsory education duration (years)",fontsize=14 )
plt.scatter(centroids[:, 0], centroids[:, 2], c='red',s=150, alpha=0.4)
plt.grid(True)

### 4.1.2 Mesures sur nos kmeans :

Maintenant que nous avons exécuté le k-means sur nos données, nous allons analyser ce que l'algorithme a produit comme résultats à travers diverses mesures.

In [None]:
from collections import Counter 
Counter(predict)

En regardant par exemple simplement le nombre de pays qui ont été rangés par clusters, on peut se dire qu'ils sont répartis plus ou moins équitablement dans les différents clusters.

#### a) SSE :

La SSE est un critère qui nous permet d'évaluer les clusters de points formés par K-Means. Elle évalue la distance de chaque objet à son centroïde le plus proche. Ainsi, plus la SSE est grande, moins le K-Means est de bonne qualité.

In [None]:
SSE=km.inertia_
print(SSE)

Ici, on a une SSE qui vaut 284, ce qui est plutôt grand. On peut essayer de réduire ce score en augmentant le nombre de clusters. Ainsi, chaque objet aura plus de chances d'être associé à un centroïde plus proche de lui. Affichons la courbe de la SSE en fonction du nombre de clusters avec lequel on règle l'algorithme K-Means.

In [None]:
#Courbe de la SSE en fonction du nombre de clusters
SSE_liste=[]
for i in range(2,10):
    km2=KMeans(n_clusters=i, init='k-means++',  n_init=1, random_state=50, max_iter=1000).fit(df4)
    SSE_liste.append(km2.inertia_)
    
#print(SSE_liste)

SSE_liste_random=[]
x=[]
for i in range(2,10):
    km3=KMeans(n_clusters=i, init='random',  n_init=1, random_state=50, max_iter=1000).fit(df4)
    SSE_liste_random.append(km3.inertia_)
    x.append(i)
    
#print(SSE_liste_random)
plt.figure(figsize = (14, 10))
plt.plot(x, SSE_liste,label="k-means++")
plt.plot(x, SSE_liste_random,label="Random")
plt.xlabel("Nombre de clusters")
plt.ylabel("SSE")
plt.legend()
plt.show()

Sur cette courbe, on peut voir que la SSE diminue avec le nombre de clusters. Le choix du nombre de cluster optimal pour faire tourner K-Means fait qu'on cherche à réduire la SSE et à prendre un nombre de cluster assez grand. Toutefois, celui-ci ne doit pas être trop important non plus, au risque d'avoir trop de clusters et un surregroupement de nos données. La courbe inclut un coude pour un nombre de clusters valant 7. C'est donc cette valeur que l'on peut estimer comme optimale selon le critère de SSE pour faire tourner K-Means sur nos données.

Comme nous avions défini des classes auxquelles pourraient appartenir les pays étudiés, nous allons comparer les 4 clusters obtenus avec K-Means avec les classes définies (ces classes sont les continents du monde pour rappel). Voici donc la table de contingence avec les différents clusters et les classes :

In [None]:
km_crosstab = pds.crosstab(km_clusters,classes)
sns.heatmap(km_crosstab, annot=True)
plt.show()

On constate différentes choses sur cette table de contingence : 

* le cluster 0 est apparié globalement à l'Asie, à l'Amérique du Nord et l'Amérique du Sud
* le cluster 1 est associé plutôt à l'Afrique
* le cluster 2 est plutôt représentatif de l'Asie et de l'Europe
* le cluster 3 représente globalement le continent européen

Aucun pays ne se trouve en Antarctique, donc on a que 6 classes (continents) possibles pour les pays étudiés. C'est intéressant de situer les regroupements faits par K-Means. Certains continents comme l'Europe ou l'Afrique sont très bien dissociés des autres. D'autres, comme l'Amérique du nord et du sud sont appariés, ce qui paraît géographiquement parlant plausible, même si les situations économiques et politiques des pays se trouvant sur ces deux continents sont tout de même très différentes. 

#### b) Mesures d'entropie

Entropie des clusters (c) comparés aux différentes classes (j):

$-\sum{p(j|c) \times log(p(j|c)}$

$p(j|c)$ est la fréquence d'apparition de la classe j dans le cluster c.

In [None]:
proba = km_crosstab.values/km_crosstab.values.sum(axis=1, keepdims=True) # divide each element of a row by the sum of the row
entropy = [stats.entropy(row, base=2) for row in proba]
print("entropy of each cluster: ", entropy)

#### c) Mesure de pureté :

Pour calculer la pureté, chaque cluster est attribué à la classe qui est la plus fréquente dans ce cluster, puis la précision de cette attribution est mesurée en comptant le nombre d'éléments correctement attribués. Il s'agit donc de mesurer la précision d'un cluster à ne contenir les objets que d'une seule classe.

En réalité il s'agit d'une terminologie dérivant de l'entropie.

$purete = \sum_{j=1}^{K} \frac{m_c}{m} \times purete(c)$

- $purete(c) = max(p(j,c))$;
- $p(j,c)$ est la probabilité qu'un membre du cluster $c$ appartienne à la classe $j$;
- $m_c$ est la taille du cluster $c$;
- $m$ est la taille totale du nombre d'éléments (points).

In [None]:
def purity_score(classes, predictions):
    contingency_matrix = metrics.cluster.contingency_matrix(classes, predictions)
    return ( np.sum(np.amax(contingency_matrix, axis=0)) / np.sum(contingency_matrix) )

In [None]:
purity_score(classes, km_clusters)

<ins>Remarque :</ins> Une grande pureté est facile à atteindre lorsque le nombre de clusters formés devient important. En particulier, la pureté tend vers $1$ si le nombre de cluster tend à être égale aux nombre de points. Ainsi, nous ne pouvons pas utiliser la pureté pour faire un compromis entre la qualité du regroupement et le nombre de regroupements.

Une mesure qui nous permet de faire ce compromis est l'information mutuelle normalisée ou INM : 

#### d) Information mutuelle normalisée (IMN) :

$IMN(j,c) = \frac{2 \times I(j, c)}{E(j) + E(c)}$

- $j$ = label de la classe ;
- $c$ = label du cluster ;
- $E()$ = entropie ;
- $I(j, c)$ = information mutuelle entre j et c. $I(j, c) = E(j) - E(j|c)$, où $E(j|c)$ désigne une entropie conditionnelle.

In [None]:
metrics.normalized_mutual_info_score(classes, km_clusters, average_method='max')

#### d) Coefficient de silhouette :

Le coefficient de silhouette pour un  point correspond à la différence entre sa distance moyenne avec les points du même cluster que lui (**cohésion**) et la distance moyenne avec les points des autres clusters voisins (**séparation**). Il est compris en $-1$ et $1$.

 - Si on a une différence négative, le point est en moyenne plus proche du groupe voisin que du sien ;
 - Si on a une différence positive, le point est en moyenne plus proche de son groupe que du groupe voisin.

In [None]:
Silh = metrics.silhouette_score(df4.values, 
                         km_clusters, 
                         metric='euclidean', 
                         sample_size=None) 
print("Coefficient de silhouette pour nos 3 clusters : ",Silh)

In [None]:
from yellowbrick.cluster import SilhouetteVisualizer

Avec le code suivant nous pouvons observer les silhouettes de chaque cluster, pour un nombre total de  2, 3, 4, 5, 6 et 7 clusters

In [None]:
fig, ax = plt.subplots(3, 2, figsize=(15,10))
for i in [2, 3, 4, 5, 6, 7]:
    
    km_simu = KMeans(n_clusters=i, init='k-means++', n_init=10, max_iter=100, random_state=42)
    q, mod = divmod(i, 2) # permet d'attribuer les axes pour les subplots 
    
    visualizer = SilhouetteVisualizer(km_simu, colors='yellowbrick', ax=ax[q-1][mod])
    visualizer.fit(df4)

### 4.1.3 Stabilité de la convergence de nos k-means :

La convergence d'un algorithme K-Means peut être vue comme étant la stabilisation des centroids des clusters (les centroids ne bougent plus lors des itérations).

#### a) Calcul de la stabilité pour la convergence de notre K-means :

In [None]:
avg_silhouette_coef = []
sse_list = []
k = 6
for i in range(600):
    km = KMeans(n_clusters=k, init='random', n_init=1)
    km.fit(df4)
    labels = km.predict(df4)
    sse_list.append(np.sqrt(km.inertia_))
    avg_silhouette_coef.append(metrics.silhouette_score(df4, labels,metric='euclidean'))

In [None]:
plt.figure(figsize=(18, 10))

plt.subplot(2,2,1)
plt.hist(sse_list, edgecolor = "black")
plt.title("SSE", fontsize = 18)

plt.subplot(2,2,2)
plt.hist(avg_silhouette_coef, edgecolor = "black")
plt.title("Average silhouette coeff", fontsize = 18)

plt.subplot(2,2,3)
plt.boxplot(sse_list)

plt.subplot(2,2,4)
plt.boxplot(avg_silhouette_coef)

plt.show()

#### b) Même chose mais avec un nombre d'executions interne plus grand :

Ici nous allons effectuer la même opération qu'au dessus en changeant la valeur du *n_init* par une valeur plus élevée. Pour rappel le paramètre *n_init* représente le nombre de fois où l'algorithme du k-means sera exécuté avec différentes graines pour les centroïdes. Le meilleur résltat en terme d'inertie sera retenue parmi tous les *n_init*.

In [None]:
avg_silhouette_coef = []
sse_list = []
k = 6
for i in range(600):
    km = KMeans(n_clusters=k, init='random', n_init = 30)
    km.fit(df4)
    labels = km.predict(df4)
    sse_list.append(np.sqrt(km.inertia_))
    avg_silhouette_coef.append(metrics.silhouette_score(df4, labels,metric='euclidean'))

In [None]:
plt.figure(figsize=(14, 8))

plt.subplot(1,2,1)
plt.hist(sse_list, color='coral', edgecolor = "black")
plt.title("SSE", fontsize = 18)

plt.subplot(1,2,2)
plt.hist(avg_silhouette_coef, color = 'coral', edgecolor = "black")
plt.title("Average silhouette coeff", fontsize = 18)


plt.show()

#### c) Evaluation de la stabilité de convergence un nombre de clusters différents :

In [None]:
def compute_stability(km,df,iterations=100):
    avg_silhouette_coef = []
    sse_list = []
    for i in range(500):
        km.fit(df)
        labels = km.predict(df)
        avg_silhouette_coef.append(metrics.silhouette_score(df, labels,metric='euclidean'))
    avg_silhouette_coef = np.asarray(avg_silhouette_coef)
    return(avg_silhouette_coef.std())

In [None]:
stability = []
Ks = range(2,12)
for k in Ks:
    km = KMeans(n_clusters=k,init='random',n_init=5)
    stability.append(compute_stability(km,df4))

In [None]:
plt.plot(Ks,stability,"o-")
plt.xlabel("number of clusters ",fontsize=20)
plt.ylabel("Avg. Silhouette Coef")

In [None]:
print("Le nombre de clusters pour une stabilité optimale est : ", int(stability.index(max(stability))) + 2)

## 4.2 Hierachical clustering :

### 4.2.1 Méthode : "complete"

In [None]:
z_complete = sch.linkage(df4, method = 'complete', metric='euclidean')

In [None]:
z_complete.shape

In [None]:
plt.figure(figsize=(20, 40))
dendro = sch.dendrogram(z_complete, 
                        orientation='right', 
                        leaf_rotation=0, 
                        leaf_font_size=14,
                        labels = df4.index)
plt.title("Dendrogram with complete methode")
plt.ylabel("Countries")
plt.xlabel("Distance")
plt.grid(False)
plt.show()

### 4.2.2 Méthode : "single"

In [None]:
z_single = sch.linkage(df4, method = 'single', metric='euclidean')

In [None]:
z_single.shape

In [None]:
plt.figure(figsize=(20, 40))
dendro = sch.dendrogram(z_single, 
                        orientation='right', 
                        leaf_rotation=0, 
                        leaf_font_size=14,
                        labels = df4.index)
plt.title("Dendrogram with single methode")
plt.ylabel("Countries")
plt.xlabel("Distance")
plt.grid(False)
plt.show()

In [None]:
# 2nd derivative of the distances

acceleration_complete = np.diff(z_complete[:,2], 2)
acceleration_single = np.diff(z_single[:,2], 2) 

In [None]:
plt.figure(figsize=(32, 18))

plt.subplot(131)
plt.plot(z_single[:, 2], 'o-', color = "blue")
plt.plot(z_complete[:, 2], 'o-', color = "orange")
plt.legend(["single","complete"])
plt.ylabel("Hauteur", fontsize = 22)
plt.xlabel("Pays par ordre croissant", fontsize = 22)
plt.grid(axis='y')

plt.subplot(132)
plt.plot(z_complete[:, 2], 'o-', color = "orange")
plt.plot(acceleration_complete, 'o-', color='green')
plt.ylabel("Hauteur", fontsize = 22)
plt.legend(["complete","dérivée seconde de complete"], fontsize = 22)
plt.xlabel("Pays par ordre croissant", fontsize = 22)

plt.subplot(133)
plt.plot(z_single[:, 2], 'o-', color = "blue")
plt.plot(acceleration_complete, 'o-', color='green')
plt.legend(["single","dérivée seconde de signle"], fontsize = 22)
plt.ylabel("Hauteur", fontsize = 22)
plt.xlabel("Pays par ordre croissant", fontsize = 22)

## 4.3 DB scan :

In [None]:
from sklearn.neighbors import NearestNeighbors
from sklearn.cluster import DBSCAN

Une méthode pour estimer le meilleur paramètre **eps** pour notre DBscan serait de calculer la distance de chaque point par rapport à son voisin le plus proche en utilisant les **NearestNeighbors**. Le point lui-même est inclus dans n_neighbors. Nous obtenons ensuite deux tableaux:

- Un qui contient la distance aux points n_neighbors les plus proches ;
- Le deuxième contient l'indice pour chacun de ces points.

In [None]:
neigh = NearestNeighbors(n_neighbors=2)
nbrs = neigh.fit(df4.values)
distances, indices = nbrs.kneighbors(df4.values)
distances = np.sort(distances, axis=0)
distances = distances[:,1]

Nous pouvons ordonner nos résultats et les afficher dans un plot semblable à ceux déja vu pour des les SSE. 

In [None]:
plt.figure(figsize=(12,8))
ax = plt.subplot(111)
eps_curve = ax.plot(distances, 'o-', color='b')
plt.ylabel("eps", fontsize = 18)
plt.show() 

Enfin la valeur optimale pour le paramètre **eps** trouve à la courbure maximale de la courbe, lu en ordonnée.

Pour le déterminer nous allons importer la librairie Kneed qui va utiliser la méthode "des genoux".

In [None]:
from kneed import KneeLocator
points = eps_curve[0].get_data() # on récupère les points de la courbe (x et y)

kneedle = KneeLocator(points[0], points[1], S=1.0, curve="convex", direction="increasing")
knee = int( kneedle.knee )
print("Meilleur paramètre epsilon  : ", round(points[1][knee], 3) )

In [None]:
dbscan = DBSCAN(eps = 1.478, min_samples=4)
dbscan.fit(df4)

In [None]:
db_clusters = dbscan.labels_

In [None]:
print(db_clusters)

In [None]:
# Contingency table of species vs cluster labels
crosstab = pds.crosstab(db_clusters,classes)
sns.heatmap(crosstab, annot=True)

In [None]:
# Cluster views in 2D projections

db_results = df4.copy()
db_results['cluster']= db_clusters
classes_map = classes.map({'Africa':0, 'Asia':1, 'Europe':2, 'North America': 3, 'South America':4})
db_results['class']= classes_map.values

In [None]:
db_results.head()

In [None]:
sns.pairplot(data=db_results,hue='cluster')
plt.show()

## 4.4 Decision tree :



In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn import tree
import graphviz

In [None]:
df_train, df_test, classes_train, classes_test = sklearn.model_selection.train_test_split(df4, df3.Continents,
                                                             test_size=1/3, 
                                                             train_size=2/3,
                                                             random_state=None, 
                                                             shuffle=True, 
                                                             stratify=None)

In [None]:
clf = tree.DecisionTreeClassifier(criterion='entropy')
clf = clf.fit(df_train, classes_train)

In [None]:
classes_predicted = clf.predict(df_test)

In [None]:
pds.crosstab(classes_test, classes_predicted)

In [None]:
# Autre façon d'avoir la même table :

from sklearn.metrics import confusion_matrix
confusion_matrix(classes_test, classes_predicted)

In [None]:
accuracy_score (classes_test, classes_predicted)

In [None]:
plt.figure(figsize=(18,10))
tree.plot_tree(clf,filled=True,class_names=clf.classes_)
plt.show()

In [None]:
# Autre visualisation plus sympa utilisant graphviz  (décommenter pour visualier):

tree_plot = tree.export_graphviz(clf, out_file = None, 
                           feature_names = df_train.columns,
                           class_names = clf.classes_, 
                           filled=True, rounded = True,
                           special_characters = True)

graph = graphviz.Source(tree_plot)
#display ( graph ) 

## 4.5 Validation croisée :

In [None]:
from sklearn.model_selection import StratifiedKFold #cross-validation splitter
from sklearn.model_selection import cross_validate #cross-validation evaluation of metrics

In [None]:
tests = ['accuracy', 
         'precision_macro', 
         'precision_weighted', 
         'recall_macro', 
         'recall_weighted', 
         'f1_macro', 
         'f1_weighted']

cv = StratifiedKFold(n_splits=5, random_state=10, shuffle=True)
cv_scores = cross_validate(clf, df4, classes, scoring = tests, cv = cv, return_train_score = False)

In [None]:
pds.DataFrame(cv_scores).mean()