# Clustering des données catégorielles

Dans ce notebook, nous allons procéder au clustering des données de vol issues du fichier `flights.csv`. 

Les algorithmes de clustering de partition et hiérarchiques( p.ex. K-Means et le clustering hiérarchique) sont principalement  basés sur la distance et particulièrement la distance euclidienne. Ces algorithmes couplés à cette distance ne sont pas adaptés au clustering de données catégorielles. D'autres distances sont à prévilégier dans ce contexte. 

La  distance de Gower est l'une des distances les plus connues, pouvant être appliquée aux données catégorielles. Nous allons utiliser cette distance pour notre jeu de données `flights`.

In [1]:
import pandas as pd
import numpy as np

#Pour avoir des résultats identiques à chaque exécution de ce notebook
# Il n'est pas nécessaire si vous n'avez pas cette contrainte
np.random.seed(980) 


Chargez avec pandas le fichier `flights.csv`. 

In [2]:
df = pd.read_csv('../datasets/flights.csv', sep = ';')
print(df)

      Saison Compagnie Operating  Numéro de vol Compagnie Marketing  \
0        W19         Sky Bahamas              3  Sham Wing Airlines   
1        W19         Sky Bahamas              3  Sham Wing Airlines   
2        W19         Sky Bahamas              3  Sham Wing Airlines   
3        W19         Sky Bahamas              3  Sham Wing Airlines   
4        W19         Sky Bahamas              3  Sham Wing Airlines   
...      ...                 ...            ...                 ...   
16512    W19  Sham Wing Airlines           9399                 NaN   
16513    W19  Sham Wing Airlines           9400                 NaN   
16514    W19  Sham Wing Airlines           9401                 NaN   
16515    W19  Sham Wing Airlines           9404                 NaN   
16516    W19  Sham Wing Airlines           9405                 NaN   

       Numéro de vol Marketing  \
0                       8099.0   
1                       8099.0   
2                       8099.0   
3          

Observez quelles colonnes sont numériques et lesquelles ne le sont pas.


In [3]:
print(df.columns)
for column in df:
    print(df[column].dtype)

Index(['Saison', 'Compagnie Operating', 'Numéro de vol', 'Compagnie Marketing',
       'Numéro de vol Marketing', 'Aéroport de départ', 'Aéroport d'arrivée',
       'Jour de départ en Local', 'Jour d'arrivée  en Local',
       'Heure de départ en Local', 'Heure d'arrivée en Local',
       'Date de début de période', 'Date de fin  de période',
       'Compagnie propriétaire', 'Type Avion'],
      dtype='object')
object
object
int64
object
float64
object
object
int64
int64
object
object
object
object
object
object


Affichez le nombre de valeurs nulles par colonne. Puis supprimez les colonnes contenant les valeurs nulles.

In [4]:
for column in df:
    print("column", column, df[column].isna().sum())

column Saison 0
column Compagnie Operating 0
column Numéro de vol 0
column Compagnie Marketing 8289
column Numéro de vol Marketing 8289
column Aéroport de départ 0
column Aéroport d'arrivée 0
column Jour de départ en Local 0
column Jour d'arrivée  en Local 0
column Heure de départ en Local 0
column Heure d'arrivée en Local 0
column Date de début de période 16391
column Date de fin  de période 16391
column Compagnie propriétaire 0
column Type Avion 0


In [5]:
df = df.drop(columns=['Compagnie Marketing', 'Numéro de vol Marketing', 'Date de début de période', 'Date de fin  de période'])
print(df)

      Saison Compagnie Operating  Numéro de vol  \
0        W19         Sky Bahamas              3   
1        W19         Sky Bahamas              3   
2        W19         Sky Bahamas              3   
3        W19         Sky Bahamas              3   
4        W19         Sky Bahamas              3   
...      ...                 ...            ...   
16512    W19  Sham Wing Airlines           9399   
16513    W19  Sham Wing Airlines           9400   
16514    W19  Sham Wing Airlines           9401   
16515    W19  Sham Wing Airlines           9404   
16516    W19  Sham Wing Airlines           9405   

                                   Aéroport de départ  \
0      Licenciado Benito Juarez International Airport   
1      Licenciado Benito Juarez International Airport   
2      Licenciado Benito Juarez International Airport   
3      Licenciado Benito Juarez International Airport   
4      Licenciado Benito Juarez International Airport   
...                                          

Affichez le nombre de valeurs uniques par colonne. Quelle colonne vous semble inutile et pourquoi?

In [6]:
for column in df:
    print(df[column].value_counts())
    print('//////////////////////////////////')

Saison
W19    16517
Name: count, dtype: int64
//////////////////////////////////
Compagnie Operating
Sham Wing Airlines                         7825
Thai Flying Helicopter Service             4697
Wiking Helikopter Service                   868
Hairlines                                   852
Star Aviation                               536
Malaysia Wings                              316
Servicio Tecnico Aero De Mexico             166
Zephyr Express                              144
Walsten Air Services                        126
Skyfreight                                   92
Servicios Aereos de Chihuahua Aerochisa      70
Tradewind Aviation                           66
Trans Atlantic Airlines                      56
TG Aviation                                  56
VIM-Aviaservice                              54
Tramson Limited                              45
United Arabian Airlines                      42
Slate Falls Airways                          42
Servicos De Alquiler               

In [7]:
# La colonne Saison semble inutile car l'ensemble des valeurs valent "W19". Cette information est donc peu pertinente.

Divisez le jeu de données en variable cible y et variables indépendantes X. La colonne cible est `Compagnie propriétaire`. Cette division nous permettra d'évaluer de manière supervisée le résultat de clustering via la variable cible.

In [8]:
data = df.drop(columns=['Compagnie propriétaire'])
print("data")
print(data.columns)

target = df['Compagnie propriétaire']
print("target")
print(target)

data
Index(['Saison', 'Compagnie Operating', 'Numéro de vol', 'Aéroport de départ',
       'Aéroport d'arrivée', 'Jour de départ en Local',
       'Jour d'arrivée  en Local', 'Heure de départ en Local',
       'Heure d'arrivée en Local', 'Type Avion'],
      dtype='object')
target
0               Sky Bahamas
1               Sky Bahamas
2               Sky Bahamas
3               Sky Bahamas
4               Sky Bahamas
                ...        
16512        SASCO Airlines
16513        SASCO Airlines
16514        SASCO Airlines
16515    Sham Wing Airlines
16516    Sham Wing Airlines
Name: Compagnie propriétaire, Length: 16517, dtype: object


La distance de Gower est une mesure de distance qui peut être utilisée pour calculer la distance entre deux observations avec un mélange de colonnes catégorielles et numériques. Pour plus d'informations consulter [ceci](https://www.thinkdatascience.com/post/2019-12-16-introducing-python-package-gower/).

Il n'est pas inclus dans le paquet Scikit learn, mais peut être installé via la commande !pip install gower


Calculez la matrice de distances en utilisant la distance de Gower sur X.

Astuce: vous alimentez la méthode gower.gower_matrix avec votre jeu de données pré-traité, et elle retourne une matrice de distances qui peut ensuite être utilisée par plusieurs algorithmes scikit-learn. Ces derniers ont la possibilité de fonctionner directement sur la matrice de distances sans accéder aux données originales.

In [9]:
# pip install gower

In [10]:
from gower import gower_matrix

gm_result = gower_matrix(data)
print(gm_result)

[[0.         0.03333334 0.13333334 ... 0.84995747 0.84998935 0.85      ]
 [0.03333334 0.         0.1        ... 0.8166241  0.81665605 0.81666666]
 [0.13333334 0.1        0.         ... 0.71662414 0.716656   0.71666664]
 ...
 [0.84995747 0.8166241  0.71662414 ... 0.         0.5000319  0.50004256]
 [0.84998935 0.81665605 0.716656   ... 0.5000319  0.         0.40001065]
 [0.85       0.81666666 0.71666664 ... 0.50004256 0.40001065 0.        ]]


Utiliser LabelEncoder de scikit-learn pour encoder la colonne cible.

In [23]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit(target)
target = le.transform(target)
print(target)

[13 13 13 ...  5 12 12]


Soit k le nombre de clusters recherché. Pour l'instant, k est égal au nombre de valeurs uniques de y. 

Clusterisez X en utilisant un algorithme de clustering hiérarchique agglomératif de type `single` (voir paramètre  `linkage`). Utilisez le paramètre `affinity` pour indiquer à l'algorithme qu'on lui fournit une matrice de distances au lieu des données originales.  




In [28]:
from sklearn.cluster import AgglomerativeClustering

clustering = AgglomerativeClustering(n_clusters=5, linkage='single', affinity='precomputed')
print(clustering)

clustering_result = clustering.fit_predict(gm_result, target)
print(clustering_result)

AgglomerativeClustering(affinity='precomputed', linkage='single', n_clusters=5)




[0 0 0 ... 0 0 0]


Evaluer le résultat du clustering en utilisant le score [rand_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.rand_score.html) et la variable cible y. Quelle est le score obtenu?

In [29]:
from sklearn.metrics.cluster import rand_score

rand_score(clustering_result, target)

0.17400028472686419

On souhaite savoir si le score peut être amélioré. Pour cela, faîtes varier:
- les valeurs de k de 30 à 60 par pas de 2 
- les types de clustering hiérarchique agglomératif (voir les valeurs possibles de linkage adaptés pour la matrice de distances)

A chaque combinaison de k et linkage, calculez le score.

Quelle est la combinaison ayant le meilleur score?



In [53]:
import warnings
warnings.filterwarnings('ignore')


linkage_list = ['complete', 'average', 'single']
for linkage in linkage_list:
    print("_____", linkage, "____")
    
    for i in range(30, 61):
        if i %2 == 0:
            
            clustering = AgglomerativeClustering(n_clusters=i, linkage=linkage, affinity='precomputed')

            clustering_result = clustering.fit_predict(gm_result, target)
            print("number ", i, " :", rand_score(clustering_result, target))
        
warnings.filterwarnings('default')

# ward crée un message d'erreur
# complete 0.8596689089041634 avec 48 clusters
# average  0.8595277038520371 avec 34 clusters
# single   0.27879818752538266 avec 60 clusters

_____ complete ____
number  30  : 0.852477480763451
number  32  : 0.8545726308860494
number  34  : 0.8540519904098456
number  36  : 0.8541783857939916
number  38  : 0.8542836077518378
number  40  : 0.8541836791505667
number  42  : 0.8595941054178267
number  44  : 0.8595689583083359
number  46  : 0.8595808646948703
number  48  : 0.8596689089041634
number  50  : 0.8588934175028838
number  52  : 0.8589004850870089
number  54  : 0.8592546414342574
number  56  : 0.859093120743531
number  58  : 0.8589123841420245
number  60  : 0.8589082711599766
_____ average ____
number  30  : 0.8465212449159399
number  32  : 0.8591407096320747
number  34  : 0.8595277038520371
number  36  : 0.8594745356776852
number  38  : 0.8565251976309869
number  40  : 0.856594612451004
number  42  : 0.8565023526183999
number  44  : 0.8565545970213828
number  46  : 0.8561083494664626
number  48  : 0.8551055589877653
number  50  : 0.8550966145348269
number  52  : 0.8542344425867516
number  54  : 0.8536355528103743
number 

In [None]:
# Le meilleur est donc le clustering hiérarchique agglomératif "complete" avec 48 clusters pour un score de 0.8596689089041634