# Analyse de données - Projet Vélib' en [Python](https://www.python.org/) <a href="https://www.python.org/"><img src="https://s3.dualstack.us-east-2.amazonaws.com/pythondotorg-assets/media/community/logos/python-logo-only.png" style="max-width: 35px; display: inline" alt="Python"/></a>&nbsp;

---
_Etudiantes (<small>INSA Toulouse</small>) :_ Nina Moser , Cassandra Jan, Illana Rabasquinho , Manon Lacave-Pistaa

Nous avons choisi d'interprêter ce notebook plutôt que celui codé en R, mis à part pour la dernière partie (ACM).

# Introduction

On s'intéresse dans cette étude à deux jeux de données : loading et coord. Le premier est composé de 1189 individus représentant des stations de Vélib' dans la ville de Paris. Les variables correspondent quant à elles à la densité de vélos présents à la station pour chaque heure de la semaine, du lundi au dimanche (soit un total de 168 créneaux donc 168 variables). Le second jeu de données regroupe ces mêmes stations Vélib' et permet d'obtenir des informations supplémentaires pour chacune d'elles : leur nom, leur latitude, leur longitude ainsi qu'une variable dite bonus (liée à leur altitude).

L'objectif est alors d'essayer de repérer des comportements/ habitudes de vie chez les utilisateurs permettant d'expliquer ce qui influence la présence ou non des Vélib' au niveau d'une station à un créneau donné.

In [None]:
# Importation
!pip install dash
! pip install prince

import pandas as pd
import numpy as np
import random as rd

import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style('darkgrid')

import plotly.express as px
import dash
from dash import dcc, html, Input, Output
from dash.dependencies import Input, Output

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from matplotlib import colors

from yellowbrick.cluster import KElbowVisualizer, SilhouetteVisualizer

from scipy.spatial.distance import cdist
from matplotlib.patches import Ellipse
from sklearn.metrics import  confusion_matrix, ConfusionMatrixDisplay

import matplotlib.cm as cm
import matplotlib.patches as mpatches
import plotly.express as px

import folium
import numpy as np
from scipy.optimize import curve_fit

from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

from sklearn.cluster import AgglomerativeClustering
import scipy.cluster.hierarchy as sch

from sklearn.mixture import GaussianMixture
from sklearn.metrics import silhouette_score

import prince

import statsmodels.graphics.mosaicplot as sp

from matplotlib.lines import Line2D

from scipy.cluster.hierarchy import dendrogram, linkage, fcluster, cut_tree

from scipy.spatial.distance import squareform, pdist

%matplotlib inline

In [None]:
!pip install scikit-learn
from sklearn.cluster import KMeans

In [None]:
loading = pd.read_csv('velibLoading.csv', sep = " ")
loading.head()

In [None]:
coord = pd.read_csv('velibCoord.csv', sep= " ")
coord.head()

In [None]:
loading.describe()

In [None]:
coord.describe()

# Analyse exploratoire


On veut dans un premier temps s'assurer qu'il n'y ait aucune valeur manquante dans notre jeu de données et qu'il n'y ait pas non plus de valeur duppliquée.

In [None]:
loading_missing_value = loading.isna().sum().sort_values(ascending=False)

print('Nombre de valeur(s) manquante(s) dans le jeu de données  Loading :')
print(loading_missing_value.sum())

print('')

coord_missing_value = coord.isna().sum().sort_values(ascending=False)

print('Nombre de valeur(s) manquante(s) pour chaque variable de Coord :')
print(coord_missing_value)

In [None]:
print('Nombre de valeur(s) dupliquée(s) dans Loading :')
print(loading.duplicated().sum())

print('')

print('Nombre de valeur(s) dupliquée(s) dans Coord :')
print(coord.duplicated().sum())

On veut ensuite savoir si certaines stations sont présentes plusieurs fois.

In [None]:
# On classe les stations par ordre décroissant du nombre d'occurences de leur nom
station_names = coord.names.value_counts().sort_values(ascending=False)
print(station_names)

print('')

# On affiche en particulier la station apparaissant le plus, ainsi que les informations fournies par coord à chaque occurence
name = station_names.index[0]
coord[coord.names == name]

L'affichage obtenu nous permet de savoir que certaines des stations sont répertoriées dans plusieurs lignes du tableau coord. Cependant l'affichage des coordonnées géographiques des stations portant le même nom nous révèle qu'elles ont en fait des coordonnées géographiques différentes. Par exemple la station "Porte des Lilas" regroupe trois pôles de dépot/récupération des Vélib' situés dans un même secteur géographique mais distincts les uns des autres.

# Evolution de la densité de Vélib' (loading) des stations

On s'intéresse dans un premier temps à l'évolution au cours du temps de la densité de Vélib' d'une station quelconque de notre jeu de données afin de repérer une éventuelle tendance ou périodicité. On choisit de manière arbitraire la première station (parmi les 1189).

In [None]:
i = 1 #numéro de la station
loading_data = loading.to_numpy() #transforme le tableau de données (type dataframe) en numpy (tableau)

n_steps    = loading.shape[1]  # on récupère le nombre de colonnes de loading donc le nombre de variables (temps d'observation)
time_range = np.linspace(1, n_steps, n_steps)
time_tick  = np.linspace(1, n_steps, 8)

# --- #

plt.figure(figsize = (20, 6))

plt.plot(time_range, loading_data[i, :], linewidth = 2, color = 'purple') #on represente heure par heure l'evolution du loading de la i ème station
plt.vlines(x = time_tick, ymin = 0, ymax = 1,
           colors = "orange", linestyle = "dotted", linewidth = 3) #le début d'une nouvelle journée est délimité par une ligne en pointillés

plt.xlabel('Time', fontsize = 20)
plt.ylabel('Loading', fontsize = 20)
plt.title(coord.names[1 + i], fontsize = 25) #nom station = numéro de colonne +1 puisque la premiere colonne est une etiquette
plt.xticks(fontsize = 15)
plt.yticks(fontsize = 15)
plt.tight_layout()
plt.show()

L'observation effectuée sur la station Lemercier semble révéler une certaine périodicité : en effet au début de chaque journée (minuit) beaucoup de vélos ont été ramenés à la station (la station est même totalement remplie à minuit entre mardi et samedi).
Du lundi au vendredi la présence ou non des vélos semble être en adéquation avec des horaires de travail dits "de bureau" : les vélos sont récupérés par les usagers en début de matinée, la station se retrouve alors très largement vidée la majorité de la journée puis les vélos sont ramenés le soir. Ceci expliquerait les brutaux changements de valeur du loading.

Une étude d'un plus grand nombre de stations nous permettra de savoir si les observations précédentes se généralisent aux autres stations.

In [None]:
stations = np.arange(loading.shape[0])
fig, axs = plt.subplots(4, 4, figsize = (15,12))

for i in range(4):
    for j in range(4):
        k_station = stations[4 * i + j]
        axs[i, j].plot(time_range, loading_data[k_station, :], linewidth = 1, color = 'purple')
        axs[i, j].vlines(x = time_tick, ymin = 0, ymax = 1, colors = "orange", linestyle = "dotted", linewidth = 3)
        axs[i, j].set_title(coord.names[1 + k_station], fontsize = 12)

for ax in axs.flat:
    ax.set_xlabel('Time', fontsize = 12)
    ax.set_ylabel('Loading', fontsize = 12)
    ax.tick_params(axis='x', labelsize=10)
    ax.tick_params(axis='y', labelsize=10)

plt.tight_layout()
plt.show()


Les résultats obtenus nous permettent de remarquer que la station de Stalingrad par exemple a un comportement relativement proche de celui de Lemercier : la station est remplie le matin avant les horaires "de bureau" et le soir après les horaires de travail. Au contraire, elle est plutôt vide entre ces deux créneaux. Enfin on a de nouveau une variation relativement cyclique vis-à-vis des jours de la semaine (comportement similaire observé tous les jours).


Par ailleurs chez certaines stations telles que Rivoli Musée du Louvre ou Quai de la Rapée, si l'on semble pouvoir repérer à nouveau une périodicité, cette fois-ci le cycle est inversé par rapport aux stations évoquées précedemment : les stations sont relativement remplies en pleine journée.
Cela laisse à penser que les usagers vivent dans des quartiers proches de Lemercier et Stalingrad, prennent le Vélib' au matin pour venir travailler, effectuer des activités ou changer de mode de transport au niveau des stations comme Rivoli ou Quai de la Rapée, puis reprennent le vélo le soir pour rentrer. Cela peut donc être un marqueur du dynamisme ou de l'attractivité de certains quartiers, selon le moment de la journée.

De plus, pour beaucoup de stations la densité de Vélib' semble être différente le weekend des autres jours de la semaine. Par exemple, au niveau des stations Pelleport, Evangile et Euryale Dehaynin on remarque très nettement que les stations sont beaucoup moins remplies le samedi et le dimanche que le reste de la semaine. Les habitudes des usagers semblent donc différer ces jours-là. Il sera intéressant de le vérifier par la suite.

La represéntation de l'occupation des stations heure par heure (avec affichage des premier et troisième quartile ainsi que de la médiane via la fonction boxplot) devrait nous permettre de déceler ou non certains comportements récurrents :

In [None]:
plt.figure(figsize = (20,6))

bp = plt.boxplot(loading_data, widths = 0.75, patch_artist = True) #utilise la version numpy des données

for box in bp['boxes']:
    box.set_alpha(0.8) #définit l'opacité de la boîte

for median in bp['medians']:
    median.set(color = "Purple", linewidth=5)

plt.vlines(x = time_tick, ymin = 0, ymax = 1,
           colors = "Orange", linestyle = "dotted", linewidth = 5) #à nouveau marque le début d'une journée


plt.xlabel('Time', fontsize = 20)
plt.ylabel('Loading', fontsize = 20)
plt.title("Boxplots représentant le chargement des stations en fonction des heures de la semaine", fontsize = 25)
plt.xticks(ticks = np.arange(0, 168, 5), labels=np.arange(0, 168, 5), fontsize = 15)
plt.yticks(fontsize = 15)

plt.tight_layout()
plt.show()

Si l'on s'appuie sur l'évolution de la médiane au cours du temps, on relève à nouveau une certaine périodicité : du lundi au vendredi globalement la médiane augmente sur les 8 premières heures de la journée. S'en suit une rupture soudaine ("chute" de la médiane et des premiers et troisièmes quartiles) vers 9h. Cela signifie que beaucoup d'usagers utilisent simultanément des Vélib' entre 8h et 9h ce qui semble logique puisque beaucoup d'entreprises et de lieux touristiques ouvrent vers 9h. D'autre part on observe un autre point bas vers 19h ce qui est à nouveau cohérent : beaucoup d'activités cessent vers 18h-19h ce qui entraine un retour des usagers à leur domicile.

Le comportement est cependant différent le samedi et le dimanche : pas de rupture nette dans les valeurs de la médiane et le pic "bas" de la médiane est cette fois-ci situé vers 17h.

In [None]:
mean_per_hour_per_day = loading.mean(axis = 0).to_numpy() #moyenne heure par heure transformée en numpy
mean_per_hour_per_day = mean_per_hour_per_day.reshape((7, 24))
#passe d'un tableau de 1 ligne 168 colonnes à un tableau de 7 lignes 24 colonnes
#chaque jour de la semaine se retrouve donc sur une ligne différente

mean_per_hour = mean_per_hour_per_day.mean(axis=0) #fait la moyenne des 7 jours de la semaine, heure par heure

# --- #

days = ["Monday", "Tuesday", "Wednesday","Thursday", "Friday", "Saturday", "Sunday"]
plt.figure(figsize = (15,7))

plt.plot(mean_per_hour_per_day.transpose())
plt.plot(mean_per_hour, color = "black", linewidth = 3)

plt.xlabel('Heure de la journée', fontsize = 20)
plt.ylabel("Densité moyenne de Vélib'", fontsize = 20)
plt.title("Densité moyenne de Vélib' par jour de la semaine")
plt.legend(days + ['Weekly'])
plt.xticks(ticks = np.arange(0,24,4), labels=np.arange(0,24,4), fontsize = 15)

plt.tight_layout
plt.show()

Le tracé de l'évolution moyenne de l'occupation des stations permet de confirmer les observations précédentes : on a une forte baisse de diponibilité des Vélib' sur l'ensemble des stations entre 7h et 9h et entre 17h et 19h du lundi au vendredi.
En revanche les courbes du samedi et du dimanche diffèrent. On constate qu'entre minuit et 19h, si les courbes du lundi au vendredi sont au-dessus de la courbe hebdomadaire alors samedi et dimanche sont en-dessous de cette même courbe et inversement. Ainsi si la tendance moyenne de toutes les courbes se ressemble, c'est-à-dire que quel que soit le jour de la semaine étudié les courbes croissent et décroissent à peu près en même temps (exepté entre 9h et 10h), les fluctuations sont beaucoup plus harmonieuses/douces avec les courbes du weekend. Il n'y a pas en fait cet effet de rupture, correspondant à ce que l'on appelle communément les "heures de pointe", dû au fait que beaucoup d'utilisateurs ont besoin d'un Vélib' pour se déplacer au même moment.

In [None]:
loading_mean = pd.Series(loading.mean(axis=1)) #Associe à chaque station sa densité moyenne

n_stations = loading.shape[0]  # on récupère le nombre de stations total
stations   = np.arange(n_stations)

plt.figure(figsize = (20,6))
plt.plot(loading_mean) #on affiche cette fois-ci la densité moyenne de vélibs sans distinction parmi les jours

plt.hlines(y = loading.mean().mean(), xmin=0, xmax=n_stations,
           colors = "OrangeRed", linewidth = 3)
plt.xlabel('Numéro de la station', fontsize = 20)
plt.ylabel('Densité moyenne de vélibs', fontsize = 20)
plt.title("Densité moyenne de vélibs par station, sans distinction de jour ou d'horaire", fontsize = 25)
plt.xticks(fontsize = 15)
plt.yticks(fontsize = 15)

plt.tight_layout()
plt.show()

L'occupation moyenne des stations révèle de fortes disparités : tandis que certaines stations sont pratiquement tout le temps remplies, d'autres au contraire demeurent très souvent vides. Il sera donc intéressant de chercher à déterminer quelles raisons peuvent justifier de telles différences d'utilisation.

En représentant sur une carte les différentes stations de Vélib' en fonction de leurs coordonées géographiques et de leur remplissage, cela va nous permettre d'identifier les déplacements des usagers au sein de la ville et de tenter d'expliquer pourquoi certaines stations sont plus occupées que d'autres.

In [None]:
# Comparaison de la densité de vélibs des stations pour un même jour en fonction de l'heure de la journée

hours = [6, 20, 23] #en dehors des heures d'activités
hours2 = [10, 14, 18] #pendant les heures d'activités (travail de bureau, loisirs...)

s, n = 10, len(hours)
fig, axs = plt.subplots(1,n, figsize = (s*n, s))

for (i,h) in enumerate(hours):
    im = axs[i].scatter(coord.longitude, coord.latitude, c = loading_data[:,h], cmap = cm.plasma_r)
    axs[i].set_title('Densité de vélibs des stations - Lundi {} h'.format(h), fontsize = 25)
    plt.colorbar(im, ax=axs[i])

for ax in axs.flat:
    ax.set_xlabel('Longitude', fontsize = 20)
    ax.set_ylabel('Latitude', fontsize = 20)
    ax.tick_params(axis='x', labelsize=15)
    ax.tick_params(axis='y', labelsize=15)

plt.tight_layout()
plt.show()

n2 = len(hours2)
fig, axs = plt.subplots(1,n2, figsize = (s*n2, s))

for (i,h) in enumerate(hours2):
    im = axs[i].scatter(coord.longitude, coord.latitude, c = loading_data[:,h], cmap = cm.plasma_r)
    axs[i].set_title('Densité de vélibs des stations - Lundi {} h'.format(h), fontsize = 25)
    plt.colorbar(im, ax=axs[i])

for ax in axs.flat:
    ax.set_xlabel('Longitude', fontsize = 20)
    ax.set_ylabel('Latitude', fontsize = 20)
    ax.tick_params(axis='x', labelsize=15)
    ax.tick_params(axis='y', labelsize=15)

plt.tight_layout()
plt.show()

Entre 10h et 19h, les stations les plus occupées sont celles qui suivent le cours de la Seine, tandis que les stations plus en périphéries sont beaucoup plus désertes (notamment au Sud et au Nord-Est). Ceci s'explique par le fait que le bord de Seine rassemle d'avantage d'activités touristiques et de bureaux d'entreprises au niveau desquels les usagers viennent travailler. En revanche le soir et tôt le matin, d'avantage de stations sont remplies en périphérie ce qui laisse penser qu'il s'agit de quartiers plus résidentiels.

In [None]:
# Comparaison de la densité de vélibs des stations pour un même horaire en fonction du jour de la semaine

h = 16
hours = np.arange(h, 168, 24)

load_per_hour = loading_data[:, hours]

days = ["Lundi", "Mardi", "Mercredi", "Jeudi", "Vendredi", "Samedi", "Dimanche"]

s, m = 10, 3
k = 1 + len(days)//m

fig = plt.figure(figsize=(s+1, s))
fig.subplots_adjust(left=0, right=1, bottom=0, top=1, hspace=.3, wspace=.25)

for (i,d) in enumerate(days):
    ax = fig.add_subplot(k, m, i+1)
    im = ax.scatter(coord.longitude, coord.latitude, c = load_per_hour[:,i], cmap = cm.plasma_r, s=5)
    plt.colorbar(im)

    ax.set_title('Densité de vélibs des stations - ' + d + ' {} h'.format(h))
    ax.set_xlabel('Longitude')
    ax.set_ylabel('Latitude')
    ax.tick_params(axis='x')
    ax.tick_params(axis='y')

plt.show()

En comparant la densité de présence des vélos aux différentes stations sur un même horaire (ici 16h), on constate que le comportement est globalement le même pour tous les jours de la semaine avec comme évoqué précédemment une forte densité pour les stations proches de la Seine et beaucoup plus faible lorsque l'on s'en éloigne. On relève tout de même que certaines stations situées au bord de la Seine, côté Nord, regroupent un peu plus de Vélib' en semaine que le weekend.


In [None]:
loading_mean = loading.mean(axis=1)
index_station_moins_remplie = loading_mean.idxmin() #station la moins remplie en moyenne
index_station_plus_remplie = loading_mean.idxmax() #station la plus remplie en moyenne

fig, ax = plt.subplots(figsize=(8, 6))

im = ax.scatter(coord.longitude, coord.latitude, c='pink', alpha=0.5, label='Autres stations')

ax.scatter(coord.loc[index_station_moins_remplie, 'longitude'],
           coord.loc[index_station_moins_remplie, 'latitude'],
           c='yellow', label='Station la moins remplie en moyenne')#station la moins remplie en jaune

ax.scatter(coord.loc[index_station_plus_remplie, 'longitude'],
           coord.loc[index_station_plus_remplie, 'latitude'],
           c='blue', label='Station la plus remplie en moyenne')#station la plus remplie en violet

ax.legend()
ax.set_title('Carte des stations Velib à Paris')
ax.set_xlabel('Longitude')
ax.set_ylabel('Latitude')

plt.show()


La station la plus occupée en moyenne se trouve dans la zone en bord de Seine, qui se trouve être la zone la plus occupée en journée. La station la moins occupée en moyenne, quant à elle, se situe dans la zone la plus déserte en journée, c'est-à-dire en périphérie Nord-Est. Cela confirme nos précédentes observations, car même en dehors des heures dites "de bureau", la répartition de l'occupation des stations reste environ la même, quoique moins marquée.

In [None]:
# Définition des heures et des jours de la semaine
hours = np.arange(0, 24)
days = ['Lundi', 'Mardi', 'Mercredi', 'Jeudi', 'Vendredi', 'Samedi', 'Dimanche']

# Création de l'application Dash
app = dash.Dash(__name__)

# Mise en page de l'application
app.layout = html.Div([
    html.Label('Jour de la semaine'),
    dcc.Slider(
        id='day-slider',
        min=0,
        max=6,
        step=1,
        marks={i: days[i] for i in range(len(days))},
        value=0
    ),
    html.Label('Heure du jour'),
    dcc.Slider(
        id='hour-slider',
        min=0,
        max=23,
        step=1,
        marks={i: str(i) + 'h' for i in range(24)},
        value=18
    ),
    dcc.Graph(id='bike-station-map')
])

# Callback pour mettre à jour la carte en fonction des curseurs
@app.callback(
    Output('bike-station-map', 'figure'),
    [Input('day-slider', 'value'),
     Input('hour-slider', 'value')]
)
def update_map(day, hour):
    selected_hour_index = day * 24 + hour
    load_per_hour = loading_data[:, selected_hour_index]
    fig = px.scatter_mapbox(coord, lat='latitude', lon='longitude',
                            mapbox_style="carto-positron",
                            color=load_per_hour,
                            color_continuous_scale=px.colors.sequential.Plasma_r,
                            zoom=10, opacity=0.9,
                            title='Stations loading at {}h on {}'.format(hour, days[day]))
    return fig

# Exécution de l'application
if __name__ == '__main__':
    app.run_server(debug=True)

Pour la suite de notre étude et afin d'essayer d'en tirer une information quelconque, nous avons rajouté au jeu de données coord une nouvelle variable "localisation". Cette variable comporte deux modalités : 1 et 0. La valeur 1 indique que la station est située près de la Seine tandis que la valeur 0 signifie que la station en est éloignée. Pour déterminer si la station est proche ou non de la Seine, nous avons arbitrairement défini une parabole "haute" passant au Nord de la Seine, ainsi qu'une parabole "basse" passant au "Sud".

In [None]:
# Coordonnées de points le long de la Seine à Paris (choix arbitraire) respectivement au Nord et au Sud
seine_paris_dessus = [
    (48.829, 2.246),
    (48.841, 2.258),
    (48.851, 2.272),
    (48.864, 2.286),
    (48.872, 2.299),
    (48.874, 2.316),
    (48.871, 2.334),
    (48.865, 2.346),
    (48.859, 2.359),
    (48.849, 2.371),
    (48.840, 2.382),
    (48.834, 2.389),
    (48.824, 2.400)
]

seine_paris_dessous = [
    (48.821, 2.261),
    (48.833, 2.277),
    (48.843, 2.283),
    (48.850, 2.295),
    (48.856, 2.302),
    (48.857, 2.310),
    (48.858, 2.319),
    (48.855, 2.326),
    (48.852, 2.336),
    (48.847, 2.347),
    (48.841, 2.355),
    (48.835, 2.367),
    (48.829, 2.374),
    (48.814, 2.391)
]

latitudes_dessus, longitudes_dessus = zip(*seine_paris_dessus)
latitudes_dessous, longitudes_dessous = zip(*seine_paris_dessous)

def parabole(x, a, b, c):
    return a * x ** 2 + b * x + c

popt_dessus, _ = curve_fit(parabole, longitudes_dessus, latitudes_dessus)
popt_dessous, _ = curve_fit(parabole, longitudes_dessous, latitudes_dessous)

longitudes_parabole_dessus = np.linspace(min(longitudes_dessus)-0.05, max(longitudes_dessus)+0.05, 100)
latitudes_parabole_dessus = parabole(longitudes_parabole_dessus, *popt_dessus)

longitudes_parabole_dessous = np.linspace(min(longitudes_dessous)-0.05, max(longitudes_dessous)+0.05, 100)
latitudes_parabole_dessous = parabole(longitudes_parabole_dessous, *popt_dessous)

carte = folium.Map(location=[48.8566, 2.3522], zoom_start=13)

for lat, lon in zip(latitudes_parabole_dessus, longitudes_parabole_dessus):
    folium.CircleMarker(
        location=[lat, lon],
        radius=1,
        color='blue'
    ).add_to(carte)

for lat, lon in zip(latitudes_parabole_dessous, longitudes_parabole_dessous):
    folium.CircleMarker(
        location=[lat, lon],
        radius=1,
        color='red'
    ).add_to(carte)

display(carte)

In [None]:
def point_entre_paraboles(x, y, a1, b1, c1, a2, b2, c2):
    y1 = a1 * x ** 2 + b1 * x + c1
    y2 = a2 * x ** 2 + b2 * x + c2
    return min(y1, y2) < y < max(y1, y2)

localisation = [] #creation de la variable localisation
for i in range (coord.shape[0]):
  if point_entre_paraboles(coord.iloc[i,0], coord.iloc[i,1], *popt_dessus, *popt_dessous):
    localisation.append(1) #on affecte 1 aux stations situees entre les deux paraboles
  else :
    localisation.append(0) #0 en dehors des paraboles

coord['localisation'] = localisation

On veut maintenant représenter les stations de Vélib' en les discriminant par rapport à leur altitude en distinguant deux catégories : collines et vallées.

In [None]:
plt.figure(figsize=(15, 6))

plt.subplot(1,2,1)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,2,2)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

La représentation des stations de la ville en fonction de l'altitude ne révèle ici aucune information particulière. Cependant son analyse combinée avec la suite de notre étude pourra se révéler intéressante. Il en va de même avec la modalité "localisation".

# Analyse en Composantes Principales (ACP)

In [None]:
ss = StandardScaler()
loading_scaled = ss.fit_transform(loading_data) #standardisation des données
pca = PCA()
loading_pca = pca.fit_transform(loading_scaled)

In [None]:
explained_variance_ratio = 100*pca.explained_variance_ratio_

plt.subplot(1,2,1)
n_bars=10
bars = plt.bar(np.arange(1, n_bars+1), pca.explained_variance_ratio_[:n_bars], color='skyblue')
for bar, percentage in zip(bars, 100*pca.explained_variance_ratio_):
    plt.text(bar.get_x() + bar.get_width() / 2, bar.get_height(), f'{percentage:.3g}%',
             ha='center', color='black', fontsize=10)
plt.title('Pourcentage de variance expliquée par composante principale')
plt.xlabel('Composantes Principales')
plt.ylabel('Pourcentage de Variance Expliquée')


plt.subplot(1,2,2)
plt.plot(np.cumsum(explained_variance_ratio), color='skyblue')
plt.xlabel('Nombre de composantes')
plt.ylabel('Pourcentages cumulés de variance');

plt.tight_layout()
plt.show()

print("Variance cumulée des 5 premières composantes:", round(sum([explained_variance_ratio[i] for i in range(5)]),2))

Le graphe ci-dessus permet de connaître le pourcentage d'inertie de chacune des composantes principales de notre ACP et donc de déterminer avec lesquelles nous allons travailler pour la suite de notre étude. D'après la méthode du coude, on ne garde que 5 composantes principales car la 5ème composante explique 3.28% de la variance tandis que la 6ème explique seulement 1.93% de la variance. Le coude se situe donc à cet endroit. De plus les cinq premières composantes cumulent 76.22% de l'inertie totale ce qui est satisfaisant.

In [None]:
box = plt.boxplot(loading_pca[:,:5], patch_artist=True)
plt.setp(box["boxes"], facecolor="skyblue", alpha=.5)
plt.title("Boxplots des 5 premières composantes principales")
plt.tight_layout()
plt.show()

## Corrélations des variables

In [None]:
coord1 = pca.components_[0] * np.sqrt(pca.explained_variance_[0])
coord2 = pca.components_[1] * np.sqrt(pca.explained_variance_[1])
coord3 = pca.components_[2] * np.sqrt(pca.explained_variance_[2])
coord4 = pca.components_[3] * np.sqrt(pca.explained_variance_[3])
coord5 = pca.components_[4] * np.sqrt(pca.explained_variance_[4])

fig = plt.figure(figsize=(12, 12))
ax = fig.add_subplot(3, 2, 1)
for i, j, nom in zip(coord1, coord2, loading.columns):
    plt.text(i, j, nom, fontsize=10)
    plt.arrow(0, 0, i, j, color = 'purple', alpha=0.7, width = 0.0001)
plt.axis((-1, 1, -1, 1))
plt.gcf().gca().add_artist(plt.Circle((0, 0), radius = 1, color = 'cornflowerblue', fill = False))
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')

#----------------------------------------

ax = fig.add_subplot(3, 2, 2)
for i, j, nom in zip(coord1, coord3, loading.columns):
    plt.text(i, j, nom, fontsize=10)
    plt.arrow(0, 0, i, j, color = 'purple', alpha=0.7, width = 0.0001)
plt.axis((-1, 1, -1, 1))
plt.gcf().gca().add_artist(plt.Circle((0, 0), radius = 1, color = 'cornflowerblue', fill = False))
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 3')

#----------------------------------------

ax = fig.add_subplot(3, 2, 3)
for i, j, nom in zip(coord1, coord4, loading.columns):
    plt.text(i, j, nom, fontsize=10)
    plt.arrow(0, 0, i, j, color = 'purple', alpha=0.7, width = 0.0001)
plt.axis((-1, 1, -1, 1))
plt.gcf().gca().add_artist(plt.Circle((0, 0), radius = 1, color = 'cornflowerblue', fill = False))
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 4')

#----------------------------------------

ax = fig.add_subplot(3, 2, 4)
for i, j, nom in zip(coord1, coord5, loading.columns):
    plt.text(i, j, nom, fontsize=10)
    plt.arrow(0, 0, i, j, color = 'purple', alpha=0.7, width = 0.0001)
plt.axis((-1, 1, -1, 1))
plt.gcf().gca().add_artist(plt.Circle((0, 0), radius = 1, color = 'cornflowerblue', fill = False))
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 5')

#----------------------------------------

ax = fig.add_subplot(3, 2, 5)
for i, j, nom in zip(coord2, coord3, loading.columns):
    plt.text(i, j, nom, fontsize=10)
    plt.arrow(0, 0, i, j, color = 'purple', alpha=0.7, width = 0.0001)
plt.axis((-1, 1, -1, 1))
plt.gcf().gca().add_artist(plt.Circle((0, 0), radius = 1, color = 'cornflowerblue', fill = False))
plt.xlabel('Principal Component 2')
plt.ylabel('Principal Component 3')

#----------------------------------------

ax = fig.add_subplot(3, 2, 6)
for i, j, nom in zip(coord2, coord4, loading.columns):
    plt.text(i, j, nom, fontsize=10)
    plt.arrow(0, 0, i, j, color = 'purple', alpha=0.7, width = 0.0001)
plt.axis((-1, 1, -1, 1))
plt.gcf().gca().add_artist(plt.Circle((0, 0), radius = 1, color = 'cornflowerblue', fill = False))
plt.xlabel('Principal Component 2')
plt.ylabel('Principal Component 4')

#----------------------------------------

plt.grid(True)
fig.suptitle('Variables factor map - PCA')
plt.show()

La représentation des graphes des variables selon les différentes composantes principales est difficile à exploiter : il y a beaucoup de variables ce qui rend illisibles les graphes. Afin de pouvoir mieux comprendre à quoi est corrélée chacune des dimensions, nous avons représenté pour chaque composante sa corrélation avec chaque variable. Comme les variables sont triées par ordre chronologique dans notre tableau de données, cela facilite les interprétations.

In [None]:
# Définition du vecteur de jours
time_tick = 1 + 24 * np.arange(0, 7)

# Tracer pour la première dimension
plt.plot(coord1, color='black')
plt.xlabel("Heures de la semaine")
plt.ylabel("Corrélation avec dim 1")
plt.ylim(-1, 1)
plt.axhline(0, color='#A10684') # Ajout d'une ligne horizontale à y=0
for t in time_tick :
  plt.axvline(t, color='#048B9A') # Ajout de lignes verticales pour les jours
  plt.axvline(t+11, color='pink', linestyle='--')
plt.show()

# Tracer pour la deuxième dimension
plt.plot(coord2, color='black')
plt.xlabel("Heures de la semaine")
plt.ylabel("Corrélation avec dim 2")
plt.ylim(-1, 1)
plt.axhline(0, color='#A10684')
for t in time_tick :
  plt.axvline(t, color='#048B9A')
  plt.axvline(t+8, color='pink', linestyle='--') #on trace des lignes en pointillés aux heures 'de pointe'
  plt.axvline(t+19, color='pink', linestyle='--')
plt.show()

# Tracer pour la troisième dimension
plt.plot(coord3, color='black')
plt.xlabel("Heures de la semaine")
plt.ylabel("Corrélation avec dim 3")
plt.ylim(-1, 1)
plt.axhline(0, color='#A10684')
for t in time_tick :
  plt.axvline(t, color='#048B9A')
plt.show()

# Tracer pour la deuxième dimension
plt.plot(coord4, color='black')
plt.xlabel("Heures de la semaine")
plt.ylabel("Corrélation avec dim 4")
plt.ylim(-1, 1)
plt.axhline(0, color='#A10684')
for t in time_tick :
  plt.axvline(t, color='#048B9A')
plt.show()

# Tracer pour la troisième dimension
plt.plot(coord5,color='black')
plt.xlabel("Heures de la semaine")
plt.ylabel("Corrélation avec dim 5")
plt.ylim(-1, 1)
plt.axhline(0, color='#A10684')
for t in time_tick :
  plt.axvline(t, color='#048B9A')
plt.show()


La dimension 2 est corrélée positivement aux heures d'activités c'est-à-dire de 8h à 19h et négativement aux heures en dehors. Elle permet donc de distinguer les "horaires de bureaux" du reste de la journée.

La dimension 1, elle, est corrélée positivement à toutes les heures de la semaine mais les horaires du samedi et du dimanche ont un plus fort taux de corrélation.  Par ailleurs, en semaine les valeurs des corrélations ont tendance à baisser de minuit à 11h puis à remonter le reste de la journée.

Les dimensions 3 et 4 permettent plutôt de dissocier les jours de la semaine : globalement la dimension 3 est positivement corrélée au weekend tandis que la dimension 4 l'est pour les jours du lundi au vendredi.

NB : Certaines composantes principales peuvent être de signe opposé entre les codages python et R (dépend du choix du signe du vecteur unitaire effectué par l'algorithme). Cela n'impacte cependant pas les dissociations effectuées par chacune des composantes et relevées précédemment.

## Analyse des individus et habillages

Pour les graphes des individus nous avons ensuite essayé de représenter les points selon différents habillages afin de repérer certains clusters. Nous avons notamment essayé d'exploiter les variables bonus et localisation faisant respectivement les distinctions entre stations plus en altitude ou non et entre stations près de la Seine ou non.

In [None]:
## Pour les dimensions 1 et 2 ##

plt.figure(figsize=(20,15))

# Graphe des individus sans habillage
plt.subplot(2,2,1)
plt.scatter(loading_pca[:, 0], loading_pca[:, 1], s=3, linewidths=2, alpha=0.7)
plt.title("Graphe des individus")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')
plt.grid(True)

# Graphe des individus habillage = localisation
plt.subplot(2,2,2)
couleurs = ['yellow' if valeur == 0 else 'blue' for valeur in coord['localisation']]
plt.scatter(loading_pca[:, 0], loading_pca[:, 1], c=couleurs, s=3, linewidths=2, alpha=0.7)
proxy_blue = mpatches.Patch(color='yellow', label='Autre')
proxy_red = mpatches.Patch(color='blue', label='Seine')
plt.legend(handles=[proxy_blue, proxy_red])
plt.title("Graphe des individus")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')
plt.grid(True)

# Graphe des individus habillage = bonus
plt.subplot(2,2,3)
couleurs = ['lightgreen' if valeur == 0 else 'red' for valeur in coord['bonus']]
plt.scatter(loading_pca[:, 0], loading_pca[:, 1], c=couleurs, s=3, linewidths=2, alpha=0.7)
proxy_green = mpatches.Patch(color='lightgreen', label='Vallée')
proxy_yellow = mpatches.Patch(color='red', label='Colline')
plt.legend(handles=[proxy_green, proxy_yellow])
plt.title("Graphe des individus")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')
plt.grid(True)

plt.show()

In [None]:
plt.figure(figsize=(20, 8))


# Graphe des individus habillage = latitude
plt.subplot(1,2,1)
cmap = cm.get_cmap('viridis')
plt.scatter(loading_pca[:, 0], loading_pca[:, 1], c=coord['latitude'], cmap=cmap, s=30, alpha=0.7)
plt.colorbar(label='Latitude')
plt.title("Graphe des individus avec coloriage par latitude")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')
plt.grid(True)

# Graphe des individus habillage = longitude
plt.subplot(1,2,2)
cmap = cm.get_cmap('viridis')
plt.scatter(loading_pca[:, 0], loading_pca[:, 1], c=coord['longitude'], cmap=cmap, s=30, alpha=0.7)
plt.colorbar(label='Longitude')
plt.title("Graphe des individus avec coloriage par longitude")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')
plt.grid(True)

plt.show()


In [None]:
## Pour les dimensions 1 et 3 ##

plt.figure(figsize=(20,15))

# Graphe des individus sans habillage
plt.subplot(2,2,1)
plt.scatter(loading_pca[:,0], loading_pca[:, 2], s=3, linewidths=2, alpha=0.7)
plt.title("Graphe des individus")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 3')
plt.grid(True)

# Graphe des individus habillage = localisation
plt.subplot(2,2,2)
couleurs = ['yellow' if valeur == 0 else 'blue' for valeur in coord['localisation']]
plt.scatter(loading_pca[:, 0], loading_pca[:, 2], c=couleurs, s=3, linewidths=2, alpha=0.7)
proxy_blue = mpatches.Patch(color='yellow', label='Autre')
proxy_red = mpatches.Patch(color='blue', label='Seine')
plt.legend(handles=[proxy_blue, proxy_red])
plt.title("Graphe des individus")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 3')
plt.grid(True)

# Graphe des individus habillage = bonus
plt.subplot(2,2,3)
couleurs = ['lightgreen' if valeur == 0 else 'red' for valeur in coord['bonus']]
plt.scatter(loading_pca[:, 0], loading_pca[:, 2], c=couleurs, s=3, linewidths=2, alpha=0.7)
proxy_green = mpatches.Patch(color='lightgreen', label='Vallée')
proxy_yellow = mpatches.Patch(color='red', label='Colline')
plt.legend(handles=[proxy_green, proxy_yellow])
plt.title("Graphe des individus")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 3')
plt.grid(True)

plt.show()

In [None]:
## Pour les dimensions 2 et 3 ##

plt.figure(figsize=(20,15))

# Graphe des individus sans habillage
plt.subplot(2,2,1)
plt.scatter(loading_pca[:,1], loading_pca[:, 2], s=3, linewidths=2, alpha=0.7)
plt.title("Graphe des individus")
plt.xlabel('Composante Principale 2')
plt.ylabel('Composante Principale 3')
plt.grid(True)

# Graphe des individus habillage = localisation
plt.subplot(2,2,2)
couleurs = ['yellow' if valeur == 0 else 'blue' for valeur in coord['localisation']]
plt.scatter(loading_pca[:, 1], loading_pca[:, 2], c=couleurs, s=3, linewidths=2, alpha=0.7)
proxy_blue = mpatches.Patch(color='yellow', label='Autre')
proxy_red = mpatches.Patch(color='blue', label='Seine')
plt.legend(handles=[proxy_blue, proxy_red])
plt.title("Graphe des individus")
plt.xlabel('Composante Principale 2')
plt.ylabel('Composante Principale 3')
plt.grid(True)

# Graphe des individus habillage = bonus
plt.subplot(2,2,3)
couleurs = ['lightgreen' if valeur == 0 else 'red' for valeur in coord['bonus']]
plt.scatter(loading_pca[:, 1], loading_pca[:, 2], c=couleurs, s=3, linewidths=2, alpha=0.7)
proxy_green = mpatches.Patch(color='lightgreen', label='Vallée')
proxy_yellow = mpatches.Patch(color='red', label='Colline')
plt.legend(handles=[proxy_green, proxy_yellow])
plt.title("Graphe des individus")
plt.xlabel('Composante Principale 2')
plt.ylabel('Composante Principale 3')
plt.grid(True)

plt.show()

In [None]:
## Pour les dimensions 2 et 4 ##

plt.figure(figsize=(20,15))

# Graphe des individus sans habillage
plt.subplot(2,2,1)
plt.scatter(loading_pca[:,1], loading_pca[:, 3], s=3, linewidths=2, alpha=0.7)
plt.title("Graphe des individus")
plt.xlabel('Composante Principale 2')
plt.ylabel('Composante Principale 4')
plt.grid(True)

# Graphe des individus habillage = localisation
plt.subplot(2,2,2)
couleurs = ['yellow' if valeur == 0 else 'blue' for valeur in coord['localisation']]
plt.scatter(loading_pca[:, 1], loading_pca[:, 3], c=couleurs, s=3, linewidths=2, alpha=0.7)
proxy_blue = mpatches.Patch(color='yellow', label='Autre')
proxy_red = mpatches.Patch(color='blue', label='Seine')
plt.legend(handles=[proxy_blue, proxy_red])
plt.title("Graphe des individus")
plt.xlabel('Composante Principale 2')
plt.ylabel('Composante Principale 4')
plt.grid(True)

# Graphe des individus habillage = bonus
plt.subplot(2,2,3)
couleurs = ['lightgreen' if valeur == 0 else 'red' for valeur in coord['bonus']]
plt.scatter(loading_pca[:, 1], loading_pca[:, 3], c=couleurs, s=3, linewidths=2, alpha=0.7)
proxy_green = mpatches.Patch(color='lightgreen', label='Vallée')
proxy_yellow = mpatches.Patch(color='red', label='Colline')
plt.legend(handles=[proxy_green, proxy_yellow])
plt.title("Graphe des individus")
plt.xlabel('Composante Principale 2')
plt.ylabel('Composante Principale 4')
plt.grid(True)

plt.show()

La première dimension semble être corrélée négativement avec les stations situées en altitude. Cependant il y a trop d'individus qui se superposent pour pouvoir identifier nettement un cluster.

La représentation de la dimension 3 en fonction de la dimension 2 semble indiquer que la seconde composante a tendance, pour une majorité de points, à être corrélée positivement avec les stations situées près de la Seine. L'idée est intéressante puisque nous avons dit précédemment que la seconde dimension était postivement corrélée aux heures d'activités (8h-19h). Cela irait donc en faveur de notre hypothèse : les lieux de travail et de loisirs ouverts à ces heures là sont situés à proximités de la Seine. Cependant, là encore il y a  trop de superpositions des individus pour pouvoir relever une séparation nette entre clusters. Cela peut notamment s'expliquer par le fait que les choix des stations classées proches ou non de le Seine ont été arbitraires.

Les dimensions 3 et 4 ne mettent en évidence aucune distinction des individus avec les habillages utilisés.

De même, les habillages selon la latitude ou la longitude ne fournissent aucune information.

# Méthodes de Clustering

## Jeu de données réduit

Pour nos méthodes de clustering, on ne gardera que les 5 premières composantes principales.

In [None]:
loading_reduced = loading_pca[:,:5]

### Clustering avec la méthode $k$-means



On va d'abord chercher à déterminer le nombre de clusters optimal sur notre jeu de données réduit. Pour cela nous allons comparer les valeurs obtenues via la méthode du coude d'une part et le score silhouette d'autre part.

In [None]:
kmeans = KMeans(init='k-means++', n_init='auto', max_iter=100, random_state=42)
visualizer = KElbowVisualizer(kmeans, k=(3,12)) # on teste une initialisation à 3

visualizer.fit(loading_reduced)
visualizer.show()

In [None]:
kmeans2 = KMeans(init='k-means++', n_init='auto', max_iter=100, random_state=42)
visualizer2 = KElbowVisualizer(kmeans2, k=(2,12)) # on teste une initialisation à deux cette fois-ci

visualizer2.fit(loading_reduced)
visualizer2.show()

En utilisant la méthode du coude, on remarque que le nombre de clusters est optimal pour k=6, c'est-à-dire lorsque l'on a 6 classes, si l'initialisation est faite à k=3. En revanche, si elle est faite à k=2, alors le nombre de clusters optimal est 2.

In [None]:
fig, ax = plt.subplots(4, 2, figsize=(15,8))

for k in range(2, 10):
    kmeans = KMeans(n_clusters=k, init='k-means++', n_init='auto', max_iter=100, random_state=42)
    q, mod = divmod(k, 2) #fait une division euclidiennne et renvoie le quotient et le reste

    visualizer = SilhouetteVisualizer(kmeans, colors='yellowbrick', ax=ax[q-1][mod])
    visualizer.fit(loading_reduced)

    silhouette_scores = visualizer.silhouette_score_ #recuperation du score silhouette moyen

    ax[q-1][mod].text(0.5, 0, f'Silhouette Score: {silhouette_scores:.2f}',
                       transform=ax[q-1][mod].transAxes,
                       ha='center')

Le score silhouette étant le plus élevé pour k = 3, il nous donne cette fois-ci un nombre de clusters plus faible.

Pour la suite, nous déciderons donc de comparer la méthode $k$-means appliquée respectivement à 6, 4 et 3 clusters afin de voir quelles informations il est possible de tirer de chaque et quel nombre de clusters nous semble le plus pertinent.

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
K = 6 #nb de clusters choisis = nb de classes
kmeans_pca = KMeans(n_clusters=K, init='k-means++', n_init='auto', random_state=0)
#n_init = auto -> par defaut l'algo va tourner 10 fois puis garde le "tour" qui lui semble le meilleur
clusters_pca = kmeans_pca.fit_predict(loading_reduced)
cmap = plt.get_cmap('Set3',K)
plt.bar(*np.unique(clusters_pca, return_counts=True), color=cmap.colors) #représente les clusters sous forme de barplot + compte le nombre d'occurences de toutes les classes
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 6 clusters')

plt.subplot(1,3,2)
K4 = 4
kmeans_pca_4 = KMeans(n_clusters=K4, init='k-means++', n_init='auto', random_state=0)
clusters_pca_4 = kmeans_pca_4.fit_predict(loading_reduced)
cmap4 = plt.get_cmap('Set3',K4)
plt.bar(*np.unique(clusters_pca_4, return_counts=True), color=cmap4.colors)
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 4 clusters')

plt.subplot(1,3,3)
K3 = 3
kmeans_pca_3 = KMeans(n_clusters=K3, init='k-means++', n_init='auto', random_state=0)
clusters_pca_3 = kmeans_pca_3.fit_predict(loading_reduced)
cmap3 = plt.get_cmap('Set3',K3)
plt.bar(*np.unique(clusters_pca_3, return_counts=True), color=cmap3.colors)
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 3 clusters')

plt.show()

**En utilisant 6 classes:**

Les clusters formés en utilisant 6 classes regroupent un nombre d'individus relativement homogène pour les classes 0, 1, 2 et 4.

En revanche la classe 5 concentre un plus grand nombre d'individus que les autres, par opposition à la classe 3 qui en rassemble le moins (deux fois moins que la 4 et trois fois moins que la 1). On peut donc s'attendre à ce que la classe trois soit plus hétérogène et au contraire que la classe 3 ait des caractéristiques "atypiques" permettant aux individus en faisant partie de se distinguer.

**En utilisant 4 classes :**

Les trois premières classes concentrent là encore un nombre de stations assez homogène tandis que la classe 4 en compte d'avantage, on pourra donc s'attendre à une classe plus "généraliste".

**En utilisant 3 classes :**

Comme précédemment deux classes ont des effectifs assez proches tandis que la dernière regroupe un plus grand nombre d'individus.

----


Ainsi peu importe le nombre total de clusters, il y a toujours une classe qui rassemble plus de stations que les autres.

#### Avec 6 clusters

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
plt.scatter(loading_pca[:, 0], loading_pca[:, 1], s=8, linewidths=1, alpha=0.7, c=clusters_pca, cmap = cmap)
plt.title("Graphe des individus de l'ACP pour 6 clusters")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')

plt.subplot(1,3,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_pca, cmap=cmap, s= 15)
plt.title('Stations loading - 6 Clusters - Méthode K-means', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)

plt.subplot(1,3,3)
x = np.arange(0, 168)
for i in range(K):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_pca == i], axis = 0), color=cmap.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 6 clusters - K-means")

plt.show()

On va essayer de caractériser chaque cluster :

In [None]:
plt.figure(figsize=(20, 10))

plt.subplot(2,3,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca == 0], axis = 0), color=cmap.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(2,3,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca == 1], axis = 0), color=cmap.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.subplot(2,3,3)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca == 2], axis = 0), color=cmap.colors[2])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 2")

plt.subplot(2,3,4)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca == 3], axis = 0), color=cmap.colors[3])
for t in time_tick:
    plt.axvline(t, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 3")

plt.subplot(2,3,5)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca == 4], axis = 0), color=cmap.colors[4])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 4")

plt.subplot(2,3,6)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca == 5], axis = 0), color=cmap.colors[5])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 5")

plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_pca, cmap=cmap, s= 15)
plt.title('Stations loading - 6 Clusters - Méthode K-means', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()


<p> <B> Cluster 0 : </B> Ce sont des zones où la densité de vélos est plus faible entre 8h et 18h, mais sans trop grande variation. On peut penser qu'il s'agit de zones de transition (sorties de métro, gares...) : les utilisateurs sollicitent beaucoup les vélos aux horaires de début et fin de journée de travail (c'est-à-dire 8h et 18h) ce qui explique une baisse du nombre de vélos plus à importante à ces horaires précis. Certaines stations du cluster sont donc à proximité des lieux de travail. De plus, la légère baisse observée entre 8h et 18h peut être dû à de courts trajets effectués par les utilisateurs en journée, pour se déplacer d'une activité du centre ville à une autre, ou d'un point de transport (gare par exemple) à un autre. Au delà de 18h et avant le lendemain matin, les Vélib' des stations ne sont pas spécialement sollicités.</p>

<p> <B> Cluster 1 : </B>
Regroupe des individus ayant une forte densité sur les heures d'activités (8h-18h) du lundi au vendredi et une faible densité en dehors. De plus, leur densité globale est plus faible le weekend. En essayant de faire le lien avec la partie exploratoire, on peut penser qu'il s'agit des lieux de travail des habitants. <p>

<p> <B> Cluster 2 : </B>
Au contraire ce cluster regroupe des individus ayant une faible densité pendant les horaires d'activités du lundi au vendredi, et une densité plus forte en dehors (les valeurs mesurées augmentent de manière croissante entre 18h et 5h le lendemain). De plus, les tendances restent les mêmes le weekend mais avec, comme pour le cluster 1, des valeurs mesurées globalement plus faibles. Cette fois-ci on peut donc penser qu'au contraire il s'agit des zones résidentielles de la ville. </p>

 <p>  <B> Cluster 3 : </B>
 Ce cluster fait une distinction entre jours "ouvrés" et weekend.

Il regroupe des individus pour lesquels la densité de Vélib' est relativement faible du lundi au jeudi et au contraire assez importante le samedi et le dimanche (le vendredi étant une sorte de "jour de transition").

On peut penser qu'il s'agit de zones d'activités et de loisirs (centres commerciaux, parcs d'attractions, salles de sport...) soit qui ne sont ouvertes que le weekend, soit dans lesquelles d'avantage de personnes peuvent se rendre le weekend. Comme supposé précédemment, ce cluster semble bien rassembler des individus "atypiques", justifiant son plus faible effectif.</p>

<p> <B> Cluster 4 : </B>
Tendance très proche du cluster 2.  

- Même comportement du lundi au vendredi (avec des valeurs mesurées globalement un peu plus élevées).
- En revanche cette fois-ci il n'y a pas de dissociation forte avec les jours du weekend. Ce cluster regroupe donc des individus pour lesquels le comportement en weekend diffère peu du reste de la semaine. On peut par exemple supposer qu'il s'agit de zones résidentielles dans lesquelles les habitants travaillent également le weekend (artisanats notamment).

De plus les valeurs mesurées maximales sont un peu plus élevées que le cluster 2 indiquant qu'il y a davantage de Vélib' disponibles pendant les heures d'activités. </p>

<p> <B> Cluster 5 : </B>
Les valeurs mesurées restent globalement relativement faibles : il s'agit donc de stations où il y a souvent peu de vélos (et peu de variations dans le nombre de vélos). On peut penser qu'il s'agit de zones difficiles d'accès en vélo (exemple : en haut des côtes). Cette supposition est d'ailleurs corroborrée par la visualisation du graphe d'altitude des stations, ainsi que par le graphe en mosaïques qui suit.</p>

In [None]:
def no_label(*args):
    return ''

plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_pca,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_pca,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

En comparant le cluster 5 avec la carte discriminant les stations en fonction de leur altitude, nos hypothèses précédentes semblent cohérentes : la plupart des stations situées plus en hauteur (colline) appartiennent au cluster 5. En effet, étant plus élevées donc situées sûrement en haut d'une côte, ces stations restent plus souvent vides (car les utilisateurs n'ont pas forcément envie de remonter les vélos).

Par ailleurs les points du cluster 3 sont relativement éparpillés sur la carte. Donc les hypothèses faites précédemment restent plausibles : ces stations seraient caractérisées par leurs activités plutôt que par leur localisation.

Enfin, pour les autres clusters, les remarques précédentes paraissent relativement correctes et en adéquation avec la carte.

#### Avec 4 clusters

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
plt.scatter(loading_pca[:, 0], loading_pca[:, 1], s=8, linewidths=1, alpha=0.7, c=clusters_pca_4, cmap = cmap4)
plt.title("Graphe des individus de l'ACP pour 4 clusters")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')

plt.subplot(1,3,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_pca_4, cmap=cmap4, s= 15)
plt.title('Stations loading - 4 Clusters - Méthode K-means', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)

plt.subplot(1,3,3)
x = np.arange(0, 168)
for i in range(K4):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_4 == i], axis = 0), color=cmap4.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 4 clusters - K-means")

plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(20, 10))

plt.subplot(2,2,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_4 == 0], axis = 0), color=cmap4.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(2,2,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_4 == 1], axis = 0), color=cmap4.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.subplot(2,2,3)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_4 == 2], axis = 0), color=cmap4.colors[2])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 2")

plt.subplot(2,2,4)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_4 == 3], axis = 0), color=cmap4.colors[3])
for t in time_tick:
    plt.axvline(t+5, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 3")

plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_pca_4, cmap=cmap4, s= 15)
plt.title('Stations loading - 4 Clusters - Méthode K-means', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

<B> Cluster 0 : </B>
Correspond approximativement au cluster 0 précédent : zones de transition (sorties de métro, gares...) et courts déplacements en centre-ville, avec des variations un peu moins prononcées car les clusters sont moins nombreux et donc ils se sont remélangés.

<B> Cluster 1 : </B>
Correspond au cluster 1 précédent : lieux de travail des habitants.

<B> Cluster 2 : </B>
Correspond au cluster 2 précédent : zones résidentielles de la ville.

<B> Cluster 3 : </B>
Inclut notamment le cluster 5 précédent (c'est-à-dire comprenant les zones "difficiles d'accès", en hauteur) : on constate effectivement que les stations sont globalement moins remplies que dans les autres clusters.
Par ailleurs, si on s'intéresse au graphe affichant les stations selon leurs positions dans la ville, ce cluster représente un grand nombre de stations sur la carte qui, a priori, seraient au niveau des zones résidentielles. Pourtant les valeurs de loading mesurées dans ces stations ne sont pas révélatrices de zones résidentielles (pas d'effet de cycle avec les horaires de bureau). Ceci est dû au fait que la classe 3 est, comme mentionné auparavant, plus "généraliste" puisque c'est elle qui renferme le plus grand nombre d'individus.

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_pca_4,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

Le graphique en mosaïques ci-dessus confirme les remarques précédentes : la plupart des stations situées en altitude sont comprises dans le cluster 3.

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_pca_4,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

Là encore le graphique en mosaïques confirme nos observations : le cluster 1, définit comme la zone de travail, regroupe beaucoup de stations en bord de Seine. La plupart des autres stations proches de la Seine appartiennent au cluster 0.

#### Avec 3 clusters

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
plt.scatter(loading_pca[:, 0], loading_pca[:, 1], s=8, linewidths=1, alpha=0.7, c=clusters_pca_3, cmap = cmap3)
plt.title("Graphe des individus de l'ACP pour 3 clusters")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')

plt.subplot(1,3,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_pca_3, cmap=cmap3, s= 15)
plt.title('Stations loading - 3 Clusters - Méthode K-means', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)

plt.subplot(1,3,3)
x = np.arange(0, 168)
for i in range(K3):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_3 == i], axis = 0), color=cmap3.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 3 clusters - K-means")

plt.show()

In [None]:
plt.figure(figsize=(20, 5))

plt.subplot(1,3,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_3 == 0], axis = 0), color=cmap3.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(1,3,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_3 == 1], axis = 0), color=cmap3.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.subplot(1,3,3)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_3 == 2], axis = 0), color=cmap3.colors[2])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 2")

plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_pca_3, cmap=cmap3, s= 15)
plt.title('Stations loading - 3 Clusters - Méthode K-means', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

<B> Cluster 0 : </B>
Correspond à un mélange des clusters 0 et d'une partie du cluster 2 précédents : stations peu remplies sur les horaires d'activité => zones de transition (sorties de métro, gares...) et courts déplacements en journée en centre-ville, et quelques zones résidentielles.

<B> Cluster 1 : </B>
Correspond au cluster 1 précédent : stations remplies sur les horaires d'activités et peu remplies le weekend => lieux de travail.

<B> Cluster 2 : </B>
Inclut notamment le cluster 3 du cas à 4 clusters (avec des variations d'amplitude un peu plus importante) : on constate que les stations sont globalement moins remplies que dans les autres clusters, surtout le weekend. De plus, on a une baisse de la densité de Vélib' sur les horaires d'activités : on regroupe donc les zones en altitude ainsi que des zones résidentielles (ce que l'on visualise bien sur le graphe "Station loading").

<B> Conclusion du modèle $k$-means : </B> Après avoir analysé les 3 modèles (6 clusters, 4 clusters et 3 clusters), nous avons estimé que travailler avec 6 clusters était plus intéressant car la plus grande diversité de clusters nous permet de relever des caractéristiques plus distinctes et plus pertinentes chez chacun des clusters. On obtient un meilleur découpage de la ville et il est plus facile d'attribuer des caractéristiques à chacun des groupes. Par ailleurs le cas à 4 clusters ne semble pas apporter de réelle plus-value en terme d'interprétations par rapport au cas à 3 clusters.

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_pca_3,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

Comme dit précédemment, les zones en altitude appartiennent au troisième cluster.

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_pca_3,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

### Clustering agglomérant avec la méthode CAH

In [None]:
print("La taille de nos données réduites après ACP est de  : ", loading_reduced.shape)

La méthode CAH nécessite de travailler avec une quantité de données qui ne soit pas trop élevée (car c'est une méthode plus coûteuse que le $k$-means). Ici notre matrice réduite est de taille 1189 x 5. On estimera que sa taille est correcte pour pouvoir lui appliquer la méthode CAH.

Là encore nous allons utliser la méthode du coude afin de choisir le nombre de clusters avec lesquels nous allons travailler.

In [None]:
ac = AgglomerativeClustering(linkage='ward', compute_distances=True)
visualizer = KElbowVisualizer(ac, k=(3,12))

visualizer.fit(loading_reduced)
visualizer.show()
plt.show()

Une fois encore, pour une initialisation à k=3, le nombre de clusters optimal est de 6 pour la méthode CAH. Si on décide d'initialiser à k=2, alors on obtient à nouveau une valeur optimale pour 4 classes. Comme précédemment travailler avec 6 clusters nous a semblé pertinent, nous allons faire de même ici et conserver notre initialisation à k=3.

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
ac = AgglomerativeClustering(n_clusters=K, compute_distances=True, linkage='ward')
clusters_ac = ac.fit_predict(loading_reduced)
plt.bar(*np.unique(clusters_ac, return_counts=True), color=cmap.colors) # représente les clusters sous forme de barplot + compte le nombre d'occurences de toutes les classes
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 6 clusters')

plt.subplot(1,3,2)
ac4 = AgglomerativeClustering(n_clusters=K4, compute_distances=True, linkage='ward')
clusters_ac4 = ac4.fit_predict(loading_reduced)
plt.bar(*np.unique(clusters_ac4, return_counts=True), color=cmap3.colors)
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 4 clusters')

plt.subplot(1,3,3)
ac3 = AgglomerativeClustering(n_clusters=K3, compute_distances=True, linkage='ward')
clusters_ac3 = ac3.fit_predict(loading_reduced)
plt.bar(*np.unique(clusters_ac3, return_counts=True), color=cmap3.colors)
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 3 clusters')

plt.show()

Les observations sont globalement les mêmes que pour $k$-means : dans le cas à 6 clusters on peut s'attendre à une classe 2 très "généraliste" et à une classe 5 très "spécifique" (une classe "atypique"). Dans le cas à 3 clusters la classe 0 risque d'être plus hétérogène que les deux autres.

#### Avec 6 clusters

In [None]:
Z6_CAH = linkage(squareform(pdist(loading_reduced)),method='complete',metric='euclidean')
plt.title("CAH")

dendrogram(Z6_CAH,orientation='top',show_leaf_counts=False, no_labels=True, color_threshold=300)
plt.show()

In [None]:
plt.figure(figsize=(20,6))

plt.subplot(1,3,1)
plt.scatter(loading_reduced[:,0], loading_reduced[:,1], c=clusters_ac, s=4, linewidths=1, cmap=cmap)
plt.title("Graphe des individus - ACP")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')

plt.subplot(1,3,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - Méthode CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)
plt.tight_layout()

plt.subplot(1,3,3)
x = np.arange(0, 168)
for i in range(K):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_ac == i], axis = 0), color=cmap.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 6 clusters - CAH")

plt.show()

In [None]:
plt.figure(figsize=(20, 10))

plt.subplot(2,3,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac == 0], axis = 0), color=cmap.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(2,3,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac == 1], axis = 0), color=cmap.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.subplot(2,3,3)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac == 2], axis = 0), color=cmap.colors[2])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 2")

plt.subplot(2,3,4)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac == 3], axis = 0), color=cmap.colors[3])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 3")

plt.subplot(2,3,5)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac == 4], axis = 0), color=cmap.colors[4])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 4")

plt.subplot(2,3,6)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac == 5], axis = 0), color=cmap.colors[5])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+23, color='deeppink', linestyle='--')  # Lignes verticales en pointillés roses
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 5")

plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac, cmap=cmap, s= 15)
plt.title('Stations loading - 6 Clusters - Méthode CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

<B> Cluster 0 : </B> Stations dont la densité de Vélib' diminue pendant les heures d'activités tout en restant relativement élevée, ce qui correspond aux zones de transition (sorties de métro, gares...) et aux courts déplacements en centre-ville.

<B> Cluster 1 : </B> Stations remplies pendant les heures d'activités et très peu remplies le weekend. Correspond aux lieux de travail.

<B> Cluster 2 : </B> Stations globalement peu remplies, comprend notamment les zones "difficiles" d'accès (en haut des côtes), ainsi que quelques zones résidentielles.

<B> Cluster 3 : </B> Stations vides sur les heures d'activités avec une augmentation générale de la densité de Vélib' du lundi au samedi.

<B> Cluster 4 : </B> Stations vides sur les heures d'activités et peu remplies le weekend, ce qui correspond d'après nos suppositions aux quartiers résidentiels avec potentiellement quelques utilisateurs qui travaillent aussi le weekend.

<B> Cluster 5 : </B> Stations qui se remplissent beaucoup entre 8h et 23h et se vident "la nuit" : utilisateurs qui finissent leur service très tard notamment, ce qui est cohérent puisque la zone est en centre-ville, au bord de Seine donc dans la zone dite "d'activités". A nouveau on a bien là un cluster "atypique" avec un faible nombre d'individus.

<B> Comparaison avec $k$-means : </B> Ainsi, si on compare au cas à 6 clusters de la méthode $k$-means, les clusters 0, 1 et 2 ont des caractéristiques similaires à celles identifiées chez certains clusters de la méthode $k$-means. Le cluster 4 est lui caractéristique de zones résidentielles, tout comme l'était le cluster 2 de la méthode $k$-means. On a donc bien des similarités dans les attributs associés à chaque cluster entre les méthodes.

Il existe toutefois des différences entre les deux, en témoignent les clusters 4 et 5 de la méthode CAH qu'on ne retrouve pas du tout chez $k$-means.

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_ac,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_ac,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

#### Avec 4 clusters

In [None]:
Z4_CAH = linkage(squareform(pdist(loading_reduced)),method='complete',metric='euclidean')
plt.title("CAH")

dendrogram(Z4_CAH,orientation='top',show_leaf_counts=False, no_labels=True, color_threshold=390)
plt.show()

In [None]:
plt.figure(figsize=(20,6))

plt.subplot(1,3,1)
plt.scatter(loading_reduced[:,0], loading_reduced[:,1], c=clusters_ac4, s=4, linewidths=1, cmap=cmap4)
plt.title("Graphe des individus - ACP")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')

plt.subplot(1,3,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac4, cmap=cmap4, s= 15)
plt.title('Stations loading - 4 Clusters - Méthode CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)

plt.subplot(1,3,3)
x = np.arange(0, 168)
for i in range(K3):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_ac4 == i], axis = 0), color=cmap4.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 4 clusters - CAH")

plt.show()

In [None]:
plt.figure(figsize=(15, 10))

plt.subplot(2,2,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac4 == 0], axis = 0), color=cmap4.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(2,2,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac4 == 1], axis = 0), color=cmap4.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.subplot(2,2,3)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac4 == 2], axis = 0), color=cmap4.colors[2])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 2")

plt.subplot(2,2,4)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac4 == 3], axis = 0), color=cmap4.colors[3])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 3")


plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac4, cmap=cmap4, s= 15)
plt.title('Stations loading - 4 Clusters - Méthode CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

On retrouve les mêmes 4 clusters qu'avec la méthode $k$-means, dans un ordre différent.  

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_ac4,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_ac4,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

#### Avec 3 clusters

In [None]:
Z3_CAH = linkage(squareform(pdist(loading_reduced)),method='complete',metric='euclidean')
plt.title("CAH")

dendrogram(Z3_CAH,orientation='top',show_leaf_counts=False, no_labels=True, color_threshold=400)
plt.show()

In [None]:
plt.figure(figsize=(20,6))

plt.subplot(1,3,1)
plt.scatter(loading_reduced[:,0], loading_reduced[:,1], c=clusters_ac3, s=4, linewidths=1, cmap=cmap3)
plt.title("Graphe des individus - ACP")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')

plt.subplot(1,3,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac3, cmap=cmap3, s= 15)
plt.title('Stations loading - 3 Clusters - Méthode CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)

plt.subplot(1,3,3)
x = np.arange(0, 168)
for i in range(K3):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_ac3 == i], axis = 0), color=cmap3.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 3 clusters - CAH")

plt.show()

In [None]:
plt.figure(figsize=(20, 5))

plt.subplot(1,3,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac3 == 0], axis = 0), color=cmap3.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(1,3,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac3 == 1], axis = 0), color=cmap3.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.subplot(1,3,3)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac3 == 2], axis = 0), color=cmap3.colors[2])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 2")

plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac3, cmap=cmap3, s= 15)
plt.title('Stations loading - 3 Clusters - Méthode CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

<B> Cluster 0 : </B> Comprend le cluster 0 vu avec le cas de 6 clusters : Stations dont la densité de Vélib' diminue pendant les heures d'activités tout en restant relativement élevée. Correspond aux zones de transition (sorties de métro, gares...) et aux courts déplacements en centre-ville, ainsi que quelques quartiers résidentiels puisqu'on constate une baisse sur les horaires d'activités. Cette zone est donc relativement hétérogène comme annoncé plus tôt.

<B> Cluster 1 : </B> Stations remplies pendant les heures d'activités et très peu remplies le weekend. Correspond aux lieux de travail.

<B> Cluster 2 : </B> Stations globalement vides sur la semaine, surtout le weekend. Comprend notamment les zones difficles d'accès, en haut des collines si on compare avec la carte d'altitude et avec le graphe en mosaïques qui suit. On a également quelques quartiers résidentiels, d'où la baisse de densité sur les heures d'activités (même si leur amplitude reste relativement faible).

<B> Comparaison avec le cas à 3 clusters de $k$-means : </B> Même si les caractéristiques globales relevées pour les trois clusters se ressemblent entre les deux méthodes, dans $k$-means le cluster 0 était beaucoup plus groupé autour de la Seine et incluait moins de quartiers résidentiels que ce qu'on obtient ici avec la méthode CAH (la plupart étaient dans le cluster 3). Ici, avec CAH, les quartiers résidentiels sont très répartis entre les clusters 0 et 3. La méthode $k$-means semblait donc effectuer un découpage plus "intuitif" de la carte de la ville.

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_ac3,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_ac3,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

### Clustering avec les Modèles Mixtes Gaussiens (GMM)

In [None]:
k_max = 15

silhouette = np.zeros(k_max-2)
for k in range(2, k_max):
    gmm = GaussianMixture(n_components=k, init_params='kmeans', n_init=3)
    clusters_gmm = gmm.fit_predict(loading_reduced)
    silhouette[k-2] = silhouette_score(loading_reduced, clusters_gmm, metric='euclidean')

plt.scatter(range(2, k_max), silhouette)
plt.show()

In [None]:
k_max = 15

bic = []
for k in range(2, k_max):
    gmm = GaussianMixture(n_components=k, init_params='kmeans', n_init=3)
    gmm.fit(loading_reduced)
    bic.append(gmm.bic(loading_reduced))
bic = np.array(bic)

plt.scatter(range(2, k_max), bic)
plt.show()

Pour le clustering GMM, la méthode du coude n'est pas applicable, nous avons donc essayé de déterminer le nombre de clusters optimal avec les méthodes score silhouette et critère bic. Ces méthodes nous ont donné respectivement les résultats de 3 et 2 clusters.

Nous allons donc étudier le cas de 3 clusters et le comparer avec la méthode $k$-means vue précdémment, après avoir étudié le cas de 6 clusters avec cette méthode étant donné que c'est le cas qui nous a paru le plus intéressant précédemment.

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
gmm = GaussianMixture(n_components=K, n_init=3)
clusters_gmm = gmm.fit_predict(loading_reduced)
plt.bar(*np.unique(clusters_gmm, return_counts=True), color=cmap.colors) # représente les clusters sous forme de barplot + compte le nombre d'occurences de toutes les classes
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 6 clusters')

plt.subplot(1,3,2)
gmm4 = GaussianMixture(n_components=K4, n_init=3)
clusters_gmm4 = gmm4.fit_predict(loading_reduced)
plt.bar(*np.unique(clusters_gmm4, return_counts=True), color=cmap4.colors)
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 4 clusters')

plt.subplot(1,3,3)
gmm3 = GaussianMixture(n_components=K3, n_init=3)
clusters_gmm3 = gmm3.fit_predict(loading_reduced)
plt.bar(*np.unique(clusters_gmm3, return_counts=True), color=cmap3.colors)
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 3 clusters')


plt.show()

Cette fois-ci pour le cas à 6 clusters, les classes 2 et 3 ont des effectifs beaucoup plus élevés et se distinguent des autres. Les classes 0, 1, 4 et 5 sont elles d'effectifs assez homogènes (il n'y a a priori plus de classe "atypique" comme on avait pour les méthodes précédentes).

En revanche avec 3 clusters, on a toujours une classe de très grand effectif (ici la classe 0), que l'on peut s'attendre à être très hétérogène.

#### Avec 6 clusters

In [None]:
plt.figure(figsize=(20,6))

plt.subplot(1,3,1)
plt.scatter(loading_reduced[:,0], loading_reduced[:,1], c=clusters_gmm, s=4, linewidths=1, cmap=cmap)
plt.title("Graphe des individus - ACP")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')
plt.grid(True)

plt.subplot(1,3,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - Méthode GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,3,3)
x = np.arange(0, 168)
for i in range(K):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm == i], axis = 0), color=cmap.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 6 clusters - GMM")

plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(20, 10))

plt.subplot(2,3,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm == 0], axis = 0), color=cmap.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(2,3,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm == 1], axis = 0), color=cmap.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.subplot(2,3,3)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm == 2], axis = 0), color=cmap.colors[2])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 2")

plt.subplot(2,3,4)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm == 3], axis = 0), color=cmap.colors[3])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 3")

plt.subplot(2,3,5)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm == 4], axis = 0), color=cmap.colors[4])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés roses
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 4")

plt.subplot(2,3,6)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm == 5], axis = 0), color=cmap.colors[5])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 5")

plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm, cmap=cmap, s= 15)
plt.title('Stations loading - 6 Clusters - Méthode GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

<B> Cluster 0 : </B> Stations globalement vides donc qui regroupent une partie des zones difficiles d'accès et qui se vident d'autant plus sur les heures d'activités donc regroupant des quartiers résidentiels

<B> Cluster 1 : </B> Stations globalement vides sur les heures d'activités (8h - 18h). Ce qui corresoond aux quartiers résidentiels.

<B> Cluster 2 : </B> Stations très peu remplies. Comprend le reste des zones difficiles d'accès ainsi que quelques zones résidentielles.

<B> Cluster 3 : </B> Faibles variations de la densité de Vélib' (stations qui sont "moyennement remplies" en permanence puisque le remplissage varie entre 0.4 et 0.6) avec de plus faibles valeurs sur les heures "de pointe". Donc il s'agit des zones de transition (sorties de métro, gares...) et des courts déplacements en centre-ville.

<B> Cluster 4 : </B> Stations remplies sur les horaires d'activités (8h - 18h). Correspond aux zones de travail du centre-ville (ce qui explique qu'elles soient peu remplies le weekend).

<B> Cluster 5 : </B> Mêmes observations que pour le cluster 1 avec une baisse plus marquée sur les heures de travail : ce sont également des quartiers résidentiels. Cependant, et contrairement au cluster 1, la densité de Vélib' dans les stations de ce cluster est plus faible en weekend qu'en semaine.

<B> Comparaison avec les méthodes précédentes : </B> A nouveau on retrouve les caractéristiques des quartiers résidentiels, des zones de travail, des zones difficiles d'accès et de la zone centre-ville/zones de transition. De plus, la méthode GMM, tout comme la méthode $k$-means, fait une distinction sur les quartiers résidentiels en fonction de la densité de Vélib' le weekend (ce qui semble assez pertinent) alors que cela n'apparait pas via la méthode CAH.
En outre, les stations situées en altitude sont ici séparées en deux clusters (le 0 et le 2) qu'il semblerait judicieux de regrouper en un seul et même cluster.

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_gmm,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_gmm,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

#### Avec 4 clusters

In [None]:
plt.figure(figsize=(20,6))

plt.subplot(1,3,1)
plt.scatter(loading_reduced[:,0], loading_reduced[:,1], c=clusters_gmm4, s=4, linewidths=1, cmap=cmap4)
plt.title("Graphe des individus - ACP")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')
plt.grid(True)

plt.subplot(1,3,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm4, cmap=cmap4, s=10)
plt.title('Stations loading - 4 Clusters - Méthode GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,3,3)
x = np.arange(0, 168)
for i in range(K4):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm4 == i], axis = 0), color=cmap4.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 4 clusters - GMM")

plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(20, 10))

plt.subplot(2,2,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm4 == 0], axis = 0), color=cmap4.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(2,2,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm4 == 1], axis = 0), color=cmap4.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.subplot(2,2,3)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm4 == 2], axis = 0), color=cmap4.colors[2])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 2")

plt.subplot(2,2,4)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm4 == 3], axis = 0), color=cmap4.colors[3])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 3")

plt.show()

On retrouve les mêmes 4 clusters qu'avec la méthode $k$-means, dans un ordre différent.  

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm4, cmap=cmap4, s= 15)
plt.title('Stations loading - 4 Clusters - Méthode GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_gmm4,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_gmm4,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

#### Avec 3 clusters

In [None]:
plt.figure(figsize=(20,6))

plt.subplot(1,3,1)
plt.scatter(loading_reduced[:,0], loading_reduced[:,1], c=clusters_gmm3, s=4, linewidths=1, cmap=cmap3)
plt.title("Graphe des individus - ACP")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')
plt.grid(True)

plt.subplot(1,3,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm3, cmap=cmap3, s=10)
plt.title('Stations loading - 3 Clusters - Méthode GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,3,3)
x = np.arange(0, 168)
for i in range(K3):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm3 == i], axis = 0), color=cmap3.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 3 clusters - GMM")

plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(20, 5))

plt.subplot(1,3,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm3 == 0], axis = 0), color=cmap3.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(1,3,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm3 == 1], axis = 0), color=cmap3.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.subplot(1,3,3)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm3 == 2], axis = 0), color=cmap3.colors[2])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 2")

plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm3, cmap=cmap3, s= 15)
plt.title('Stations loading - 3 Clusters - Méthode GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

<B> Cluster 0 : </B> Stations globalement peu remplies avec une baisse sur les heures d'activités, ce qui correspond aux zones difficiles d'accès (collines) et quelques zones résidentielles.

<B> Cluster 1 : </B> Petites variations de densité de Vélib' qui font penser aux zones de transition et zones du centre-ville, et stations qui se vident d'avantage pendant les heures d'activités donc ce cluster inclut des zones résidentielles.

<B> Cluster 2 : </B> Stations remplies pendant les heures d'activités et très peu remplies le weekend. Correspond aux lieux de travail.




**Gobalement**, on observe les mêmes caractérisations pour 3 clusters qu'avec les méthodes $k$-means et CAH.

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_gmm3,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_gmm3,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

### Comparaison des méthodes

In [None]:
def plotKmeans(kmeans, data, n_clusters=6):
    kmeans.fit(data)
    clusters_kmeans = kmeans.predict(data)
    ax = plt.gca()
    ax.axis('equal')

    if n_clusters == 6 :
      Cmap = cmap
    elif n_clusters == 4 :
      Cmap = cmap4
    elif n_clusters == 3 :
      Cmap = cmap3
    elif n_clusters == 2 :
      Cmap = cmap2
    ax.scatter(data[:, 0], data[:, 1], c=clusters_kmeans, s=5, linewidths=1, cmap=Cmap)

In [None]:
def plotCAH(ac, data, n_clusters=6):
    ac.fit(data)
    clusters_ac = ac.fit_predict(data)
    ax = plt.gca()
    ax.axis('equal')

    if n_clusters == 6 :
      Cmap = cmap
    elif n_clusters == 4 :
      Cmap = cmap4
    elif n_clusters == 3 :
      Cmap = cmap3
    elif n_clusters == 2 :
      Cmap = cmap2
    ax.scatter(data[:, 0], data[:, 1], c=clusters_ac, s=5, linewidths=1, cmap=Cmap)

In [None]:
def plotGMM(gmm, data, n_clusters=6):
    gmm.fit(data)
    clusters_gmm = gmm.predict(data)
    ax = plt.gca()
    ax.axis('equal')

    if n_clusters == 6 :
      Cmap = cmap
    elif n_clusters == 4 :
      Cmap = cmap4
    elif n_clusters == 3 :
      Cmap = cmap3
    elif n_clusters == 2 :
      Cmap = cmap2
    ax.scatter(data[:, 0], data[:, 1], c=clusters_gmm, s=5, linewidths=1, cmap=Cmap)

In [None]:
def matchClasses(classif1, classif2):
    cm = confusion_matrix(classif1, classif2)
    K = cm.shape[0] #récupère le nb total de clusters (de classes)
    a, b = np.zeros(K), np.zeros(K)
    for j in range(K):
        for i in range(K):
            if (a[j] < cm[i,j]):
                a[j] = cm[i,j]
                b[j] = i
    a = a.astype(int)
    b = b.astype(int)

    print ("")
    print ("Classes size:", a)
    print ("Class (in the classif1 numbering):", b)
    print ("")

    table = cm.copy()
    for i in range(K):
        table[:,b[i]] = cm[:,i]

    clusters = classif2.copy()
    n = classif2.shape[0]
    for i in range(n):
        for j in range(K):
            if (classif2[i] == j):
                clusters[i] = b[j]

    return table, clusters

In [None]:
def diffPlot(classif1, classif2):
    n = classif1.shape[0]
    K = np.max(classif1)+1

    clusters = classif1.copy()
    idx = (classif1 != classif2)
    clusters[idx] = K+1

    nb_diff = np.sum(idx)
    print("Ratio du nb de points classés différemment:", nb_diff/n)
    print("Nb de stations classées différemment:", nb_diff)

    Cmap = 0
    if K == 6 :
      Cmap = cmap
    elif K == 4 :
      Cmap = cmap4
    elif K == 3 :
      Cmap = cmap3
    elif K == 2 :
      Cmap = cmap2
    bk = np.array([0,0,0,1]).reshape(1,-1)
    Cmap = colors.ListedColormap( np.concatenate((Cmap.colors, bk)) )

    plt.figure(figsize = (8,6))
    im = plt.scatter(coord.longitude, coord.latitude, c=clusters, cmap=Cmap, s=10)
    plt.title('Comparaison des méthodes', fontsize=15)
    plt.colorbar(im)
    plt.xlabel('Longitude', fontsize=10)
    plt.ylabel('Latitude', fontsize=10)
    plt.tick_params(axis='x', labelsize=10)
    plt.tick_params(axis='y', labelsize=10)

    plt.grid(False)
    plt.show()

#### Avec 6 clusters

In [None]:
# Comparaison des modèles pour 6 clusters
plt.figure(figsize=(20,6))

plt.subplot(1,3,1)
plotKmeans(kmeans_pca, loading_reduced, 6)
plt.title("K-means pour 6 clusters")

plt.subplot(1,3,2)
plotCAH(ac, loading_reduced, 6)
plt.title("CAH pour 6 clusters")

plt.subplot(1,3,3)
plotGMM(gmm, loading_reduced, 6)
plt.title("GMM pour 6 clusters")

plt.show()

##### $k$-means Vs GMM

In [None]:
plt.figure(figsize=(8,6))

cm6, clusters_kmeans6_sorted = matchClasses(clusters_gmm, clusters_pca)

ConfusionMatrixDisplay(cm6).plot()
plt.xlabel('Méthode k-means')
plt.ylabel('Méthode GMM')
plt.title("Matrice de confusion pour les méthodes K-means et GMM avec ajustement des classes")
plt.show()

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_kmeans6_sorted, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - Kmeans ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_gmm, clusters_kmeans6_sorted)

##### $k$-means Vs CAH

In [None]:
plt.figure(figsize=(8,6))

cm6bis, clusters_kmeans6_sorted_ac = matchClasses(clusters_ac, clusters_pca)

ConfusionMatrixDisplay(cm6bis).plot()
plt.xlabel('Méthode k-means')
plt.ylabel('Méthode CAH')
plt.title("Matrice de confusion pour les méthodes K-means et CAH avec ajustement des classes")
plt.show()

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_kmeans6_sorted_ac, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - Kmeans ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_ac, clusters_kmeans6_sorted_ac )

##### CAH Vs GMM

In [None]:
plt.figure(figsize=(8,6))

cm6ter, clusters_ac6_gmm6_sorted_ter = matchClasses(clusters_gmm,clusters_ac)

ConfusionMatrixDisplay(cm6ter).plot()
plt.xlabel('Méthode CAH')
plt.ylabel('Méthode GMM')
plt.title("Matrice de confusion pour les méthodes CAH et GMM avec ajustement des classes")

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac6_gmm6_sorted_ter, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - CAH ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_gmm, clusters_ac6_gmm6_sorted_ter)

Les méthodes $k$-means et CAH comptent environ 32% de différences dans la classification des stations, tandis que $k$-means et GMM en comportent 44%, et CAH et GMM environ 30%.

Dans les trois cas on a environ entre 30% et 40% de différence dans les classifications. Cela suit ce qui a été dit auparavant : on retrouve des caractéristiques communes pour certains clusters dans les trois modèles (avec 4 clusters "types" identifiés). Là ou la méthode CAH possède en plus 2 clusters "atypiques" (aux caractéristiques propres), la méthode GMM a tendance à subdiviser les clusters "types" (zones résidentilles et zones en altitude notamment).

#### Avec 4 clusters

In [None]:
plt.figure(figsize=(20,6))

plt.subplot(1,3,1)
plotKmeans(kmeans_pca_4, loading_reduced, 4)
plt.title("K-means pour 4 clusters")

plt.subplot(1,3,2)
plotCAH(ac4, loading_reduced, 4)
plt.title("CAH pour 4 clusters")

plt.subplot(1,3,3)
plotGMM(gmm4, loading_reduced, 4)
plt.title("GMM pour 4 clusters")

plt.show()

##### $k$-means Vs GMM

In [None]:
plt.figure(figsize=(8,6))

cm4, clusters_kmeans4_sorted = matchClasses(clusters_gmm4, clusters_pca_4)

ConfusionMatrixDisplay(cm4).plot()
plt.xlabel('Méthode k-means')
plt.ylabel('Méthode GMM')
plt.title("Matrice de confusion pour les méthodes K-means et GMM avec ajustement des classes")
plt.show()

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_kmeans4_sorted, cmap=cmap4, s=10)
plt.title('Stations loading - 4 Clusters - Kmeans ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm4, cmap=cmap4, s=10)
plt.title('Stations loading - 4 Clusters - GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_gmm4, clusters_kmeans4_sorted)

##### $k$-means Vs CAH

In [None]:
plt.figure(figsize=(8,6))

cm4bis, clusters_kmeans4_sorted_ac = matchClasses(clusters_ac4, clusters_pca_4)

ConfusionMatrixDisplay(cm4bis).plot()
plt.xlabel('Méthode k-means')
plt.ylabel('Méthode CAH')
plt.title("Matrice de confusion pour les méthodes K-means et CAH avec ajustement des classes")
plt.show()

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_kmeans4_sorted_ac, cmap=cmap4, s=10)
plt.title('Stations loading - 4 Clusters - Kmeans ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac4, cmap=cmap4, s=10)
plt.title('Stations loading - 4 Clusters - CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_ac4, clusters_kmeans4_sorted_ac )

##### CAH Vs GMM

In [None]:
plt.figure(figsize=(8,6))

cm4ter, clusters_ac4_gmm4_sorted_ter = matchClasses(clusters_gmm4,clusters_ac4)

ConfusionMatrixDisplay(cm4ter).plot()
plt.xlabel('Méthode CAH')
plt.ylabel('Méthode GMM')
plt.title("Matrice de confusion pour les méthodes CAH et GMM avec ajustement des classes")

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac4_gmm4_sorted_ter, cmap=cmap4, s=10)
plt.title('Stations loading - 4 Clusters - CAH ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm4, cmap=cmap4, s=10)
plt.title('Stations loading - 4 Clusters - GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_gmm4, clusters_ac4_gmm4_sorted_ter)

Cette fois-ci les méthodes $k$-means et CAH comptent environ 14% de différence dans la classification des stations, tandis que $k$-means et GMM en comportent 23%, et enfin CAH et GMM en comptent 19%.

Il y a donc moins de disparités dans les comparaisons des modèles 2 à 2. Cela est cohérent en vu des remarques précédentes : globalement les trois clusters pour les trois méthodes ont des caractéristiques assez similaires, bien que les stations ne soient pas systématiquement classées au même endroit. Cependant cette fois-ci, ce sont les modèles CAH et $k$-means qui classent les stations de manière plus similaires que $k$-means.

Comme il y a moins de stations, il y a moins de caratéristiques prises en compte pour classer les stations, ce qui explique la réduction des dissimilarités entre les modèles.

#### Avec 3 clusters

In [None]:
plt.figure(figsize=(20,6))

plt.subplot(1,3,1)
plotKmeans(kmeans_pca_3, loading_reduced, 3)
plt.title("K-means pour 3 clusters")

plt.subplot(1,3,2)
plotCAH(ac3, loading_reduced, 3)
plt.title("CAH pour 3 clusters")

plt.subplot(1,3,3)
plotGMM(gmm3, loading_reduced, 3)
plt.title("GMM pour 3 clusters")

plt.show()

##### $k$-means Vs GMM

In [None]:
plt.figure(figsize=(8,6))

cm3, clusters_kmeans3_sorted = matchClasses(clusters_gmm3, clusters_pca_3)

ConfusionMatrixDisplay(cm3).plot()
plt.xlabel('Méthode k-means')
plt.ylabel('Méthode GMM')
plt.title("Matrice de confusion pour les méthodes K-means et GMM avec ajustement des classes")
plt.show()

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_kmeans3_sorted, cmap=cmap3, s=10)
plt.title('Stations loading - 3 Clusters - Kmeans ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm3, cmap=cmap3, s=10)
plt.title('Stations loading - 3 Clusters - GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_gmm3, clusters_kmeans3_sorted)

##### $k$-means Vs CAH

In [None]:
plt.figure(figsize=(8,6))

cm3bis, clusters_kmeans3_sorted_ac = matchClasses(clusters_ac3, clusters_pca_3)

ConfusionMatrixDisplay(cm3bis).plot()
plt.xlabel('Méthode k-means')
plt.ylabel('Méthode CAH')
plt.title("Matrice de confusion pour les méthodes K-means et CAH avec ajustement des classes")
plt.show()

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_kmeans3_sorted_ac, cmap=cmap3, s=10)
plt.title('Stations loading - 3 Clusters - Kmeans ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac3, cmap=cmap3, s=10)
plt.title('Stations loading - 3 Clusters - CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_ac3, clusters_kmeans3_sorted_ac )

##### CAH Vs GMM

In [None]:
plt.figure(figsize=(8,6))

cm3ter, clusters_ac3_gmm3_sorted_ter = matchClasses(clusters_gmm3,clusters_ac3)

ConfusionMatrixDisplay(cm3ter).plot()
plt.xlabel('Méthode CAH')
plt.ylabel('Méthode GMM')
plt.title("Matrice de confusion pour les méthodes CAH et GMM avec ajustement des classes")

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac3_gmm3_sorted_ter, cmap=cmap3, s=10)
plt.title('Stations loading - 3 Clusters - CAH ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm3, cmap=cmap3, s=10)
plt.title('Stations loading - 3 Clusters - GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_gmm3, clusters_ac3_gmm3_sorted_ter)

Cette fois-ci les méthodes $k$-means et CAH comptent environ 17% de différence dans la classification des stations, tandis que $k$-means et GMM en comportent 21%, et enfin CAH et GMM en comptent 14%.

Globalement, les résultats pour 3 clusters sont similaires à ceux obtenus pour 4 clusters. Ainsi, ici la réduction du nombre de clusters n'a pas particulièrement amélioré les résultats.

## Jeu de données complet

### Clustering avec la méthode $k$-means



On va d'abord chercher à déterminer le nombre de clusters optimal sur notre jeu de données complet. Pour cela nous allons comparer les valeurs obtenues via la méthode du coude d'une part et le score silhouette d'autre part.

In [None]:
kmeans_complete = KMeans(init='k-means++', n_init='auto', max_iter=100, random_state=42)
visualizer = KElbowVisualizer(kmeans, k=(3,12)) # on teste une initialisation à 3

visualizer.fit(loading)
visualizer.show()

In [None]:
kmeans2 = KMeans(init='k-means++', n_init='auto', max_iter=100, random_state=42)
visualizer2 = KElbowVisualizer(kmeans2, k=(2,12)) # on teste une initialisation à deux cette fois-ci

visualizer2.fit(loading)
visualizer2.show()

En utilisant la méthode du coude, on remarque que le nombre de clusters est optimal pour k=7, c'est-à-dire lorsque l'on a 7 classes, si l'initialisation est faite à k=3. En revanche, si elle est faite à k=2, alors le nombre de clusters optimal est 4.

In [None]:
fig, ax = plt.subplots(4, 2, figsize=(15,8))

for k in range(2, 10):
    kmeans = KMeans(n_clusters=k, init='k-means++', n_init='auto', max_iter=100, random_state=42)
    q, mod = divmod(k, 2) #fait une division euclidiennne et renvoie le quotient et le reste

    visualizer = SilhouetteVisualizer(kmeans, colors='yellowbrick', ax=ax[q-1][mod])
    visualizer.fit(loading)

    silhouette_scores = visualizer.silhouette_score_ #recuperation du score silhouette moyen

    ax[q-1][mod].text(0.5, 0, f'Silhouette Score: {silhouette_scores:.2f}',
                       transform=ax[q-1][mod].transAxes,
                       ha='center')

Le score silhouette étant le plus élevé pour k = 2, il nous donne cette fois-ci un nombre de clusters plus faible.

Pour la suite, nous déciderons donc de comparer la méthode $k$-means appliquée respectivement à 6, 3 et 2 clusters : 6 et 3 pour pouvoir comparer avec nos clusters sur la base de données réduite, et 2 en se fiant au score silhouette.

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
kmeans_pca_complete = KMeans(n_clusters=K, init='k-means++', n_init='auto', random_state=0)
clusters_pca_complete = kmeans_pca_complete.fit_predict(loading)
plt.bar(*np.unique(clusters_pca_complete, return_counts=True), color=cmap.colors)
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 6 clusters')

plt.subplot(1,3,2)
kmeans_pca_complete3 = KMeans(n_clusters=K3, init='k-means++', n_init='auto', random_state=0)
clusters_pca_complete3 = kmeans_pca_complete3.fit_predict(loading)
plt.bar(*np.unique(clusters_pca_complete3, return_counts=True), color=cmap3.colors)
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 3 clusters')

plt.subplot(1,3,3)
K2 = 2
kmeans_pca_complete2 = KMeans(n_clusters=K2, init='k-means++', n_init='auto', random_state=0)
clusters_pca_complete2 = kmeans_pca_complete2.fit_predict(loading)
cmap2 = plt.get_cmap('Set3',K2)
plt.bar(*np.unique(clusters_pca_complete2, return_counts=True), color=cmap2.colors)
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 2 clusters')

plt.show()

<B> En utilisant 6 classes : </B>

Les clusters formés en utlisant 6 classes regroupent un nombre d'individus relativement homogène pour les classes 3, 4 et 5.

La classe 1 concentre un plus grand nombre d'individus que les autres, par opposition à la classe 0 qui en rassemble bien moins. On peut donc s'attendre à une classe d'individus relativement hétérogène dans le premier cas, et au contraire à une classe d'individus très spécifiques dans le second.

<B> En utilisant 3 classes : </B>

Les trois classes regroupent un nombre d'individus assez différents, avec notamment une classe 1 qui risque d'être plus hétérogène puisque contenant le plus d'individus.

<B> En utilisant 2 classes : </B>

Comme précédemment, les deux classes ont des effectifs assez différents.

Ainsi peu importe le nombre total de clusters, il y a toujours une classe qui rassemble plus de stations que les autres.

#### Avec 6 clusters

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
plt.scatter(loading_pca[:, 0], loading_pca[:, 1], s=8, linewidths=1, alpha=0.7, c=clusters_pca_complete, cmap = cmap)
plt.title("Graphe des individus de l'ACP pour 6 clusters")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')

plt.subplot(1,3,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_pca_complete, cmap=cmap, s= 15)
plt.title('Stations loading - 6 Clusters - Méthode K-means', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)

plt.subplot(1,3,3)
x = np.arange(0, 168)
for i in range(K):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_complete == i], axis = 0), color=cmap.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 6 clusters - K-means")

plt.show()

In [None]:
plt.figure(figsize=(20, 10))

plt.subplot(2,3,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_complete == 0], axis = 0), color=cmap.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+23, color='deeppink', linestyle='--')  # Lignes verticales en pointillés roses
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(2,3,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_complete == 1], axis = 0), color=cmap.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.subplot(2,3,3)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_complete == 2], axis = 0), color=cmap.colors[2])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 2")

plt.subplot(2,3,4)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_complete == 3], axis = 0), color=cmap.colors[3])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 3")

plt.subplot(2,3,5)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_complete == 4], axis = 0), color=cmap.colors[4])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 4")

plt.subplot(2,3,6)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_complete == 5], axis = 0), color=cmap.colors[5])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 5")

plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_pca_complete, cmap=cmap, s= 15)
plt.title('Stations loading - 6 Clusters - Méthode K-means', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()


<B> Cluster 0 : </B> Stations qui se remplissent beaucoup entre 8h et 23h et se vident "la nuit" : utilisateurs qui finissent leur service très tard notamment (zone proche de la Seine et de la zone de travail du cluster 3). Les caractéristiques de ce cluster sont proches de ce que nous avons vu dans le jeu de données réduit via la méthode CAH dans le cas à 6 clusters (il s'agissait du cluster 5). En revanche, il n' y avait pas de cluster semblable sur le jeu de données réduit via la méthode $k$-means. Comme évoqué dans le diagramme de répartition des stations, il s'agit d'un cluster très spécifique qui regroupe peu d'individus. Ceci peu expliquer le fait qu'il n'apparaissait pas dans le jeu de données réduit.

<B> Cluster 1 : </B> Stations globalement peu remplies et qui se vident d'autant plus sur les horaires d'activités (8h -18h), ce qui correspond aux zones qui inclut notamment les zones "difficiles d'accès" en altitude (en témoigne la carte d'altitude ci-dessus et le graphe en mosaïques ci-dessous) ainsi que des quartiers résidentiels.

<B> Cluster 2 : </B> Les variations de la densité de Vélib' de ces stations évoquent une zone d'activité. On observe aussi une plus forte densité le weekend. Cependant ce cluster comporte en fait peu d'individus et en regardant la carte "loading station" on s'aperçoit que les stations sont réparties de manière éparse sur la carte. Il est donc difficile de caractériser ce cluster.

<B> Cluster 3 : </B> Stations qui se remplissent sur les heures d'activités et se vident en dehors. Correspond aux zones de travail.

<B> Cluster 4 : </B> Stations avec de fortes variations de la densité de Vélib'. Elles se vident pendant les heures d'activités et se remplissent en dehors. Il s'agit de zones résidentielles.

<B> Cluster 5 : </B> Stations où la densité de vélos est plus faible entre 8h et 18h, mais sans trop grande variation (stations qui contiennent toujours beaucoup de Vélib'). Elles comptent d'autant plus de Vélib' le weekend. Il s'agit de zones majoritairement situées dans le centre-ville en bord de Seine : zones de transition (sorties de métro, gares...) et activités du centre-ville qui engendrent de courts déplacements des utilisateurs pour aller d'un lieu à un autre.

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_pca_complete,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_pca_complete,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

#### Avec 3 clusters

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
plt.scatter(loading_pca[:, 0], loading_pca[:, 1], s=8, linewidths=1, alpha=0.7, c=clusters_pca_complete3, cmap = cmap3)
plt.title("Graphe des individus de l'ACP pour 3 clusters")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')

plt.subplot(1,3,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_pca_complete3, cmap=cmap3, s= 15)
plt.title('Stations loading - 3 Clusters - Méthode K-means', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)

plt.subplot(1,3,3)
x = np.arange(0, 168)
for i in range(K3):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_complete3 == i], axis = 0), color=cmap3.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 3 clusters - K-means")

plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_complete3 == 0], axis = 0), color=cmap3.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(1,3,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_complete3 == 1], axis = 0), color=cmap3.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.subplot(1,3,3)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_complete3 == 2], axis = 0), color=cmap3.colors[2])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 2")

plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_pca_complete3, cmap=cmap3, s= 15)
plt.title('Stations loading - 3 Clusters - Méthode K-means', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

<B> Cluster 0 : </B> Stations avec une importante diminution de la densité de Vélib' sur les heures d'activités mais qui garde malgré tout une densité de Vélib' assez élevée. Ce cluster contient donc des quartiers résidentiels ainsi que des zones du centre-ville (zones de transition et d'activité).

<B> Cluster 1 : </B> Stations avec globalement peu de Vélib' et une légère diminution sur les horaires d'activités. Ce cluster contient donc des zones résidentielles et notamment celles situées en altitude. Nous avons vu précédemment que ce cluster est celui qui contient le plus d'individus, ce qui explique qu'il s'étende sur autant de zones résidentielles sans chercher à les distinguer.

<B> Cluster 2 : </B> Stations avec une augmentation de la densité des Vélib' sur les heures d'activités et beaucoup moins de Vélib' le weekend. Correspond aux zones de travail.

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_pca_complete3,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_pca_complete3,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

#### Avec 2 clusters

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
plt.scatter(loading_pca[:, 0], loading_pca[:, 1], s=8, linewidths=1, alpha=0.7, c=clusters_pca_complete2, cmap = cmap2)
plt.title("Graphe des individus de l'ACP pour 2 clusters")
plt.xlabel('Composante Principale 1')
plt.ylabel('Composante Principale 2')

plt.subplot(1,3,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_pca_complete2, cmap=cmap2, s= 15)
plt.title('Stations loading - 2 Clusters - Méthode K-means', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)

plt.subplot(1,3,3)
x = np.arange(0, 168)
for i in range(K2):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_complete2 == i], axis = 0), color=cmap2.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 2 clusters - K-means")

plt.show()

In [None]:
plt.figure(figsize=(20, 5))

plt.subplot(1,2,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_complete2 == 0], axis = 0), color=cmap2.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(1,2,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_pca_complete2 == 1], axis = 0), color=cmap2.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_pca_complete2, cmap=cmap2, s= 15)
plt.title('Stations loading - 2 Clusters - Méthode K-means', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

<B> Cluster 0 : </B> Stations avec une densité globalement élevée de Vélib', diminuant pendant les heures d'activités et plus élevée le weekend qu'en semaine.

<B> Cluster 1 : </B> Densité globalement faible de Vélib' (surtout le weekend) avec une légère augmentation sur les horaires d'activités.

En combinant ces infomations et en visualisant la carte "loading station", le cluster 1 semble regrouper la zone de travail, les zones de plus haute altitude et des zones résidentielles. Le cluster 0 quant à lui contient a priori la zone d'activité au bord de la Seine évoquée dans les autres classifications ainsi que des quartiers résidentiels.

Cependant ce regroupement d'individus semble peu pertinent ou peu "intuitif". En particulier, rien dans les analyses précédentes ne laissaient présager d'un lien quelconque entre les zones les plus en hauteurs (dites difficiles d'accès) et la zone d'activité. Or elles se retrouvent regroupées au sein d'un même cluster ici. De plus, rien ne permet de distinguer avec certitude les quartiers  résidentiels de chaque cluster. Travailler avec 2 clusters semble donc moins intéressant qu'avec 3 ou 6 clusters.

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_pca_complete2,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_pca_complete2,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

### Clustering agglomérant avec la méthode CAH

In [None]:
print("La taille de notre jeu de données loading est de  : ", loading.shape)

La méthode CAH nécessite de travailler avec une quantité de données qui ne soit pas trop élevée (car c'est une méthode plus coûteuse que le $k$-means). Ici notre matrice complète est de taille 1189 x 168. On estimera que sa taille est correcte pour pouvoir lui appliquer la méthode CAH.

Là encore nous allons utliser la méthode du coude afin de choisir le nombre de clusters avec lesquels nous allons travailler.

In [None]:
ac_complete = AgglomerativeClustering(linkage='ward', compute_distances=True)
visualizer = KElbowVisualizer(ac_complete, k=(2,12))

visualizer.fit(loading)
visualizer.show()
plt.show()

Cette fois-ci, pour une initialisation à k=3, le nombre de clusters optimal est de 5 pour la méthode CAH. Si on décide d'initialiser à k=2, alors on obtient à nouveau une valeur optimale pour 5 classes. Comme précédemment travailler avec 6, 3 et 2 clusters nous a semblé plus pertinent afin de rester cohérent avec le travail effectué précédemment.

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
ac_complete = AgglomerativeClustering(n_clusters=K, compute_distances=True, linkage='ward')
clusters_ac_complete = ac_complete.fit_predict(loading)
plt.bar(*np.unique(clusters_ac_complete, return_counts=True), color=cmap.colors)
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 6 clusters')

plt.subplot(1,3,2)
ac_complete3 = AgglomerativeClustering(n_clusters=K3, compute_distances=True, linkage='ward')
clusters_ac_complete3 = ac_complete3.fit_predict(loading)
plt.bar(*np.unique(clusters_ac_complete3, return_counts=True), color=cmap3.colors)
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 3 clusters')

plt.subplot(1,3,3)
ac_complete2 = AgglomerativeClustering(n_clusters=K2, compute_distances=True, linkage='ward')
clusters_ac_complete2 = ac_complete2.fit_predict(loading)
plt.bar(*np.unique(clusters_ac_complete2, return_counts=True), color=cmap2.colors)
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 2 clusters')

plt.show()

Cette fois-ci, et contrairement à ce qui a été vu jusque là, dans les cas à 6 et 3 clusters, tous les groupes ont des effectifs relativement proches. On peut donc s'attendre à obtenir des clusters avec des caractéristiques assez homogènes (ni classe "généraliste" ni classe "atypique"). En revanche, le déséquilibre est de nouveau très fort dans le cas de 2 clusters.

#### Avec 6 clusters

In [None]:
Z6_CAH_complete = linkage(squareform(pdist(loading)),method='complete',metric='euclidean')
plt.title("CAH")

dendrogram(Z6_CAH_complete,orientation='top',show_leaf_counts=False, no_labels=True, color_threshold=100)
plt.show()

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac_complete, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - Méthode CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)
plt.tight_layout()

plt.subplot(1,2,2)
x = np.arange(0, 168)
for i in range(K):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_ac_complete == i], axis = 0), color=cmap.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 6 clusters - CAH")

plt.show()

In [None]:
plt.figure(figsize=(20, 10))

plt.subplot(2,3,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac_complete == 0], axis = 0), color=cmap.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(2,3,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac_complete == 1], axis = 0), color=cmap.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.subplot(2,3,3)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac_complete == 2], axis = 0), color=cmap.colors[2])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 2")

plt.subplot(2,3,4)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac_complete == 3], axis = 0), color=cmap.colors[3])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 3")

plt.subplot(2,3,5)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac_complete == 4], axis = 0), color=cmap.colors[4])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 4")

plt.subplot(2,3,6)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac_complete == 5], axis = 0), color=cmap.colors[5])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+23, color='deeppink', linestyle='--')  # Lignes verticales en pointillés roses
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 5")

plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac_complete, cmap=cmap, s= 15)
plt.title('Stations loading - 6 Clusters - Méthode CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

<B> Cluster 0 : </B> Stations dont la densité de Vélib' diminue pendant les heures d'activités tout en restant relativement élevée. Correspond au centre-ville : zones de transition et zones d'activités proches de la Seine.

<B> Cluster 1 : </B>  Stations qui se vident sur les heures d'activités. Correspond aux quartiers résidentiels.

<B> Cluster 2 : </B> Stations avec des caratéristiques qui ressemblent à celles des lieux de travail : se remplissent pendant les heures d'activités mais avec des variations d'amplitude moindre et surtout les stations restent relativement remplies le weekend. Visuellement sur la carte on voit que la plupart des stations sont très proches de la zone de travail et des zones d'activités en bord de Seine. Quelques unes sont dans des zones résidentielles.

<B> Cluster 3 : </B> Stations avec très peu de Vélib' en moyenne. Ce cluster contient en partie les zones difficles d'accès (plus en altitude), les autres appartenant au cluster 5 en vu du graphe en mosaïques associé.

<B> Cluster 4 : </B> Stations remplies pendant les heures d'activités et très peu remplies le weekend, ce qui correspond aux lieux de travail.

<B> Cluster 5 : </B> Stations très remplies en pleine nuit (23h - 8h) en semaine et vides le reste du temps, notamment le weekend. Ce cluster semble donc contenir des lieux d'activités nocturnes (boîtes de nuit par exemple). De plus, la carte des altitudes et le graphique en mosaïques indiquent qu'il contient une partie des stations dites difficiles d'accès.

-----


On peut remarquer que contrairement à ce que nous avons supposé peu avant, les clusters 2 et 5 sont au final assez proches de ce que nous caractérisons depuis tout à l'heure comme des classes "atypiques".

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_ac_complete,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_ac_complete,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

#### Avec 3 clusters

In [None]:
Z3_CAH_complete = linkage(squareform(pdist(loading)),method='complete',metric='euclidean')
plt.title("CAH")

dendrogram(Z3_CAH_complete,orientation='top',show_leaf_counts=False, no_labels=True, color_threshold=120)
plt.show()

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac_complete3, cmap=cmap3, s= 15)
plt.title('Stations loading - 3 Clusters - Méthode CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)

plt.subplot(1,2,2)
x = np.arange(0, 168)
for i in range(K3):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_ac_complete3 == i], axis = 0), color=cmap3.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 3 clusters - CAH")

plt.show()

In [None]:
plt.figure(figsize=(20, 5))

plt.subplot(1,3,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac_complete3 == 0], axis = 0), color=cmap3.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(1,3,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac_complete3 == 1], axis = 0), color=cmap3.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.subplot(1,3,3)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac_complete3 == 2], axis = 0), color=cmap3.colors[2])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 2")

plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac_complete3, cmap=cmap3, s= 15)
plt.title('Stations loading - 3 Clusters - Méthode CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

<B> Cluster 0 : </B>  Stations dont la densité de Vélib' diminue pendant les heures d'activités tout en restant relativement élevée, ce qui correpond aux zones de transition (sorties de métro, gares...) et d'activités nécessitant de courts déplacements en centre-ville. On a également quelques quartiers résidentiels puisqu'on constate une baisse de la densité de Vélib' sur les horaires d'activités.

<B> Cluster 1 : </B> Stations remplies pendant les heures d'activités et bien moins remplies le weekend. Correspond aux lieux de travail.

<B> Cluster 2 : </B> Stations globalement vides sur la semaine, surtout le weekend. Cluster qui contient des quartiers résidentiels ainsi que les zones difficles d'accès (ie plus en altitude) si on compare avec la carte d'altitude.

<B> Comparaison des méthodes : </B> Les caractérisations restent globalement les mêmes qu'avec $k$-means pour le jeu de données complet, mais aussi qu'avec les résultats pour 3 clusters sur le jeu de données réduit.

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_ac_complete3,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_ac_complete3,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

#### Avec 2 clusters

In [None]:
Z2_CAH_complete = linkage(squareform(pdist(loading)),method='complete',metric='euclidean')
plt.title("CAH")

dendrogram(Z2_CAH_complete,orientation='top',show_leaf_counts=False, no_labels=True, color_threshold=150)
plt.show()

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac_complete2, cmap=cmap2, s= 15)
plt.title('Stations loading - 2 Clusters - Méthode CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)

plt.subplot(1,2,2)
x = np.arange(0, 168)
for i in range(K2):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_ac_complete2 == i], axis = 0), color=cmap2.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 2 clusters - CAH")

plt.show()

In [None]:
plt.figure(figsize=(20, 5))

plt.subplot(1,2,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac_complete2 == 0], axis = 0), color=cmap2.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(1,2,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_ac_complete2 == 1], axis = 0), color=cmap2.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac_complete2, cmap=cmap2, s= 15)
plt.title('Stations loading - 2 Clusters - Méthode CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

<B> Cluster 0 : </B> Densité globalement faible de Vélib' (surtout le weekend) avec une légère augmentation sur les horaires d'activités.

<B> Cluster 1 : </B> Stations avec une densité globalement élevée de Vélib', diminuant pendant les heures d'activités.

En combinant ces infomations et en visualisant la carte "loading station", le cluster 0 semble notamment regrouper la zone de travail, les zones de plus haute altitude et des zones résidentielles. Le cluster 0 quant à lui contient a priori la zone d'activité au bord de la Seine ainsi que des quartiers résidentiels.

<B> => </B> Les caractéristiques de ces 2 clusters ressemblent à celles évoquées dans la méthode $k$-means mais encore une fois la classification ne semble pas optimale.

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_ac_complete2,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_ac_complete2,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

### Clustering avec les Modèles Mixtes Gaussiens (GMM)

In [None]:
k_max = 15

silhouette = np.zeros(k_max-2)
for k in range(2, k_max):
    gmm = GaussianMixture(n_components=k, init_params='kmeans', n_init=3)
    clusters_gmm = gmm.fit_predict(loading)
    silhouette[k-2] = silhouette_score(loading, clusters_gmm, metric='euclidean')
plt.scatter(range(2, k_max), silhouette)
plt.show()

In [None]:
k_max = 15

bic = []
for k in range(2, k_max):
    gmm = GaussianMixture(n_components=k, init_params='kmeans', n_init=3)
    gmm.fit(loading)
    bic.append(gmm.bic(loading))
bic = np.array(bic)

plt.scatter(range(2, k_max), bic)
plt.show()

Pour le clustering GMM, nous avons essayé de déterminer le nombre de clusters optimal avec les méthodes score silhouette et critère bic. Ces méthodes nous ont toutes deux indiqué que le nombre de clusters optimal est 2.

Afin de rester cohérent avec le travail effectué via les méthodes précédentes, nous allons à nouveau travailler avec 2, 3 et 6 clusters.

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
gmm_complete = GaussianMixture(n_components=K, n_init=3)
clusters_gmm_complete = gmm_complete.fit_predict(loading)
plt.bar(*np.unique(clusters_gmm_complete, return_counts=True), color=cmap.colors) # représente les clusters sous forme de barplot + compte le nombre d'occurences de toutes les classes
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 6 clusters')

plt.subplot(1,3,2)
gmm_complete3 = GaussianMixture(n_components=K3, n_init=3)
clusters_gmm_complete3 = gmm_complete3.fit_predict(loading)
plt.bar(*np.unique(clusters_gmm_complete3, return_counts=True), color=cmap3.colors)
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 3 clusters')

plt.subplot(1,3,3)
gmm_complete2 = GaussianMixture(n_components=K2, n_init=3)
clusters_gmm_complete2 = gmm_complete2.fit_predict(loading)
plt.bar(*np.unique(clusters_gmm_complete2, return_counts=True), color=cmap2.colors)
plt.ylabel("Occurences")
plt.title('Répartition des stations pour 2 clusters')

plt.show()

Dans le cas de 6 clusters, on risque d'avoir d'importantes disparités dans la caractérisation des groupes, surtout au niveau du cluster 5 qui contient plus du double d'individus des clusters 1, 2 et 3. Ce dernier sera probablement très étendu et très généraliste.

Pour 3 et 2 clusters, bien qu'il y ait des disparités, elles sont marquées.

#### Avec 6 clusters

In [None]:
plt.figure(figsize=(20,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm_complete, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - Méthode GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
x = np.arange(0, 168)
for i in range(K):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm_complete == i], axis = 0), color=cmap.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 6 clusters - GMM")

plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(20, 10))

plt.subplot(2,3,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm_complete == 0], axis = 0), color=cmap.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(2,3,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm_complete == 1], axis = 0), color=cmap.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.subplot(2,3,3)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm_complete == 2], axis = 0), color=cmap.colors[2])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 2")

plt.subplot(2,3,4)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm_complete == 3], axis = 0), color=cmap.colors[3])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+23, color='deeppink', linestyle='--')  # Lignes verticales en pointillés roses
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 3")

plt.subplot(2,3,5)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm_complete == 4], axis = 0), color=cmap.colors[4])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés roses
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 4")

plt.subplot(2,3,6)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm_complete == 5], axis = 0), color=cmap.colors[5])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 5")

plt.show()

<B> Cluster 0 : </B> Zones d'activités et zones de transition (gares..) du centre-ville.

<B> Cluster 1 : </B> Stations peu à moyennement remplies et qui le sont d'avantage en fin de semaine (vendredi - samedi - dimanche) qu'en début. A nouveau, ce cluster est difficile à caractériser car regroupe peu d'individus.

<B> Cluster 2 : </B> Quartiers résidentiels avec stations plutôt remplies le weekend.

<B> Cluster 3 : </B> Stations peu remplies globalement. Elles le sont un peu plus la nuit (23h-8h). Zones difficles d'accès : en altitude comme en témoigne le graphe en mosaïques ET zones d'activités nocturnes (boîtes de nuit..) comme évoquées dans la méthode CAH.

<B> Cluster 4 : </B> Zones de travail du centre-ville.

<B> Cluster 5 : </B> Quartiers résidentiels avec stations peu remplies le weekend.

<B> Comparaison des méthodes :</B> On remarque des similitudes avec CAH et $k$-means. En particulier on retrouve la zone d'activités nocturnes vu avec la méthode CAH. De plus, comme pour le jeu de données réduit, la méthode GMM sépare les quartiers résidentiels en fonction de la densité de Vélib' le weekend.

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm_complete, cmap=cmap, s= 15)
plt.title('Stations loading - 6 Clusters - Méthode GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_gmm_complete,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_gmm_complete,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

#### Avec 3 clusters

In [None]:
plt.figure(figsize=(20,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm_complete3, cmap=cmap3, s=10)
plt.title('Stations loading - 3 Clusters - Méthode GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
x = np.arange(0, 168)
for i in range(K3):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm_complete3 == i], axis = 0), color=cmap3.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 3 clusters - GMM")

plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(20, 5))

plt.subplot(1,3,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm_complete3 == 0], axis = 0), color=cmap3.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(1,3,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm_complete3 == 1], axis = 0), color=cmap3.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.subplot(1,3,3)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm_complete3 == 2], axis = 0), color=cmap3.colors[2])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 2")

plt.show()

<B> Cluster 0 : </B>  Stations globalement vides sur la semaine, surtout le weekend. Cluster qui contient des quartiers résidentiels ainsi que les zones difficles d'accès.

<B> Cluster 1 : </B> Stations remplies pendant les heures d'activités et beaucou plus vide le weekend. Correspond aux lieux de travail.

<B> Cluster 2 : </B>  Stations dont la densité de Vélib' diminue pendant les heures d'activités tout en restant relativement élevée, ce qui correspond aux zones de transition (sorties de métro, gares...) et d'activités nécessitant de courts déplacements en centre-ville. On a également des quartiers résidentiels puisqu'on constate une baisse de la densité de Vélib' sur les horaires d'activités.



**Gobalement**, on observe les mêmes caractérisations pour 3 clusters qu'avec les méthodes $k$-means et CAH.

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm_complete3, cmap=cmap3, s= 15)
plt.title('Stations loading - 3 Clusters - Méthode GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_gmm_complete3,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_gmm_complete3,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

#### Avec 2 clusters

In [None]:
plt.figure(figsize=(20,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm_complete2, cmap=cmap2, s=10)
plt.title('Stations loading - 2 Clusters - Méthode GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
x = np.arange(0, 168)
for i in range(K2):
    plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm_complete2 == i], axis = 0), color=cmap2.colors[i])
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Valeur mesurée pour 2 clusters - GMM")

plt.tight_layout()
plt.show()

In [None]:
plt.figure(figsize=(20, 5))

plt.subplot(1,2,1)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm_complete2 == 0], axis = 0), color=cmap2.colors[0])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 0")

plt.subplot(1,2,2)
plt.plot(x, np.mean(loading.to_numpy()[clusters_gmm_complete2 == 1], axis = 0), color=cmap2.colors[1])
for t in time_tick:
    plt.axvline(t+8, color='black', linestyle='--')  # Lignes verticales en pointillés noirs
    plt.axvline(t+18, color='green', linestyle='--')  # Lignes verticales en pointillés verts
plt.xlabel("Heures de la semaine")
plt.ylabel("Valeur mesurée")
plt.title("Cluster 1")

plt.show()

In [None]:
plt.figure(figsize=(20, 6))

plt.subplot(1,3,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm_complete2, cmap=cmap2, s= 15)
plt.title('Stations loading - 2 Clusters - Méthode GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.tight_layout()

plt.subplot(1,3,2)
couleurs = {1: 'blue', 0: 'yellow'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['localisation'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Stations proches ou non de la Seine', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Seine", "Autre"], fontsize=10)

plt.subplot(1,3,3)
couleurs = {1: 'red', 0: 'lightgreen'}
sctrplt = plt.scatter(coord['longitude'], coord['latitude'], c=coord['bonus'].map(couleurs))
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.title('Altitude des stations', fontsize=15)
legend_elements = [Line2D([0], [0], marker='o', color='w', markerfacecolor=color, markersize=10, label=label) for label, color in couleurs.items()]
plt.legend(handles=legend_elements, labels=["Colline", "Vallée"], fontsize=10)
plt.show()

A nouveau, les caractéristiques de chaque cluster sont semblables à celles relevées pour les méthodes $k$-means et CAH (cluster 0 ici est équivalent au cluster 0 de $k$-means et au cluster 1 de CAH).

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_gmm_complete2,coord['bonus'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-altitude', labelizer=no_label)
plt.show()

In [None]:
plt.figure(figsize=(8, 6))
crosstable = pd.crosstab(clusters_gmm_complete2,coord['localisation'])
sp.mosaic(crosstable.stack(),title='Mosaicplot clusters-Seine', labelizer=no_label)
plt.show()

### Comparaison des méthodes

#### Avec 6 clusters

In [None]:
# Comparaison des modèles pour 6 clusters
plt.figure(figsize=(20,6))

plt.subplot(1,3,1)
plotKmeans(kmeans_pca_complete, loading_pca, 6)
plt.title("K-means pour 6 clusters")

plt.subplot(1,3,2)
plotCAH(ac_complete, loading_pca, 6)
plt.title("CAH pour 6 clusters")

plt.subplot(1,3,3)
plotGMM(gmm_complete, loading_pca, 6)
plt.title("GMM pour 6 clusters")

plt.show()

##### $k$-means Vs GMM

In [None]:
plt.figure(figsize=(8,6))

cm6_complete, clusters_kmeans6_complete_sorted = matchClasses(clusters_gmm_complete, clusters_pca_complete)

ConfusionMatrixDisplay(cm6_complete).plot()
plt.xlabel('Méthode k-means')
plt.ylabel('Méthode GMM')
plt.title("Matrice de confusion pour les méthodes K-means et GMM avec ajustement des classes")
plt.show()

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_kmeans6_complete_sorted, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - Kmeans ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm_complete, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_gmm_complete, clusters_kmeans6_complete_sorted)

##### $k$-means Vs CAH

In [None]:
plt.figure(figsize=(8,6))

cm6bis_complete, clusters_kmeans6_complete_sorted_ac = matchClasses(clusters_ac_complete, clusters_pca_complete)

ConfusionMatrixDisplay(cm6bis_complete).plot()
plt.xlabel('Méthode k-means')
plt.ylabel('Méthode CAH')
plt.title("Matrice de confusion pour les méthodes K-means et CAH avec ajustement des classes")
plt.show()

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_kmeans6_complete_sorted_ac, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - Kmeans ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac_complete, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_ac_complete, clusters_kmeans6_complete_sorted_ac )

##### CAH Vs GMM

In [None]:
plt.figure(figsize=(8,6))

cm6ter_complete, clusters_ac6_gmm6_complete_sorted_ter = matchClasses(clusters_gmm_complete,clusters_ac_complete)

ConfusionMatrixDisplay(cm6ter_complete).plot()
plt.xlabel('Méthode CAH')
plt.ylabel('Méthode GMM')
plt.title("Matrice de confusion pour les méthodes CAH et GMM avec ajustement des classes")

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac6_gmm6_complete_sorted_ter, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - CAH ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm_complete, cmap=cmap, s=10)
plt.title('Stations loading - 6 Clusters - GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_gmm_complete, clusters_ac6_gmm6_complete_sorted_ter)

Les méthodes $k$-means et CAH comptent 27% de différence dans la classification des stations, tandis que $k$-means et GMM en comportent 0.6%, et enfin CAH et GMM en comptent 20%.

On a donc un peu moins de différences lorsque l'on travaille sur 6 clusters avec le jeu de données complet qu'avec le jeu de données réduit pour les comparaisons CAH/$k$-means et CAH/GMM : le taux de dissimilarités est cependant peu significatif. A contrario, la comparaison $k$-means/GMM s'est nettement améliorée (passée de 44% à 0.6%).

Enfin, en étudiant les clusters, nous n'avons pas constaté de grandes différences ou améliorations avec le jeu de données complet. Nous avons donc considéré que le jeu de données réduit, qui permet de réduire la dimenssionnalité de données, était satisfaisant pour cette étude.

#### Avec 3 clusters

In [None]:
plt.figure(figsize=(20,6))

plt.subplot(1,3,1)
plotKmeans(kmeans_pca_complete3, loading_pca, 3)
plt.title("K-means pour 3 clusters")

plt.subplot(1,3,2)
plotCAH(ac_complete3, loading_pca, 3)
plt.title("CAH pour 3 clusters")

plt.subplot(1,3,3)
plotGMM(gmm_complete3, loading_pca, 3)
plt.title("GMM pour 3 clusters")

plt.show()

##### $k$-means Vs GMM

In [None]:
plt.figure(figsize=(8,6))

cm3_complete, clusters_kmeans3_complete_sorted = matchClasses(clusters_gmm_complete3, clusters_pca_complete3)

ConfusionMatrixDisplay(cm3_complete).plot()
plt.xlabel('Méthode k-means')
plt.ylabel('Méthode GMM')
plt.title("Matrice de confusion pour les méthodes K-means et GMM avec ajustement des classes")
plt.show()

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_kmeans3_complete_sorted, cmap=cmap3, s=10)
plt.title('Stations loading - 3 Clusters - Kmeans ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm_complete3, cmap=cmap3, s=10)
plt.title('Stations loading - 3 Clusters - GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_gmm_complete3, clusters_kmeans3_complete_sorted)

##### $k$-means Vs CAH

In [None]:
plt.figure(figsize=(8,6))

cm3bis_complete, clusters_kmeans3_complete_sorted_ac = matchClasses(clusters_ac_complete3, clusters_pca_complete3)

ConfusionMatrixDisplay(cm3bis_complete).plot()
plt.xlabel('Méthode k-means')
plt.ylabel('Méthode CAH')
plt.title("Matrice de confusion pour les méthodes K-means et CAH avec ajustement des classes")
plt.show()

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_kmeans3_complete_sorted_ac, cmap=cmap3, s=10)
plt.title('Stations loading - 3 Clusters - Kmeans ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac_complete3, cmap=cmap3, s=10)
plt.title('Stations loading - 3 Clusters - CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_ac_complete3, clusters_kmeans3_complete_sorted_ac )

##### CAH Vs GMM

In [None]:
plt.figure(figsize=(8,6))

cm3ter_complete, clusters_ac3_gmm3_complete_sorted_ter = matchClasses(clusters_gmm_complete3,clusters_ac_complete3)

ConfusionMatrixDisplay(cm3ter_complete).plot()
plt.xlabel('Méthode CAH')
plt.ylabel('Méthode GMM')
plt.title("Matrice de confusion pour les méthodes CAH et GMM avec ajustement des classes")

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac3_gmm3_complete_sorted_ter, cmap=cmap3, s=10)
plt.title('Stations loading - 3 Clusters - CAH ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm_complete3, cmap=cmap3, s=10)
plt.title('Stations loading - 3 Clusters - GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_gmm_complete3, clusters_ac3_gmm3_complete_sorted_ter)

Cette fois-ci, les méthodes $k$-means et GMM ont si peu de différences de classification que l'on peut considérer que les clusters sont les mêmes. Dans les deux autres comparaisons, le taux de différences avec la méthode CAH est de l'ordre de 15% ce qui reste assez faible. Ainsi les trois méthodes ont tendance à regrouper les individus selon les mêmes caractéristiques.

Là encore le taux de dissimilarités a diminué par rapport au jeu de données réduit, surtout entre les méthodes $k$-means et GMM.

#### Avec 2 clusters

In [None]:
plt.figure(figsize=(20,6))

plt.subplot(1,3,1)
plotKmeans(kmeans_pca_complete2, loading_pca, 2)
plt.title("K-means pour 2 clusters")

plt.subplot(1,3,2)
plotCAH(ac_complete2, loading_pca, 2)
plt.title("CAH pour 2 clusters")

plt.subplot(1,3,3)
plotGMM(gmm_complete2, loading_pca, 2)
plt.title("GMM pour 2 clusters")

plt.show()

##### $k$-means Vs GMM

In [None]:
plt.figure(figsize=(8,6))

cm2_complete, clusters_kmeans2_complete_sorted = matchClasses(clusters_gmm_complete2, clusters_pca_complete2)

ConfusionMatrixDisplay(cm2_complete).plot()
plt.xlabel('Méthode k-means')
plt.ylabel('Méthode GMM')
plt.title("Matrice de confusion pour les méthodes K-means et GMM avec ajustement des classes")
plt.show()

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_kmeans2_complete_sorted, cmap=cmap2, s=10)
plt.title('Stations loading - 2 Clusters - Kmeans ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm_complete2, cmap=cmap2, s=10)
plt.title('Stations loading - 2 Clusters - GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_gmm_complete2, clusters_kmeans2_complete_sorted)

##### $k$-means Vs CAH

In [None]:
plt.figure(figsize=(8,6))

cm2bis_complete, clusters_kmeans2_complete_sorted_ac = matchClasses(clusters_ac_complete2, clusters_pca_complete2)

ConfusionMatrixDisplay(cm2bis_complete).plot()
plt.xlabel('Méthode k-means')
plt.ylabel('Méthode CAH')
plt.title("Matrice de confusion pour les méthodes K-means et CAH avec ajustement des classes")
plt.show()

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_kmeans2_complete_sorted_ac, cmap=cmap2, s=10)
plt.title('Stations loading - 2 Clusters - Kmeans ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac_complete2, cmap=cmap2, s=10)
plt.title('Stations loading - 2 Clusters - CAH', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_ac_complete2, clusters_kmeans2_complete_sorted_ac)

##### CAH Vs GMM

In [None]:
plt.figure(figsize=(8,6))

cm2ter_complete, clusters_ac2_gmm2_complete_sorted_ter = matchClasses(clusters_gmm_complete2, clusters_ac_complete2)

ConfusionMatrixDisplay(cm2ter_complete).plot()
plt.xlabel('Méthode CAH')
plt.ylabel('Méthode GMM')
plt.title("Matrice de confusion pour les méthodes CAH et GMM avec ajustement des classes")

In [None]:
plt.figure(figsize=(15,6))

plt.subplot(1,2,1)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_ac2_gmm2_complete_sorted_ter, cmap=cmap2, s=10)
plt.title('Stations loading - 2 Clusters - CAH ', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.subplot(1,2,2)
im = plt.scatter(coord.longitude, coord.latitude, c=clusters_gmm_complete2, cmap=cmap2, s=10)
plt.title('Stations loading - 2 Clusters - GMM', fontsize=15)
plt.colorbar(im)
plt.xlabel('Longitude', fontsize=10)
plt.ylabel('Latitude', fontsize=10)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=10)
plt.grid(False)

plt.tight_layout()
plt.show()

diffPlot(clusters_gmm_complete2, clusters_ac2_gmm2_complete_sorted_ter)

Les clusters formés par les méthodes $k$-means et GMM sont à nouveau très similaires. Cependant, le taux de différences avec la méthode CAH est légèrement plus élevé (de l'ordre de 17%) dans le cas de 2 clusters que dans le cas avec 3 clusters. Bien que l'écart relatif entre les méthodes ne soit pas significatif, cela souligne tout de même le fait que diminuer d'avantage le nombre de clusters n'a pas permis une meilleure convergence entre les méthodes.

-------------------

<B> Conclusion clustering : </B> La comparaison entre les jeux de données réduit et complet nous a permis de constater que les méthodes de clustering convergent d'avantage en utilisant le jeu de données complet. Cependant, estimant que les différences sont suffisamment minimes, le jeu de données réduit nous semble plus intéressant puisque tout en réduisant la dimensionnalité des données, il conserve suffisamment d'information pour garantir l'efficacité des méthodes de clustering.

En outre, au vu des interprétations qui ont pu être faites dans le cas de 2, 3, 4 et 6 clusters, nous avons estimé que travailler avec 6 clusters semble être le choix le plus pertinent : cela permet d'obtenir des clusters suffisamment distincts dans Paris et avec des caractéristiques que nous avons jugées assez "intuitives".

Enfin, en se basant sur les taux de dissimilarités des méthodes et sur les clusters observés, si l'on cherche à comparer les méthodes entre elles, $k$-means et GMM semblent plus pertinentes dans le jeu de données complet. Pour le jeu de données réduit, CAH paraît plus appropriée.

# Analyse en correspondances multiples (ACM)

Dans la suite de notre étude, on voudrait effectuer une analyse en correspondances multiples. Comme on travaille dans notre jeu de données loading avec des données quantitatives, nous allons créer un second jeu de données conservant les mêmes individus mais contenant un nombre limité de modalités. En effet nous allons affecter à chaque valeur de loading un intervalle :  [0 ; 0.25], [0.25 ; 0.5], [0.5 ; 0.75] ou [0.75 ; 1]. Nous allons également travailler avec les variables bonus (du jeu de données coord) et localisation pour l'habillage.

Le trop grand nombre de variables rendant notre jeu de données inexploitable, nous avons décidé de regrouper nos variables dans des catégories de variables plus larges qui regroupent certaines heures. Nous avons donc arbitrairement déterminé ces nouvelles plages horaires.

Par ailleurs, les affichages en langage R étant plus simple à lire, nous avons décidé de rédiger nos interprétations pour cette section dans le notebook R.

## Sélection des variables

In [None]:
 loading_heure = pd.DataFrame() # Dataframe avec les heures choisies

# Sélection des colonnes pour chaque plage horaire et calcul de leur moyenne
loading_heure["Moyenne_00h_03h"] = loading.iloc[:, 0:4].mean(axis=1)
loading_heure["Moyenne_04h_06h"] = loading.iloc[:, 4:7].mean(axis=1)
loading_heure["Moyenne_07h_09h"] = loading.iloc[:, 7:10].mean(axis=1)
loading_heure["Moyenne_10h_12h"] = loading.iloc[:, 10:13].mean(axis=1)
loading_heure["Moyenne_13h_16h"] = loading.iloc[:, 13:17].mean(axis=1)
loading_heure["Moyenne_17h_19h"] = loading.iloc[:, 17:20].mean(axis=1)
loading_heure["Moyenne_20h_23h"] = loading.iloc[:, 20:24].mean(axis=1)

loading_heure = pd.concat([loading_heure, coord[['bonus', 'localisation']]], axis=1) # Concaténation des dataframes loading et coord

print(loading_heure)


In [None]:
colonnes_non_numeriques = ['localisation', 'bonus'] # variables qu'on ne veut pas affecter

# Création des classes d'intervalles
def assign_class(value):
    if value < 0.25:
        return "[0;0.25]"
    elif value < 0.5:
        return "[0.25;0.5]"
    elif value < 0.75:
        return "[0.5;0.75]"
    else:
        return "[0.75;1]"

loading_heure_factor = loading_heure.copy() # nouveau dataframe avec les classes d'intervalles
loading_heure_factor[loading_heure_factor.columns.difference(colonnes_non_numeriques)] = loading_heure_factor[loading_heure_factor.columns.difference(colonnes_non_numeriques)].applymap(assign_class)

print(loading_heure_factor.head())


In [None]:
loading_heure_factor["Moyenne_00h_03h"]=pd.Categorical(loading_heure_factor["Moyenne_00h_03h"],ordered=False)
loading_heure_factor["Moyenne_04h_06h"]=pd.Categorical(loading_heure_factor["Moyenne_04h_06h"],ordered=False)
loading_heure_factor["Moyenne_07h_09h"]=pd.Categorical(loading_heure_factor["Moyenne_07h_09h"],ordered=False)
loading_heure_factor["Moyenne_10h_12h"]=pd.Categorical(loading_heure_factor["Moyenne_10h_12h"],ordered=False)
loading_heure_factor["Moyenne_13h_16h"]=pd.Categorical(loading_heure_factor["Moyenne_13h_16h"],ordered=False)
loading_heure_factor["Moyenne_17h_19h"]=pd.Categorical(loading_heure_factor["Moyenne_17h_19h"],ordered=False)
loading_heure_factor["Moyenne_20h_23h"]=pd.Categorical(loading_heure_factor["Moyenne_20h_23h"],ordered=False)
loading_heure_factor["bonus"]=pd.Categorical(loading_heure_factor["bonus"],ordered=False)
loading_heure_factor["localisation"]=pd.Categorical(loading_heure_factor["localisation"],ordered=False)

loading_heure_factor.dtypes

## Représentation de l'ACM

In [None]:
# Sélection des variables construisant l'ACM = les moyennes horaires
variables_acm = [colonne for colonne in loading_heure_factor.columns if colonne.startswith('Moyenne')]

# Sélection des variables qualitatives supplémentaires
variables_quali_sup = ['bonus', 'localisation']


In [None]:
#fig, ax = plt.subplots()
mca = prince.MCA(n_components = len(variables_acm))
mca = mca.fit(loading_heure_factor[variables_acm])
ax = mca.plot(loading_heure_factor[variables_acm],show_column_labels=True)
ax

## Qualité de représentation des variables et des individus

In [None]:
quality_comun = mca.column_cosine_similarities(loading_heure_factor).style.format('{:.3}')
display(quality_comun.background_gradient())

## Contribution des variables à l'ACM

In [None]:
# Contribution des variables

contrib = mca.column_contributions_.style.format('{:.1%}')
display(contrib.highlight_max(color='orange').highlight_min(color='lightblue'))

## Habillage en fonction des variables supplémentaires : bonus et localisation

In [None]:
loading_heure_factor_loc=loading_heure_factor[variables_acm + ['localisation']]
loading_heure_factor_loc = loading_heure_factor_loc.set_index('localisation')

pd.get_dummies(loading_heure_factor_loc)

In [None]:
loading_heure_factor_bonus=loading_heure_factor[variables_acm + ['bonus']]
loading_heure_factor_bonus = loading_heure_factor_bonus.set_index('bonus')

pd.get_dummies(loading_heure_factor_bonus)

In [None]:
mca = prince.MCA(
    n_components=len(variables_acm),
    n_iter=10,
    copy=True,
    check_input=True,
    engine='sklearn',
    random_state=42
)
mca_loc = mca.fit(loading_heure_factor_loc)
mca_bonus = mca.fit(loading_heure_factor_bonus)

In [None]:
def plot_mca(ax1=0, ax2=1, mca=mca_loc, data=loading_heure_factor_loc, nom='localisation'):
  dataset = mca.transform(data)
  dataset.reset_index(inplace=True)
  sns.scatterplot(data = dataset,
                  x = ax1, y = ax2,
                  hue = nom, alpha=.7)

  plt.xlabel('Component {} — {:.2f}%'.format(ax1, mca.percentage_of_variance_[ax1]))
  plt.ylabel('Component {} — {:.2f}%'.format(ax2, mca.percentage_of_variance_[ax2]))
  plt.grid(True)
  plt.show()

In [None]:
plot_mca(0,1,mca_loc,loading_heure_factor_loc)

In [None]:
plot_mca(0,1,mca_bonus,loading_heure_factor_bonus,'bonus')

In [None]:
# Qualité de représentation pour localisation

quality_row_loc = mca_loc.row_cosine_similarities(loading_heure_factor_loc).head(10).style.format('{:.3}')
display(quality_row_loc)

In [None]:
# Qualité de représentation pour bonus

quality_row_bonus = mca_bonus.row_cosine_similarities(loading_heure_factor_bonus).head(10).style.format('{:.3}')
display(quality_row_bonus)

# Conclusion

L'analyse exploratoire, les méthodes de clustering et l'Analyse en Correspondances Multiples ont toutes permis d'identifier les mêmes comportements récurrents chez les utilisateurs de Vélib' à Paris.

En effet, les habitudes des usagers sont d'une part influencées par les heures et les jours de la semaine avec principalement une discrimination heures d'activités/ heures de repos et une autre jours du lundi au vendredi / weekend.

D'autre part, la densité de Vélib' est dépendante de critères géographiques : stations proches de la Seine ou non, stations en altitude, etc.

En utilisant les données recueillies sur ces facteurs pour une station précise, il est possible d'anticiper sa densité de Vélib' à un moment spécifique de la semaine. Cela est particulièrement pratique pour la compagnie en charge de la maintenance de ces modes de transport : anticiper le comportement des usagers permet de réguler plus facilement la densité de Vélib' dans la ville (stations ayant besoin d'être réapprovisionnées à certains moments par exemple) et de fait d'avoir plus de contrôle.