Projections t-SNE de base

t-SNE est un algorithme populaire de réduction de dimensionnalité qui découle de la théorie des probabilités. En termes simples, il projette les points de données de haute dimension (parfois avec des centaines de caractéristiques) en 2D / 3D en induisant les données projetées à avoir une distribution similaire à celle des points de données d’origine en minimisant ce qu’on appelle le Divergence KL.

Par rapport à une méthode telle que l’analyse en composantes principales (APC), il faut beaucoup plus de temps pour converger, mais présente des informations nettement meilleures lorsqu’elles sont visualisées. Par exemple, en projetant les caractéristiques d’une ville, il sera capable de regrouper distinctement.


Chargement des outils t-SNE, plotly.express, pandas de scikit-learn et du jeu de données sur les 100 villes français avec 54 variables décrivant le chomage, la richesse, le salaire....

In [2]:
from sklearn.manifold import TSNE
import plotly.express as px
import pandas as pd 
import warnings
warnings.filterwarnings('ignore')

df = pd.read_csv ("villes (2).csv",sep="	")
df

Unnamed: 0,Ville,Chomage,ChomageJeunes,ChomageLong,EvoluEmploiCree,Activite,EmploiFeminin,EmploiCommune,DefaillEntreprise,SalaireAnnuel,...,RestaurDistingues,Presse,Etudiants,ImpotRevenu,ImpotFortune,Imposables,EvolDemographique,Vieillissement,AttiranceGlobale,AttiranceActifs
0,Agen,0.181,0.161,0.58,0.05,0.44,0.53,0.56,0.18,17210,...,0.0,28.6,0.06,1067,0.005,46,-0.013,0.56,0.38,0.47
1,AixEnProvence,0.166,0.133,0.55,0.10,0.43,0.47,0.57,0.13,22232,...,1.0,19.9,0.31,2121,0.015,57,0.084,0.37,0.37,0.39
2,Ajaccio,0.166,0.181,0.52,0.02,0.43,0.46,0.77,0.14,17882,...,1.0,24.4,0.01,1207,0.004,47,-0.103,0.37,0.19,0.21
3,Albi,0.144,0.151,0.54,0.05,0.42,0.51,0.67,0.09,17923,...,0.0,22.1,0.07,1245,0.004,51,-0.007,0.59,0.31,0.35
4,Amiens,0.200,0.165,0.61,0.05,0.44,0.46,0.64,0.17,18037,...,0.0,14.7,0.18,1208,0.006,47,0.028,0.24,0.26,0.28
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,Valenciennes,0.193,0.146,0.58,0.07,0.42,0.48,0.43,0.22,18899,...,0.0,24.2,0.13,1385,0.009,46,0.074,0.31,0.37,0.44
96,Vannes,0.134,0.117,0.48,0.05,0.45,0.47,0.62,0.11,18752,...,1.0,22.5,0.08,1518,0.010,56,0.134,0.35,0.43,0.48
97,Versailles,0.069,0.115,0.46,0.00,0.46,0.52,0.33,0.15,30782,...,1.0,19.5,0.11,4358,0.050,76,-0.023,0.33,0.40,0.47
98,Vichy,0.206,0.147,0.60,0.02,0.39,0.55,0.46,0.13,17284,...,1.0,27.9,0.03,1101,0.010,48,-0.043,1.08,0.37,0.45


Données de projet en 2D avec t-SNE et px.scatter

Utilisons l’algorithme t-SNE pour projeter les données présentées ci-dessus en deux dimensions. Remarquez comment chacune des villes est séparée les unes des autres.

In [3]:

features = df.loc[:, 'Chomage':'AttiranceActifs']
tsne = TSNE(n_components=2, random_state=0)
projections = tsne.fit_transform(features)

fig = px.scatter(
    projections, x=0, y=1,
    color=df.Ville, labels={'color': 'Ville'}
)
fig.show()


Les villes ayant la même couleur sont sensées appartenir à la classe mais malheureusement la t-SNE n'arrive pas à les regrouper.

Données de projet en 3D avec t-SNE et px.scatter_3d

La t-SNE peut réduire vos données à n’importe quel nombre de dimensions que vous voulez! Ici, nous vous montrons comment le projeter en 3D et le visualiser avec un nuage de points 3D.

In [4]:

features = df.loc[:,'Chomage':'AttiranceActifs']

tsne = TSNE(n_components=3, random_state=0)
projections = tsne.fit_transform(features, )

fig = px.scatter_3d(
    projections, x=0, y=1, z=2,
    color=df.Ville, labels={'color': 'Ville'}
)
fig.update_traces(marker_size=8)
fig.show()

Même en 3D, les classes ne sont pas très regroupées.

Projections avec UMAP
Tout comme t-SNE, UMAP est une réduction de dimensionnalité spécialement conçue pour visualiser des données complexes dans de faibles dimensions (2D ou 3D). À mesure que le nombre de points de données augmente, UMAP devient plus efficace en termes de temps par rapport à TSNE.
Dans l’exemple ci-dessous, nous voyons à quel point il est facile d’utiliser UMAP en remplacement de scikit-learn.manifold.TSNE

In [7]:
from umap import UMAP
import plotly.express as px


features = df.loc[:,'Chomage':'AttiranceActifs']

umap_2d = UMAP(n_components=2, init='random', random_state=0)
umap_3d = UMAP(n_components=3, init='random', random_state=0)

proj_2d = umap_2d.fit_transform(features)
proj_3d = umap_3d.fit_transform(features)

fig_2d = px.scatter(
    proj_2d, x=0, y=1,
    color=df.Ville, labels={'color': 'Ville'}
)
fig_3d = px.scatter_3d(
    proj_3d, x=0, y=1, z=2,
    color=df.Ville, labels={'color': 'Ville'}
)
fig_3d.update_traces(marker_size=5)

fig_2d.show()
fig_3d.show()

UMAP essaye d'agreger les éléments d'une même classe en 2D et en 3D mais malheureusement elle n'arrive pas à le faire convenablement.