# Groupes de passagers sur le Titanic

L'objectif de ce TD est d'explorer et d'identifier les grandes catégories de passagers présents à bord du Titanic.

Comme souvent en partitionnement, les groupes seront formés arbitrairement, et il est possible de réaliser une analyse sur ces groupes pour identifier des tendances.  
Il est également envisageable de viser à reconstituer des groupes pour lesquels la vérité de terrain est connue (par exemple la classe, la nationalité, etc.).

Ce TD sera basé en grande partie sur la (re-)découverte des classes de passagers.

## Imports

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn import set_config

set_config(transform_output="pandas")  # requiert pandas>=1.2

In [None]:
passengers = pd.read_csv("passengers.csv", parse_dates=["birthday"])

### Génération du nombre de passagers par billet et du prix unitaire

In [None]:
cnts = passengers.groupby(["ticket", "fare"])["survived"].count().rename("co-travelers").reset_index()
passengers = passengers.merge(cnts, on=["ticket", "fare"])
passengers["unit fare"] = passengers["fare"] / passengers["co-travelers"]
passengers

**Q1.1** Visualiser les variations des politiques tarifaires, globalement puis par classe.  
Suggestion : utiliser la fonction [`relplot`](https://seaborn.pydata.org/generated/seaborn.relplot.html) de la bibliothèque seaborn, avec :

- en ordonnée le prix unitaire,
- en abscisse le nombre de personnes concernées par le billet,
- en colonne la classe (optionnellement).

**Q1.2** Générer un premier partitionnement avec l'algorithme des K-moyennes (K-means).

In [None]:
from sklearn.cluster import KMeans

**Q1.3** Visualiser la matrice de contingence, puis calculer l'indice de Rand (ajusté ou non) et le taux de bonne classification.  
Pour le calcul du taux de bonne classification, vous pourrez vous baser sur la fonction d'optimisation [`linear_sum_assignment`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.linear_sum_assignment.html) de SciPy.  
Interpréter les résultats obtenus.

In [None]:
from sklearn.metrics import rand_score, adjusted_rand_score
from sklearn.metrics.cluster import contingency_matrix
from scipy.optimize import linear_sum_assignment # équivalent de l'algorithme Hongrois

**Q1.4** Afficher, sur le même type de graphique que celui utilisé pour visualiser les variations tarifaires, les groupes générés par K-means (par un code couleur par exemple).

**Q1.5** Calculer le score de silhouette de chaque échantillon par rapport aux partitions données par K-means.  
Visualiser la distribution des valeurs des scores par partition.  
Visualiser, sur le plan de projection des valeurs originales (co-travelers, unit fare), la valeur de la silhouette pour chaque point (par une couleur par exemple).

In [None]:
from sklearn.metrics import silhouette_samples

**Q1.6** Reprendre la question précédente, mais en calculant cette fois le score de silhouette sur la base du résultat attendu (la classe réelle des passagers).  
Que pouvez-vous en conclure ?

# Prétraitements

## Normalisation

**Q2.1** Normaliser le prix unitaire et le nombre de passagers par ticket pour obtenir des valeurs entre 0 et 1.  

In [None]:
from sklearn.preprocessing import MinMaxScaler

**Q2.2** Cela a-t-il une influence sur la qualité du clustering ?

**Q2.3** Que se passe-t-il si on réalise le clustering uniquement sur la base du prix unitaire ?

# Visualisation pour des données multidimensionnelles

## Analyse en composantes principales

Il peut être difficile de visualiser les données caractérisées par de nombreuses dimensions. Une technique classique consiste à projeter les données dans une espace à deux dimensions (deux axes), de manière à maximiser la dispersion des valeurs sur ces axes.

**Q3.1** Après avoir appliqué K-means sur un ensemble de quatre attributs ou plus, visualiser la partition résultat dans le plan en utilisant une [analyse en composantes principales](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html).

In [None]:
from sklearn.decomposition import PCA