#Embarcation pour l'univers de l'IA : le Titanic

01. Pourquoi sommes-nous ici ?
Aujourd'hui, l'Intelligence Artificielle est partout, mais elle est souvent per√ßue comme une "bo√Æte noire" myst√©rieuse. Pour comprendre les outils r√©volutionnaires d'aujourd'hui (comme ChatGPT ou la reconnaissance faciale) il est indispensable de revenir aux fondations.

Les mod√®les que nous allons construire aujourd'hui, l'arbre de d√©cision et la for√™t al√©atoire, ne sont pas de simples exercices de style : ils sont la base absolue de la science des donn√©es. Ils repr√©sentent la fa√ßon par laquelle on commence √† apprendre aux machines √† extraire de la logique √† partir du "chaos" (donn√©es structur√©es, bruyantes).

02. Le changement de paradigme

Dans l'informatique "classique" pour r√©soudre un probl√®me, on donne √† l'ordinateur des r√®gles explicites :

Exemple : SI (Le message contient "Gagner de l'argent") ET (L'exp√©diteur est inconnu) ALORS (Marquer comme SPAM)

En Machine Learning, on inverse la logique. On ne donne plus de r√®gles √† l'ordinateur. On lui donne :

Les donn√©es du pass√© (le profil des passagers du Titanic).

Les r√©sultats connus (qui a surv√©cu, qui est d√©c√©d√©).

C'est la machine qui cr√©e ses propres r√®gles. C'est ce qu'on appelle l'entra√Ænement d'un mod√®le.

03. Des r√®gles explicites aux r√®gles implicites

La grande force des mod√®les que nous √©tudions aujourd'hui est leur transparence.
- Aujourd'hui (arbre de d√©cision) : Les r√®gles trouv√©es par l'IA sont explicites. On peut les dessiner et les lire facilement
- Plus tard (Mod√®les avanc√©s/Deep Learning) : Dans des mod√®les plus complexes (r√©seaux de neurones) les r√®gles deviennent implicites. L'IA "sait" mais elle utilise des millions de calculs math√©matiques cach√©s que l'humain ne peut plus lire √† l'≈ìil nu.

Apprendre sur le jeu de donn√©es du Titanic c'est apprendre √† lire dans les pens√©es de la machine avant qu'elles ne deviennent trop complexes.

04. Pourquoi le Titanic comme terrain de jeu ?

Le naufrage du Titanic en 1912 n'est pas qu'une trag√©die historique ; c'est un laboratoire sociologique parfait. Les donn√©es sont "bruit√©es" (il y a des erreurs, des oublis) mais elles contiennent des structures sociales fortes.

Si vous arrivez √† pr√©dire la survie d'un passager avec une bonne pr√©cision, vous aurez ma√Ætris√© les √©tapes fondamentales de n'importe quel projet d'IA :

- Pr√©parer les donn√©es (le nettoyage). Ne sous-estimez **jamais** cette √©tape.

- Transformer le r√©el en math√©matiques (l'encodage) pour l'interpr√©tation de la machine.

- Entra√Æner et √©valuer la logique r√©sultante (l'apprentissage).

#0. Imports n√©cessaires

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay, classification_report
from sklearn.ensemble import RandomForestClassifier

In [None]:
# Chargement des donn√©es directement depuis un d√©p√¥t GitHub public
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/refs/heads/master/titanic.csv"
df = pd.read_csv(url)

In [None]:
print("Donn√©es charg√©es avec succ√®s !")
df.head()

#1. Exploration des donn√©es

In [None]:
# Traduction des colonnes pour faciliter la compr√©hension
traductions = {
    'PassengerId': 'ID_Passager',
    'Survived': 'Surv√©cu',
    'Pclass': 'Classe',
    'Name': 'Nom',
    'Sex': 'Sexe',
    'Age': 'Age',
    'SibSp': 'Fr√®res_S≈ìurs_√âpoux',
    'Parch': 'Parents_Enfants',
    'Ticket': 'Num√©ro_Ticket',
    'Fare': 'Prix_Billet',
    'Cabin': 'Cabine',
    'Embarked': 'Port_Embarquement'
}

In [None]:
# Afficher les informations g√©n√©rales (colonnes, types, valeurs manquantes)
df.info()

In [None]:
df = df.rename(columns=traductions)

print("En-t√™tes traduits !")
df.head()

In [None]:
#@title Statistiques descriptives du jeu de donn√©es
# On regarde les moyennes, minimums, maximums
# On transpose (T) pour que ce soit plus lisible si on a beaucoup de colonnes
df.describe().T

In [None]:
#@title O√π sont les "trous" dans nos donn√©es ?
plt.figure(figsize=(10,6))
sns.heatmap(df.isnull(), yticklabels=False, cbar=False, cmap='viridis')
plt.title("Lignes jaunes = Donn√©es manquantes")
plt.show()

print(df.isnull().sum())

In [None]:
#@title Survie selon la classe √† bord (1√®re, 2√®me, 3√®me)
sns.barplot(x='Classe', y='Surv√©cu', data=df)
plt.title("Probabilit√© de survie par classe (corr√©lation)")
plt.show()

In [None]:
#@title Qui a surv√©cu, selon le sexe ?
sns.countplot(x='Surv√©cu', hue='Sexe', data=df)
plt.title("Survie selon le sexe (0 = D√©c√©d√©, 1 = Surv√©cu)")
plt.show()

In [None]:
#@title Quel √©tait l'√¢ge des gens √† bord ?
plt.figure(figsize=(10,5))
sns.histplot(df['Age'].dropna(), kde=True, color='blue', bins=30)
plt.title("R√©partition des passagers par √¢ge")
plt.show()

In [None]:
#@title Bilan du naufrage : Survivants vs D√©c√©d√©s
plt.figure(figsize=(7, 5))

# Cr√©ation du graphique en barres
sns.countplot(x='Surv√©cu', data=df, hue='Surv√©cu', palette=['#e74c3c', '#2ecc71'], legend=False)

# Personnalisation pour que ce soit clair pour les √©l√®ves
plt.title("R√©partition des passagers (La r√©alit√© du naufrage)")
plt.xticks([0, 1], ['D√©c√©d√©s (0)', 'Survivants (1)'])
plt.xlabel("")
plt.ylabel("Nombre de passagers")

plt.show()

# Affichage des chiffres exacts
counts = df['Surv√©cu'].value_counts()
print(f"Nombre de d√©c√®s : {counts[0]}")
print(f"Nombre de survivants : {counts[1]}")
print(f"Pourcentage de survivants : {df['Surv√©cu'].mean()*100:.2f}%")

#2. Nettoyage des donn√©es

Ici, deux points sont √† retenir :
- Les donn√©es ne sont peut-√™tre pas propres (erreurs, mauvais type, cellules vides, etc.)
- Le syst√®me d'apprentissage ne peut pas interpr√©ter les mots en tant que tels, il faut les convertir en valeurs num√©riques

In [None]:
#1. Remplir les √¢ges manquants par la moyenne (Imputation) ou supprimer ces colonnes
print(f"Nombre de cellules null dans la colonne Age : {df["Age"].isna().sum()}")

In [None]:
df[df['Age'].isna()]

In [None]:
#On peut remplacer la cellule vide par l'√¢ge m√©dian des passagers
#df['Age'] = df['Age'].fillna(df['Age'].median())

##2.1. V√©rification de la qualit√© des donn√©es

In [None]:
#Ou supprimer les lignes o√π l'√¢ge est vide en perdant donc des donn√©es
#Je vous conseille d'alterner pour observer l'impact sur la pr√©cision de vos mod√®les
df.dropna(subset=['Age'], inplace=True)

In [None]:
df.info()

##2.2. Modification des donn√©es textuelles

In [None]:
df.head()

## Question :
Quelles colonnes sont √† transformer selon-vous ?

<details>
<summary>üëâ Cliquez ici pour voir la r√©ponse</summary>

**R√©ponse :** Seul le sexe est facile √† faire et pertinent. Le nom, le num√©ro du ticket et la cabine sont des identifiants **uniques** donc peu utiles pour notre exercice. Le port d'embarquement pourrait √™tre int√©ressant, vous pourrez tester par vous-m√™me
</details>

In [None]:
# 2. Transformer la colonne Sex en valeurs num√©riques (0 pour homme, 1 pour femme par ex.)
df['Sexe'] = df['Sexe'].map({'male': 0, 'female': 1})

In [None]:
df.head()

##2.3. Simplification pour l'exercice

Ne gardons que les colonnes les plus explicites ET on s√©pare la valeur "surv√©cu" des param√®tres.

In [None]:
features = ['Classe', 'Sexe', 'Age', 'Fr√®res_S≈ìurs_√âpoux', 'Parents_Enfants', 'Prix_Billet']
X = df[features]
y = df['Surv√©cu']

print("Donn√©es pr√™tes pour l'entra√Ænement !")

In [None]:
X.head()

In [None]:
y.head()

#3. Cr√©ation de jeux d'entrainement

Pourquoi jeux au pluriel ? Car il faut toujours, au moins, un jeu d√©di√© √† l'entrainement du mod√®le et un jeu d'√©valuation de la qualit√© de la pr√©diction du mod√®le. Un d√©coupage de 20% du jeu total est g√©n√©ralement recommand√© pour le jeu d'√©valuation.

In [None]:
X_train, X_eval, y_train, y_eval = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Nombre de passagers pour l'entra√Ænement : {len(X_train)}") #en comptant les lignes dans le jeu, on obtient le nombre de passagers conserv√©s car une ligne = un passager
print(f"Nombre de passagers pour le test : {len(X_eval)}")

#4. Entrainement d'un mod√®le

Ici, vous devez faire des choix / exp√©rimentations concernant le mod√®le le plus adapt√© √† vos donn√©es et votre t√¢che.

Choisissons un arbre de d√©cision ici, l'un des mod√®les les plus simples afin de voir ce qu'il se passe lors de l'apprentissage.

In [None]:
# Cr√©ation du mod√®le
model = DecisionTreeClassifier(max_depth=3) # Vous pouvez faire varier la profondeur pour √©valuer l'impact sur les r√©sultats

# Apprentissage
model.fit(X_train, y_train)

print("Le mod√®le a termin√© son apprentissage.")

#5. Pr√©dictions avec le mod√®le

Une fois le mod√®le entrain√©, nous pouvons l'utiliser pour pr√©dire et donc dans un premier temps, √©valuer son apprentissage.

In [None]:
# On demande au mod√®le de pr√©dire sur les donn√©es qu'il n'a jamais vues : le jeu d'√©valuation
predictions = model.predict(X_eval)

# Calcul du score de pr√©cision
score = accuracy_score(y_eval, predictions) #on compare les pr√©dictions aux formations r√©elles
print(f"Pr√©cision du mod√®le : {score * 100:.2f}%")

## Question : Pourquoi le score est-il meilleur sur la colonne "D√©c√©d√©" ?

<details> <summary>üëâ R√©ponse et analyse</summary>

G√©n√©ralement, sur le Titanic, les mod√®les ont un meilleur score (Pr√©cision et Rappel) pour les d√©c√©d√©s. Pourquoi ? Parce qu'il y a plus d'exemples de personnes d√©c√©d√©es dans les donn√©es d'entra√Ænement, tout simplement. Le mod√®le a donc plus de donn√©es (et de variations) pour reconna√Ætre un passager qui ne va pas s'en sortir que pour reconna√Ætre un survivant. C'est ce qu'on appelle un jeu de donn√©es d√©s√©quilibr√©.

</details>

In [None]:
# D√©finir la taille du graphique
plt.figure(figsize=(20,10))

# Tracer l'arbre
plot_tree(model,
          feature_names=features,
          class_names=['D√©c√©d√©', 'Surv√©cu'],
          filled=True,
          rounded=True,
          fontsize=12)

plt.title("L'arbre de d√©cision g√©n√©r√© par le mod√®le lors de son apprentissage")
plt.show()

Chaque bloc est une d√©cision √† partir des informations donn√©es. Pour chaque bloc :
- Premi√®re ligne : condition selon laquelle on suit la branche True ou False. Pour la premi√®re case, c'est si l'age est inf√©rieur ou √©gal √† 0.5. H=0, F=1 donc "si non femme, True". C'est notre facteur le plus d√©terminant.
- Deuxi√®me ligne gini : doit tendre vers 0 pour que le mod√®le soit s√ªr de lui.
- Troisi√®me ligne : le nombre de passagers restants dans le groupe
- Quatri√®me ligne : nb d√©c√®s, nb surv√©cu dans le groupe
- Cinqui√®me ligne : r√©ponse li√©e √† la pr√©diction / case dans l'arbre (Ex : Homme avec age <= 3.5, probablement d√©c√©d√©)

## Question :
Que se passe-t-il pour une femme en 3eme classe de plus de 30 ans ?

<details>
<summary>üëâ Cliquez ici pour voir la r√©ponse</summary>

**R√©ponse :** Elle est probablement d√©c√©d√©e (case orange en bas √† droite) --> discrimination sociale ?
</details>

Le mod√®le utilise des crit√®res comme le sexe ou la classe sociale pour d√©cider de la vie ou de la mort. Est-ce que cela signifie que le mod√®le est 'sexiste' ou 'classiste' intrins√©quement ou est-ce qu'il ne fait que refl√©ter la r√©alit√© historique, et donc le biais, des donn√©es ?

In [None]:
#@title Simulation : Auriez-vous surv√©cu au Titanic ?

# Saisie des donn√©es via le formulaire √† droite
sexe = "femme" #@param ["homme", "femme"]
age = 25 #@param {type:"slider", min:1, max:100, step:1}
classe = 1 #@param [1, 2, 3]
freres_soeurs = 0 #@param {type:"number"}
parents_enfants = 0 #@param {type:"number"}
prix_billet = 500 #@param {type:"number"}

# Conversion des donn√©es pour le mod√®le
sexe_code = 1 if sexe == "femme" else 0

In [None]:
# Cr√©ation d'un petit tableau avec vos donn√©es entr√©es
moi = pd.DataFrame([[classe, sexe_code, age, freres_soeurs, parents_enfants, prix_billet]],
                  columns=['Classe', 'Sexe', 'Age', 'Fr√®res_S≈ìurs_√âpoux', 'Parents_Enfants', 'Prix_Billet'])

In [None]:
# Pr√©diction
survie = model.predict(moi)[0]
probabilite = model.predict_proba(moi)[0][1]

# R√©sultat
if survie == 1:
    print(f"‚úÖ F√©licitations ! Vous auriez SURV√âCU (Probabilit√© : {probabilite*100:.1f}%)")
else:
    print(f"‚ùå D√©sol√©... Vous n'auriez PAS surv√©cu (Probabilit√© de survie : {probabilite*100:.1f}%)")

#6. Un mod√®le plus avanc√© : RandomForest

Pourquoi changer de mod√®le ? Pensez √† un arbre de d√©cision comme consulter l'avis d'un seul expert qui parrcourt le tableau des donn√©es. Il peut se tromper ou √™tre trop rigide dans sa s√©lection de param√®tres discriminants.

Une for√™t al√©atoire c'est comme demander l'avis √† 100 experts diff√©rents qui regardent chacun une seule partie du probl√®me puis de faire un vote entre eux. La majorit√© l'emporte.

In [None]:
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)

In [None]:
rf_model.fit(X_train, y_train)

In [None]:
rf_predictions = rf_model.predict(X_eval)
rf_score = accuracy_score(y_eval, rf_predictions)

In [None]:
print(f"Pr√©cision de l'arbre de d√©cision : {score * 100:.2f}%")
print(f"Pr√©cision de la for√™t al√©atoire : {rf_score * 100:.2f}%")

L'avantage avec ces mod√®les, c'est qu'on facilement mesurer les param√®tres qui ont eu une importance dans leur calcul :

In [None]:
# R√©cup√©rer l'importance des colonnes
importances = pd.Series(rf_model.feature_importances_, index=features)
importances = importances.sort_values(ascending=False)

In [None]:
# Affichage
plt.figure(figsize=(10,6))
sns.barplot(x=importances, y=importances.index)
plt.title("Quels facteurs ont le plus compt√© pour le mod√®le ?")
plt.xlabel("Score d'importance")
plt.show()

In [None]:
#Matrice de confusion pour comprendre les erreurs du mod√®le
cm = confusion_matrix(y_eval, predictions)
plt.figure(figsize=(8,6))
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['D√©c√©d√©', 'Surv√©cu'])
disp.plot(cmap='Blues', values_format='d')
plt.title("O√π le mod√®le se trompe-t-il ?")
plt.show()

Comment lire une matrice de confusion binaire ? Attention, pas √©vident aux premiers abords :

- Vrais N√©gatifs (Haut-Gauche) : Le passager est mort et le mod√®le a pr√©dit qu'il mourrait, c'est parfait.

- Vrais Positifs (Bas-Droite) : Le passager a surv√©cu et le mod√®le a pr√©dit qu'il survivrait, c'est parfait.

- Faux Positifs (Haut-Droit) : Le mod√®le a dit "Il va survivre" mais il est mort, c'est une erreur.

- Faux N√©gatifs (Bas-Gauche) : Le mod√®le a dit "Il va mourir" mais il a surv√©cu, c'est une erreur.

Nous avons vu la pr√©cision du mod√®le et sa matrice de confusion mais si le mod√®le se trompe donc, peut-on savoir un peu plus pr√©cis√©ment *comment* ?

Ci-dessous un rapport de classification standard :

In [None]:
print(classification_report(y_eval, rf_predictions, target_names=['D√©c√©d√©', 'Surv√©cu']))

In [None]:
#Je vous remets le rapport de l'arbre :
print(classification_report(y_eval, predictions, target_names=['D√©c√©d√©', 'Surv√©cu']))

## Comment lire le rapport

- Pr√©cision (la "fiabilit√©") : Quand le mod√®le dit "Ce passager va survivre", √† quel point pouvez-vous lui faire confiance ?

Si la pr√©cision est de 0.80, √ßa veut dire que sur 100 personnes pr√©dites "Survivantes", 80 le sont vraiment (et 20 sont en fait d√©c√©d√©es).

- Rappel (la "d√©tection") : Sur tous les gens qui ont r√©ellement surv√©cu, combien le mod√®le a-t-il r√©ussi √† en retrouver ?

Si le rappel est de 0.60, √ßa veut dire que le mod√®le a "oubli√©" 40% des survivants, il les a d√©clar√©s mort, √† tort. (car nous avons une classification binaire)

- F1-Score (le "compromis") : C'est la moyenne des deux. Si vous voulez un mod√®le √©quilibr√© qui ne fait ni trop de fausses joies, ni trop d'oublis, c'est ce chiffre qu'il faut regarder.

----------------------------

# Pour la suite :
- XGBoost : peut √™tre plus pr√©cis que RFC mais sensible √† l'overfitting
- Feature engineering : modifier les features pour am√©liorer les param√®tres disponibles (extraction du titre devant le nom de la personne, additionner la taille de la famille, ajouter le port d'embarcation, etc.)
- Modification des hyperparam√®tres : 100 arbres, 1000 arbres, etc. ?
- Validation crois√©e : au lieu de tester une fois sur 20% des donn√©es, on fait 5 d√©coupages diff√©rents pour 5 exp√©riences diff√©rentes et on √©value 5 fois. En prenant la moyenne des √©valuations, on obtiendra un score plus fiable.

## Question :
Est-ce que la taille de la famille a un impact sur les chances de survie ?

<details>
<summary>üëâ Cliquez ici pour voir la r√©ponse</summary>

**R√©ponse :**
> df['Taille_Famille'] = df['Fr√®res_S≈ìurs_√âpoux'] + df['Parents_Enfants'] + 1
</details>

In [None]:
#Indice : ajouter une nouvelle colonne dans le DataFrame √† partir d'une addition de colonnes

## Question :
Si on d√©couvre que 100% des gens qui ont embarqu√© √† Cherbourg ont surv√©cu, est-ce parce que l'air de Cherbourg rend immortel ?

<details>
<summary>üëâ R√©ponse (Le concept de corr√©lation)</summary>
Non ! C'est probablement parce que la majorit√© des passagers riches (1√®re classe) ont embarqu√© √† Cherbourg. Ce n'est pas le port d'embarcation qui sauve mais la classe sociale associ√©e au port. Le√ßon primordiale : **corr√©lation n'est pas causalit√©**. C'est toujours important √† garder √† l'esprit en analysant des donn√©es et des r√©sultats.
</details>

# Tentez donc d'avoir le meilleur score !

Il existe m√™me une comp√©tition permanente pour vous exercer : https://www.kaggle.com/c/titanic