Se connecter à Kaggle pour la première fois peut être intimidant. Nos compétitions offrent souvent de gros prix en argent, des classements publics et impliquent des données complexes. Néanmoins, nous pensons vraiment que tous les data scientists peuvent rapidement apprendre grâce aux compétitions de machine learning et contribuer de manière significative à notre communauté. Pour vous donner une compréhension claire de notre plateforme et un modèle mental du type d'apprentissage que vous pouvez faire sur Kaggle, nous avons créé un tutoriel de démarrage pour la compétition Titanic. Il vous guide à travers les premières étapes nécessaires pour obtenir votre première soumission décente sur le classement. À la fin du tutoriel, vous aurez également une bonne compréhension de l'environnement de codage en ligne de Kaggle, où vous aurez entraîné votre propre modèle de machine learning.

Donc, si c'est votre première participation à une compétition Kaggle, que vous :
- ayez de l'expérience avec de grands ensembles de données,
- n'ayez pas beaucoup codé,
- soyez nouveau en data science, ou
- soyez relativement expérimenté (mais simplement peu familier avec la plateforme Kaggle),

vous êtes au bon endroit !

# Partie 1 : Commencer

Dans cette section, vous en apprendrez plus sur la compétition et ferez votre première soumission.

## Rejoindre la compétition !

La première chose à faire est de rejoindre la compétition ! Ouvrez une nouvelle fenêtre avec **[la page de la compétition](https://www.kaggle.com/c/titanic)**, et cliquez sur le bouton **"Join Competition"**, si ce n'est pas déjà fait. (_Si vous voyez un bouton "Submit Predictions" au lieu de "Join Competition", vous avez déjà rejoint la compétition, et n'avez pas besoin de le refaire._)

![](https://i.imgur.com/07cskyU.png)

Cela vous amène à la page d'acceptation des règles. Vous devez accepter les règles de la compétition pour participer. Ces règles régissent le nombre de soumissions que vous pouvez faire par jour, la taille maximale de l'équipe, et d'autres détails spécifiques à la compétition. Cliquez ensuite sur **"I Understand and Accept"** pour indiquer que vous respecterez les règles de la compétition.

## Le défi

La compétition est simple : nous voulons que vous utilisiez les données des passagers du Titanic (nom, âge, prix du billet, etc.) pour essayer de prédire qui survivra et qui mourra.

## Les données

Pour consulter les données de la compétition, cliquez sur l'onglet **<a href="https://www.kaggle.com/c/titanic/data" target="_blank" rel="noopener noreferrer"><b>Data</b></a>** en haut de la page de la compétition. Faites ensuite défiler vers le bas pour trouver la liste des fichiers.
Il y a trois fichiers dans les données : (1) **train.csv**, (2) **test.csv**, et (3) **gender_submission.csv**.

### (1) train.csv

**train.csv** contient les détails d'un sous-ensemble des passagers à bord (891 passagers, pour être exact — chaque passager ayant une ligne différente dans le tableau). Pour examiner ces données, cliquez sur le nom du fichier à gauche de l'écran. Une fois cela fait, vous pouvez voir toutes les données dans la fenêtre.

![](https://i.imgur.com/cYsdt0n.png)

Les valeurs de la deuxième colonne (**"Survived"**) peuvent être utilisées pour déterminer si chaque passager a survécu ou non :
- si c'est "1", le passager a survécu.
- si c'est "0", le passager est décédé.

Par exemple, le premier passager listé dans **train.csv** est M. Owen Harris Braund. Il avait 22 ans lorsqu'il est décédé sur le Titanic.

### (2) test.csv

En utilisant les motifs que vous trouvez dans **train.csv**, vous devez prédire si les 418 autres passagers à bord (dans **test.csv**) ont survécu.

Cliquez sur **test.csv** (à gauche de l'écran) pour examiner son contenu. Notez que **test.csv** n'a pas de colonne **"Survived"** — cette information vous est cachée, et la qualité de vos prédictions de ces valeurs cachées déterminera votre score dans la compétition !

### (3) gender_submission.csv

Le fichier **gender_submission.csv** est fourni comme exemple pour montrer comment structurer vos prédictions. Il prédit que toutes les passagères ont survécu, et que tous les passagers masculins sont décédés. Vos hypothèses concernant la survie seront probablement différentes, ce qui conduira à un fichier de soumission différent. Mais, tout comme ce fichier, votre soumission doit avoir :
- une colonne **"PassengerId"** contenant les identifiants de chaque passager de **test.csv**.
- une colonne **"Survived"** (que vous créerez !) avec un "1" pour les lignes où vous pensez que le passager a survécu, et un "0" là où vous prédisez que le passager est décédé.

# Partie 2 : Votre environnement de codage

Dans cette section, vous allez entraîner votre propre modèle de machine learning pour améliorer vos prédictions. _Si vous n'avez jamais écrit de code auparavant ou n'avez aucune expérience en machine learning, ne vous inquiétez pas ! Nous ne supposons aucune expérience préalable dans ce tutoriel._

## Le Notebook

La première chose à faire est de créer un Notebook Kaggle où vous stockerez tout votre code. Vous pouvez utiliser les Notebooks Kaggle pour commencer à écrire du code rapidement, sans avoir à installer quoi que ce soit sur votre ordinateur. (_Si vous êtes intéressé par le deep learning, nous offrons également un accès GPU gratuit !_)

Commencez par cliquer sur l'onglet **<a href="https://www.kaggle.com/c/titanic/kernels" target="_blank">Code</a>** sur la page de la compétition. Ensuite, cliquez sur **"New Notebook"**.

![](https://i.imgur.com/v2i82Xd.png)

Votre notebook prendra quelques secondes à charger. En haut à gauche, vous pouvez voir le nom de votre notebook — quelque chose comme **"kernel2daed3cd79"**.

![](https://i.imgur.com/64ZFT1L.png)

Vous pouvez modifier le nom en cliquant dessus. Changez-le pour quelque chose de plus descriptif, comme **"Démarrer avec Titanic"**.

![](https://i.imgur.com/uwyvzXq.png)

## Vos premières lignes de code

Lorsque vous démarrez un nouveau notebook, il comporte deux cases grises pour stocker du code. Nous appelons ces cases des "cellules de code".

![](https://i.imgur.com/q9mwkZM.png)

La première cellule de code contient déjà du code. Pour exécuter ce code, placez votre curseur dans la cellule de code. (_Si votre curseur est au bon endroit, vous remarquerez une ligne verticale bleue à gauche de la case grise._) Ensuite, cliquez sur le bouton de lecture (qui apparaît à gauche de la ligne bleue), ou appuyez sur **[Shift] + [Entrée]** sur votre clavier.

Si le code s'exécute avec succès, trois lignes de sortie sont retournées. Ci-dessous, vous pouvez voir le même code que vous venez d'exécuter, ainsi que la sortie que vous devriez voir dans votre notebook.

In [None]:
import numpy as np # algèbre linéaire
import pandas as pd # traitement des données, lecture de fichiers CSV (par exemple pd.read_csv)

import os
for dirname, _, filenames in os.walk('.'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# Tous les résultats que vous écrivez dans le répertoire courant sont enregistrés en sortie.

Cela nous montre où sont stockées les données de la compétition, afin que nous puissions charger les fichiers dans le notebook. Nous allons le faire ensuite.

## Charger les données

La deuxième cellule de code de votre notebook apparaît maintenant sous les trois lignes de sortie avec les emplacements des fichiers.

![](https://i.imgur.com/OQBax9n.png)

Tapez les deux lignes de code ci-dessous dans votre deuxième cellule de code. Ensuite, une fois terminé, cliquez sur le bouton bleu de lecture, ou appuyez sur **[Shift] + [Entrée]**.

In [None]:
train_data = pd.read_csv("data/train.csv")
train_data.head()

Votre code doit retourner la sortie ci-dessus, qui correspond aux cinq premières lignes du tableau dans **train.csv**. Il est très important que vous voyiez cette sortie **dans votre notebook** avant de poursuivre le tutoriel !
> _Si votre code ne produit pas cette sortie_, vérifiez que votre code est identique aux deux lignes ci-dessus. Et, assurez-vous que votre curseur est dans la cellule de code avant d'appuyer sur **[Shift] + [Entrée]**.

Le code que vous venez d'écrire est en langage Python. Il utilise un "module" Python appelé **pandas** (abrégé en `pd`) pour charger le tableau du fichier **train.csv** dans le notebook. Pour ce faire, nous avons dû indiquer l'emplacement du fichier (que nous avons vu être `/kaggle/input/titanic/train.csv`).
> Si vous n'êtes pas déjà familier avec Python (et pandas), le code ne devrait pas vous sembler logique — mais ne vous inquiétez pas ! Le but de ce tutoriel est de (rapidement !) faire votre première soumission à la compétition. À la fin du tutoriel, nous suggérons des ressources pour continuer votre apprentissage.

À ce stade, vous devriez avoir au moins trois cellules de code dans votre notebook.
![](https://i.imgur.com/ReLhYca.png)

Copiez le code ci-dessous dans la troisième cellule de code de votre notebook pour charger le contenu du fichier **test.csv**. N'oubliez pas de cliquer sur le bouton de lecture (ou d'appuyer sur **[Shift] + [Entrée]**) !

In [None]:
test_data = pd.read_csv("data/test.csv")
test_data.head()

Comme précédemment, assurez-vous de voir la sortie ci-dessus dans votre notebook avant de continuer.

Une fois que tout le code s'exécute correctement, toutes les données (dans **train.csv** et **test.csv**) sont chargées dans le notebook. (_Le code ci-dessus n'affiche que les 5 premières lignes de chaque tableau, mais toutes les données sont là — les 891 lignes de **train.csv** et les 418 lignes de **test.csv** !_)

# Partie 3 : Votre première soumission

Rappelez-vous notre objectif : nous voulons trouver des motifs dans **train.csv** qui nous aident à prédire si les passagers dans **test.csv** ont survécu.

Cela peut sembler accablant au début de chercher des motifs, lorsqu'il y a autant de données à trier. Nous allons donc commencer simplement.

## Explorer un motif

Rappelez-vous que le fichier de soumission exemple **gender_submission.csv** suppose que toutes les passagères ont survécu (et que tous les passagers masculins sont décédés).

Est-ce une première supposition raisonnable ? Nous allons vérifier si ce motif se vérifie dans les données (**train.csv**).

Copiez le code ci-dessous dans une nouvelle cellule de code. Puis, exécutez la cellule.

In [None]:
women = train_data.loc[train_data.Sex == 'female']["Survived"]
rate_women = sum(women)/len(women)

print("% de femmes ayant survécu :", rate_women)

Avant de continuer, assurez-vous que votre code retourne la sortie ci-dessus. Le code ci-dessus calcule le pourcentage de passagères (dans **train.csv**) ayant survécu.

Ensuite, exécutez le code ci-dessous dans une autre cellule de code :

In [None]:
men = train_data.loc[train_data.Sex == 'male']["Survived"]
rate_men = sum(men)/len(men)

print("% d'hommes ayant survécu :", rate_men)

Le code ci-dessus calcule le pourcentage de passagers masculins (dans **train.csv**) ayant survécu.

On peut voir qu'environ 75% des femmes à bord ont survécu, alors que seulement 19% des hommes ont survécu. Puisque le genre semble être un indicateur fort de survie, le fichier de soumission **gender_submission.csv** n'est pas une mauvaise première supposition !

Mais au final, cette soumission basée sur le genre fonde ses prédictions sur une seule colonne. Comme vous pouvez l'imaginer, en considérant plusieurs colonnes, nous pouvons découvrir des motifs plus complexes qui peuvent potentiellement donner lieu à des prédictions mieux informées. Comme il est assez difficile de considérer plusieurs colonnes à la fois (ou, cela prendrait beaucoup de temps de considérer tous les motifs possibles dans de nombreuses colonnes différentes simultanément), nous allons utiliser le machine learning pour automatiser cela.

## Votre premier modèle de machine learning

Nous allons construire ce qu'on appelle un **modèle de forêt aléatoire**. Ce modèle est constitué de plusieurs "arbres" (il y a trois arbres sur l'image ci-dessous, mais nous en construirons 100 !) qui examineront individuellement les données de chaque passager et voteront pour savoir si l'individu a survécu. Ensuite, le modèle de forêt aléatoire prend une décision démocratique : le résultat avec le plus de votes l'emporte !

![](https://i.imgur.com/AC9Bq63.png)

La cellule de code ci-dessous recherche des motifs dans quatre colonnes différentes (**"Pclass"**, **"Sex"**, **"SibSp"**, et **"Parch"**) des données. Elle construit les arbres du modèle de forêt aléatoire à partir des motifs dans le fichier **train.csv**, avant de générer des prédictions pour les passagers dans **test.csv**. Le code enregistre également ces nouvelles prédictions dans un fichier CSV **submission.csv**.

Copiez ce code dans votre notebook, et exécutez-le dans une nouvelle cellule de code.

In [None]:
from sklearn.ensemble import RandomForestClassifier

y = train_data["Survived"]

features = ["Pclass", "Sex", "SibSp", "Parch"]
X = pd.get_dummies(train_data[features])
X_test = pd.get_dummies(test_data[features])

model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=1)
model.fit(X, y)
predictions = model.predict(X_test)

output = pd.DataFrame({'PassengerId': test_data.PassengerId, 'Survived': predictions})
output.to_csv('submission.csv', index=False)
print("Votre soumission a été enregistrée avec succès !")

Assurez-vous que votre notebook affiche le même message ci-dessus (`Votre soumission a été enregistrée avec succès !`) avant de continuer.
> Encore une fois, ne vous inquiétez pas si ce code ne vous semble pas logique ! Pour l'instant, nous allons nous concentrer sur la génération et la soumission des prédictions.

Une fois prêt, cliquez sur le bouton **"Save Version"** en haut à droite de votre notebook. Cela fera apparaître une fenêtre contextuelle.
- Assurez-vous que l'option **"Save and Run All"** est sélectionnée, puis cliquez sur le bouton **"Save"**.
- Cela génère une fenêtre en bas à gauche du notebook. Après l'exécution, cliquez sur le numéro à droite du bouton **"Save Version"**. Cela affiche une liste de versions à droite de l'écran. Cliquez sur les points de suspension **(...)** à droite de la version la plus récente, puis sélectionnez **Open in Viewer**.
- Cliquez sur l'onglet **Data** en haut de l'écran. Ensuite, cliquez sur le bouton **"Submit"** pour soumettre vos résultats.

![](https://i.imgur.com/1ocaUl4.png)

Félicitations pour votre première soumission à une compétition Kaggle ! En moins de dix minutes, vous devriez recevoir un message vous indiquant votre position dans le classement. Bravo !

# Partie 4 : Pour aller plus loin !

Si vous souhaitez en savoir plus, nous vous suggérons fortement notre cours (3 heures) **[Intro to Machine Learning](https://www.kaggle.com/learn/intro-to-machine-learning)**, qui vous aidera à bien comprendre tout le code présenté ici. Vous en saurez également assez pour générer des prédictions encore meilleures !