# Configuration du Codespace pour le Challenge Titanic

Ce notebook va vous aider à configurer votre environnement de travail pour le challenge Titanic sur Kaggle. Nous allons installer les dépendances nécessaires, télécharger les données et vérifier que tout est prêt pour commencer l'analyse.

## 1. Vérification et installation des dépendances nécessaires

Nous allons d'abord vérifier et installer toutes les bibliothèques Python nécessaires pour notre analyse de données et nos modèles de machine learning.

In [1]:
# Installation des bibliothèques essentielles pour l'analyse des données et le machine learning
!pip install -U pandas numpy scikit-learn matplotlib seaborn kaggle

Collecting pandas
  Downloading pandas-2.3.0-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (91 kB)
Collecting numpy
  Downloading numpy-2.3.1-cp312-cp312-manylinux_2_28_x86_64.whl.metadata (62 kB)
Collecting scikit-learn
  Downloading scikit_learn-1.7.0-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (17 kB)
Collecting kaggle
  Downloading kaggle-1.7.4.5-py3-none-any.whl.metadata (16 kB)
Collecting protobuf (from kaggle)
  Downloading protobuf-6.31.1-cp39-abi3-manylinux2014_x86_64.whl.metadata (593 bytes)
Collecting python-slugify (from kaggle)
  Downloading python_slugify-8.0.4-py2.py3-none-any.whl.metadata (8.5 kB)
Collecting text-unidecode (from kaggle)
  Downloading text_unidecode-1.3-py2.py3-none-any.whl.metadata (2.4 kB)
Downloading pandas-2.3.0-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.0/12.0 MB[0m [31m26.8 MB/s[0m eta [36m0:00:00[0m00:01[0m

In [2]:
# Vérification des versions des bibliothèques installées
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import __version__ as sklearn_version

print(f"pandas version: {pd.__version__}")
print(f"numpy version: {np.__version__}")
print(f"scikit-learn version: {sklearn_version}")
print(f"matplotlib version: {plt.matplotlib.__version__}")
print(f"seaborn version: {sns.__version__}")

pandas version: 2.3.0
numpy version: 2.3.1
scikit-learn version: 1.7.0
matplotlib version: 3.10.3
seaborn version: 0.13.2


## 2. Configuration de l'API Kaggle et téléchargement des données

Pour télécharger les données du challenge Titanic directement depuis Kaggle, nous devons configurer l'API Kaggle. Pour cela, vous aurez besoin d'un fichier `kaggle.json` contenant votre nom d'utilisateur et votre clé API.

Si vous n'avez pas encore ce fichier:
1. Connectez-vous à votre compte Kaggle
2. Allez dans "Mon compte" (My Account)
3. Faites défiler vers le bas jusqu'à la section API
4. Cliquez sur "Créer un nouveau jeton d'API" (Create New API Token)
5. Un fichier kaggle.json sera téléchargé, vous pouvez l'uploader dans votre codespace

Si vous avez déjà le fichier kaggle.json, exécutez la cellule suivante pour le configurer:

**Note importante**: Vous avez déjà un fichier `kaggle.json` à la racine de votre workspace. Nous allons l'utiliser directement plutôt que de vous demander d'en télécharger un nouveau.

In [1]:
# Configuration du répertoire Kaggle et copie du fichier kaggle.json
import os
import shutil
from pathlib import Path

# Chemin du répertoire .kaggle dans le dossier utilisateur
kaggle_dir = Path.home() / '.kaggle'

# Créer le répertoire .kaggle s'il n'existe pas
if not os.path.exists(kaggle_dir):
    os.makedirs(kaggle_dir)
    print(f"Répertoire {kaggle_dir} créé avec succès.")
else:
    print(f"Le répertoire {kaggle_dir} existe déjà.")

# Chemin du fichier kaggle.json dans le workspace
kaggle_json_source = "/workspaces/titanicML/kaggle.json"
kaggle_json_dest = os.path.join(kaggle_dir, "kaggle.json")

# Copier le fichier kaggle.json s'il existe
if os.path.exists(kaggle_json_source):
    shutil.copy2(kaggle_json_source, kaggle_json_dest)
    print(f"Fichier kaggle.json copié avec succès vers {kaggle_json_dest}")
    
    # Modifier les permissions pour que Kaggle l'accepte
    os.chmod(kaggle_json_dest, 0o600)
    print("Permissions du fichier kaggle.json mises à jour")
    
    print("\nConfiguration de l'API Kaggle terminée avec succès!")
else:
    print(f"Fichier kaggle.json introuvable dans {kaggle_json_source}")
    print("Veuillez placer votre fichier kaggle.json à la racine du projet")

Le répertoire /home/codespace/.kaggle existe déjà.
Fichier kaggle.json copié avec succès vers /home/codespace/.kaggle/kaggle.json
Permissions du fichier kaggle.json mises à jour

Configuration de l'API Kaggle terminée avec succès!
Fichier kaggle.json copié avec succès vers /home/codespace/.kaggle/kaggle.json
Permissions du fichier kaggle.json mises à jour

Configuration de l'API Kaggle terminée avec succès!


In [None]:
# Vérification de la configuration de l'API Kaggle
import os
from pathlib import Path

kaggle_json_path = os.path.join(Path.home(), '.kaggle', 'kaggle.json')

if os.path.exists(kaggle_json_path):
    print("Configuration de l'API Kaggle trouvée!")
    print("Décommenter la ligne ci-dessous pour télécharger les données:")
    print("!kaggle competitions download -c titanic -p /workspaces/titanicML/Data")
else:
    print("Configuration de l'API Kaggle non trouvée.")

# Vérification des données dans le dossier Data
print("\nVérification des fichiers de données existants...")

# Utiliser le chemin absolu plutôt que relatif
data_dir = "/workspaces/titanicML/Data"
train_file = os.path.join(data_dir, "train.csv")
test_file = os.path.join(data_dir, "test.csv")
submission_file = os.path.join(data_dir, "gender_submission.csv")

# Créer le répertoire Data s'il n'existe pas
if not os.path.exists(data_dir):
    os.makedirs(data_dir)
    print(f"Dossier {data_dir} créé.")

files_exist = True
for file_path in [train_file, test_file, submission_file]:
    if os.path.exists(file_path):
        print(f"✓ Le fichier {os.path.basename(file_path)} existe.")
    else:
        print(f"✗ Le fichier {os.path.basename(file_path)} n'existe pas!")
        files_exist = False

if files_exist:
    print("\nTous les fichiers de données nécessaires sont disponibles!")
else:
    print("\nCertains fichiers de données sont manquants. Vous pouvez utiliser l'API Kaggle pour les télécharger.")

Configuration de l'API Kaggle trouvée!
Décommenter la ligne ci-dessous pour télécharger les données:
!kaggle competitions download -c titanic -p ../Data

Vérification des fichiers de données existants...
✗ Le fichier train.csv n'existe pas!
✗ Le fichier test.csv n'existe pas!
✗ Le fichier gender_submission.csv n'existe pas!

Certains fichiers de données sont manquants. Vous pouvez utiliser l'API Kaggle pour les télécharger.


In [None]:
# Vérification du contenu du fichier kaggle.json
import json

kaggle_json_path = os.path.join(Path.home(), '.kaggle', 'kaggle.json')

if os.path.exists(kaggle_json_path):
    try:
        with open(kaggle_json_path, 'r') as f:
            kaggle_config = json.load(f)
        
        # Vérifier que les clés requises sont présentes (sans afficher les valeurs sensibles)
        required_keys = ['username', 'key']
        keys_present = all(key in kaggle_config for key in required_keys)
        
        if keys_present:
            print("✓ Fichier kaggle.json correctement formaté avec toutes les clés requises.")
            print(f"✓ Utilisateur Kaggle configuré: {kaggle_config.get('username')}")
            # On ne montre pas la clé API pour des raisons de sécurité
            print("✓ Clé API présente")
        else:
            print("✗ Fichier kaggle.json mal formaté - clés manquantes.")
    except json.JSONDecodeError:
        print("✗ Le fichier kaggle.json n'est pas un JSON valide.")
    except Exception as e:
        print(f"✗ Erreur lors de la lecture du fichier kaggle.json: {e}")
else:
    print("✗ Fichier kaggle.json non trouvé dans ~/.kaggle/")

## 3. Chargement et exploration des fichiers de données

Maintenant que nous avons vérifié la présence des fichiers de données, chargeons-les avec pandas pour les explorer rapidement.

In [3]:
# Télécharger les données depuis Kaggle
import os
from pathlib import Path

# Utiliser le chemin absolu plutôt que relatif
data_dir = "/workspaces/titanicML/Data"
train_file = os.path.join(data_dir, "train.csv")
test_file = os.path.join(data_dir, "test.csv")
submission_file = os.path.join(data_dir, "gender_submission.csv")
missing_files = not (os.path.exists(train_file) and os.path.exists(test_file) and os.path.exists(submission_file))

# Créer le répertoire Data s'il n'existe pas
if not os.path.exists(data_dir):
    os.makedirs(data_dir)
    print(f"Dossier {data_dir} créé.")

if missing_files and os.path.exists(os.path.join(Path.home(), '.kaggle', 'kaggle.json')):
    print("Téléchargement des données du challenge Titanic depuis Kaggle...")
    
    # Téléchargement des données avec l'API Kaggle
    !kaggle competitions download -c titanic -p {data_dir} --force
    
    # Extraction des fichiers zip téléchargés
    !unzip -o {os.path.join(data_dir, "titanic.zip")} -d {data_dir}
    
    print(f"\nLes fichiers de données ont été téléchargés et extraits dans le dossier {data_dir}")
    
    # Vérification que les fichiers ont bien été téléchargés
    files = os.listdir(data_dir)
    print("\nFichiers disponibles dans le dossier Data:")
    for file in files:
        if file.endswith('.csv'):
            print(f"- {file}")
else:
    if not missing_files:
        print(f"Tous les fichiers de données nécessaires sont déjà présents dans {data_dir}.")
    else:
        print("Configuration Kaggle non disponible ou erreur lors du téléchargement.")

Tous les fichiers de données nécessaires sont déjà présents dans /workspaces/titanicML/Data.


In [4]:
# Chargement des données d'entraînement
import os
import pandas as pd

# Utiliser le chemin absolu plutôt que relatif
data_dir = "/workspaces/titanicML/Data"
train_file = os.path.join(data_dir, "train.csv")

try:
    train_data = pd.read_csv(train_file)
    print(f"Données d'entraînement chargées : {train_data.shape[0]} lignes et {train_data.shape[1]} colonnes\n")
    
    # Afficher les premières lignes
    print("Aperçu des données d'entraînement :")
    display(train_data.head())
    
    # Information sur les types de colonnes
    print("\nInformations sur les colonnes :")
    display(train_data.info())
    
    # Statistiques descriptives
    print("\nStatistiques descriptives :")
    display(train_data.describe())
    
    # Valeurs manquantes
    print("\nValeurs manquantes par colonne :")
    missing_values = train_data.isnull().sum()
    missing_percent = (missing_values / len(train_data)) * 100
    missing_df = pd.DataFrame({'Nombre de valeurs manquantes': missing_values,
                             'Pourcentage (%)': missing_percent})
    display(missing_df[missing_df['Nombre de valeurs manquantes'] > 0].sort_values('Nombre de valeurs manquantes', ascending=False))
    
except Exception as e:
    print(f"Erreur lors du chargement des données d'entraînement: {e}")
    print(f"Chemin du fichier: {train_file}")
    print(f"Le fichier existe: {os.path.exists(train_file)}")

Données d'entraînement chargées : 891 lignes et 12 colonnes

Aperçu des données d'entraînement :


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S



Informations sur les colonnes :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


None


Statistiques descriptives :


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292



Valeurs manquantes par colonne :


Unnamed: 0,Nombre de valeurs manquantes,Pourcentage (%)
Cabin,687,77.104377
Age,177,19.86532
Embarked,2,0.224467


In [5]:
# Vérification des fichiers téléchargés
import os

# Utiliser le chemin absolu plutôt que relatif
data_dir = "/workspaces/titanicML/Data"  # Chemin absolu vers le dossier Data
required_files = ["train.csv", "test.csv", "gender_submission.csv"]

print("Vérification des fichiers de données après téléchargement:")
all_files_present = True

for file_name in required_files:
    file_path = os.path.join(data_dir, file_name)
    if os.path.exists(file_path):
        file_size = os.path.getsize(file_path) / 1024  # Taille en Ko
        print(f"✓ {file_name} - {file_size:.2f} Ko")
    else:
        print(f"✗ {file_name} n'existe pas!")
        all_files_present = False

if all_files_present:
    print("\nTous les fichiers nécessaires sont présents. Vous pouvez continuer l'analyse.")
else:
    print("\nCertains fichiers sont manquants. Vérifiez les messages d'erreur ci-dessus.")

Vérification des fichiers de données après téléchargement:
✓ train.csv - 59.76 Ko
✓ test.csv - 27.96 Ko
✓ gender_submission.csv - 3.18 Ko

Tous les fichiers nécessaires sont présents. Vous pouvez continuer l'analyse.


In [6]:
# Chargement des données de test
import os
import pandas as pd

# Utiliser le chemin absolu plutôt que relatif
data_dir = "/workspaces/titanicML/Data"
test_file = os.path.join(data_dir, "test.csv")

try:
    test_data = pd.read_csv(test_file)
    print(f"Données de test chargées : {test_data.shape[0]} lignes et {test_data.shape[1]} colonnes\n")
    
    # Afficher les premières lignes
    print("Aperçu des données de test :")
    display(test_data.head())
    
    # Valeurs manquantes dans les données de test
    print("\nValeurs manquantes par colonne (données de test) :")
    test_missing_values = test_data.isnull().sum()
    test_missing_percent = (test_missing_values / len(test_data)) * 100
    test_missing_df = pd.DataFrame({'Nombre de valeurs manquantes': test_missing_values,
                                 'Pourcentage (%)': test_missing_percent})
    display(test_missing_df[test_missing_df['Nombre de valeurs manquantes'] > 0].sort_values('Nombre de valeurs manquantes', ascending=False))

except Exception as e:
    print(f"Erreur lors du chargement des données de test: {e}")
    print(f"Chemin du fichier: {test_file}")
    print(f"Le fichier existe: {os.path.exists(test_file)}")

Données de test chargées : 418 lignes et 11 colonnes

Aperçu des données de test :


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S



Valeurs manquantes par colonne (données de test) :


Unnamed: 0,Nombre de valeurs manquantes,Pourcentage (%)
Cabin,327,78.229665
Age,86,20.574163
Fare,1,0.239234


In [7]:
# Vérifier le format du fichier de soumission
import os
import pandas as pd

# Utiliser le chemin absolu plutôt que relatif
data_dir = "/workspaces/titanicML/Data"
submission_file = os.path.join(data_dir, "gender_submission.csv")

try:
    submission_example = pd.read_csv(submission_file)
    print("Format du fichier de soumission :")
    display(submission_example.head())
    print(f"\nLe fichier de soumission contient {submission_example.shape[0]} lignes et {submission_example.shape[1]} colonnes")
except Exception as e:
    print(f"Erreur lors du chargement du fichier d'exemple de soumission: {e}")
    print(f"Chemin du fichier: {submission_file}")
    print(f"Le fichier existe: {os.path.exists(submission_file)}")

Format du fichier de soumission :


Unnamed: 0,PassengerId,Survived
0,892,0
1,893,1
2,894,0
3,895,0
4,896,1



Le fichier de soumission contient 418 lignes et 2 colonnes


## 4. Configuration de la structure du projet

Créons une structure de dossiers organisée pour notre projet Titanic ML.

In [8]:
# Création des dossiers pour organiser notre projet
project_structure = [
    "notebooks",     # Pour stocker les différents notebooks d'analyse
    "models",        # Pour sauvegarder les modèles entrainés
    "submissions",   # Pour les fichiers de soumission à Kaggle
    "src"           # Pour le code source réutilisable
]

for folder in project_structure:
    folder_path = os.path.join("/workspaces/titanicML", folder)
    if not os.path.exists(folder_path):
        os.makedirs(folder_path)
        print(f"Dossier '{folder}' créé.")
    else:
        print(f"Le dossier '{folder}' existe déjà.")

Le dossier 'notebooks' existe déjà.
Le dossier 'models' existe déjà.
Le dossier 'submissions' existe déjà.
Le dossier 'src' existe déjà.


## 5. Résumé et prochaines étapes

Nous avons maintenant:
- Installé les bibliothèques nécessaires pour l'analyse de données et le machine learning
- Vérifié l'accès aux données du challenge Titanic
- Exploré brièvement les ensembles de données
- Créé une structure de projet organisée

1. **Analyse exploratoire des données**: Créer un notebook d'analyse approfondie pour comprendre les relations entre les variables
2. **Prétraitement des données**: Gérer les valeurs manquantes, créer de nouvelles caractéristiques, encoder les variables catégorielles
3. **Modélisation**: Tester différents algorithmes de classification (Random Forest, XGBoost, etc.)
4. **Évaluation**: Mesurer les performances des modèles
5. **Soumission**: Générer des prédictions pour les données de test et les soumettre à Kaggle

Vous êtes maintenant prêt à commencer à travailler sur le challenge Titanic!