In [1]:
import pandas as pd
from IPython.display import display, HTML

# Tableau comparatif BERT vs XLM-RoBERTa
data_models = {
    'Caractéristiques': [
        'Architecture de Base',
        'Tokenisation',
        'Capacités Multilingues',
        'Taille du Vocabulaire',
        'Pré-entraînement',
        'Versions Disponibles',
        'Use Cases Optimaux'
    ],
    'BERT': [
        "• Architecture Transformer Encoder\n"
        "• Attention bidirectionnelle\n"
        "• MLM et NSP comme objectifs\n"
        "• 12/24 couches selon version",
        
        "• WordPiece tokenization\n"
        "• Vocabulaire fixe de 30k tokens\n"
        "• Gestion sous-mots\n"
        "• Tokens spéciaux ([CLS], [SEP])",
        
        "• Versions monolingues principales\n"
        "• mBERT pour multi-langue\n"
        "• Performance variable selon langue\n"
        "• Adapté aux langues principales",
        
        "• 30,522 tokens (base)\n"
        "• Vocabulaire par langue\n"
        "• Optimisé par domaine\n"
        "• Extensions possibles",
        
        "• Wikipedia + BookCorpus\n"
        "• 3.3B mots\n"
        "• Approche MLM classique\n"
        "• Next Sentence Prediction",
        
        "• bert-base-uncased (110M)\n"
        "• bert-large-uncased (340M)\n"
        "• bert-base-multilingual\n"
        "• Versions spécialisées",
        
        "• Classification de texte\n"
        "• Analyse de sentiment\n"
        "• QA monolingue\n"
        "• Tâches spécifiques langue"
    ],
    'XLM-RoBERTa': [
        "• Architecture RoBERTa optimisée\n"
        "• Attention améliorée\n"
        "• Sans NSP\n"
        "• 12/24 couches selon version",
        
        "• SentencePiece tokenization\n"
        "• Vocabulaire partagé 250k tokens\n"
        "• Meilleure gestion cross-langue\n"
        "• Tokens universels",
        
        "• Natif multilingue\n"
        "• 100+ langues supportées\n"
        "• Performance consistante\n"
        "• Transfer learning efficace",
        
        "• 250,002 tokens (universel)\n"
        "• Vocabulaire commun\n"
        "• Couverture large\n"
        "• Efficacité cross-langue",
        
        "• CC-100 dataset\n"
        "• 2.5TB données multilingues\n"
        "• Dynamic masking\n"
        "• Sans NSP",
        
        "• xlm-roberta-base (270M)\n"
        "• xlm-roberta-large (550M)\n"
        "• Versions fine-tunées\n"
        "• Adaptations spécifiques",
        
        "• Classification multilingue\n"
        "• Zero-shot cross-langue\n"
        "• Transfer learning\n"
        "• Applications globales"
    ]
}

df_models = pd.DataFrame(data_models)

# Style du tableau
styles = [
    dict(selector="th", props=[("font-weight", "bold"),
                              ("text-align", "left"),
                              ("background-color", "#2c3e50"),
                              ("color", "white"),
                              ("padding", "12px"),
                              ("font-size", "14px")]),
    dict(selector="td", props=[("padding", "12px"),
                              ("white-space", "pre-wrap"),
                              ("border-bottom", "1px solid #ddd"),
                              ("line-height", "1.5"),
                              ("font-size", "13px")])
]

styled_df_models = df_models.style\
    .set_table_styles(styles)\
    .set_properties(**{
        'white-space': 'pre-wrap',
        'text-align': 'left',
        'padding': '12px',
        'background-color': '#ffffff',
        'vertical-align': 'top'
    })\
    .set_caption("Comparaison Détaillée BERT vs XLM-RoBERTa")

display(styled_df_models)


Unnamed: 0,Caractéristiques,BERT,XLM-RoBERTa
0,Architecture de Base,• Architecture Transformer Encoder • Attention bidirectionnelle • MLM et NSP comme objectifs • 12/24 couches selon version,• Architecture RoBERTa optimisée • Attention améliorée • Sans NSP • 12/24 couches selon version
1,Tokenisation,"• WordPiece tokenization • Vocabulaire fixe de 30k tokens • Gestion sous-mots • Tokens spéciaux ([CLS], [SEP])",• SentencePiece tokenization • Vocabulaire partagé 250k tokens • Meilleure gestion cross-langue • Tokens universels
2,Capacités Multilingues,• Versions monolingues principales • mBERT pour multi-langue • Performance variable selon langue • Adapté aux langues principales,• Natif multilingue • 100+ langues supportées • Performance consistante • Transfer learning efficace
3,Taille du Vocabulaire,"• 30,522 tokens (base) • Vocabulaire par langue • Optimisé par domaine • Extensions possibles","• 250,002 tokens (universel) • Vocabulaire commun • Couverture large • Efficacité cross-langue"
4,Pré-entraînement,• Wikipedia + BookCorpus • 3.3B mots • Approche MLM classique • Next Sentence Prediction,• CC-100 dataset • 2.5TB données multilingues • Dynamic masking • Sans NSP
5,Versions Disponibles,• bert-base-uncased (110M) • bert-large-uncased (340M) • bert-base-multilingual • Versions spécialisées,• xlm-roberta-base (270M) • xlm-roberta-large (550M) • Versions fine-tunées • Adaptations spécifiques
6,Use Cases Optimaux,• Classification de texte • Analyse de sentiment • QA monolingue • Tâches spécifiques langue,• Classification multilingue • Zero-shot cross-langue • Transfer learning • Applications globales


In [2]:
from transformers import BertTokenizer, XLMRobertaTokenizer

# Exemple de texte
text = "L'intelligence artificielle transforme notre monde."

# BERT Tokenization
bert_tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
bert_tokens = bert_tokenizer.tokenize(text)
print("BERT tokens:", bert_tokens)

# XLM-RoBERTa Tokenization
xlm_tokenizer = XLMRobertaTokenizer.from_pretrained('xlm-roberta-base')
xlm_tokens = xlm_tokenizer.tokenize(text)
print("XLM-RoBERTa tokens:", xlm_tokens)


  from .autonotebook import tqdm as notebook_tqdm


BERT tokens: ['l', "'", 'intelligence', 'art', '##ific', '##iel', '##le', 'transform', '##e', 'notre', 'monde', '.']
XLM-RoBERTa tokens: ['▁L', "'", 'intelligence', '▁artifici', 'elle', '▁transform', 'e', '▁notre', '▁monde', '.']


In [3]:
import pandas as pd
from IPython.display import display, HTML

# Création d'un tableau comparatif des résultats
data_tokens = {
    'Modèle': [
        'BERT',
        'XLM-RoBERTa'
    ],
    'Tokens Générés': [
        "• l\n"
        "• '\n"
        "• intelligence\n"
        "• art\n"
        "• ##ific\n"
        "• ##iel\n"
        "• ##le\n"
        "• transform\n"
        "• ##e\n"
        "• notre\n"
        "• monde\n"
        "• .",
        
        "• ▁L\n"
        "• '\n"
        "• intelligence\n"
        "• ▁artifici\n"
        "• elle\n"
        "• ▁transform\n"
        "• e\n"
        "• ▁notre\n"
        "• ▁monde\n"
        "• ."
    ],
    'Particularités Observées': [
        "• Découpage plus granulaire\n"
        "• Utilisation de '##' pour les sous-mots\n"
        "• Décomposition de 'artificielle' en 4 tokens\n"
        "• Conservation de la casse d'origine",
        
        "• Utilisation de '▁' pour marquer les débuts de mots\n"
        "• Tokenisation plus naturelle\n"
        "• Meilleure gestion des mots composés\n"
        "• Moins de fragmentation"
    ],
    'Implications pour S&I': [
        "• Optimal pour analyse fine du français juridique\n"
        "• Meilleur pour détection nuances techniques\n"
        "• Adapté aux documents spécialisés\n"
        "• Précision accrue pour l'analyse détaillée",
        
        "• Idéal pour contenu multilingue\n"
        "• Meilleur pour créativité cross-culturelle\n"
        "• Adapté aux projets internationaux\n"
        "• Flexible pour différents contextes"
    ]
}

df_tokens = pd.DataFrame(data_tokens)

# Style du tableau
styles = [
    dict(selector="th", props=[("font-weight", "bold"),
                              ("text-align", "left"),
                              ("background-color", "#2c3e50"),
                              ("color", "white"),
                              ("padding", "12px"),
                              ("font-size", "14px")]),
    dict(selector="td", props=[("padding", "12px"),
                              ("white-space", "pre-wrap"),
                              ("border-bottom", "1px solid #ddd"),
                              ("line-height", "1.5"),
                              ("font-size", "13px")])
]

styled_df_tokens = df_tokens.style\
    .set_table_styles(styles)\
    .set_properties(**{
        'white-space': 'pre-wrap',
        'text-align': 'left',
        'padding': '12px',
        'background-color': '#ffffff',
        'vertical-align': 'top'
    })\
    .set_caption("Analyse des Résultats de Tokenisation")

display(styled_df_tokens)


Unnamed: 0,Modèle,Tokens Générés,Particularités Observées,Implications pour S&I
0,BERT,• l • ' • intelligence • art • ##ific • ##iel • ##le • transform • ##e • notre • monde • .,• Découpage plus granulaire • Utilisation de '##' pour les sous-mots • Décomposition de 'artificielle' en 4 tokens • Conservation de la casse d'origine,• Optimal pour analyse fine du français juridique • Meilleur pour détection nuances techniques • Adapté aux documents spécialisés • Précision accrue pour l'analyse détaillée
1,XLM-RoBERTa,• ▁L • ' • intelligence • ▁artifici • elle • ▁transform • e • ▁notre • ▁monde • .,• Utilisation de '▁' pour marquer les débuts de mots • Tokenisation plus naturelle • Meilleure gestion des mots composés • Moins de fragmentation,• Idéal pour contenu multilingue • Meilleur pour créativité cross-culturelle • Adapté aux projets internationaux • Flexible pour différents contextes


In [5]:
from transformers import BertTokenizer, XLMRobertaTokenizer

# 1. Tokenization simple
text = "Le deep learning révolutionne l'IA."

# BERT
bert_tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
bert_output = bert_tokenizer.encode_plus(
    text,
    add_special_tokens=True,
    return_attention_mask=True,
    padding='max_length',
    max_length=32,
    truncation=True,
    return_tensors='pt'
)

# XLM-RoBERTa
xlm_tokenizer = XLMRobertaTokenizer.from_pretrained('xlm-roberta-base')
xlm_output = xlm_tokenizer.encode_plus(
    text,
    add_special_tokens=True,
    return_attention_mask=True,
    padding='max_length',
    max_length=32,
    truncation=True,
    return_tensors='pt'
)

# 2. Tokenization de deux phrases
text_pair = ["L'apprentissage automatique est puissant.", "Il nécessite beaucoup de données."]

bert_pair = bert_tokenizer.encode_plus(
    text_pair[0],
    text_pair[1],
    add_special_tokens=True,
    return_attention_mask=True,
    padding='max_length',
    max_length=32,
    truncation=True,
    return_tensors='pt'
)

# Affichage des résultats
print("1. Tokenization Simple:")
print("\nBERT tokens:", bert_tokenizer.tokenize(text))
print("BERT input_ids:", bert_output['input_ids'])
print("BERT attention_mask:", bert_output['attention_mask'])

print("\nXLM-RoBERTa tokens:", xlm_tokenizer.tokenize(text))
print("XLM-RoBERTa input_ids:", xlm_output['input_ids'])
print("XLM-RoBERTa attention_mask:", xlm_output['attention_mask'])

print("\n2. Tokenization Paire de Phrases (BERT):")
print("Tokens:", bert_tokenizer.tokenize(text_pair[0] + " " + text_pair[1]))
print("Token type IDs:", bert_pair['token_type_ids'])


1. Tokenization Simple:

BERT tokens: ['le', 'deep', 'learning', 'revolution', '##ne', 'l', "'", 'ia', '.']
BERT input_ids: tensor([[  101,  3393,  2784,  4083,  4329,  2638,  1048,  1005, 24264,  1012,
           102,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0]])
BERT attention_mask: tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
         0, 0, 0, 0, 0, 0, 0, 0]])

XLM-RoBERTa tokens: ['▁Le', '▁deep', '▁learning', '▁révolution', 'ne', '▁l', "'", 'IA', '.']
XLM-RoBERTa input_ids: tensor([[     0,    636,  53894,  52080, 195839,     86,     96,     25,  17481,
              5,      2,      1,      1,      1,      1,      1,      1,      1,
              1,      1,      1,      1,      1,      1,      1,      1,      1,
              1,      1,      1,      1,      1]])
XLM-RoBERTa attention_mask: tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

Points Clés :

encode_plus() retourne:
- input_ids: IDs numériques des tokens
- attention_mask: Masque pour tokens réels vs padding
- token_type_ids: Identification des phrases (pour paires)


Composants importants:
- add_special_tokens: Ajoute [CLS], [SEP]
- padding: Uniformise la longueur
- max_length: Longueur maximale
- truncation: Coupe si trop long
- return_tensors: Format de sortie


Différences BERT vs XLM-RoBERTa:
- Tokenization différente
- Gestion différente des tokens spéciaux
- Vocabulaire différent

In [None]:
from transformers import BertTokenizer, XLMRobertaTokenizer
import torch

# 1. Initialisation des tokenizers
bert_tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
xlm_tokenizer = XLMRobertaTokenizer.from_pretrained('xlm-roberta-base')

# 2. Exemple de données
textes = [
    "L'intelligence artificielle transforme notre monde.",
    "Les modèles de langage évoluent rapidement.",
    "L'apprentissage profond ouvre de nouvelles possibilités."  
]

# 3. Préparation des données avec encode_plus
def preparer_donnees(texts, tokenizer, max_length=32):
    encodages = tokenizer.batch_encode_plus(
        texts,
        add_special_tokens=True,        # Ajoute [CLS]/[SEP] ou <s>/<\s>
        padding='max_length',           # Padding jusqu'à max_length
        max_length=max_length,          # Longueur maximale
        truncation=True,                # Tronque si nécessaire
        return_attention_mask=True,     # Génère le masque d'attention
        return_tensors='pt'             # Retourne des tenseurs PyTorch
    )
    
    print(f"\nInformations sur le tokenizer:")
    print(f"Taille du vocabulaire: {tokenizer.vocab_size}")
    print(f"Tokens spéciaux: {tokenizer.special_tokens_map}")
    
    return encodages

# 4. Démonstration avec BERT
print("Démonstration avec BERT:")
bert_encodages = preparer_donnees(textes, bert_tokenizer)

# Affichage des résultats
print("\nStructure des données préparées:")
print(f"Shape des input_ids: {bert_encodages['input_ids'].shape}")
print(f"Shape du masque d'attention: {bert_encodages['attention_mask'].shape}")

# 5. Exemple de décodage pour vérification
print("\nVérification du décodage:")
for i, text in enumerate(textes):
    print(f"\nTexte original {i+1}: {text}")
    tokens = bert_tokenizer.convert_ids_to_tokens(bert_encodages['input_ids'][i])
    print(f"Tokens: {tokens}")
    print(f"Masque d'attention: {bert_encodages['attention_mask'][i].tolist()}")



  from .autonotebook import tqdm as notebook_tqdm


Démonstration avec BERT:

Informations sur le tokenizer:
Taille du vocabulaire: 30522
Tokens spéciaux: {'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'}

Structure des données préparées:
Shape des input_ids: torch.Size([3, 32])
Shape du masque d'attention: torch.Size([3, 32])

Vérification du décodage:

Texte original 1: L'intelligence artificielle transforme notre monde.
Tokens: ['[CLS]', 'l', "'", 'intelligence', 'art', '##ific', '##iel', '##le', 'transform', '##e', 'notre', 'monde', '.', '[SEP]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]', '[PAD]']
Masque d'attention: [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

Texte original 2: Les modèles de langage évoluent rapidement.
Tokens: ['[CLS]', 'les', 'model', '##es', 'de', 'lang', '##age', 'ev', '##ol', '##uen', '#

In [2]:
# Tableau des paramètres clés
import pandas as pd

parametres = {
    'Paramètre': [
        'add_special_tokens',
        'padding',
        'max_length',
        'truncation',
        'return_attention_mask'
    ],
    'Description': [
        'Ajoute les tokens de début/fin de séquence',
        'Stratégie de padding (none, max_length, longest)',
        'Longueur maximale de séquence',
        'Activation de la troncature si nécessaire',
        'Génération du masque d\'attention'
    ],
    'Impact': [
        'Structure correcte pour le modèle',
        'Uniformisation des longueurs',
        'Contrôle de la taille des séquences',
        'Gestion des textes trop longs',
        'Gestion correcte du padding'
    ]
}

df_params = pd.DataFrame(parametres)
print("\nParamètres clés d'encode_plus():")
print(df_params.to_string(index=False))



Paramètres clés d'encode_plus():
            Paramètre                                      Description                              Impact
   add_special_tokens       Ajoute les tokens de début/fin de séquence   Structure correcte pour le modèle
              padding Stratégie de padding (none, max_length, longest)        Uniformisation des longueurs
           max_length                    Longueur maximale de séquence Contrôle de la taille des séquences
           truncation        Activation de la troncature si nécessaire       Gestion des textes trop longs
return_attention_mask                 Génération du masque d'attention         Gestion correcte du padding


In [4]:
import pandas as pd

# 1. Chargement du dataset
df = pd.read_csv('/Users/ludovicveltz/Documents/Bootcamp_GENAI_2025/Crashcourse/WEEK_2/DAY_2/DATASET/train.csv')

# 2. Affichage des colonnes disponibles
print("Colonnes disponibles dans le dataset:")
print(df.columns.tolist())

# 3. Affichage des premières lignes
print("\nAperçu des premières lignes du dataset:")
print(df.head())

# 4. Affichage de la structure du dataset
print("\nStructure du dataset:")
print(f"Nombre de lignes: {df.shape[0]}")
print(f"Nombre de colonnes: {df.shape[1]}")

# 5. Information sur les colonnes
print("\nInformations sur les colonnes:")
print(df.info())

# 6. Statistiques descriptives
print("\nStatistiques descriptives:")
print(df.describe())

# 7. Création d'un tableau récapitulatif des colonnes basé sur les colonnes réellement présentes
colonnes_info = pd.DataFrame({
    'Colonne': df.columns,
    'Type': df.dtypes,
    'Non-Null Count': df.count(),
    'Unique Values': [df[col].nunique() for col in df.columns]
})

print("\nRécapitulatif détaillé des colonnes:")
print(colonnes_info)



Colonnes disponibles dans le dataset:
['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']

Aperçu des premières lignes du dataset:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          

In [6]:
import pandas as pd

# 1. Chargement et exploration du dataset Titanic
df = pd.read_csv('/Users/ludovicveltz/Documents/Bootcamp_GENAI_2025/Crashcourse/WEEK_2/DAY_2/DATASET/train.csv')

# 2. Structure des données pour la classification
print("Structure du Dataset Titanic pour Classification:")
print("\nColonnes principales pour l'entraînement:")
features_info = {
    'Feature': [
        'Pclass',
        'Sex',
        'Age',
        'SibSp',
        'Parch',
        'Fare',
        'Embarked'
    ],
    'Description': [
        'Classe du passager (1,2,3) - catégorielle',
        'Genre du passager - catégorielle',
        'Âge du passager - numérique',
        'Nombre de siblings/époux à bord - numérique',
        'Nombre de parents/enfants à bord - numérique',
        'Prix du billet - numérique',
        'Port d\'embarquement (C,Q,S) - catégorielle'
    ],
    'Type': [
        'int64',
        'object',
        'float64',
        'int64',
        'int64',
        'float64',
        'object'
    ],
    'Valeurs Manquantes': [
        df['Pclass'].isnull().sum(),
        df['Sex'].isnull().sum(),
        df['Age'].isnull().sum(),
        df['SibSp'].isnull().sum(),
        df['Parch'].isnull().sum(),
        df['Fare'].isnull().sum(),
        df['Embarked'].isnull().sum()
    ]
}

df_features = pd.DataFrame(features_info)
print(df_features)

print("\nVariable Cible:")
print("Survived (0: Non survécu, 1: Survécu)")
print("\nDistribution de la variable cible:")
print(df['Survived'].value_counts())
print("\nPourcentage de survie:")
print(df['Survived'].value_counts(normalize=True).round(3) * 100)

print("\nAperçu des données numériques:")
print(df.describe())

# Points clés pour la préparation du modèle
print("\nPoints clés pour la préparation du modèle:")
print(f"1. Nombre total d'observations: {df.shape[0]}")
print(f"2. Nombre de features: {len(features_info['Feature'])}")
print("3. Traitement nécessaire:")
print("   - Encodage des variables catégorielles (Sex, Embarked)")
print("   - Gestion des valeurs manquantes (Age, Embarked)")
print("   - Normalisation des variables numériques (Age, Fare)")
print("   - Possible feature engineering (ex: extraction titre du Name)")




Structure du Dataset Titanic pour Classification:

Colonnes principales pour l'entraînement:
    Feature                                   Description     Type  \
0    Pclass     Classe du passager (1,2,3) - catégorielle    int64   
1       Sex              Genre du passager - catégorielle   object   
2       Age                   Âge du passager - numérique  float64   
3     SibSp   Nombre de siblings/époux à bord - numérique    int64   
4     Parch  Nombre de parents/enfants à bord - numérique    int64   
5      Fare                    Prix du billet - numérique  float64   
6  Embarked    Port d'embarquement (C,Q,S) - catégorielle   object   

   Valeurs Manquantes  
0                   0  
1                   0  
2                 177  
3                   0  
4                   0  
5                   0  
6                   2  

Variable Cible:
Survived (0: Non survécu, 1: Survécu)

Distribution de la variable cible:
Survived
0    549
1    342
Name: count, dtype: int64

Pourcenta

In [7]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler
import numpy as np

# Chargement du dataset Titanic
df = pd.read_csv('/Users/ludovicveltz/Documents/Bootcamp_GENAI_2025/Crashcourse/WEEK_2/DAY_2/DATASET/train.csv')

# 1. Encodage des variables catégorielles
print("1. Encodage des variables catégorielles:")
# Sex
le = LabelEncoder()
df['Sex'] = le.fit_transform(df['Sex'])
print("   - Sex encodé (male=1, female=0)")

# Embarked
df['Embarked'] = df['Embarked'].fillna(df['Embarked'].mode()[0])  # Remplir d'abord les valeurs manquantes
df_embarked = pd.get_dummies(df['Embarked'], prefix='Embarked')
print("   - Embarked one-hot encodé")

# 2. Gestion des valeurs manquantes
print("\n2. Gestion des valeurs manquantes:")
# Age
age_median = df['Age'].median()
df['Age'] = df['Age'].fillna(age_median)
print(f"   - Age: {df['Age'].isnull().sum()} valeurs manquantes restantes")
print(f"   - Embarked: {df['Embarked'].isnull().sum()} valeurs manquantes restantes")

# 3. Normalisation des variables numériques
print("\n3. Normalisation des variables numériques:")
scaler = StandardScaler()
df[['Age', 'Fare']] = scaler.fit_transform(df[['Age', 'Fare']])
print("   - Age et Fare normalisés")

# 4. Feature engineering
print("\n4. Feature engineering:")
# Extraction du titre
df['Title'] = df['Name'].str.extract(' ([A-Za-z]+)\.', expand=False)
print("   - Titres extraits des noms")

# Feature familiale
df['FamilySize'] = df['SibSp'] + df['Parch'] + 1
print("   - Feature FamilySize créée")

print("\nDataset prêt pour l'entraînement!")


1. Encodage des variables catégorielles:
   - Sex encodé (male=1, female=0)
   - Embarked one-hot encodé

2. Gestion des valeurs manquantes:
   - Age: 0 valeurs manquantes restantes
   - Embarked: 0 valeurs manquantes restantes

3. Normalisation des variables numériques:
   - Age et Fare normalisés

4. Feature engineering:
   - Titres extraits des noms
   - Feature FamilySize créée

Dataset prêt pour l'entraînement!


In [8]:
import pandas as pd
import numpy as np
from sklearn.model_selection import StratifiedKFold

# 1. Préparation des données
df = pd.read_csv('/Users/ludovicveltz/Documents/Bootcamp_GENAI_2025/Crashcourse/WEEK_2/DAY_2/DATASET/train.csv')

# Sélection des features après prétraitement
X = df[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']].copy()
y = df['Survived']

# Application du prétraitement basique pour l'exemple
# Encodage de Sex et Embarked
X['Sex'] = (X['Sex'] == 'female').astype(int)
X['Embarked'] = X['Embarked'].fillna('S')
X = pd.get_dummies(X, columns=['Embarked'])

# Gestion des valeurs manquantes de Age
X['Age'] = X['Age'].fillna(X['Age'].median())

# 2. Création des folds avec StratifiedKFold
n_splits = 5
skf = StratifiedKFold(n_splits=n_splits, shuffle=True, random_state=42)

# 3. Création des listes pour stocker les indices
train_indices = []
val_indices = []

# 4. Split et stockage des indices
for train_idx, val_idx in skf.split(X, y):
    train_indices.append(train_idx)
    val_indices.append(val_idx)

# 5. Affichage des informations sur les folds
print("Information sur la validation croisée stratifiée:")
print(f"Nombre de folds: {n_splits}")
print("\nDistribution des classes dans chaque fold:")

for fold in range(n_splits):
    print(f"\nFold {fold + 1}:")
    print("Train set:")
    print(y.iloc[train_indices[fold]].value_counts(normalize=True).round(3))
    print("Validation set:")
    print(y.iloc[val_indices[fold]].value_counts(normalize=True).round(3))
    print(f"Taille train: {len(train_indices[fold])}, Taille validation: {len(val_indices[fold])}")

# 6. Vérification de la stratification
print("\nVérification de la stratification:")
print("Distribution globale des classes:")
print(y.value_counts(normalize=True).round(3))



Information sur la validation croisée stratifiée:
Nombre de folds: 5

Distribution des classes dans chaque fold:

Fold 1:
Train set:
Survived
0    0.617
1    0.383
Name: proportion, dtype: float64
Validation set:
Survived
0    0.615
1    0.385
Name: proportion, dtype: float64
Taille train: 712, Taille validation: 179

Fold 2:
Train set:
Survived
0    0.616
1    0.384
Name: proportion, dtype: float64
Validation set:
Survived
0    0.618
1    0.382
Name: proportion, dtype: float64
Taille train: 713, Taille validation: 178

Fold 3:
Train set:
Survived
0    0.616
1    0.384
Name: proportion, dtype: float64
Validation set:
Survived
0    0.618
1    0.382
Name: proportion, dtype: float64
Taille train: 713, Taille validation: 178

Fold 4:
Train set:
Survived
0    0.616
1    0.384
Name: proportion, dtype: float64
Validation set:
Survived
0    0.618
1    0.382
Name: proportion, dtype: float64
Taille train: 713, Taille validation: 178

Fold 5:
Train set:
Survived
0    0.617
1    0.383
Name: propor