## Étape 1 - Importer les bibliothèques

Pour commencer ce projet de data analyse, j'importe les bibliothèques essentielles :
- `pandas` pour manipuler les données sous forme de tableau,
- `matplotlib.pyplot` et `seaborn` pour les visualisations.



In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Etape 2 - Chargement et exploration des données

### 2.1 Chargement du fichier CSV

J'utilise la fonction `pd.read_csv()` pour lire mon fichier CSV.

`encoding='latin1'` : est nécessaire pour gérer certains caractères spéciaux qui ne passent pas avec l'encodage UTF-8.


In [3]:
# Charger le fichier CSV original contenant les données de la Coupe du Monde
# L'encodage 'latin1' est utilisé ici pour éviter les erreurs de lecture liées aux caractères spéciaux
df = pd.read_csv('fifaworldcup.csv', encoding='latin1')

# Afficher les 5 premières lignes du DataFrame pour avoir un aperçu de la structure des données
df.head()

Unnamed: 0,Key Id,Tournament Id,tournament Name,Match Id,Match Name,Stage Name,Group Name,Group Stage,Knockout Stage,Replayed,...,Away Team Score Margin,Extra Time,Penalty Shootout,Score Penalties,Home Team Score Penalties,Away Team Score Penalties,Result,Home Team Win,Away Team Win,Draw
0,1,WC-1930,1930 FIFA World Cup,M-1930-01,France v Mexico,group stage,Group 1,1,0,0,...,-3,0,0,0-0,0,0,home team win,1,0,0
1,2,WC-1930,1930 FIFA World Cup,M-1930-02,United States v Belgium,group stage,Group 4,1,0,0,...,-3,0,0,0-0,0,0,home team win,1,0,0
2,3,WC-1930,1930 FIFA World Cup,M-1930-03,Yugoslavia v Brazil,group stage,Group 2,1,0,0,...,-1,0,0,0-0,0,0,home team win,1,0,0
3,4,WC-1930,1930 FIFA World Cup,M-1930-04,Romania v Peru,group stage,Group 3,1,0,0,...,-2,0,0,0-0,0,0,home team win,1,0,0
4,5,WC-1930,1930 FIFA World Cup,M-1930-05,Argentina v France,group stage,Group 1,1,0,0,...,-1,0,0,0-0,0,0,home team win,1,0,0


### 2.2 Exploration des données

Voici quelques commandes utiles que j'utilise pour explorer le dataset :
- `.shape` : dimensions du DataFrame (lignes, colonnes),
- `.columns` : liste des noms de colonnes,
- `.info()` : type des données, valeurs non nulles,
- `.describe()` : statistiques de base sur les colonnes numériques,
- `.sample(5)` : un échantillon aléatoire de 5 lignes.


In [4]:
# Affiche la forme du DataFrame sous forme de tuple (nombre de lignes, nombre de colonnes)
df.shape

(964, 37)

In [5]:
# Affiche la liste de toutes les colonnes (noms des variables) présentes dans le DataFrame
df.columns

Index(['Key Id', 'Tournament Id', 'tournament Name', 'Match Id', 'Match Name',
       'Stage Name', 'Group Name', 'Group Stage', 'Knockout Stage', 'Replayed',
       'Replay', 'Match Date', 'Match Time', 'Stadium Id', 'Stadium Name',
       'City Name', 'Country Name', 'Home Team Id', 'Home Team Name',
       'Home Team Code', 'Away Team Id', 'Away Team Name', 'Away Team Code',
       'Score', 'Home Team Score', 'Away Team Score', 'Home Team Score Margin',
       'Away Team Score Margin', 'Extra Time', 'Penalty Shootout',
       'Score Penalties', 'Home Team Score Penalties',
       'Away Team Score Penalties', 'Result', 'Home Team Win', 'Away Team Win',
       'Draw'],
      dtype='object')

In [6]:
# Affiche des informations générales sur le DataFrame :
# - nombre de lignes
# - noms des colonnes et leur type
# - nombre de valeurs non nulles par colonne
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 964 entries, 0 to 963
Data columns (total 37 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Key Id                     964 non-null    int64 
 1   Tournament Id              964 non-null    object
 2   tournament Name            964 non-null    object
 3   Match Id                   964 non-null    object
 4   Match Name                 964 non-null    object
 5   Stage Name                 964 non-null    object
 6   Group Name                 964 non-null    object
 7   Group Stage                964 non-null    int64 
 8   Knockout Stage             964 non-null    int64 
 9   Replayed                   964 non-null    int64 
 10  Replay                     964 non-null    int64 
 11  Match Date                 964 non-null    object
 12  Match Time                 964 non-null    object
 13  Stadium Id                 964 non-null    object
 14  Stadium Na

In [7]:
# Affiche des statistiques descriptives pour les colonnes numériques du DataFrame :
# - nombre de valeurs (count), moyenne (mean), écart-type (std), min, max, quartiles, etc.
df.describe()

Unnamed: 0,Key Id,Group Stage,Knockout Stage,Replayed,Replay,Home Team Score,Away Team Score,Home Team Score Margin,Away Team Score Margin,Extra Time,Penalty Shootout,Home Team Score Penalties,Away Team Score Penalties,Home Team Win,Away Team Win,Draw
count,964.0,964.0,964.0,964.0,964.0,964.0,964.0,964.0,964.0,964.0,964.0,964.0,964.0,964.0,964.0,964.0
mean,482.5,0.744813,0.255187,0.004149,0.004149,1.766598,1.054979,0.711618,-0.711618,0.075726,0.036307,0.121369,0.108921,0.565353,0.248963,0.185685
std,278.42713,0.436192,0.436192,0.064315,0.064315,1.60104,1.07172,1.925893,1.925893,0.264697,0.18715,0.665731,0.600764,0.495968,0.432637,0.389054
min,1.0,0.0,0.0,0.0,0.0,0.0,0.0,-7.0,-9.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,241.75,0.0,0.0,0.0,0.0,1.0,0.0,0.0,-2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,482.5,1.0,0.0,0.0,0.0,1.0,1.0,1.0,-1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
75%,723.25,1.0,1.0,0.0,0.0,3.0,2.0,2.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
max,964.0,1.0,1.0,1.0,1.0,10.0,7.0,9.0,7.0,1.0,1.0,5.0,5.0,1.0,1.0,1.0


In [8]:
# Configure pandas pour afficher toutes les colonnes du DataFrame dans les sorties
# Utile pour éviter que certaines colonnes soient masquées dans l'affichage (surtout avec .head(), .info(), etc.)
pd.set_option('display.max_columns', None)

In [9]:
# Affiche aléatoirement 5 lignes du DataFrame pour avoir un aperçu des données
df.sample(5)

Unnamed: 0,Key Id,Tournament Id,tournament Name,Match Id,Match Name,Stage Name,Group Name,Group Stage,Knockout Stage,Replayed,Replay,Match Date,Match Time,Stadium Id,Stadium Name,City Name,Country Name,Home Team Id,Home Team Name,Home Team Code,Away Team Id,Away Team Name,Away Team Code,Score,Home Team Score,Away Team Score,Home Team Score Margin,Away Team Score Margin,Extra Time,Penalty Shootout,Score Penalties,Home Team Score Penalties,Away Team Score Penalties,Result,Home Team Win,Away Team Win,Draw
380,381,WC-1986,1986 FIFA World Cup,M-1986-21,Poland v Portugal,group stage,Group F,1,0,0,0,6/7/1986,16:00,S-102,Estadio Universitario,Monterrey,Mexico,T-55,Poland,POL,T-56,Portugal,PRT,10,1,0,1,-1,0,0,0-0,0,0,home team win,1,0,0
711,712,WC-2010,2010 FIFA World Cup,M-2010-04,Argentina v Nigeria,group stage,Group B,1,0,0,0,6/12/2010,16:00,S-130,Ellis Park Stadium,Johannesburg,South Africa,T-03,Argentina,ARG,T-48,Nigeria,NGA,10,1,0,1,-1,0,0,0-0,0,0,home team win,1,0,0
823,824,WC-2014,2014 FIFA World Cup,M-2014-52,Costa Rica v Greece,round of 16,not applicable,0,1,0,0,6/29/2014,17:00,S-018,Arena Pernambuco,Recife,Brazil,T-16,Costa Rica,CRI,T-31,Greece,GRC,11,1,1,0,0,1,1,53,5,3,home team win,1,0,0
456,457,WC-1990,1990 FIFA World Cup,M-1990-45,Argentina v Yugoslavia,quarter-finals,not applicable,0,1,0,0,6/30/1990,17:00,S-071,Stadio Comunale,Florence,Italy,T-03,Argentina,ARG,T-84,Yugoslavia,YUG,00,0,0,0,0,1,1,32,3,2,home team win,1,0,0
764,765,WC-2010,2010 FIFA World Cup,M-2010-57,Netherlands v Brazil,quarter-finals,not applicable,0,1,0,0,7/2/2010,16:00,S-134,Nelson Mandela Bay Stadium,Port Elizabeth,South Africa,T-46,Netherlands,NLD,T-09,Brazil,BRA,21,2,1,1,-1,0,0,0-0,0,0,home team win,1,0,0


## Étape 3 - Nettoyage des données

`df.isnull().sum()` : avec cette commande je regarde si il y a des valeurs manquantes dans chaque colonnes

In [10]:
# Compte le nombre de valeurs manquantes (null/NaN) pour chaque colonne du DataFrame
# Permet d'identifier rapidement les colonnes à nettoyer ou compléter
df.isnull().sum()

Key Id                       0
Tournament Id                0
tournament Name              0
Match Id                     0
Match Name                   0
Stage Name                   0
Group Name                   0
Group Stage                  0
Knockout Stage               0
Replayed                     0
Replay                       0
Match Date                   0
Match Time                   0
Stadium Id                   0
Stadium Name                 0
City Name                    0
Country Name                 0
Home Team Id                 0
Home Team Name               0
Home Team Code               0
Away Team Id                 0
Away Team Name               0
Away Team Code               0
Score                        0
Home Team Score              0
Away Team Score              0
Home Team Score Margin       0
Away Team Score Margin       0
Extra Time                   0
Penalty Shootout             0
Score Penalties              0
Home Team Score Penalties    0
Away Tea

### 3.1 Création d'une copie du DataFrame

Je travaille sur une copie du DataFrame original pour conserver une version intacte des données initiales.
Cela me permet de revenir en arrière en cas d'erreur.

In [11]:
# Crée une copie du DataFrame original et la stocke dans une nouvelle variable appelée df_cleaned
# Cela permet de travailler sur une version nettoyée des données sans modifier les données d’origine
df_cleaned = df.copy()

### 3.2 Suppression des colonnes inutiles

Je supprime les colonnes non pertinentes pour l'analyse : identifiants techniques, colonnes redondantes ou peu informatives.
Pour cela, je crée une liste de noms de colonnes à supprimer puis je les retire avec `drop()`.


In [12]:
# Définir une liste des colonnes jugées inutiles ou redondantes pour l’analyse
# Ces colonnes seront supprimées pour simplifier le DataFrame
colonnes_a_supprimer = [
    'Key Id', 'Tournament Id', 'Match Id', 'Match Name',
    'Group Stage', 'Knockout Stage', 'Replayed', 'Replay',
    'Stadium Id', 'Home Team Id', 'Away Team Id'
]

# Supprimer les colonnes listées ci-dessus du DataFrame df_cleaned
# inplace=True signifie que la suppression est faite directement dans df_cleaned sans devoir le réaffecter
df_cleaned.drop(columns=colonnes_a_supprimer, inplace=True)

### 3.3 Renommage des colonnes

Certaines colonnes ont des noms longs ou complexes. Je les renomme via un dictionnaire pour améliorer la lisibilité et faciliter l'écriture du code.


In [13]:
# Renommer certaines colonnes du DataFrame pour les rendre plus simples, cohérentes et faciles à utiliser
# Cela améliore la lisibilité du code et facilite l’analyse
df_cleaned.rename(columns={
    'tournament Name': 'Tournament',                
    'Match Date': 'Date',                           
    'Match Time': 'Time',                           
    'Stadium Name': 'Stadium',                      
    'City Name': 'City',                            
    'Country Name': 'Country',                     
    'Home Team Name': 'HomeTeam',                   
    'Away Team Name': 'AwayTeam',                   
    'Home Team Code': 'HomeCode',                   
    'Away Team Code': 'AwayCode',                   
    'Home Team Score': 'HomeScore',                 
    'Away Team Score': 'AwayScore',                 
    'Home Team Score Margin': 'HomeMargin',         
    'Away Team Score Margin': 'AwayMargin',         
    'Penalty Shootout': 'Penalty',                  
    'Score Penalties': 'PenaltyScore',              
    'Home Team Score Penalties': 'HomePenalty',
    'Away Team Score Penalties': 'AwayPenalty'
}, inplace=True)  
# inplace=True applique le renommage directement sur df_cleaned

### 3.4 Conversion de la date

La colonne `Date` est au format texte. Je la convertis en format `datetime` avec `pd.to_datetime()` pour pouvoir effectuer des opérations temporelles (extraire l'année, trier par date...).

J'extrais également l'année dans une nouvelle colonne `Year`.  
Cela me permettra de faire des analyses temporelles (par édition).


In [14]:
# Convertir la colonne 'Date' en format datetime pour pouvoir faire des opérations temporelles (ex : extraire l'année)
# errors='coerce' remplace les valeurs non convertibles par NaT (valeurs manquantes de type datetime)
df_cleaned['Date'] = pd.to_datetime(df_cleaned['Date'], errors='coerce')

# Création d'une nouvelle colonne 'Year' contenant uniquement l'année extraite de la date
df_cleaned['Year'] = df_cleaned['Date'].dt.year

### 3.5 Création d'une colonne "TotalGoals"

Je crée une nouvelle colonne `TotalGoals` en additionnant le score à domicile et à l'extérieur.
Cette colonne sera utile pour les analyses de performance.


In [15]:
# Créer une nouvelle colonne 'TotalGoals' qui contient le total des buts marqués dans chaque match
# en additionnant le score de l'équipe à domicile et celui de l'équipe à l'extérieur
df_cleaned['TotalGoals'] = df_cleaned['HomeScore'] + df_cleaned['AwayScore']

### 3.6 Création d'une colonne "Winner"

Pour chaque match, je détermine le vainqueur (ou un match nul) en me basant sur la colonne `Result`.
- Si "home team win", le vainqueur est l'équipe à domicile.
- Si "away team win", c'est l'équipe à l'extérieur.
- Sinon, c'est un match nul.

In [16]:
# Définir une fonction pour déterminer le vainqueur d’un match en fonction du résultat ('Result')
def match_winner(row):
    # Si l'équipe à domicile a gagné, retourner le nom de cette équipe
    if row['Result'] == 'home team win':
        return row['HomeTeam']
    
    # Si l'équipe à l'extérieur a gagné, retourner le nom de cette équipe
    elif row['Result'] == 'away team win':
        return row['AwayTeam']
    
    # Sinon, c’est un match nul : retourner 'draw'
    else:
        return 'draw'

In [17]:
# Appliquer la fonction match_winner à chaque ligne du DataFrame
# Cela permet de créer une nouvelle colonne 'Winner' qui indique le vainqueur du match
# axis=1 signifie qu’on applique la fonction ligne par ligne (et non colonne par colonne)
df_cleaned['Winner'] = df_cleaned.apply(match_winner, axis=1)

### 3.7 Normalisation des noms de pays historiques

Certaines équipes historiques comme "West Germany" ou "Yugoslavia" sont renommées avec leur nom actuel
pour permettre une analyse cohérente dans le temps :
- "West Germany" → "Germany"
- "Soviet Union" → "Russia"
- "Yugoslavia" → "Serbia"
- "Czechoslovakia" → "Czech Republic"

In [18]:
# Dictionnaire contenant les anciennes nations à corriger avec leur nom actuel
corrections = {
    'West Germany': 'Germany',           # Allemagne de l’Ouest devient Allemagne
    'Soviet Union': 'Russia',            # URSS devient Russie
    'Czechoslovakia': 'Czech Republic',  # Tchécoslovaquie devient République Tchèque
    'Yugoslavia': 'Serbia'               # Yougoslavie devient Serbie
}

# Appliquer les corrections dans les colonnes 'HomeTeam', 'AwayTeam' et 'Winner'
for col in ['HomeTeam', 'AwayTeam', 'Winner']:
    df_cleaned[col] = df_cleaned[col].replace(corrections)

In [19]:
# Affiche aléatoirement 5 lignes du DataFrame pour avoir un aperçu des données
df_cleaned.sample(5)

Unnamed: 0,Tournament,Stage Name,Group Name,Date,Time,Stadium,City,Country,HomeTeam,HomeCode,AwayTeam,AwayCode,Score,HomeScore,AwayScore,HomeMargin,AwayMargin,Extra Time,Penalty,PenaltyScore,HomePenalty,AwayPenalty,Result,Home Team Win,Away Team Win,Draw,Year,TotalGoals,Winner
340,1982 FIFA World Cup,group stage,Group 5,1982-06-24,21:00,Estadio La Romareda,Zaragoza,Spain,Honduras,HND,Serbia,YUG,01,0,1,-1,1,0,0,0-0,0,0,away team win,0,1,0,1982,1,Serbia
606,2002 FIFA World Cup,group stage,Group G,2002-06-09,15:30,Miyagi Stadium,Miyagi,Japan,Mexico,MEX,Ecuador,ECU,21,2,1,1,-1,0,0,0-0,0,0,home team win,1,0,0,2002,3,Mexico
766,2010 FIFA World Cup,quarter-finals,not applicable,2010-07-03,16:00,Cape Town Stadium,Cape Town,South Africa,Argentina,ARG,Germany,DEU,04,0,4,-4,4,0,0,0-0,0,0,away team win,0,1,0,2010,4,Germany
525,1998 FIFA World Cup,group stage,Group E,1998-06-13,21:00,Stade de France,Saint-Denis,France,Netherlands,NLD,Belgium,BEL,00,0,0,0,0,0,0,0-0,0,0,draw,0,0,1,1998,0,draw
452,1990 FIFA World Cup,round of 16,not applicable,1990-06-25,17:00,Stadio Luigi Ferraris,Genoa,Italy,Republic of Ireland,IRL,Romania,ROU,00,0,0,0,0,1,1,54,5,4,home team win,1,0,0,1990,0,Republic of Ireland


### 3.8 Sauvegarde des données nettoyées

J'exporte le DataFrame nettoyé dans un nouveau fichier CSV `fifaworldcup_cleaned.csv` pour l'utiliser ensuite dans le notebook d'analyse.


In [20]:
# Sauvegarder le DataFrame nettoyé dans un nouveau fichier CSV nommé 'fifaworldcup_cleaned.csv'
# index=False permet de ne pas inclure l’index du DataFrame dans le fichier exporté
df_cleaned.to_csv('fifaworldcup_cleaned.csv', index=False)