# Analyse exploratoire des Jeux Olympiques

## Objectif
Comprendre la répartition des médailles par pays et son évolution dans le temps, avant de passer au machine learning.

Je cherche surtout à voir quels pays dominent, comment l’Europe se situe, et comment les médailles se répartissent par type.

## Import des librairies

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Chargement des données

In [None]:
try:
    df = pd.read_csv('/kaggle/input/country-medals-ml/country_medals_ml.csv')
except:
    df = pd.read_csv('country_medals_ml.csv')
df.head()

## Vue générale du dataset

In [None]:
df.shape
df.dtypes
df.isnull().sum()

## Mise en forme des données

In [None]:
df_pivot = df.pivot_table(
    index=['year','country_name'],
    columns='medal_type',
    values='count',
    fill_value=0
).reset_index()

df_pivot['medals'] = df_pivot.get('GOLD',0) + df_pivot.get('SILVER',0) + df_pivot.get('BRONZE',0)
df_pivot.head()

## Top 25 pays par nombre total de médailles

In [None]:
top25 = (
    df_pivot.groupby('country_name')['medals']
    .sum()
    .sort_values(ascending=False)
    .head(25)
)
top25

In [None]:
plt.figure(figsize=(12,5))
top25.plot(kind='bar')
plt.title('Top 25 pays par nombre total de médailles')
plt.ylabel('Médailles')
plt.xticks(rotation=75)
plt.show()

## Focus sur les pays européens

In [None]:
europe_countries = [
    'France','Germany','Italy','Spain','United Kingdom','Netherlands','Belgium',
    'Sweden','Norway','Finland','Denmark','Switzerland','Austria','Poland',
    'Czech Republic','Slovakia','Hungary','Romania','Bulgaria','Greece',
    'Portugal','Ireland','Ukraine','Russia','Belarus','Serbia','Croatia',
    'Slovenia','Estonia','Latvia','Lithuania','Iceland','Luxembourg'
]

df_europe = df_pivot[df_pivot['country_name'].isin(europe_countries)]
df_europe.head()

In [None]:
europe_rank = (
    df_europe.groupby('country_name')['medals']
    .sum()
    .sort_values(ascending=False)
)
europe_rank

In [None]:
plt.figure(figsize=(12,5))
europe_rank.plot(kind='bar')
plt.title('Pays européens par nombre total de médailles')
plt.ylabel('Médailles')
plt.xticks(rotation=75)
plt.show()

## Top 10 par type de médaille

In [None]:
top10_gold = df_pivot.groupby('country_name')['GOLD'].sum().sort_values(ascending=False).head(10)
top10_silver = df_pivot.groupby('country_name')['SILVER'].sum().sort_values(ascending=False).head(10)
top10_bronze = df_pivot.groupby('country_name')['BRONZE'].sum().sort_values(ascending=False).head(10)

top10_gold, top10_silver, top10_bronze

In [None]:
plt.figure(figsize=(10,4))
top10_gold.plot(kind='bar')
plt.title("Top 10 pays - Médailles d'or")
plt.xticks(rotation=75)
plt.show()

In [None]:
plt.figure(figsize=(10,4))
top10_silver.plot(kind='bar')
plt.title("Top 10 pays - Médailles d'argent")
plt.xticks(rotation=75)
plt.show()

In [None]:
plt.figure(figsize=(10,4))
top10_bronze.plot(kind='bar')
plt.title('Top 10 pays - Médailles de bronze')
plt.xticks(rotation=75)
plt.show()

## Conclusion
Les résultats montrent une forte concentration des médailles chez un petit nombre de pays. Les pays européens restent très présents dans le classement, mais la domination reste surtout partagée entre quelques grandes nations.

Cette analyse permet de mieux comprendre la structure des données avant de passer à la prédiction.