# Exploring statistical data from the history of the Olympic Games

**Centent**

The athlete_events.csv file contains 271116 rows and 15 columns; each row corresponds to one and only one athlete participating in a single Olympic event (athlete-events).
The columns are:

1. ID - Unique number for each athlete;
2. Name - Name of the athlete;
3. Sex - M or F;
4. Age - Integer;
5. Height - In centimeters;
6. Weight - In kilograms;
7. Team - Name of the team;
8. NOC - National Olympic Committee (three letter code);
9. Games - Year and season;
10. Year - Whole;
11. Season - Summer or Winter;
12. City - City of organization;
13. Sport - Sport;
14. Event - Event;
15. Medal - Gold, Silver, Bronze, or NA.

# 1. Loading modules

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt

import os
print(os.listdir("./data"))

['athlete_events.csv', 'marks.txt', 'marks2.txt', 'noc_regions.csv']


# 2. Loading Data

In [2]:
# DataFrame athlete_events file data
data = pd. "./data/athlete_events.csv"
# DataFrame noc_regions.csv file data
regions = "./data/noc_regions.csv"

# 3. Info about the two datasets

We're going:

1. Display the first lines;
2. Use the two functions "describe" and "info" to display statistics, type of data, name of columns and other information.

In [3]:
# Display the first 5 lines of the "data" Dataframe
data.head()

AttributeError: 'str' object has no attribute 'head'

In [None]:
data.describe()

In [None]:
data.info()

In [None]:
# Afficher les cinq premières lignes de "regions"


# 4. Concaténation des deux dataframes

Nous pouvons concaténer les deux dataframes, en utilisant la clé "NOC" avec la fonction "Merge" de Pandas ([voir la  documentation](https://pandas.pydata.org/pandas-docs/stable/merging.html))

In [None]:
merged = # Concaténation des deux dataframes

Afficher les premières lignes du résultats:

In [None]:
merged.head()

# 5. Distribution d'age des médalistes "en or"

Créer un dataframe représentant les médalistes "en or"

In [None]:
goldMedals = 
goldMedals.head()

Nous souhaitons dessiner la distribution d'Age des athlètes. Tout d'abord, on doit vérifier s'il y a des valeurs NaN dans la colonne "Age"

In [None]:
# Utiliser la fonction isnull()


Prenons seulement les valeurs différentes de NaN.

In [None]:
goldMedals = goldMedals[np.isfinite(goldMedals['Age'])]

Dessin de la distribution d'age des athlètes:

In [None]:
plt.figure(figsize=(20, 10))
plt.tight_layout()
sns.countplot(goldMedals['Age'])
plt.title('Distribution des Médailles en Or');

Il semble que nous ayons des personnes âgées de plus de 50 ans avec une médaille d'or: en compter leur nombre

Quelles disciplines vous permettent de décrocher une médaille d'or après la cinquantaine ?

In [None]:
masterDisciplines = 

In [None]:
plt.figure(figsize=(20, 10))
plt.tight_layout()
sns.countplot(masterDisciplines)
plt.title('Médailles en or pour les athlètes de plus de 50 ans');

# 6. Femmes en athlétisme

En étudiant les données, nous pouvons compter le nombre de médailles gagnées par les femmes durant l'histoire des Jeux olympiques d'été

Créer un dataframe des femmes ayant participé aux jeux d'été:

In [None]:
womenInOlympics = 

Afficher les 10 première lignes:

Créer un plot du nombre de médailles gagnées (axe des $y$) par des femmes par année (axe des $x$)

In [None]:
sns.set(style="darkgrid")
plt.figure(figsize=(20, 10))
sns.countplot(x='Year', data=womenInOlympics)
plt.title('Femmes médalaistes par compétition');

Afficher les 10 athlètes femmes, dans la liste, qui ont participées aux jeux d'été de 1900 

Compter leurs nombres

# 7. Médailles par pays

Afficher le top 5 des pays qui ont gagné le plus grand nombre de médailles en Or:

Faire un plot:

In [None]:
totalGoldMedals = goldMedals.region.value_counts().reset_index(name='Medal').head(5)
g = sns.catplot(x="index", y="Medal", data=totalGoldMedals,
                height=6, kind="bar");
g.set_xlabels("Top 5 des pays")
g.set_ylabels("Nombre de médailles")
plt.title('Médailles par pays');

# 8. Disciplines avec le plus grand nombre de médailles d'or

Créer un dataframe contenant les athlètes des USA qui ont gagné une médaille d'Or.

Compter leurs nombres par discipline:

Vérifier, en affichant les médallistes hommes en Or du Sport Basketball des USA, que les médailles sont octroyées à chaque membre de l'équipe.

In [None]:
basketballGoldUSA = 

In [None]:
basketballGoldUSA.head(15)

Il se peut (dans votre solution) que les médailles ne sont pas regroupées par Edition / Equipe mais vous comptiez les médailles d'or de chaque membre de l'équipe!
Si c'est le cas, il faut regrouper les athlètes par année - l'idée est de créer un nouveau dataframe pour faire un filtre en utilisant uniquement le premier enregistrement pour chaque membre de l'équipe.

In [None]:
groupedBasketUSA = basketballGoldUSA.groupby(['Year']).first()
groupedBasketUSA

Compter leur nombre :

# 9. Quelle est la taille / le poids médian d'un médaillé olympique ?

Faire un plot de type scatterplot de la taille vs le poids pour visualiser leur distribution (sans regroupement par discipline).

Afficher les premières lignes du DataFrame goldMedals et vérifier qu'il existe des lignes avec des valeurs NaN pour le poids et la taille

In [None]:
goldMedals.head()

La première chose à faire est de collecter des informations générales sur le dataframe que vous allez utiliser: goldMedals.

In [None]:
goldMedals.info()

Créer un dataframe contenant seulement les lignes où nous avons l'information sur la taille et le poids des athlètes

In [None]:
notNullMedals = 

Afficher ses premières lignes et ses informations

In [None]:
notNullMedals.head()

In [None]:
notNullMedals.info()

scatterplot du poids vs. taille

In [None]:
plt.figure(figsize=(12, 10))
ax = sns.scatterplot(x="Height", y="Weight", data=notNullMedals)
plt.title('Height vs Weight of Olympic Medalists');

Afficher les athlètes dont leurs poids est supérieur à 160 kilograms

# 10. Évolution des Jeux olympiques au fil du temps

Nous allons essayer de répondre aux questions suivantes:

* Comment le nombre d'athlètes/pays a varié au fil du temps ?
* Comment la proportion d'hommes/femmes varie-t-elle avec le temps ?
* Qu'en est-il de l'âge moyen, du poids et de la taille au fil du temps ?

*** 10.1 Evolution des athlètes hommes / femmes au fil du temps (Jeux d'été) ***

Créer deux dataframes divisant la population de l'ensemble de données à l'aide de Sex et Season (considérer seulement les jeux d'été)

In [None]:
MenOverTime = 
WomenOverTime = 

Afficher les premières lignes du dataframe des hommes

In [None]:
MenOverTime.head()

Plot de l'évolution du nombre d'athlètes masculins au fil du temps, puis celui des athlètes féminins

In [None]:
part = MenOverTime.groupby('Year')['Sex'].value_counts()
plt.figure(figsize=(20, 10))
part.loc[:,'M'].plot()
plt.title("Evolution du nombre d'athlètes masculins");

In [None]:
part = WomenOverTime.groupby('Year')['Sex'].value_counts()
plt.figure(figsize=(20, 10))
part.loc[:,'F'].plot()
plt.title("Evolution du nombre d'athlètes féminins");

***10.2 Evolution de l'age des athlètes italiens *** 

Commençant par examiner l'ensemble de données MenOverTime pour actualiser les colonnes

In [None]:
MenOverTime.head(5)

Créer un dataframe contenant les athlètes (hommes) italiens

In [None]:
itMenOverTime = 

Affichage des 5 premières lignes

In [None]:
itMenOverTime.head(5)

plot de l'age en fonction des années

In [None]:
sns.set(style="darkgrid")
plt.figure(figsize=(20, 10))
sns.countplot(x='Year', data=itMenOverTime, palette='Set2')
plt.title('Variation of Age for Italian Male Athletes over time')

Faire la même chose pour les femmes

In [None]:
itWomenOverTime = 

In [None]:
sns.set(style="darkgrid")
plt.figure(figsize=(20, 10))
sns.countplot(x='Year', data=itWomenOverTime, palette='Set2')
plt.title('Variation of Age for Italian Female Athletes over time')