In [1]:
import pandas as pd
import numpy as np
import altair as alt
import altair_viewer
alt.renderers.enable('altair_viewer')


df_medal = pd.read_csv('archive/olympic_medals.csv')
df_host = pd.read_csv('archive/olympic_hosts.csv')
df_athlete = pd.read_csv('archive/olympic_athletes.csv')
df_result = pd.read_csv('archive/olympic_results.csv')
df = df_medal.merge(df_host, left_on='slug_game', right_on='game_slug')

df = df[(df.game_season == 'Summer') & (df.country_3_letter_code == 'GBR')]
df_nb = df.groupby(['game_year'])['discipline_title'].count().reset_index(name="count")

### 1. une courbe qui représente le nombre de médailles gagnées au cours du temps
source = df_nb.from_records({
    'Année': df_nb['game_year'],
    'Médailles': df_nb['count']
})

chart = alt.Chart(source).mark_line().encode(x='Année',y='Médailles')

altair_viewer.display(chart)



In [55]:
### 4. un diagramme en bâtons qui représente le nombre de médailles gagnées pour chacun des 10 sportifs ayant gagné le plus de médailles
df_medal_by_athlete = df.groupby(['athlete_full_name'])['medal_type'].count().nlargest(10).reset_index(name="count")
#df_medal_by_athlete.sort_values(by='count')

source = df_medal_by_athlete.from_records({
    'Athlète': df_medal_by_athlete['athlete_full_name'],
    'Médailles': df_medal_by_athlete['count']
})

chart4 = alt.Chart(source).mark_bar().encode(x='Athlète',y='Médailles')
altair_viewer.display(chart4)

In [54]:
### 5. pour l'athlète ayant remporté le plus de médailles, une courbe qui représente l'évolution de sa place sur chacune des marches du podium en fonction de son âge
df_full_athlete = df.merge(df_athlete, left_on='athlete_full_name', right_on='athlete_full_name')
df_full_athlete = df_full_athlete[(df_full_athlete.athlete_full_name == 'Ben AINSLIE')]
df2 = df_full_athlete.assign(Age=df_full_athlete['game_year'] - df_full_athlete['athlete_year_birth'])

source = df2.from_records({
    'Age': df2['Age'],
    'Médailles': df2['medal_type']
})

chart5 = alt.Chart(source).mark_line().encode(x='Age',y='Médailles')
altair_viewer.display(chart5)

In [53]:
### 6. un nuage de point qui représente le nombre de médailles gagnées en fonction du nombre de participants engagés
df_gbr = df_result.merge(df_host, left_on='slug_game', right_on='game_slug')
df_gbr = df_gbr[(df_gbr.game_season == 'Summer') & (df_gbr.country_3_letter_code == 'GBR')]
#print(df_gbr[(df_gbr.slug_game == 'amsterdam-1928') & (pd.isna(df_gbr['medal_type']))].info())
# Le résultat du print au dessus me sort bien 114 entrées des participants sans médaille
# 134 participants, 20 médaillés, 114 non médaillés pour les JO amsterdam-1928
nuage = df_gbr.groupby(['slug_game'])['country_3_letter_code', 'medal_type'].count().reset_index()

source = nuage.from_records({
    'Participants': nuage['country_3_letter_code'],
    'Médailles': nuage['medal_type'],
    'JO': nuage['slug_game']
})

nuage = alt.Chart(source).mark_point().encode(
    x='Participants',
    y='Médailles'
)
altair_viewer.display(nuage)

  nuage = df_gbr.groupby(['slug_game'])['country_3_letter_code', 'medal_type'].count().reset_index()


In [5]:
### 8. un diagramme en bâtons qui représente le nombre de places sur le podium pour les athlètes du pays en 
### divisant les éditions en deux groupes :  celles qui ont lieu dans le pays étudié et les autres
df_gbr = df_result.merge(df_host, left_on='slug_game', right_on='game_slug')
df_gbr = df_gbr[(df_gbr.game_season == 'Summer') & (df_gbr.country_3_letter_code == 'GBR')]
#print(df_gbr[(df_gbr.slug_game == 'amsterdam-1928') & (pd.isna(df_gbr['medal_type']))].info())
# Le résultat du print au dessus me sort bien 114 entrées des participants sans médaille
# 134 participants, 20 médaillés, 114 non médaillés pour les JO amsterdam-1928
nuage = df_gbr.groupby(['slug_game'])['country_3_letter_code', 'medal_type'].count().reset_index()

source = nuage.from_records({
    'Participants': nuage['country_3_letter_code'],
    'Médailles': nuage['medal_type'],
    'JO': nuage['slug_game']
})

chart5 = alt.Chart(source).mark_circle(size=60).encode(x='Participants',y='Médailles', color=alt.value('red'))
altair_viewer.display(chart5)

bar = alt.Chart(source).mark_bar().encode(
    x='JO:O',
    y='Participants:Q'
)

bar2 = alt.Chart(source).mark_bar(color='green').encode(
    x='JO:O',
    y='Médailles:Q'
)


line = alt.Chart(source).mark_line(color='orange').transform_window(
    # The field to average
    rolling_mean='mean(Médailles)',
    # The number of values before and after the current value to include.
    frame=[-9, 0]
).encode(
    alt.X('JO:O', title = 'qsdqsdqsd', axis = alt.Axis(labelAngle = -45, labelOverlap = False)),
    y='rolling_mean:Q'
)

(bar + bar2 +  line).properties(width=600)
#chart5 = alt.Chart(source).mark_circle(size=60).encode(x='Participants:Q',y='Médailles')


  nuage = df_gbr.groupby(['slug_game'])['country_3_letter_code', 'medal_type'].count().reset_index()


In [59]:
### 9. un histogramme qui représente la distribution du nombre de fois où un athlète est monté sur le podium des JO, par sexe

dict_athlete = {"Id":[], "Name":[], "Medaille":[], "Sexe":[]};
for row in df_gbr.iterrows():    
    if 'women' in row[1]['event_title'].lower() and pd.isnull(row[1]['medal_type']) == 0:
        dict_athlete["Id"].append(i)
        dict_athlete["Name"].append(row[1]['athlete_full_name'])
        dict_athlete["Medaille"].append(row[1]['medal_type'])
        dict_athlete["Sexe"].append("F")        
    elif pd.isnull(row[1]['medal_type']) == 0: 
        dict_athlete["Id"].append(i)
        dict_athlete["Name"].append(row[1]['athlete_full_name'])
        dict_athlete["Medaille"].append(row[1]['medal_type'])
        dict_athlete["Sexe"].append("M")
df_dict_athlete = pd.DataFrame.from_dict(dict_athlete)
df_woman = df_dict_athlete[df_dict_athlete['Sexe'] == 'F'].groupby(['Sexe']).count().reset_index()
df_man = df_dict_athlete[df_dict_athlete['Sexe'] == 'M'].groupby(['Sexe']).count().reset_index()
df_sexe = df_dict_athlete.groupby(['Sexe']).count().reset_index()
print(df_sexe)

source = df_sexe.from_records({
    'Genre': df_sexe['Sexe'],
    'Médailles': df_sexe['Medaille']
})

chart6 = alt.Chart(source).mark_bar().encode(x='Médailles',y='Genre')
altair_viewer.display(chart6)

  Sexe   Id  Name  Medaille
0    F  201   151       201
1    M  710   444       710
