# História das Olimpíadas

Após um ano de atraso por conta da pandemia de Covid-19, as atenções do mundo todo se voltaram para Tóquio, no Japão, para acompanhar mais uma edição das Olimpíadas.

No Brasil não foi diferente, e muitos se uniram para torcer por nossos atletas em diferentes competições, tanto em esportes onde o Brasil já possui tradição quanto em novos esportes.

Vamos aproveitar o clima para estudar um pouco das Olimpíadas! Utilizaremos um _dataset_ com 120 anos de dados históricos das Olimpíadas, cobrindo desde os jogos de Atenas 1896 até Rio 2016. 

Faça o download do _dataset_ em https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results e carregue o arquivo ```athlete_events.csv``` para um DataFrame utilizando Pandas. Aproveite para explorar seu DataFrame e se familiarizar com a sua estrutura. 

OBS: Fique à vontade para acrescentar mais células Python conforme necessário em qualquer etapa do exercício.

In [1]:
import numpy as np
import pandas as pd

# Carregando o dataset e verificando uma amostra
df_athlete_events = pd.read_csv('athlete_events.csv')
df_athlete_events.sample(10)

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
64552,33041,Marcel Ernzer,M,22.0,174.0,69.0,Luxembourg,LUX,1948 Summer,1948,Summer,London,Cycling,"Cycling Men's Road Race, Individual",
115243,58395,"Hendrikus Zacharias ""Hennie"" Keetelaar",M,21.0,,,Netherlands,NED,1948 Summer,1948,Summer,London,Water Polo,Water Polo Men's Water Polo,Bronze
72415,36840,Dawn Lorraine Fraser,F,27.0,172.0,67.0,Australia,AUS,1964 Summer,1964,Summer,Tokyo,Swimming,Swimming Women's 100 metres Freestyle,Gold
116465,58940,Ueli Kestenholz,M,26.0,180.0,79.0,Switzerland,SUI,2002 Winter,2002,Winter,Salt Lake City,Snowboarding,Snowboarding Men's Parallel Giant Slalom,
192113,96456,"Frederick ""Frits"" Potgieter",M,26.0,203.0,118.0,South Africa,RSA,2000 Summer,2000,Summer,Sydney,Athletics,Athletics Men's Discus Throw,
29326,15145,Leopoldo Briola,M,,,95.0,Argentina,ARG,1948 Summer,1948,Summer,London,Weightlifting,Weightlifting Men's Heavyweight,
17221,9213,Otto Becker,M,45.0,182.0,78.0,Germany,GER,2004 Summer,2004,Summer,Athina,Equestrianism,"Equestrianism Mixed Jumping, Individual",
61663,31566,Mrta Egervri (-Magyar),F,23.0,160.0,49.0,Hungary,HUN,1980 Summer,1980,Summer,Moskva,Gymnastics,Gymnastics Women's Balance Beam,
117505,59471,Yelena Vladimirovna Khrustalyova,F,21.0,162.0,53.0,Belarus,BLR,2002 Winter,2002,Winter,Salt Lake City,Biathlon,Biathlon Women's 4 x 7.5 kilometres Relay,
131927,66399,Michael Lang,M,28.0,,,United States,USA,1904 Summer,1904,Summer,St. Louis,Gymnastics,"Gymnastics Men's Individual All-Around, Field ...",


In [2]:
# Verificando as informações gerais do DF
df_athlete_events.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 271116 entries, 0 to 271115
Data columns (total 15 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   ID      271116 non-null  int64  
 1   Name    271116 non-null  object 
 2   Sex     271116 non-null  object 
 3   Age     261642 non-null  float64
 4   Height  210945 non-null  float64
 5   Weight  208241 non-null  float64
 6   Team    271116 non-null  object 
 7   NOC     271116 non-null  object 
 8   Games   271116 non-null  object 
 9   Year    271116 non-null  int64  
 10  Season  271116 non-null  object 
 11  City    271116 non-null  object 
 12  Sport   271116 non-null  object 
 13  Event   271116 non-null  object 
 14  Medal   39783 non-null   object 
dtypes: float64(3), int64(2), object(10)
memory usage: 31.0+ MB


In [3]:
# Verificando dados duplicados
df_athlete_events[df_athlete_events.duplicated()].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1385 entries, 1252 to 270200
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      1385 non-null   int64  
 1   Name    1385 non-null   object 
 2   Sex     1385 non-null   object 
 3   Age     1226 non-null   float64
 4   Height  28 non-null     float64
 5   Weight  37 non-null     float64
 6   Team    1385 non-null   object 
 7   NOC     1385 non-null   object 
 8   Games   1385 non-null   object 
 9   Year    1385 non-null   int64  
 10  Season  1385 non-null   object 
 11  City    1385 non-null   object 
 12  Sport   1385 non-null   object 
 13  Event   1385 non-null   object 
 14  Medal   11 non-null     object 
dtypes: float64(3), int64(2), object(10)
memory usage: 173.1+ KB


In [4]:
# Verificando medalhistas em dados duplicados -> só há nos jogos de Paris 1900
df_athlete_events[(df_athlete_events.duplicated()) & (~df_athlete_events['Medal'].isna())]

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
23051,12115,Gaston Frdric Blanchy,M,31.0,,,Olle,FRA,1900 Summer,1900,Summer,Paris,Sailing,Sailing Mixed 2-3 Ton,Gold
38629,19874,Jean-Baptiste tienne August Charcot,M,23.0,,,Quand-Mme-2,FRA,1900 Summer,1900,Summer,Paris,Sailing,Sailing Mixed 0-0.5 Ton,Silver
57958,29661,Jacques Doucet,M,,,,Favorite-1,FRA,1900 Summer,1900,Summer,Paris,Sailing,Sailing Mixed 2-3 Ton,Silver
65600,33564,William Edgar Exshaw,M,34.0,,,Olle,GBR,1900 Summer,1900,Summer,Paris,Sailing,Sailing Mixed 2-3 Ton,Gold
80710,40973,Victor Auguste Godinet,M,47.0,,,Favorite-1,FRA,1900 Summer,1900,Summer,Paris,Sailing,Sailing Mixed 2-3 Ton,Silver
134111,67525,Jacques le Lavasseur,M,,,,Olle,FRA,1900 Summer,1900,Summer,Paris,Sailing,Sailing Mixed 2-3 Ton,Gold
140179,70374,Robert Linzeler,M,28.0,,,Quand-Mme-2,FRA,1900 Summer,1900,Summer,Paris,Sailing,Sailing Mixed 0-0.5 Ton,Silver
157973,79304,Mathias Joseph Ferdinand Jules Henri Mialaret,M,44.0,,,Favorite-1,FRA,1900 Summer,1900,Summer,Paris,Sailing,Sailing Mixed 2-3 Ton,Silver
232614,116681,Henri Lon Victor Susse,M,55.0,,,Favorite-1,FRA,1900 Summer,1900,Summer,Paris,Sailing,Sailing Mixed 2-3 Ton,Silver
238200,119448,Texier I,M,,,,Quand-Mme-2,FRA,1900 Summer,1900,Summer,Paris,Sailing,Sailing Mixed 0-0.5 Ton,Silver


In [5]:
# Verificando se há brasileiros em dados duplicados -> não há
df_athlete_events[(df_athlete_events.duplicated()) & (df_athlete_events['NOC'] == 'BRA')]

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal


In [6]:
# Removendo os dados duplicados
df_athlete_events.drop_duplicates(inplace=True)
df_athlete_events.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 269731 entries, 0 to 271115
Data columns (total 15 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   ID      269731 non-null  int64  
 1   Name    269731 non-null  object 
 2   Sex     269731 non-null  object 
 3   Age     260416 non-null  float64
 4   Height  210917 non-null  float64
 5   Weight  208204 non-null  float64
 6   Team    269731 non-null  object 
 7   NOC     269731 non-null  object 
 8   Games   269731 non-null  object 
 9   Year    269731 non-null  int64  
 10  Season  269731 non-null  object 
 11  City    269731 non-null  object 
 12  Sport   269731 non-null  object 
 13  Event   269731 non-null  object 
 14  Medal   39772 non-null   object 
dtypes: float64(3), int64(2), object(10)
memory usage: 32.9+ MB


## 1. O Brasil nas Olimpíadas

Vamos começar estudando o desempenho do nossos próprio país. Gere um DataFrame novo contendo apenas as informações sobre atletas brasileiros.

In [7]:
# Criando um DF apenas com atletas brasileiros, utilizando ['Team'] == 'Brazil'
df_atletas_br = df_athlete_events[df_athlete_events['Team'] == 'Brazil']
df_atletas_br.info() # Verificando as informações gerais

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3772 entries, 665 to 270789
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      3772 non-null   int64  
 1   Name    3772 non-null   object 
 2   Sex     3772 non-null   object 
 3   Age     3713 non-null   float64
 4   Height  3304 non-null   float64
 5   Weight  3133 non-null   float64
 6   Team    3772 non-null   object 
 7   NOC     3772 non-null   object 
 8   Games   3772 non-null   object 
 9   Year    3772 non-null   int64  
 10  Season  3772 non-null   object 
 11  City    3772 non-null   object 
 12  Sport   3772 non-null   object 
 13  Event   3772 non-null   object 
 14  Medal   449 non-null    object 
dtypes: float64(3), int64(2), object(10)
memory usage: 471.5+ KB


In [8]:
# Criando outro DF apenas com atletas brasileiros, utilizando ['NOC'] == 'BRA'
df_atletas_bra = df_athlete_events[df_athlete_events['NOC'] == 'BRA']
df_atletas_bra.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3848 entries, 665 to 270789
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      3848 non-null   int64  
 1   Name    3848 non-null   object 
 2   Sex     3848 non-null   object 
 3   Age     3788 non-null   float64
 4   Height  3365 non-null   float64
 5   Weight  3188 non-null   float64
 6   Team    3848 non-null   object 
 7   NOC     3848 non-null   object 
 8   Games   3848 non-null   object 
 9   Year    3848 non-null   int64  
 10  Season  3848 non-null   object 
 11  City    3848 non-null   object 
 12  Sport   3848 non-null   object 
 13  Event   3848 non-null   object 
 14  Medal   475 non-null    object 
dtypes: float64(3), int64(2), object(10)
memory usage: 481.0+ KB


### Medalhistas

Vamos focar um pouco nos casos de sucesso do Brasil. Use o seu DataFrame anterior para filtrar apenas informações sobre **medalhistas** brasileiros. 

**DICA:** observe como a coluna ```Medal``` é representada quando o atleta não ganhou medalha.

In [9]:
# Filtrando apenas medalhistas brasileiros e criando outro DF ('Team' == 'Brazil')
df_medal_br = df_atletas_br[~df_atletas_br['Medal'].isna()]
df_medal_br.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 449 entries, 1651 to 268247
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      449 non-null    int64  
 1   Name    449 non-null    object 
 2   Sex     449 non-null    object 
 3   Age     448 non-null    float64
 4   Height  432 non-null    float64
 5   Weight  422 non-null    float64
 6   Team    449 non-null    object 
 7   NOC     449 non-null    object 
 8   Games   449 non-null    object 
 9   Year    449 non-null    int64  
 10  Season  449 non-null    object 
 11  City    449 non-null    object 
 12  Sport   449 non-null    object 
 13  Event   449 non-null    object 
 14  Medal   449 non-null    object 
dtypes: float64(3), int64(2), object(10)
memory usage: 56.1+ KB


In [10]:
# Criando outro DF apenas com medalhistas brasileiros ('NOC' == 'BRA')
df_medal_bra = df_atletas_bra[~df_atletas_bra['Medal'].isna()]
df_medal_bra.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 475 entries, 1651 to 268247
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      475 non-null    int64  
 1   Name    475 non-null    object 
 2   Sex     475 non-null    object 
 3   Age     474 non-null    float64
 4   Height  457 non-null    float64
 5   Weight  447 non-null    float64
 6   Team    475 non-null    object 
 7   NOC     475 non-null    object 
 8   Games   475 non-null    object 
 9   Year    475 non-null    int64  
 10  Season  475 non-null    object 
 11  City    475 non-null    object 
 12  Sport   475 non-null    object 
 13  Event   475 non-null    object 
 14  Medal   475 non-null    object 
dtypes: float64(3), int64(2), object(10)
memory usage: 59.4+ KB


### Verão vs Inverno

Você deve ter notado que temos duas categorias distintas de jogos olímpicos, representados pela estação: temos os jogos de verão e os jogos de inverno, que ocorrem de maneira intercalada.

Agora que já conhecemos os medalhistas brasileiros, resposta: quantos atletas brasileiros receberam medalha nos jogos de verão e quantos receberam nos jogos de inverno?

In [11]:
# Criando um DF com medalhistas brasileiros nos jogos de verão ('Team' == 'Brazil')
df_medal_br_verao = df_medal_br[df_medal_br['Season'] == 'Summer']
df_medal_br_verao.info()
# Só há medalhistas brasileiros nos jogos de verão, já que o tamanho de df_medal_br_verao é igual ao tamanho de df_medal_br

<class 'pandas.core.frame.DataFrame'>
Int64Index: 449 entries, 1651 to 268247
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      449 non-null    int64  
 1   Name    449 non-null    object 
 2   Sex     449 non-null    object 
 3   Age     448 non-null    float64
 4   Height  432 non-null    float64
 5   Weight  422 non-null    float64
 6   Team    449 non-null    object 
 7   NOC     449 non-null    object 
 8   Games   449 non-null    object 
 9   Year    449 non-null    int64  
 10  Season  449 non-null    object 
 11  City    449 non-null    object 
 12  Sport   449 non-null    object 
 13  Event   449 non-null    object 
 14  Medal   449 non-null    object 
dtypes: float64(3), int64(2), object(10)
memory usage: 56.1+ KB


In [12]:
# De fato, não há medalhistas brasileiros nos jogos de inverno
df_medal_br[df_medal_br['Season'] == 'Winter']

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal


In [13]:
# Filtrando nomes iguais no DF de medalhistas brasileiros ('Team' == 'Brazil')
df_medalhistas_duplic = df_medal_br[df_medal_br['Name'].duplicated()]
df_medalhistas_duplic.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 106 entries, 1652 to 267709
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      106 non-null    int64  
 1   Name    106 non-null    object 
 2   Sex     106 non-null    object 
 3   Age     106 non-null    float64
 4   Height  105 non-null    float64
 5   Weight  104 non-null    float64
 6   Team    106 non-null    object 
 7   NOC     106 non-null    object 
 8   Games   106 non-null    object 
 9   Year    106 non-null    int64  
 10  Season  106 non-null    object 
 11  City    106 non-null    object 
 12  Sport   106 non-null    object 
 13  Event   106 non-null    object 
 14  Medal   106 non-null    object 
dtypes: float64(3), int64(2), object(10)
memory usage: 13.2+ KB


In [14]:
# (quantidade de medalhistas brasileiros) - (quantidade de nomes iguais em medalhistas brasileiros) -> ('Team' == 'Brazil')
len(df_medal_br) - len(df_medalhistas_duplic)

343

**Resposta (utilizando 'Team' == 'Brazil'):**   
Nenhum atleta brasileiro recebeu medalha nos jogos de inverno e 343 atletas brasileiros receberam medalha(s) nos jogos de verão.

In [15]:
# Criando outro DF com medalhistas brasileiros nos jogos de verão ('NOC' == 'BRA')
df_medal_bra_verao = df_medal_bra[df_medal_bra['Season'] == 'Summer']
df_medal_bra_verao.info()
# Só há medalhistas brasileiros nos jogos de verão, já que o tamanho de df_medal_bra_verao é igual ao tamanho de df_medal_bra

<class 'pandas.core.frame.DataFrame'>
Int64Index: 475 entries, 1651 to 268247
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      475 non-null    int64  
 1   Name    475 non-null    object 
 2   Sex     475 non-null    object 
 3   Age     474 non-null    float64
 4   Height  457 non-null    float64
 5   Weight  447 non-null    float64
 6   Team    475 non-null    object 
 7   NOC     475 non-null    object 
 8   Games   475 non-null    object 
 9   Year    475 non-null    int64  
 10  Season  475 non-null    object 
 11  City    475 non-null    object 
 12  Sport   475 non-null    object 
 13  Event   475 non-null    object 
 14  Medal   475 non-null    object 
dtypes: float64(3), int64(2), object(10)
memory usage: 59.4+ KB


In [16]:
# Filtrando nomes iguais no DF de medalhistas brasileiros ('NOC' == 'BRA')
df_medalhistas_duplica = df_medal_bra[df_medal_bra['Name'].duplicated()]
df_medalhistas_duplica.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 115 entries, 1652 to 267709
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      115 non-null    int64  
 1   Name    115 non-null    object 
 2   Sex     115 non-null    object 
 3   Age     115 non-null    float64
 4   Height  114 non-null    float64
 5   Weight  113 non-null    float64
 6   Team    115 non-null    object 
 7   NOC     115 non-null    object 
 8   Games   115 non-null    object 
 9   Year    115 non-null    int64  
 10  Season  115 non-null    object 
 11  City    115 non-null    object 
 12  Sport   115 non-null    object 
 13  Event   115 non-null    object 
 14  Medal   115 non-null    object 
dtypes: float64(3), int64(2), object(10)
memory usage: 14.4+ KB


In [17]:
# (quantidade de medalhistas brasileiros) - (quantidade de nomes iguais em medalhistas brasileiros) -> ('NOC' == 'BRA')
len(df_medal_bra) - len(df_medalhistas_duplica)

360

**Resposta (utilizando 'NOC' == 'BRA'):**   
Nenhum atleta brasileiro recebeu medalha nos jogos de inverno e 360 atletas brasileiros receberam medalha(s) nos jogos de verão.

Os jogos de verão são bem mais populares do que os jogos de inverno no Brasil. Portanto, deste ponto em diante iremos focar apenas nos jogos de verão. Descarte de seu DataFrame os dados dos jogos de inverno.



In [18]:
# Verificando dados de atletas brasileiros em jogos de inverno ('NOC' == 'BRA')
df_atletas_bra[df_atletas_bra['Season'] == 'Winter'].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 64 entries, 8581 to 260987
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      64 non-null     int64  
 1   Name    64 non-null     object 
 2   Sex     64 non-null     object 
 3   Age     64 non-null     float64
 4   Height  50 non-null     float64
 5   Weight  50 non-null     float64
 6   Team    64 non-null     object 
 7   NOC     64 non-null     object 
 8   Games   64 non-null     object 
 9   Year    64 non-null     int64  
 10  Season  64 non-null     object 
 11  City    64 non-null     object 
 12  Sport   64 non-null     object 
 13  Event   64 non-null     object 
 14  Medal   0 non-null      object 
dtypes: float64(3), int64(2), object(10)
memory usage: 8.0+ KB


In [19]:
# Novo DF sem os dados dos jogos de inverno ('NOC' == 'BRA')
df_atlet_bra_sem_inverno = df_atletas_bra.drop(df_atletas_bra[df_atletas_bra['Season'] == 'Winter'].index)
df_atlet_bra_sem_inverno.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3784 entries, 665 to 270789
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      3784 non-null   int64  
 1   Name    3784 non-null   object 
 2   Sex     3784 non-null   object 
 3   Age     3724 non-null   float64
 4   Height  3315 non-null   float64
 5   Weight  3138 non-null   float64
 6   Team    3784 non-null   object 
 7   NOC     3784 non-null   object 
 8   Games   3784 non-null   object 
 9   Year    3784 non-null   int64  
 10  Season  3784 non-null   object 
 11  City    3784 non-null   object 
 12  Sport   3784 non-null   object 
 13  Event   3784 non-null   object 
 14  Medal   475 non-null    object 
dtypes: float64(3), int64(2), object(10)
memory usage: 473.0+ KB


In [20]:
# Verificando se o novo DF realmente não tem dados dos jogos de inverno ('NOC' == 'BRA')
df_atlet_bra_sem_inverno[df_atlet_bra_sem_inverno['Season'] == 'Winter']

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal


In [21]:
# Novo DF sem os dados dos jogos de inverno ('Team' == 'Brazil')
df_atlet_br_sem_inverno = df_atletas_br.drop(df_atletas_br[df_atletas_br['Season'] == 'Winter'].index)
df_atlet_br_sem_inverno.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3708 entries, 665 to 270789
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      3708 non-null   int64  
 1   Name    3708 non-null   object 
 2   Sex     3708 non-null   object 
 3   Age     3649 non-null   float64
 4   Height  3254 non-null   float64
 5   Weight  3083 non-null   float64
 6   Team    3708 non-null   object 
 7   NOC     3708 non-null   object 
 8   Games   3708 non-null   object 
 9   Year    3708 non-null   int64  
 10  Season  3708 non-null   object 
 11  City    3708 non-null   object 
 12  Sport   3708 non-null   object 
 13  Event   3708 non-null   object 
 14  Medal   449 non-null    object 
dtypes: float64(3), int64(2), object(10)
memory usage: 463.5+ KB


### Atletas do Brasil

Vamos conhecer um pouco melhor nossos atletas. Descubra a altura e peso médio de nossos medalhistas.

In [22]:
# Novo DF de medalhistas brasileiros sem nomes iguais (para calcular média de altura e peso dos medalhistas) ('NOC' == 'BRA')
df_medal_bra_sem_nomes_dupl = df_medal_bra.drop(df_medalhistas_duplica.index)
df_medal_bra_sem_nomes_dupl.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 360 entries, 1651 to 268247
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      360 non-null    int64  
 1   Name    360 non-null    object 
 2   Sex     360 non-null    object 
 3   Age     359 non-null    float64
 4   Height  343 non-null    float64
 5   Weight  334 non-null    float64
 6   Team    360 non-null    object 
 7   NOC     360 non-null    object 
 8   Games   360 non-null    object 
 9   Year    360 non-null    int64  
 10  Season  360 non-null    object 
 11  City    360 non-null    object 
 12  Sport   360 non-null    object 
 13  Event   360 non-null    object 
 14  Medal   360 non-null    object 
dtypes: float64(3), int64(2), object(10)
memory usage: 45.0+ KB


In [23]:
# Altura média dos medalhistas brasileiros ('NOC' == 'BRA')
df_medal_bra_sem_nomes_dupl['Height'].mean()

181.731778425656

In [24]:
# Peso médio dos medalhistas brasileiros ('NOC' == 'BRA')
df_medal_bra_sem_nomes_dupl['Weight'].mean()

75.76347305389221

In [25]:
# Filtrando nomes iguais no DF de atletas brasileiros ('NOC' == 'BRA')
df_atletas_duplica = df_atletas_bra[df_atletas_bra['Name'].duplicated()]
df_atletas_duplica.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1797 entries, 666 to 268218
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      1797 non-null   int64  
 1   Name    1797 non-null   object 
 2   Sex     1797 non-null   object 
 3   Age     1787 non-null   float64
 4   Height  1638 non-null   float64
 5   Weight  1572 non-null   float64
 6   Team    1797 non-null   object 
 7   NOC     1797 non-null   object 
 8   Games   1797 non-null   object 
 9   Year    1797 non-null   int64  
 10  Season  1797 non-null   object 
 11  City    1797 non-null   object 
 12  Sport   1797 non-null   object 
 13  Event   1797 non-null   object 
 14  Medal   223 non-null    object 
dtypes: float64(3), int64(2), object(10)
memory usage: 224.6+ KB


In [26]:
# Novo DF de atletas brasileiros sem nomes iguais (para calcular média de altura e peso dos atletas) ('NOC' == 'BRA')
df_atletas_bra_sem_nomes_dupl = df_atletas_bra.drop(df_atletas_duplica.index)
df_atletas_bra_sem_nomes_dupl.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2051 entries, 665 to 270789
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      2051 non-null   int64  
 1   Name    2051 non-null   object 
 2   Sex     2051 non-null   object 
 3   Age     2001 non-null   float64
 4   Height  1727 non-null   float64
 5   Weight  1616 non-null   float64
 6   Team    2051 non-null   object 
 7   NOC     2051 non-null   object 
 8   Games   2051 non-null   object 
 9   Year    2051 non-null   int64  
 10  Season  2051 non-null   object 
 11  City    2051 non-null   object 
 12  Sport   2051 non-null   object 
 13  Event   2051 non-null   object 
 14  Medal   252 non-null    object 
dtypes: float64(3), int64(2), object(10)
memory usage: 256.4+ KB


In [27]:
# Altura média dos atletas brasileiros ('NOC' == 'BRA')
df_atletas_bra_sem_nomes_dupl['Height'].mean()

178.14360162130862

In [28]:
# Peso médio dos atletas brasileiros ('NOC' == 'BRA')
df_atletas_bra_sem_nomes_dupl['Weight'].mean()

73.33230198019803

Imaginamos que diferentes esportes podem beneficiar diferentes tipos físicos, certo? Então refaça a análise anterior, mas obtendo os valores médios **por esporte**.

In [29]:
# Altura média dos medalhistas brasileiros por esporte ('NOC' == 'BRA')
df_medal_alt = df_medal_bra.groupby('Sport')['Height'].mean()
df_medal_alt
# Não utilizei o df_medal_bra_sem_nomes_dupl, pensando em casos de multiatletas

Sport
Athletics            181.000000
Basketball           185.607843
Beach Volleyball     184.880000
Boxing               170.000000
Canoeing             175.000000
Equestrianism        179.666667
Football             175.803030
Gymnastics           162.750000
Judo                 176.666667
Modern Pentathlon    166.000000
Sailing              181.588235
Shooting             175.000000
Swimming             189.105263
Taekwondo            184.000000
Volleyball           190.591667
Name: Height, dtype: float64

In [30]:
# Peso médio dos medalhistas brasileiros por esporte ('NOC' == 'BRA')
df_medal_peso = df_medal_bra.groupby('Sport')['Weight'].mean()
df_medal_peso

Sport
Athletics            74.576923
Basketball           78.478261
Beach Volleyball     78.160000
Boxing               64.000000
Canoeing             83.250000
Equestrianism        75.000000
Football             69.961832
Gymnastics           63.750000
Judo                 86.285714
Modern Pentathlon    55.000000
Sailing              80.411765
Shooting             69.000000
Swimming             81.555556
Taekwondo            79.500000
Volleyball           81.166667
Name: Weight, dtype: float64

Será que os dados acima influenciaram no interesse geral dos atletas pelo esporte ou realmente impactaram no desempenho deles? Podemos tentar descobrir se há algum tipo de correlação.

Você ainda possui o dataframe original contendo todos os atletas brasileiros, incluindo os sem medalha? Obtenha os valores médios de peso e altura por esporte daquele dataframe e compare-o com os dos medalhistas. Há alguma diferença significativa em algum esporte?

In [31]:
# Altura média dos atletas brasileiros por esporte ('NOC' == 'BRA')
df_atlet_alt = df_atletas_bra.groupby('Sport')['Height'].mean()
df_atlet_alt

Sport
Alpine Skiing            176.631579
Archery                  172.600000
Art Competitions                NaN
Athletics                176.203463
Badminton                175.500000
Basketball               190.911894
Beach Volleyball         185.702128
Biathlon                 170.000000
Bobsleigh                182.642857
Boxing                   171.985075
Canoeing                 177.791667
Cross Country Skiing     173.000000
Cycling                  174.235955
Diving                   167.444444
Equestrianism            177.429530
Fencing                  179.196429
Figure Skating           156.000000
Football                 173.369176
Freestyle Skiing         154.000000
Golf                     170.000000
Gymnastics               157.268041
Handball                 181.474453
Hockey                   177.437500
Judo                     173.925234
Luge                     175.000000
Modern Pentathlon        168.600000
Rhythmic Gymnastics      164.160000
Rowing                

In [32]:
# Verificando se há alguma informação relevante em 'Art Competitions' ('NOC' == 'BRA')
df_atletas_bra[df_atletas_bra['Sport'] == 'Art Competitions']

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
47955,24715,L. Alvar da Silva,M,,,,Brazil,BRA,1924 Summer,1924,Summer,Paris,Art Competitions,Art Competitions Mixed Literature,


In [33]:
# Concatenando os DFs de altura para verificar se há diferença entre medalhistas e atletas brasileiros em geral
df_concat_alt = pd.concat([df_medal_alt, df_atlet_alt], axis=1, keys=['Altura média de medalhistas (BR)', 'Altura média de atletas (BR)'])
df_concat_alt['Diferença'] = (df_concat_alt['Altura média de medalhistas (BR)'] - df_concat_alt['Altura média de atletas (BR)'])
df_concat_alt

Unnamed: 0_level_0,Altura média de medalhistas (BR),Altura média de atletas (BR),Diferença
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Athletics,181.0,176.203463,4.796537
Basketball,185.607843,190.911894,-5.304051
Beach Volleyball,184.88,185.702128,-0.822128
Boxing,170.0,171.985075,-1.985075
Canoeing,175.0,177.791667,-2.791667
Equestrianism,179.666667,177.42953,2.237136
Football,175.80303,173.369176,2.433855
Gymnastics,162.75,157.268041,5.481959
Judo,176.666667,173.925234,2.741433
Modern Pentathlon,166.0,168.6,-2.6


In [34]:
# Testando com merge
# Fundindo os DFs de altura para verificar se há diferença entre medalhistas e atletas brasileiros em geral
df_merge_alt = pd.merge(df_medal_alt, df_atlet_alt, on='Sport')
df_merge_alt.columns = ['Altura média de medalhistas (BR)', 'Altura média de atletas (BR)']
df_merge_alt['Diferença'] = (df_merge_alt['Altura média de medalhistas (BR)'] - df_merge_alt['Altura média de atletas (BR)'])
df_merge_alt

Unnamed: 0_level_0,Altura média de medalhistas (BR),Altura média de atletas (BR),Diferença
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Athletics,181.0,176.203463,4.796537
Basketball,185.607843,190.911894,-5.304051
Beach Volleyball,184.88,185.702128,-0.822128
Boxing,170.0,171.985075,-1.985075
Canoeing,175.0,177.791667,-2.791667
Equestrianism,179.666667,177.42953,2.237136
Football,175.80303,173.369176,2.433855
Gymnastics,162.75,157.268041,5.481959
Judo,176.666667,173.925234,2.741433
Modern Pentathlon,166.0,168.6,-2.6


**Resposta (altura):**   
Percebe-se que, em alguns esportes, há diferenças significativas entre atletas e medalhistas brasileiros, em relação à altura.   
Os esportes que mais chamam a atenção são:   
    - natação (medalhistas são, em média, 7,9 cm mais altos do que os atletas de natação em geral);   
    - taekwondo (medalhistas são, em média, 10,2 cm mais altos do que os atletas de taekwondo em geral).

In [35]:
# Peso médio dos atletas brasileiros por esporte ('NOC' == 'BRA')
df_atlet_peso = df_atletas_bra.groupby('Sport')['Weight'].mean()
df_atlet_peso

Sport
Alpine Skiing            74.789474
Archery                  71.700000
Art Competitions               NaN
Athletics                67.795045
Badminton                74.000000
Basketball               85.900474
Beach Volleyball         78.617021
Biathlon                 55.000000
Bobsleigh                87.571429
Boxing                   64.106061
Canoeing                 77.395833
Cross Country Skiing     64.125000
Cycling                  66.870588
Diving                   64.970588
Equestrianism            72.313869
Fencing                  73.357143
Figure Skating           47.000000
Football                 67.760456
Freestyle Skiing         50.000000
Golf                     62.000000
Gymnastics               52.463918
Handball                 80.773723
Hockey                   76.125000
Judo                     80.289720
Luge                     76.000000
Modern Pentathlon        60.666667
Rhythmic Gymnastics      48.160000
Rowing                   80.090909
Rugby Sevens  

In [36]:
# Concatenando os DFs de peso para verificar se há diferença entre medalhistas e atletas brasileiros em geral
df_concat_peso = pd.concat([df_medal_peso, df_atlet_peso], axis=1, keys=['Peso médio medalhistas (BR)', 'Peso médio atletas (BR)'])
df_concat_peso['Diferença'] = (df_concat_peso['Peso médio medalhistas (BR)'] - df_concat_peso['Peso médio atletas (BR)'])
df_concat_peso

Unnamed: 0_level_0,Peso médio medalhistas (BR),Peso médio atletas (BR),Diferença
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Athletics,74.576923,67.795045,6.781878
Basketball,78.478261,85.900474,-7.422213
Beach Volleyball,78.16,78.617021,-0.457021
Boxing,64.0,64.106061,-0.106061
Canoeing,83.25,77.395833,5.854167
Equestrianism,75.0,72.313869,2.686131
Football,69.961832,67.760456,2.201376
Gymnastics,63.75,52.463918,11.286082
Judo,86.285714,80.28972,5.995995
Modern Pentathlon,55.0,60.666667,-5.666667


In [37]:
# Testando com merge
# Fundindo os DFs de peso para verificar se há diferença entre medalhistas e atletas brasileiros em geral
df_merge_peso = pd.merge(df_medal_peso, df_atlet_peso, on='Sport')
df_merge_peso.columns = ['Peso médio de medalhistas (BR)', 'Peso médio de atletas (BR)']
df_merge_peso['Diferença'] = (df_merge_peso['Peso médio de medalhistas (BR)'] - df_merge_peso['Peso médio de atletas (BR)'])
df_merge_peso

Unnamed: 0_level_0,Peso médio de medalhistas (BR),Peso médio de atletas (BR),Diferença
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Athletics,74.576923,67.795045,6.781878
Basketball,78.478261,85.900474,-7.422213
Beach Volleyball,78.16,78.617021,-0.457021
Boxing,64.0,64.106061,-0.106061
Canoeing,83.25,77.395833,5.854167
Equestrianism,75.0,72.313869,2.686131
Football,69.961832,67.760456,2.201376
Gymnastics,63.75,52.463918,11.286082
Judo,86.285714,80.28972,5.995995
Modern Pentathlon,55.0,60.666667,-5.666667


**Resposta (peso):**   
Percebe-se que, em alguns esportes, há diferenças significativas entre atletas e medalhistas brasileiros, em relação ao peso.   
Os esportes que mais chamam a atenção são:   
    - ginástica (medalhistas são, em média, 11,3 kg mais pesados do que os atletas de ginástica em geral);   
    - taekwondo (medalhistas são, em média, 15,9 kg mais pesados do que os atletas de taekwondo em geral).

Existe um detalhe importante passando batido até agora em nossa análise: as categorias esportivas costumam ser divididas por gênero justamente por conta de diferenças físicas entre homens e mulheres que poderiam influenciar no desempenho. Compare a altura e peso médios de atletas brasileiros por esporte segmentado por sexo.

In [38]:
# Altura média das atletas brasileiras (feminino) ('NOC' == 'BRA')
df_atletas_bra.loc[df_atletas_bra['Sex'] == 'F', 'Height'].mean()

168.9517625231911

In [39]:
# Altura média dos atletas brasileiros (masculino) ('NOC' == 'BRA')
df_atletas_bra.loc[df_atletas_bra['Sex'] == 'M', 'Height'].mean()

181.73108876257106

In [40]:
# Peso médio das atletas brasileiras (feminino) ('NOC' == 'BRA')
df_atletas_bra.loc[df_atletas_bra['Sex'] == 'F', 'Weight'].mean()

60.720712277413305

In [41]:
# Peso médio dos atletas brasileiros (masculino) ('NOC' == 'BRA')
df_atletas_bra.loc[df_atletas_bra['Sex'] == 'M', 'Weight'].mean()

78.5007072135785

In [42]:
# Altura média dos atletas brasileiros por esporte e gênero ('NOC' == 'BRA')
df_atlet_alt_gen = df_atletas_bra.groupby(by=['Sport', 'Sex'])['Height'].mean().reset_index()

# Diferença em relação à altura entre gêneros por esporte
df_atlet_alt_gen['Height Diff'] = (df_atlet_alt_gen.groupby(by=['Sport'])['Height'].diff())

# Peso médio dos atletas brasileiros por esporte e gênero
df_atlet_peso_gen = df_atletas_bra.groupby(by=['Sport', 'Sex'])['Weight'].mean().reset_index()

# Diferença em relação ao peso entre gêneros por esporte
df_atlet_peso_gen['Weight Diff'] = (df_atlet_peso_gen.groupby(by=['Sport'])['Weight'].diff())

# Fundindo os DFs de altura e peso para verificar as diferenças entre gêneros
df_merge_alt_peso = pd.merge(df_atlet_alt_gen, df_atlet_peso_gen, on=['Sport', 'Sex'])

pd.set_option('display.max_rows', df_merge_alt_peso.shape[0]) # Visualizar todas as linhas
df_merge_alt_peso

Unnamed: 0,Sport,Sex,Height,Height Diff,Weight,Weight Diff
0,Alpine Skiing,F,160.333333,,52.333333,
1,Alpine Skiing,M,184.153846,23.820513,85.153846,32.820513
2,Archery,F,162.857143,,59.714286,
3,Archery,M,177.846154,14.989011,78.153846,18.43956
4,Art Competitions,M,,,,
5,Athletics,F,167.492958,,59.809859,
6,Athletics,M,180.06875,12.575792,71.549669,11.73981
7,Badminton,F,168.0,,70.0,
8,Badminton,M,183.0,15.0,78.0,8.0
9,Basketball,F,182.865854,,73.381579,


**Resposta (diferenças entre gêneros):**   
Os esportes que mais chamam a atenção são:   
    - esqui alpino (homens são, em média, 23,8 cm mais altos e 32,8 kg mais pesados do que as mulheres);   
    - boxe (apesar de serem, em média, 4,7 cm mais baixas, as mulheres são quase 1 kg mais pesadas do que os homens).

Qual foi (ou quais foram) o maior medalhista brasileiro em quantidade total de medalhas?

In [43]:
# Os maiores medalhistas brasileiros (em quantidade total de medalhas) foram: Robert Scheidt e Torben Schmidt Grael.

df_medal_bra.groupby('Name')['Medal'].count().nlargest(10)

Name
Robert Scheidt                           5
Torben Schmidt Grael                     5
Gustavo Frana Borges                     4
Srgio "Escadinha" Dutra dos Santos       4
Bruno "Bruninho" Mossa de Rezende        3
Csar Augusto Cielo Filho                 3
Dante Guimares Santos do Amaral          3
Emanuel Fernando Scheffler Rego          3
Gilberto Amauri "Giba" de Godoy Filho    3
Hlia "Fofo" Rogrio de Souza Pinto        3
Name: Medal, dtype: int64

E o(s) maior(es) em quantidade de medalhas de ouro?

In [44]:
df_medal_bra[df_medal_bra['Medal'] == 'Gold'].groupby('Name')['Medal'].count().nlargest(20)

# Os maiores medalhistas de ouro brasileiros foram os que aparecem abaixo com 2 medalhas (treze atletas).

Name
Adhemar Ferreira da Silva                             2
Fabiana "Fabi" Alvim de Oliveira                      2
Fabiana Marcelino Claudino                            2
Giovane Farinazzo Gvio                                2
Jaqueline Maria "Jaque" Pereira de Carvalho Endres    2
Marcelo Bastos Ferreira                               2
Maurcio Camargo Lima                                  2
Paula Renata Marques Pequeno                          2
Robert Scheidt                                        2
Sheilla Tavares de Castro Blassioli                   2
Srgio "Escadinha" Dutra dos Santos                    2
Thasa Daher de Menezes                                2
Torben Schmidt Grael                                  2
Adenzia Aparecida Ferreira da Silva                   1
Alexander Welter                                      1
Alexandre "Tande" Ramos Samuel                        1
Alison Conte Cerutti                                  1
Amauri Ribeiro                             

Qual esporte rendeu mais medalhas de ouro para o Brasil? E qual rendeu mais medalhas no total?

**DICA:** tome muito cuidado nessa análise: cada **evento esportivo** rende 1 medalha. Por exemplo, quando a equipe de futebol vence, isso é considerado 1 medalha, mesmo tendo cerca de 20 atletas medalhistas na equipe. 

In [45]:
qtde_medal_ouro = df_medal_bra[df_medal_bra['Medal'] == 'Gold'].groupby(by=['Sport', 'Year', 'Event'], as_index=False)['Event'].count()
qtde_medal_ouro['Sport'].value_counts()

# O iatismo foi o esporte que mais rendeu medalhas de ouro para o Brasil (7 medalhas).

Sailing             7
Athletics           5
Volleyball          5
Judo                4
Beach Volleyball    3
Boxing              1
Equestrianism       1
Football            1
Gymnastics          1
Shooting            1
Swimming            1
Name: Sport, dtype: int64

In [46]:
qtde_medalh_ouro = df_medal_br[df_medal_br['Medal'] == 'Gold'].groupby(by=['Sport', 'Year', 'Event'], as_index=False)['Event'].count()
qtde_medalh_ouro['Sport'].value_counts()

# O iatismo foi o esporte que mais rendeu medalhas de ouro para o Brasil (7 medalhas).
# Utilizando o DF com 'Team' == 'Brazil' -> não aparecem as 3 medalhas em Beach Volleyball

Sailing          7
Athletics        5
Volleyball       5
Judo             4
Boxing           1
Equestrianism    1
Football         1
Gymnastics       1
Shooting         1
Swimming         1
Name: Sport, dtype: int64

In [47]:
# Verificando medalhas por evento esportivo
# pd.set_option('display.max_rows', df_medal_bra.shape[0]) # Visualizar tudo
df_medal_bra.groupby(by=['Sport', 'Year', 'Event'])['Event'].count()

Sport       Year  Event                        
Athletics   1952  Athletics Men's High Jump         1
                  Athletics Men's Triple Jump       1
            1956  Athletics Men's Triple Jump       1
            1968  Athletics Men's Triple Jump       1
            1972  Athletics Men's Triple Jump       1
                                                   ..
Volleyball  2008  Volleyball Men's Volleyball      12
                  Volleyball Women's Volleyball    12
            2012  Volleyball Men's Volleyball      12
                  Volleyball Women's Volleyball    12
            2016  Volleyball Men's Volleyball      12
Name: Event, Length: 124, dtype: int64

In [48]:
qtde_medalha = df_medal_bra.groupby(by=['Sport', 'Year', 'Event'], as_index=False)['Event'].count()
qtde_medalha['Sport'].value_counts()

# O judô foi o esporte que mais rendeu medalhas para o Brasil (22 medalhas).

Judo                 22
Sailing              18
Athletics            16
Swimming             14
Beach Volleyball     10
Volleyball           10
Football              8
Basketball            5
Boxing                5
Shooting              4
Canoeing              3
Equestrianism         3
Gymnastics            3
Taekwondo             2
Modern Pentathlon     1
Name: Sport, dtype: int64

In [49]:
qtde_medal = df_medal_br.groupby(by=['Sport', 'Year', 'Event'], as_index=False)['Event'].count()
qtde_medal['Sport'].value_counts()

# O judô foi o esporte que mais rendeu medalhas para o Brasil (22 medalhas).
# Utilizando o DF com 'Team' == 'Brazil' -> não apareceram as 10 medalhas em Beach Volleyball

Judo                 22
Sailing              18
Athletics            16
Swimming             14
Volleyball           10
Football              8
Basketball            5
Boxing                5
Shooting              4
Canoeing              3
Equestrianism         3
Gymnastics            3
Taekwondo             2
Modern Pentathlon     1
Name: Sport, dtype: int64

Cada "categoria" dentro de um esporte é considerado um evento. Por exemplo, dentro de "atletismo", temos uma competição de 100m masculina, uma de 100m feminino, um revezamento 4 x 100m masculino, um revezamento 4 x 100m feminino, uma competição de 400m masculino, uma de 400m feminino, uma maratona masculina, uma maratona feminina, e assim sucessivamente.

Sabendo disso, qual evento esportivo mais rendeu medalhas de ouro para o Brasil? E total de medalhas?

In [50]:
# Medalhas de ouro por evento esportivo (Brasil)
df_ouro_event_bra = df_medal_bra[df_medal_bra['Medal'] == 'Gold'].groupby(['Year', 'Medal'])['Event'].value_counts().reset_index(name='Qtde atletas')

In [51]:
# O evento esportivo que mais rendeu medalhas de ouro para o Brasil foi o voleibol masculino (3 medalhas de ouro).
df_ouro_event_bra['Event'].value_counts().head()

Volleyball Men's Volleyball                3
Volleyball Women's Volleyball              2
Sailing Mixed One Person Dinghy            2
Beach Volleyball Men's Beach Volleyball    2
Athletics Men's Triple Jump                2
Name: Event, dtype: int64

In [52]:
# Outra forma
# df_medal_bra[df_medal_bra['Medal'] == 'Gold'].groupby(by=['Sport', 'Year', 'Event'])['Event'].unique().value_counts()
# O evento esportivo que mais rendeu medalhas de ouro para o Brasil foi o voleibol masculino (3 medalhas de ouro).

In [53]:
# Medalhas por evento esportivo (Brasil)
df_medal_event_bra = df_medal_bra.groupby(['Year', 'Medal'])['Event'].value_counts().reset_index(name='Qtde atletas')

In [54]:
# O evento esportivo que mais rendeu medalhas para o Brasil foi o voleibol de praia feminino (7 medalhas).
df_medal_event_bra['Event'].value_counts().head()

Beach Volleyball Women's Beach Volleyball    7
Beach Volleyball Men's Beach Volleyball      6
Athletics Men's Triple Jump                  6
Volleyball Men's Volleyball                  6
Football Men's Football                      6
Name: Event, dtype: int64

Para finalizar sobre o Brasil: obtenha o total de medalhas de ouro, prata, bronze e total por ano.

In [55]:
# Total de medalhas por tipo e ano
total_medalha_br = df_medal_event_bra.groupby('Year')['Medal'].value_counts().reset_index(name='Total por medalha')

# Total de medalhas por ano
total_ano_br = total_medalha_br.groupby('Year')['Total por medalha'].sum().reset_index(name='Total medalhas (ano)')
# Outra forma:
# total_ano_br = total_medalha_br['Year'].value_counts().reset_index()
# total_ano_br.columns = ['Year', 'Total medalhas (ano)']

# Total de medalhas de ouro, prata, bronze e total por edição das olimpíadas de verão
quadro_medal_br = pd.merge(total_medalha_br, total_ano_br, on='Year').set_index(['Year', 'Medal'])
quadro_medal_br

Unnamed: 0_level_0,Unnamed: 1_level_0,Total por medalha,Total medalhas (ano)
Year,Medal,Unnamed: 2_level_1,Unnamed: 3_level_1
1920,Bronze,1,3
1920,Gold,1,3
1920,Silver,1,3
1948,Bronze,1,1
1952,Bronze,2,3
1952,Gold,1,3
1956,Gold,1,1
1960,Bronze,2,2
1964,Bronze,1,1
1968,Bronze,2,3


Obtenha a lista de todos os esportes já disputados nas olimpíadas de verão.

In [56]:
# Lista de todos os esportes já disputados nas olimpíadas de verão (Brasil) -> ('NOC' == 'BRA')
df_atlet_bra_sem_inverno['Sport'].unique()

array(['Volleyball', 'Football', 'Water Polo', 'Boxing', 'Tennis',
       'Handball', 'Basketball', 'Sailing', 'Athletics', 'Fencing',
       'Rugby Sevens', 'Beach Volleyball', 'Swimming', 'Shooting',
       'Equestrianism', 'Rowing', 'Judo', 'Cycling', 'Trampolining',
       'Gymnastics', 'Archery', 'Weightlifting', 'Rhythmic Gymnastics',
       'Triathlon', 'Hockey', 'Modern Pentathlon', 'Canoeing',
       'Synchronized Swimming', 'Diving', 'Table Tennis', 'Wrestling',
       'Golf', 'Taekwondo', 'Art Competitions', 'Badminton'], dtype=object)

In [57]:
# Lista de todos os esportes já disputados nas olimpíadas de verão (Brasil) -> ('Team' == 'Brazil')
df_atlet_br_sem_inverno['Sport'].unique()
# Não aparece Beach Volleyball, utilizando 'Team' == 'Brazil'

array(['Volleyball', 'Football', 'Water Polo', 'Boxing', 'Tennis',
       'Handball', 'Basketball', 'Sailing', 'Athletics', 'Fencing',
       'Rugby Sevens', 'Swimming', 'Shooting', 'Equestrianism', 'Rowing',
       'Judo', 'Cycling', 'Trampolining', 'Gymnastics', 'Archery',
       'Weightlifting', 'Rhythmic Gymnastics', 'Triathlon', 'Hockey',
       'Modern Pentathlon', 'Canoeing', 'Synchronized Swimming', 'Diving',
       'Table Tennis', 'Wrestling', 'Golf', 'Taekwondo',
       'Art Competitions', 'Badminton'], dtype=object)

In [58]:
# Tamanho da lista de esportes (Brasil) -> ('NOC' == 'BRA')
df_atlet_bra_sem_inverno['Sport'].unique().size

# Outra forma
# df_atlet_bra_sem_inverno['Sport'].value_counts().size

35

In [59]:
# Tamanho da lista de esportes (Brasil) -> ('Team' == 'Brazil')
df_atlet_br_sem_inverno['Sport'].unique().size

34

In [60]:
# Lista de todos os esportes já disputados nas olimpíadas de verão (mundo)
df_athlete_events[df_athlete_events['Season'] == 'Summer']['Sport'].unique()

array(['Basketball', 'Judo', 'Football', 'Tug-Of-War', 'Athletics',
       'Swimming', 'Badminton', 'Sailing', 'Gymnastics',
       'Art Competitions', 'Handball', 'Weightlifting', 'Wrestling',
       'Water Polo', 'Hockey', 'Rowing', 'Fencing', 'Equestrianism',
       'Shooting', 'Boxing', 'Taekwondo', 'Cycling', 'Diving', 'Canoeing',
       'Tennis', 'Modern Pentathlon', 'Golf', 'Softball', 'Archery',
       'Volleyball', 'Synchronized Swimming', 'Table Tennis', 'Baseball',
       'Rhythmic Gymnastics', 'Rugby Sevens', 'Trampolining',
       'Beach Volleyball', 'Triathlon', 'Rugby', 'Lacrosse', 'Polo',
       'Cricket', 'Ice Hockey', 'Racquets', 'Motorboating', 'Croquet',
       'Figure Skating', 'Jeu De Paume', 'Roque', 'Basque Pelota',
       'Alpinism', 'Aeronautics'], dtype=object)

In [61]:
# Tamanho da lista de esportes (mundo)
df_athlete_events[df_athlete_events['Season'] == 'Summer']['Sport'].unique().size

52

Obtenha a lista de todas as modalidades esportivas já disputadas nas olimpíadas de verão.

In [62]:
# Lista de todas as modalidades esportivas já disputadas nas olimpíadas de verão (Brasil) -> ('NOC' == 'BRA')
df_atlet_bra_sem_inverno['Event'].unique()

array(["Volleyball Men's Volleyball", "Football Men's Football",
       "Water Polo Women's Water Polo", "Boxing Men's Middleweight",
       "Water Polo Men's Water Polo", "Tennis Men's Doubles",
       "Handball Men's Handball", "Volleyball Women's Volleyball",
       "Basketball Men's Basketball",
       'Sailing Mixed Two Person Heavyweight Dinghy',
       'Sailing Mixed Three Person Keelboat',
       'Sailing Mixed Two Person Keelboat',
       "Basketball Women's Basketball", "Athletics Women's Shot Put",
       "Athletics Women's Discus Throw",
       "Fencing Men's Sabre, Individual",
       "Sailing Men's Two Person Dinghy", 'Sailing Mixed Multihull',
       "Rugby Sevens Men's Rugby Sevens", "Boxing Men's Welterweight",
       "Handball Women's Handball", "Fencing Men's Foil, Individual",
       "Fencing Men's Foil, Team", "Football Women's Football",
       "Beach Volleyball Men's Beach Volleyball",
       "Swimming Men's 1,500 metres Freestyle",
       "Swimming Men's 400 met

In [63]:
# Tamanho da lista de modalidades (Brasil) -> ('NOC' == 'BRA')
df_atlet_bra_sem_inverno['Event'].unique().size

314

In [64]:
# Tamanho da lista de modalidades (Brasil) -> ('Team' == 'Brazil')
df_atlet_br_sem_inverno['Event'].unique().size

312

In [65]:
# Lista de todas as modalidades esportivas já disputadas nas olimpíadas de verão (mundo)
df_athlete_events[df_athlete_events['Season'] == 'Summer']['Event'].unique()

array(["Basketball Men's Basketball", "Judo Men's Extra-Lightweight",
       "Football Men's Football", "Tug-Of-War Men's Tug-Of-War",
       "Athletics Women's 100 metres",
       "Athletics Women's 4 x 100 metres Relay",
       "Swimming Men's 400 metres Freestyle", "Badminton Men's Singles",
       "Sailing Women's Windsurfer",
       "Swimming Men's 200 metres Breaststroke",
       "Swimming Men's 400 metres Breaststroke",
       "Gymnastics Men's Individual All-Around",
       "Gymnastics Men's Team All-Around",
       "Gymnastics Men's Floor Exercise", "Gymnastics Men's Horse Vault",
       "Gymnastics Men's Parallel Bars",
       "Gymnastics Men's Horizontal Bar", "Gymnastics Men's Rings",
       "Gymnastics Men's Pommelled Horse", "Athletics Men's Shot Put",
       'Art Competitions Mixed Sculpturing, Unknown Event',
       "Handball Women's Handball",
       "Weightlifting Women's Super-Heavyweight",
       "Wrestling Men's Light-Heavyweight, Greco-Roman",
       "Gymnastics M

In [66]:
# Tamanho da lista de modalidades (mundo)
df_athlete_events[df_athlete_events['Season'] == 'Summer']['Event'].unique().size

651

Obtenha a lista de todos os países que já disputaram olimpíadas.

In [67]:
# Lista de todos os países que já disputaram olimpíadas (filtrando por 'NOC')
df_athlete_events['NOC'].unique()

array(['CHN', 'DEN', 'NED', 'USA', 'FIN', 'NOR', 'ROU', 'EST', 'FRA',
       'MAR', 'ESP', 'EGY', 'IRI', 'BUL', 'ITA', 'CHA', 'AZE', 'SUD',
       'RUS', 'ARG', 'CUB', 'BLR', 'GRE', 'CMR', 'TUR', 'CHI', 'MEX',
       'URS', 'NCA', 'HUN', 'NGR', 'ALG', 'KUW', 'BRN', 'PAK', 'IRQ',
       'UAR', 'LIB', 'QAT', 'MAS', 'GER', 'CAN', 'IRL', 'AUS', 'RSA',
       'ERI', 'TAN', 'JOR', 'TUN', 'LBA', 'BEL', 'DJI', 'PLE', 'COM',
       'KAZ', 'BRU', 'IND', 'KSA', 'SYR', 'MDV', 'ETH', 'UAE', 'YAR',
       'INA', 'PHI', 'SGP', 'UZB', 'KGZ', 'TJK', 'EUN', 'JPN', 'CGO',
       'SUI', 'BRA', 'FRG', 'GDR', 'MON', 'ISR', 'URU', 'SWE', 'ISV',
       'SRI', 'ARM', 'CIV', 'KEN', 'BEN', 'UKR', 'GBR', 'GHA', 'SOM',
       'LAT', 'NIG', 'MLI', 'AFG', 'POL', 'CRC', 'PAN', 'GEO', 'SLO',
       'CRO', 'GUY', 'NZL', 'POR', 'PAR', 'ANG', 'VEN', 'COL', 'BAN',
       'PER', 'ESA', 'PUR', 'UGA', 'HON', 'ECU', 'TKM', 'MRI', 'SEY',
       'TCH', 'LUX', 'MTN', 'CZE', 'SKN', 'TTO', 'DOM', 'VIN', 'JAM',
       'LBR', 'SUR',

In [68]:
# Tamanho da lista de todos os países que já disputaram olimpíadas (filtrando por 'NOC')
df_athlete_events['NOC'].unique().size

230

In [69]:
# import sys
# np.set_printoptions(threshold=sys.maxsize)

# Lista de todos os países que já disputaram olimpíadas (filtrando por 'Team') -> (há nomes diferentes para um mesmo país)
df_athlete_events['Team'].unique()

array(['China', 'Denmark', 'Denmark/Sweden', ..., 'Solos Carex',
       'Dow Jones', 'Digby'], dtype=object)

In [70]:
# Tamanho da lista de todos os países que já disputaram olimpíadas (filtrando por 'Team') -> (há nomes diferentes para um mesmo país)
df_athlete_events['Team'].unique().size

1184

Qual atleta foi o maior medalhista (em medalhas totais) da história das olimpíadas de verão?

In [71]:
# Criando um DF apenas com medalhistas (mundo)
df_medal = df_athlete_events[~df_athlete_events['Medal'].isna()]
df_medal.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 39772 entries, 3 to 271103
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      39772 non-null  int64  
 1   Name    39772 non-null  object 
 2   Sex     39772 non-null  object 
 3   Age     39044 non-null  float64
 4   Height  31072 non-null  float64
 5   Weight  30456 non-null  float64
 6   Team    39772 non-null  object 
 7   NOC     39772 non-null  object 
 8   Games   39772 non-null  object 
 9   Year    39772 non-null  int64  
 10  Season  39772 non-null  object 
 11  City    39772 non-null  object 
 12  Sport   39772 non-null  object 
 13  Event   39772 non-null  object 
 14  Medal   39772 non-null  object 
dtypes: float64(3), int64(2), object(10)
memory usage: 4.9+ MB


In [72]:
# Criando um DF com medalhistas nos jogos de verão
df_medal_verao = df_medal[df_medal['Season'] == 'Summer']
df_medal_verao.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 34077 entries, 3 to 271103
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      34077 non-null  int64  
 1   Name    34077 non-null  object 
 2   Sex     34077 non-null  object 
 3   Age     33360 non-null  float64
 4   Height  26098 non-null  float64
 5   Weight  25598 non-null  float64
 6   Team    34077 non-null  object 
 7   NOC     34077 non-null  object 
 8   Games   34077 non-null  object 
 9   Year    34077 non-null  int64  
 10  Season  34077 non-null  object 
 11  City    34077 non-null  object 
 12  Sport   34077 non-null  object 
 13  Event   34077 non-null  object 
 14  Medal   34077 non-null  object 
dtypes: float64(3), int64(2), object(10)
memory usage: 4.2+ MB


In [73]:
# Michael Fred Phelps II foi o maior medalhista da história das olimpíadas de verão, com 28 medalhas.
df_medal_verao.groupby('Name')['Medal'].count().nlargest()

Name
Michael Fred Phelps, II               28
Larysa Semenivna Latynina (Diriy-)    18
Nikolay Yefimovich Andrianov          15
Borys Anfiyanovych Shakhlin           13
Edoardo Mangiarotti                   13
Name: Medal, dtype: int64

Qual atleta foi o maior medalhista de ouro da história das olimpíadas de verão?

In [74]:
# Michael Fred Phelps II foi o maior medalhista de ouro da história das olimpíadas de verão, com 23 medalhas de ouro.
df_medal_verao[df_medal_verao['Medal'] == 'Gold'].groupby('Name')['Medal'].count().nlargest()

Name
Michael Fred Phelps, II               23
Raymond Clarence "Ray" Ewry           10
Frederick Carlton "Carl" Lewis         9
Larysa Semenivna Latynina (Diriy-)     9
Mark Andrew Spitz                      9
Name: Medal, dtype: int64

Qual país foi o maior medalhista de ouro da história das olimpíadas de verão? Lembre-se da questão do evento esportivo, para não considerar múltiplas medalhas para um mesmo evento (ex: uma equipe de futebol fazendo parecer que mais de 20 medalhas foram distribuídas).

In [75]:
# Os EUA foram os maiores medalhistas de ouro da história das olimpíadas de verão, com 1035 medalhas de ouro.
df_medal_ouro_verao = df_medal_verao[(df_medal_verao['Medal'] == 'Gold')].groupby(['NOC', 'Year', 'Event'])['Event'].size().reset_index(name='Total')
df_medal_ouro_verao['NOC'].value_counts().head()

USA    1035
URS     394
GBR     278
FRA     233
GER     233
Name: NOC, dtype: int64

Qual país foi o maior medalhista em medalhas totais na história das olimpíadas de verão?

In [76]:
# Os EUA foram os maiores medalhistas da história das olimpíadas de verão, com 2544 medalhas no total.
df_medal_verao_event = df_medal_verao.groupby(['Year','NOC', 'Medal'])['Event'].value_counts().reset_index(name='Qtde atletas')
df_medal_verao_event['NOC'].value_counts().head()

USA    2544
URS    1005
GBR     892
GER     776
FRA     770
Name: NOC, dtype: int64

Obtenha o total de medalhas de ouro, prata e total por edição das Olimpíadas de verão. Lembre-se da questão do evento esportivo.

In [77]:
# Verificando total de medalhas por tipo e ano
total_medalha = df_medal_verao_event.groupby('Year')['Medal'].value_counts().reset_index(name='Total por medalha')

# Verificando total de medalhas por ano
total_ano = total_medalha.groupby('Year')['Total por medalha'].sum().reset_index(name='Total medalhas (ano)')
# Outra forma:
# total_ano = df_medal_verao_event['Year'].value_counts().reset_index()
# total_ano.columns = ['Year', 'Total medalhas (ano)']

# Total de medalhas de ouro, prata, bronze e total por edição das olimpíadas de verão
quadro_medal_ano = pd.merge(total_medalha, total_ano, on='Year').set_index(['Year', 'Medal'])
quadro_medal_ano

Unnamed: 0_level_0,Unnamed: 1_level_0,Total por medalha,Total medalhas (ano)
Year,Medal,Unnamed: 2_level_1,Unnamed: 3_level_1
1896,Gold,44,120
1896,Silver,41,120
1896,Bronze,35,120
1900,Gold,101,291
1900,Silver,98,291
...,...,...,...
2012,Silver,304,962
2012,Gold,302,962
2016,Bronze,360,973
2016,Gold,307,973


In [78]:
# Verificando total de medalhas por tipo, ano e país
total_medalha_pais = df_medal_verao_event.groupby(['Year', 'NOC'])['Medal'].value_counts().reset_index(name='Total por medalha')

# Verificando total de medalhas por ano e país
total_ano_pais = total_medalha_pais.groupby(['Year', 'NOC'])['Total por medalha'].sum().reset_index(name='Total medalhas (ano)')

# Total de medalhas de ouro, prata, bronze e total de medalhas, por ano e país
quadro_medal_ano_pais = pd.merge(total_medalha_pais, total_ano_pais, on=['Year', 'NOC'], how='outer').set_index(['Year', 'NOC', 'Medal'])
# pd.set_option('display.max_rows', quadro_medal_ano_pais.shape[0]) # Visualizar o quadro inteiro
quadro_medal_ano_pais

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Total por medalha,Total medalhas (ano)
Year,NOC,Medal,Unnamed: 3_level_1,Unnamed: 4_level_1
1896,AUS,Gold,2,3
1896,AUS,Bronze,1,3
1896,AUT,Bronze,2,5
1896,AUT,Gold,2,5
1896,AUT,Silver,1,5
...,...,...,...,...
2016,UZB,Silver,2,13
2016,VEN,Bronze,2,3
2016,VEN,Silver,1,3
2016,VIE,Gold,1,2


## 3. Brasil vs Mundo

Para finalizar, vamos fazer algumas comparações entre Brasil e mundo. Qual o ranking do Brasil em cada edição das olimpíadas? Lembrando que o ranking é ordenado por medalhas de ouro.

In [79]:
# Criando outro quadro de medalhas, sem transformar 'Year', 'NOC' e 'Medal' em index
quadro_medal_ano_pais_2 = pd.merge(total_medalha_pais, total_ano_pais, on=['Year', 'NOC'], how='outer')
quadro_medal_ano_pais_2

# Transformando o quadro anterior em outro DF, utilizando o pivot,
# para visualizar as medalhas de ouro, prata e bronze em colunas
df_rank = quadro_medal_ano_pais_2.pivot(index=['Year','NOC'], columns='Medal',values='Total por medalha')
df_rank = df_rank[['Bronze', 'Silver', 'Gold']]

# Ranqueando os países, em cada edição, por medalhas de ouro, depois prata, depois bronze
df_rank.sort_values(['Year', 'Gold', 'Silver', 'Bronze'], ascending=[True, False, False, False], inplace=True)
df_rank['Rank'] = ''
for i in df_rank.index.get_level_values('Year').unique():
    df_rank.loc[i, 'Rank'] = np.arange(len(df_rank.loc[i, :])) + 1
    
pd.set_option('display.max_rows', df_rank.shape[0]) # Visualizar o quadro inteiro
df_rank

Unnamed: 0_level_0,Medal,Bronze,Silver,Gold,Rank
Year,NOC,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1896,USA,2.0,6.0,11.0,1
1896,GRE,17.0,17.0,10.0,2
1896,GER,2.0,5.0,7.0,3
1896,FRA,2.0,4.0,5.0,4
1896,GBR,3.0,3.0,3.0,5
1896,HUN,3.0,1.0,2.0,6
1896,AUT,2.0,1.0,2.0,7
1896,AUS,1.0,,2.0,8
1896,DEN,3.0,2.0,1.0,9
1896,SUI,,2.0,1.0,10


In [80]:
# Ranking do Brasil
rank_bra = df_rank[df_rank.index.get_level_values('NOC').isin(['BRA'])]
rank_bra

Unnamed: 0_level_0,Medal,Bronze,Silver,Gold,Rank
Year,NOC,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1920,BRA,1.0,1.0,1.0,15
1948,BRA,1.0,,,35
1952,BRA,2.0,,1.0,24
1956,BRA,,,1.0,24
1960,BRA,2.0,,,39
1964,BRA,1.0,,,35
1968,BRA,2.0,1.0,,35
1972,BRA,2.0,,,41
1976,BRA,2.0,,,36
1980,BRA,2.0,,2.0,17


Compare o maior medalhista em ouros do Brasil com o maior medalhista em ouros do mundo.

In [95]:
# O maior medalhista em ouro do mundo possui 23 medalhas
df_medal[df_medal['Medal'] == 'Gold'].groupby('Name')['Medal'].count().nlargest(6)

Name
Michael Fred Phelps, II               23
Raymond Clarence "Ray" Ewry           10
Frederick Carlton "Carl" Lewis         9
Larysa Semenivna Latynina (Diriy-)     9
Mark Andrew Spitz                      9
Paavo Johannes Nurmi                   9
Name: Medal, dtype: int64

In [96]:
# Df com os maiores medalhistas em ouro

# Total de medalhas por país, esporte, nome e tipo de medalha
total_medal_tipo_esp_nome = df_medal.groupby(['NOC', 'Sport', 'Name', 'Medal'])['Medal'].count().reset_index(name='Qtde')
total_medal_tipo_esp_nome = total_medal_tipo_esp_nome.sort_values(by='Qtde', ascending=False)

# Pegando só as medalhas de ouro
total_medal_tipo_esp_nome[total_medal_tipo_esp_nome['Medal']=='Gold'].head(6)

Unnamed: 0,NOC,Sport,Name,Medal,Qtde
32803,USA,Swimming,"Michael Fred Phelps, II",Gold,23
29708,USA,Athletics,"Raymond Clarence ""Ray"" Ewry",Gold,10
29279,USA,Athletics,"Frederick Carlton ""Carl"" Lewis",Gold,9
7309,FIN,Athletics,Paavo Johannes Nurmi,Gold,9
32764,USA,Swimming,Mark Andrew Spitz,Gold,9
27747,URS,Gymnastics,Larysa Semenivna Latynina (Diriy-),Gold,9


In [83]:
# Os maiores medalhistas em ouro do Brasil possuem, no máximo, 2 medalhas
df_medal[(df_medal['Medal'] == 'Gold') & (df_medal['NOC'] == 'BRA')].groupby('Name')['Medal'].count().nlargest(15)

Name
Adhemar Ferreira da Silva                             2
Fabiana "Fabi" Alvim de Oliveira                      2
Fabiana Marcelino Claudino                            2
Giovane Farinazzo Gvio                                2
Jaqueline Maria "Jaque" Pereira de Carvalho Endres    2
Marcelo Bastos Ferreira                               2
Maurcio Camargo Lima                                  2
Paula Renata Marques Pequeno                          2
Robert Scheidt                                        2
Sheilla Tavares de Castro Blassioli                   2
Srgio "Escadinha" Dutra dos Santos                    2
Thasa Daher de Menezes                                2
Torben Schmidt Grael                                  2
Adenzia Aparecida Ferreira da Silva                   1
Alexander Welter                                      1
Name: Medal, dtype: int64

Compare o maior medalhista em total de medalhas do Brasil com o maior medalhista em total de medalhas do mundo.

In [84]:
# O maior medalhista do mundo possui 28 medalhas
df_medal.groupby('Name')['Medal'].count().nlargest()

Name
Michael Fred Phelps, II               28
Larysa Semenivna Latynina (Diriy-)    18
Nikolay Yefimovich Andrianov          15
Borys Anfiyanovych Shakhlin           13
Edoardo Mangiarotti                   13
Name: Medal, dtype: int64

In [85]:
# Os maiores medalhistas do Brasil possuem 5 medalhas
df_medal[(df_medal['NOC'] == 'BRA')].groupby('Name')['Medal'].count().nlargest()

Name
Robert Scheidt                        5
Torben Schmidt Grael                  5
Gustavo Frana Borges                  4
Srgio "Escadinha" Dutra dos Santos    4
Bruno "Bruninho" Mossa de Rezende     3
Name: Medal, dtype: int64

Compare o maior medalhista em ouros do Brasil com o maior medalhista do mundo no mesmo esporte.

In [86]:
# Escolhendo Robert Scheidt (iatismo) como maior medalhista em ouros do Brasil, 
# já que ele também é um dos maiores medalhistas brasileiros em quantidade total de medalhas

# Robert Scheidt possui 2 medalhas de ouro
df_medal[(df_medal['Medal'] == 'Gold') & 
         (df_medal['Sport'] == 'Sailing') &
         (df_medal['NOC'] == 'BRA')].groupby('Name')['Medal'].count().nlargest()

Name
Marcelo Bastos Ferreira          2
Robert Scheidt                   2
Torben Schmidt Grael             2
Alexander Welter                 1
Eduardo Henrique Gomes Penido    1
Name: Medal, dtype: int64

In [87]:
# Os maiores medalhistas em ouro do mundo, no mesmo esporte de Robert Scheidt (iatismo), possuem 4 medalhas
df_medal[(df_medal['Medal'] == 'Gold') & (df_medal['Sport'] == 'Sailing')].groupby(['Name', 'Sport'])['Medal'].count().nlargest()

Name                            Sport  
Charles Benedict "Ben" Ainslie  Sailing    4
Paul Bert Elvstrm               Sailing    4
Jochen Schmann                  Sailing    3
Valentyn Hryhorovych Mankin     Sailing    3
Algernon Maudslay               Sailing    2
Name: Medal, dtype: int64

Compare o maior medalhista em total de medalhas do Brasil com o maior medalhista do mundo no mesmo esporte.

In [88]:
# Os maiores medalhistas do Brasil, no iatismo, possuem 5 medalhas
df_medal[(df_medal['NOC'] == 'BRA')].groupby('Name')['Medal'].count().nlargest()

Name
Robert Scheidt                        5
Torben Schmidt Grael                  5
Gustavo Frana Borges                  4
Srgio "Escadinha" Dutra dos Santos    4
Bruno "Bruninho" Mossa de Rezende     3
Name: Medal, dtype: int64

In [89]:
# Os três maiores medalhistas do mundo, no iatismo, possuem 5 medalhas,
# sendo que dois deles são brasileiros
df_medal[(df_medal['Sport'] == 'Sailing')].groupby(['Name', 'Sport'])['Medal'].count().nlargest()

Name                             Sport  
Charles Benedict "Ben" Ainslie   Sailing    5
Robert Scheidt                   Sailing    5
Torben Schmidt Grael             Sailing    5
Alessandra Sensini               Sailing    4
Carlos Mauricio Espnola Lorenzo  Sailing    4
Name: Medal, dtype: int64

Calcule o percentual de medalhas de ouro, prata e bronze que o Brasil ganhou em cada olimpíada.

In [90]:
df_medal_event_bra.groupby('Year')['Medal'].value_counts(normalize=True).reset_index(name='Percent').set_index(['Year', 'Medal'])

Unnamed: 0_level_0,Unnamed: 1_level_0,Percent
Year,Medal,Unnamed: 2_level_1
1920,Bronze,0.333333
1920,Gold,0.333333
1920,Silver,0.333333
1948,Bronze,1.0
1952,Bronze,0.666667
1952,Gold,0.333333
1956,Gold,1.0
1960,Bronze,1.0
1964,Bronze,1.0
1968,Bronze,0.666667
