# História das Olimpíadas  
_(créditos ao prof. Rafael Moreira)_

Após um ano de atraso por conta da pandemia de Covid-19, as atenções do mundo todo se voltaram para Tóquio, no Japão, para acompanhar mais uma edição das Olimpíadas.

No Brasil não foi diferente, e muitos se uniram para torcer por nossos atletas em diferentes competições, tanto em esportes onde o Brasil já possui tradição quanto em novos esportes.

Vamos aproveitar o clima para estudar um pouco das Olimpíadas! Utilizaremos um _dataset_ com 120 anos de dados históricos das Olimpíadas, cobrindo desde os jogos de Atenas 1896 até Rio 2016. 

Faça o download do _dataset_ em https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results e carregue o arquivo ```athlete_events.csv``` para um DataFrame utilizando Pandas. Aproveite para explorar seu DataFrame e se familiarizar com a sua estrutura. 

OBS: Fique à vontade para acrescentar mais células Python conforme necessário em qualquer etapa do exercício.

## 1. O Brasil nas Olimpíadas

Vamos começar estudando o desempenho do nossos próprio país. Gere um DataFrame novo contendo apenas as informações sobre atletas brasileiros.

In [471]:
import pandas as pd

df_olimpiadas = pd.read_csv('athlete_events.csv')

In [472]:
df_br_geral = df_olimpiadas[df_olimpiadas['NOC'] == 'BRA']
df_br_geral.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
665,386,Alexandre Abeid,M,22.0,194.0,92.0,Brazil,BRA,1972 Summer,1972,Summer,Munich,Volleyball,Volleyball Men's Volleyball,
666,386,Alexandre Abeid,M,26.0,194.0,92.0,Brazil,BRA,1976 Summer,1976,Summer,Montreal,Volleyball,Volleyball Men's Volleyball,
668,388,Abel Carlos da Silva Braga,M,19.0,190.0,73.0,Brazil,BRA,1972 Summer,1972,Summer,Munich,Football,Football Men's Football,
781,451,Diana Monteiro Abla,F,21.0,175.0,75.0,Brazil,BRA,2016 Summer,2016,Summer,Rio de Janeiro,Water Polo,Water Polo Women's Water Polo,
1005,565,Glauclio Serro Abreu,M,26.0,185.0,75.0,Brazil,BRA,2004 Summer,2004,Summer,Athina,Boxing,Boxing Men's Middleweight,


### Medalhistas

Vamos focar um pouco nos casos de sucesso do Brasil. Use o seu DataFrame anterior para filtrar apenas informações sobre **medalhistas** brasileiros. 

**DICA:** observe como a coluna ```Medal``` é representada quando o atleta não ganhou medalha.

In [473]:
df_br = df_br_geral[~df_br_geral['Medal'].isna()]
df_br.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
1651,918,Ademir Roque Kaefer,M,24.0,179.0,74.0,Brazil,BRA,1984 Summer,1984,Summer,Los Angeles,Football,Football Men's Football,Silver
1652,918,Ademir Roque Kaefer,M,28.0,179.0,74.0,Brazil,BRA,1988 Summer,1988,Summer,Seoul,Football,Football Men's Football,Silver
1668,925,Adenzia Aparecida Ferreira da Silva,F,25.0,187.0,65.0,Brazil,BRA,2012 Summer,2012,Summer,London,Volleyball,Volleyball Women's Volleyball,Gold
1733,966,Daniel Adler,M,26.0,180.0,72.0,Brazil,BRA,1984 Summer,1984,Summer,Los Angeles,Sailing,Sailing Mixed Three Person Keelboat,Silver
1856,1020,Adriana Aparecida dos Santos,F,25.0,180.0,61.0,Brazil,BRA,1996 Summer,1996,Summer,Atlanta,Basketball,Basketball Women's Basketball,Silver


### Verão vs Inverno

Você deve ter notado que temos duas categorias distintas de jogos olímpicos, representados pela estação: temos os jogos de verão e os jogos de inverno, que ocorrem de maneira intercalada.

Agora que já conhecemos os medalhistas brasileiros, resposta: quantos atletas brasileiros receberam medalha nos jogos de verão e quantos receberam nos jogos de inverno?

In [474]:
df_br.groupby('Season')['Season'].count().reset_index(name='Qtd_Med')

Unnamed: 0,Season,Qtd_Med
0,Summer,475


Os jogos de verão são bem mais populares do que os jogos de inverno no Brasil. Portanto, deste ponto em diante iremos focar apenas nos jogos de verão. Descarte de seu DataFrame os dados dos jogos de inverno.



In [475]:
# Nao possuem medalhista de inverno, porém irei fazer o processo de remoção mesmo assim.
df_br = df_br[df_br['Season'] == 'Summer']

### Atletas do Brasil

Vamos conhecer um pouco melhor nossos atletas. Descubra a altura e peso médio de nossos medalhistas.

In [476]:
df_br.dropna(subset=['Height', 'Weight'])[['Height', 'Weight']].mean().round(1)

Height    182.5
Weight     76.7
dtype: float64

Imaginamos que diferentes esportes podem beneficiar diferentes tipos físicos, certo? Então refaça a análise anterior, mas obtendo os valores médios **por esporte**.

In [477]:
df_br_med_altura_peso = df_br.dropna(subset=['Height', 'Weight']).groupby('Sport')[['Height', 'Weight']].mean().round(1).rename({'Height': 'Altura_Medalhistas', 'Weight': 'Peso_Medalhistas'}, axis='columns')
df_br_med_altura_peso

Unnamed: 0_level_0,Altura_Medalhistas,Peso_Medalhistas
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1
Athletics,181.0,74.6
Basketball,185.8,78.5
Beach Volleyball,184.9,78.2
Boxing,170.0,64.0
Canoeing,175.0,83.2
Equestrianism,179.7,75.0
Football,175.7,70.0
Gymnastics,162.8,63.8
Judo,176.7,86.3
Modern Pentathlon,166.0,55.0


Será que os dados acima influenciaram no interesse geral dos atletas pelo esporte ou realmente impactaram no desempenho deles? Podemos tentar descobrir se há algum tipo de correlação.

Você ainda possui o dataframe original contendo todos os atletas brasileiros, incluindo os sem medalha? Obtenha os valores médios de peso e altura por esporte daquele dataframe e compare-o com os dos medalhistas. Há alguma diferença significativa em algum esporte?

In [478]:
esportes = df_br_med_altura_peso.index

df_br_geral_altura_peso = df_br_geral[df_br_geral['Sport'].isin(esportes)].dropna(subset=['Height', 'Weight']).groupby('Sport')[['Height', 'Weight']].mean().round(1).rename({'Height': 'Altura_Geral', 'Weight': 'Peso_Geral'}, axis='columns')

df_relacao = pd.concat([df_br_med_altura_peso, df_br_geral_altura_peso], axis='columns')

df_relacao['Diferenca_Altura'] = df_relacao.Altura_Medalhistas - df_relacao.Altura_Geral
df_relacao['Diferenca_Peso'] = df_relacao.Peso_Medalhistas - df_relacao.Peso_Geral
df_relacao = df_relacao[['Altura_Medalhistas', 'Altura_Geral', 'Diferenca_Altura', 'Peso_Medalhistas', 'Peso_Geral', 'Diferenca_Peso']].abs()

df_relacao



Unnamed: 0_level_0,Altura_Medalhistas,Altura_Geral,Diferenca_Altura,Peso_Medalhistas,Peso_Geral,Diferenca_Peso
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Athletics,181.0,176.2,4.8,74.6,67.8,6.8
Basketball,185.8,191.5,5.7,78.5,85.9,7.4
Beach Volleyball,184.9,185.7,0.8,78.2,78.6,0.4
Boxing,170.0,172.0,2.0,64.0,64.1,0.1
Canoeing,175.0,177.8,2.8,83.2,77.4,5.8
Equestrianism,179.7,178.3,1.4,75.0,72.3,2.7
Football,175.7,173.3,2.4,70.0,67.8,2.2
Gymnastics,162.8,157.3,5.5,63.8,52.5,11.3
Judo,176.7,173.9,2.8,86.3,80.3,6.0
Modern Pentathlon,166.0,170.5,4.5,55.0,60.7,5.7


Existe um detalhe importante passando batido até agora em nossa análise: as categorias esportivas costumam ser divididas por gênero justamente por conta de diferenças físicas entre homens e mulheres que poderiam influenciar no desempenho. Compare a altura e peso médios de atletas brasileiros por esporte segmentado por sexo.

In [479]:
df_br_peso_altura = df_br_geral.dropna(subset=['Height', 'Weight']).groupby(['Sex', 'Sport'])[['Height', 'Weight']].mean().reset_index(level=0).round(1)
df_br_peso_altura

df_br_peso_altura_f = df_br_peso_altura[df_br_peso_altura['Sex'] == 'F'].drop(columns='Sex').rename(columns={'Height': 'Height_F', 'Weight': 'Weight_F'})
df_br_peso_altura_h = df_br_peso_altura[df_br_peso_altura['Sex'] == 'M'].drop(columns='Sex').rename(columns={'Height': 'Height_M', 'Weight': 'Weight_M'})


df_relacao_h_m = pd.concat([df_br_peso_altura_h, df_br_peso_altura_f], axis='columns').dropna()

df_relacao_h_m['Diferenca_Altura'] = df_br_peso_altura_h['Height_M'].loc[df_relacao_h_m.index] - df_br_peso_altura_f['Height_F'].loc[df_relacao_h_m.index]

df_relacao_h_m['Diferenca_Peso'] = df_br_peso_altura_h['Weight_M'].loc[df_relacao_h_m.index] - df_br_peso_altura_f['Weight_F'].loc[df_relacao_h_m.index]

df_relacao_h_m = df_relacao_h_m[['Height_M', 'Height_F', 'Diferenca_Altura', 'Weight_M', 'Weight_F', 'Diferenca_Peso']].abs()
df_relacao_h_m

Unnamed: 0_level_0,Height_M,Height_F,Diferenca_Altura,Weight_M,Weight_F,Diferenca_Peso
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Alpine Skiing,184.2,160.3,23.9,85.2,52.3,32.9
Archery,177.8,162.9,14.9,78.2,59.7,18.5
Athletics,180.3,167.5,12.8,71.5,59.8,11.7
Badminton,183.0,168.0,15.0,78.0,70.0,8.0
Basketball,196.3,182.8,13.5,92.9,73.4,19.5
Beach Volleyball,194.5,176.5,18.0,91.8,64.9,26.9
Bobsleigh,185.0,168.5,16.5,89.8,74.5,15.3
Boxing,172.4,167.6,4.8,64.0,65.0,1.0
Canoeing,178.5,169.5,9.0,78.6,64.5,14.1
Cross Country Skiing,178.8,167.2,11.6,74.5,53.8,20.7


Qual foi (ou quais foram) o maior medalhista brasileiro em quantidade total de medalhas?

In [480]:
maior_quant_medalhas_br = df_br.groupby('Name')['Medal'].count().max()
dict_df_br = df_br.groupby('Name')['Medal'].count().to_dict()

print(f'{maior_quant_medalhas_br} medalhas')

for k, v in dict_df_br.items():
    if v == maior_quant_medalhas_br:
        print(k)


5 medalhas
Robert Scheidt
Torben Schmidt Grael


E o(s) maior(es) em quantidade de medalhas de ouro?

In [481]:
df_br_au = df_br[df_br['Medal'] == 'Gold']

maior_quant_medalhas_br = df_br_au.groupby('Name')['Medal'].count().max()
dict_df_br = df_br_au.groupby('Name')['Medal'].count().to_dict()

print(f'{maior_quant_medalhas_br} medalhas de ouro cada')

for k, v in dict_df_br.items():
    if v == maior_quant_medalhas_br:
        print(k)

2 medalhas de ouro cada
Adhemar Ferreira da Silva
Fabiana "Fabi" Alvim de Oliveira
Fabiana Marcelino Claudino
Giovane Farinazzo Gvio
Jaqueline Maria "Jaque" Pereira de Carvalho Endres
Marcelo Bastos Ferreira
Maurcio Camargo Lima
Paula Renata Marques Pequeno
Robert Scheidt
Sheilla Tavares de Castro Blassioli
Srgio "Escadinha" Dutra dos Santos
Thasa Daher de Menezes
Torben Schmidt Grael


Qual esporte rendeu mais medalhas de ouro para o Brasil? E qual rendeu mais medalhas no total?

**DICA:** tome muito cuidado nessa análise: cada **evento esportivo** rende 1 medalha. Por exemplo, quando a equipe de futebol vence, isso é considerado 1 medalha, mesmo tendo cerca de 20 atletas medalhistas na equipe. 

In [482]:
df_br_au.drop_duplicates(subset=['Year', 'Event'], inplace=True)

esporte = df_br_au.groupby('Sport').size().idxmax()

print(f'Esporte brasileiro com mais medalhas de ouro: \033[32m{esporte}\033[0m')

df_br_au[df_br_au['Sport'] == esporte].groupby('Medal').size()

Esporte brasileiro com mais medalhas de ouro: [32mSailing[0m


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return func(*args, **kwargs)


Medal
Gold    7
dtype: int64

In [483]:
esporte = df_br.drop_duplicates(subset=['Year', 'Event', 'Medal']).groupby('Sport').size().idxmax()

print(f'Esporte brasileiro com mais medalhas no geral: \033[32m{esporte}\033[0m')

df_br[df_br['Sport'] == esporte].groupby('Medal').size()

Esporte brasileiro com mais medalhas no geral: [32mJudo[0m


Medal
Bronze    15
Gold       4
Silver     3
dtype: int64

Cada "categoria" dentro de um esporte é considerado um evento. Por exemplo, dentro de "atletismo", temos uma competição de 100m masculina, uma de 100m feminino, um revezamento 4 x 100m masculino, um revezamento 4 x 100m feminino, uma competição de 400m masculino, uma de 400m feminino, uma maratona masculina, uma maratona feminina, e assim sucessivamente.

Sabendo disso, qual evento esportivo mais rendeu medalhas de ouro para o Brasil? E total de medalhas?

In [484]:
evento = df_br_au.groupby('Event').size().idxmax()

print(f'Evento brasileiro com mais medalhas de ouro: \033[32m{evento}\033[0m com', end=' ')

print(f"{df_br_au[df_br_au['Event'] == evento].groupby('Medal').size().loc['Gold']} medalhas de ouro")

Evento brasileiro com mais medalhas de ouro: [32mVolleyball Men's Volleyball[0m com 3 medalhas de ouro


In [485]:
df_br.drop_duplicates(subset=['Year', 'Event', 'Medal'], inplace=True)

evento = df_br.groupby('Event').size().idxmax()

print(f'Evento brasileiro com mais medalhas de ouro: \033[32m{evento}\033[0m')

df_br[df_br['Event'] == evento].groupby('Medal').size()

Evento brasileiro com mais medalhas de ouro: [32mBeach Volleyball Women's Beach Volleyball[0m


Medal
Bronze    2
Gold      1
Silver    4
dtype: int64

Para finalizar sobre o Brasil: obtenha o total de medalhas de ouro, prata, bronze e total por ano.

In [486]:
df_br_tot = df_br.groupby(['Medal', 'Year']).size().unstack(level=0).fillna(0)
df_br_tot['Total'] = df_br_tot.sum(axis='columns')
df_br_tot


Medal,Bronze,Gold,Silver,Total
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1920,1.0,1.0,1.0,3.0
1948,1.0,0.0,0.0,1.0
1952,2.0,1.0,0.0,3.0
1956,0.0,1.0,0.0,1.0
1960,2.0,0.0,0.0,2.0
1964,1.0,0.0,0.0,1.0
1968,2.0,0.0,1.0,3.0
1972,2.0,0.0,0.0,2.0
1976,2.0,0.0,0.0,2.0
1980,2.0,2.0,0.0,4.0


## 2. O mundo nos jogos de verão

Vamos agora analisar um pouquinho do que aconteceu nas Olimpíadas de verão em todo o mundo.

Retome o DataFrame original e descarte as informações sobre os jogos de inverno.

In [487]:
df_mundo = df_olimpiadas[df_olimpiadas['Season'] != 'Winter']

Obtenha a lista de todos os esportes já disputados nas olimpíadas de verão.

In [488]:
esportes = sorted(df_mundo['Sport'].unique().tolist())

Obtenha a lista de todas as modalidades esportivas já disputadas nas olimpíadas de verão.

In [489]:
eventos = sorted(df_mundo['Event'].unique().tolist())

Obtenha a lista de todos os países que já disputaram olimpíadas.

In [490]:
paises = sorted(df_mundo['NOC'].unique().tolist())

Qual atleta foi o maior medalhista (em medalhas totais) da história das olimpíadas de verão?

In [491]:
maior_medalhista_mundo = df_mundo[~df_mundo['Medal'].isna()].groupby('Name').size().idxmax()

print(f'Maior medalhista do mundo nas olimpíadas de verão: \033[32m{maior_medalhista_mundo}\033[0m')

df_mundo[df_mundo['Name'] == maior_medalhista_mundo].groupby('Medal').size().reset_index(name='Qtd')

Maior medalhista do mundo nas olimpíadas de verão: [32mMichael Fred Phelps, II[0m


Unnamed: 0,Medal,Qtd
0,Bronze,2
1,Gold,23
2,Silver,3


Qual atleta foi o maior medalhista de ouro da história das olimpíadas de verão?

In [492]:
maiores_medalhistas_ouro = df_mundo[df_mundo['Medal'] == 'Gold'].groupby('Name').size()

print(f"Maior medalhista de ouro do mundo nas olimpíadas de verão: \033[32m{maiores_medalhistas_ouro.idxmax()}\033[0m com {maiores_medalhistas_ouro.max()} medalhas de ouro")

Maior medalhista de ouro do mundo nas olimpíadas de verão: [32mMichael Fred Phelps, II[0m com 23 medalhas de ouro


Qual país foi o maior medalhista de ouro da história das olimpíadas de verão? Lembre-se da questão do evento esportivo, para não considerar múltiplas medalhas para um mesmo evento (ex: uma equipe de futebol fazendo parecer que mais de 20 medalhas foram distribuídas).

In [507]:
df_mundo = df_mundo.drop_duplicates(subset=['Year', 'Event', 'Medal'])

pais_medalhista_ouro = df_mundo[df_mundo['Medal'] == 'Gold'].groupby('NOC').size()

print(f'Maior pais medalhista de ouro: \033[32m{pais_medalhista_ouro.idxmax()}\033[0m com {pais_medalhista_ouro.max()} medalhas de ouro.')

Maior pais medalhista de ouro: [32mUSA[0m com 1028 medalhas de ouro.


Qual país foi o maior medalhista em medalhas totais na história das olimpíadas de verão?

In [515]:
pais_medalhista = df_mundo.groupby('NOC').size()

print(f'Maior pais medalhista geral: \033[32m{pais_medalhista.idxmax()}\033[0m com {pais_medalhista.max()} medalhas no total.')

df_mundo[df_mundo['NOC'] == pais_medalhista.idxmax()].groupby('Medal').size().reset_index(name='Qtd')

Maior pais medalhista geral: [32mUSA[0m com 2783 medalhas no total.


Unnamed: 0,Medal,Qtd
0,Bronze,678
1,Gold,1028
2,Silver,796


Obtenha o total de medalhas de ouro, prata e total por edição das Olimpíadas de verão. Lembre-se da questão do evento esportivo.

In [602]:
df_mundo.groupby(['Year', 'Medal']).size().to_frame(name='Qtd').head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Qtd
Year,Medal,Unnamed: 2_level_1
1896,Bronze,32
1896,Gold,43
1896,Silver,41
1900,Bronze,80
1900,Gold,89
1900,Silver,86
1904,Bronze,88
1904,Gold,95
1904,Silver,92
1906,Bronze,71


## 3. Brasil vs Mundo

Para finalizar, vamos fazer algumas comparações entre Brasil e mundo. Qual o ranking do Brasil em cada edição das olimpíadas? Lembrando que o ranking é ordenado por medalhas de ouro.

In [578]:
def ranking(df=df_mundo, pais='BRA'):
    df = df[df['Medal'] == 'Gold']
    anos = sorted(df['Year'].unique().tolist())
    for ano in anos:
        df_rank = df[df['Year'] == ano]
        df_rank = df_rank.groupby(['NOC']).size().sort_values(ascending=False).reset_index(name='Qtd')
        df_rank['Rank'] = 1
        df_rank['Rank'] = df_rank['Rank'].cumsum()
        try:
            ranking = int(df_rank[df_rank['NOC'] == pais]['Rank'].values)
        except:
            ranking = 'Não obteve medalha de ouro'
            pass
        finally:
            print(f'{pais} | {ano} - > {ranking}{"º" if type(ranking) is int else ""}')


ranking()
    

BRA | 1896 - > Não obteve medalha de ouro
BRA | 1900 - > Não obteve medalha de ouro
BRA | 1904 - > Não obteve medalha de ouro
BRA | 1906 - > Não obteve medalha de ouro
BRA | 1908 - > Não obteve medalha de ouro
BRA | 1912 - > Não obteve medalha de ouro
BRA | 1920 - > 14º
BRA | 1924 - > Não obteve medalha de ouro
BRA | 1928 - > Não obteve medalha de ouro
BRA | 1932 - > Não obteve medalha de ouro
BRA | 1936 - > Não obteve medalha de ouro
BRA | 1948 - > Não obteve medalha de ouro
BRA | 1952 - > 26º
BRA | 1956 - > 21º
BRA | 1960 - > Não obteve medalha de ouro
BRA | 1964 - > Não obteve medalha de ouro
BRA | 1968 - > Não obteve medalha de ouro
BRA | 1972 - > Não obteve medalha de ouro
BRA | 1976 - > Não obteve medalha de ouro
BRA | 1980 - > 19º
BRA | 1984 - > 24º
BRA | 1988 - > 31º
BRA | 1992 - > 26º
BRA | 1996 - > 23º
BRA | 2000 - > Não obteve medalha de ouro
BRA | 2004 - > 17º
BRA | 2008 - > 20º
BRA | 2012 - > 21º
BRA | 2016 - > 13º


Compare o maior medalhista em ouros do Brasil com o maior medalhista em ouros do mundo.

In [674]:
df_mundo_au = df_olimpiadas[(df_olimpiadas['Medal'] == 'Gold') & (df_olimpiadas['Season'] == 'Summer')]

medalhista_br_au = df_mundo_au[df_mundo_au['NOC'] == 'BRA'].groupby('Name').size().idxmax()

medalhista_mundo_au = df_mundo_au.groupby('Name').size().idxmax()

colunas = ['NOC', 'Name', 'Sex', 'Year', 'Event']

df_brasil_au = df_mundo_au[df_mundo_au['Name'] == medalhista_br_au][colunas].groupby(colunas).size().to_frame(name='ignore').drop(columns='ignore')
df_med_mundo_au = df_mundo_au[df_mundo_au['Name'] == medalhista_mundo_au][colunas].groupby(colunas).size().to_frame(name='ignore').drop(columns='ignore')

pd.concat([df_brasil_au, df_med_mundo_au], axis='rows')


NOC,Name,Sex,Year,Event
BRA,Adhemar Ferreira da Silva,M,1952,Athletics Men's Triple Jump
BRA,Adhemar Ferreira da Silva,M,1956,Athletics Men's Triple Jump
USA,"Michael Fred Phelps, II",M,2004,Swimming Men's 100 metres Butterfly
USA,"Michael Fred Phelps, II",M,2004,Swimming Men's 200 metres Butterfly
USA,"Michael Fred Phelps, II",M,2004,Swimming Men's 200 metres Individual Medley
USA,"Michael Fred Phelps, II",M,2004,Swimming Men's 4 x 100 metres Medley Relay
USA,"Michael Fred Phelps, II",M,2004,Swimming Men's 4 x 200 metres Freestyle Relay
USA,"Michael Fred Phelps, II",M,2004,Swimming Men's 400 metres Individual Medley
USA,"Michael Fred Phelps, II",M,2008,Swimming Men's 100 metres Butterfly
USA,"Michael Fred Phelps, II",M,2008,Swimming Men's 200 metres Butterfly


Compare o maior medalhista em total de medalhas do Brasil com o maior medalhista em total de medalhas do mundo.

In [673]:
df_mundo = df_olimpiadas[(~df_olimpiadas['Medal'].isna()) & (df_olimpiadas['Season'] == 'Summer')]

medalhista_br = df_mundo[df_mundo['NOC'] == 'BRA'].groupby('Name').size().idxmax()

medalhista_mundo = df_mundo.groupby('Name').size().idxmax()

df_brasil = df_mundo[df_mundo['Name'] == medalhista_br][colunas].groupby(colunas).size().to_frame(name='ignore').drop(columns='ignore')
df_med_mundo = df_mundo[df_mundo['Name'] == medalhista_mundo][colunas].groupby(colunas).size().to_frame(name='ignore').drop(columns='ignore')

pd.concat([df_brasil, df_med_mundo], axis='rows')

NOC,Name,Sex,Year,Event
BRA,Robert Scheidt,M,1996,Sailing Mixed One Person Dinghy
BRA,Robert Scheidt,M,2000,Sailing Mixed One Person Dinghy
BRA,Robert Scheidt,M,2004,Sailing Mixed One Person Dinghy
BRA,Robert Scheidt,M,2008,Sailing Men's Two Person Keelboat
BRA,Robert Scheidt,M,2012,Sailing Men's Two Person Keelboat
USA,"Michael Fred Phelps, II",M,2004,Swimming Men's 100 metres Butterfly
USA,"Michael Fred Phelps, II",M,2004,Swimming Men's 200 metres Butterfly
USA,"Michael Fred Phelps, II",M,2004,Swimming Men's 200 metres Freestyle
USA,"Michael Fred Phelps, II",M,2004,Swimming Men's 200 metres Individual Medley
USA,"Michael Fred Phelps, II",M,2004,Swimming Men's 4 x 100 metres Freestyle Relay


Compare o maior medalhista em ouros do Brasil com o maior medalhista do mundo no mesmo esporte.

In [691]:
esporte = df_mundo[df_mundo['Name'] == medalhista_br_au]['Sport'].unique()[0]

nome_medalhista_esporte = df_mundo[df_mundo['Sport'] == esporte].groupby('Name').size().idxmax()

df_medalhista_esporte = df_mundo[df_mundo['Name'] == nome_medalhista_esporte][colunas].groupby(colunas).size().to_frame(name='ignore').drop(columns='ignore')

pd.concat([df_brasil_au, df_medalhista_esporte], axis='rows')

NOC,Name,Sex,Year,Event
BRA,Adhemar Ferreira da Silva,M,1952,Athletics Men's Triple Jump
BRA,Adhemar Ferreira da Silva,M,1956,Athletics Men's Triple Jump
FIN,Paavo Johannes Nurmi,M,1920,"Athletics Men's 10,000 metres"
FIN,Paavo Johannes Nurmi,M,1920,"Athletics Men's 5,000 metres"
FIN,Paavo Johannes Nurmi,M,1920,"Athletics Men's Cross-Country, Individual"
FIN,Paavo Johannes Nurmi,M,1920,"Athletics Men's Cross-Country, Team"
FIN,Paavo Johannes Nurmi,M,1924,"Athletics Men's 1,500 metres"
FIN,Paavo Johannes Nurmi,M,1924,"Athletics Men's 3,000 metres, Team"
FIN,Paavo Johannes Nurmi,M,1924,"Athletics Men's 5,000 metres"
FIN,Paavo Johannes Nurmi,M,1924,"Athletics Men's Cross-Country, Individual"


Compare o maior medalhista em total de medalhas do Brasil com o maior medalhista do mundo no mesmo esporte.

In [694]:
esporte = df_mundo[df_mundo['Name'] == medalhista_br]['Sport'].unique()[0]

nome_medalhista_esporte = df_mundo[df_mundo['Sport'] == esporte].groupby('Name').size().idxmax()

df_medalhista_esporte = df_mundo[df_mundo['Name'] == nome_medalhista_esporte][colunas].groupby(colunas).size().to_frame(name='ignore').drop(columns='ignore')

pd.concat([df_brasil, df_medalhista_esporte], axis='rows')

NOC,Name,Sex,Year,Event
BRA,Robert Scheidt,M,1996,Sailing Mixed One Person Dinghy
BRA,Robert Scheidt,M,2000,Sailing Mixed One Person Dinghy
BRA,Robert Scheidt,M,2004,Sailing Mixed One Person Dinghy
BRA,Robert Scheidt,M,2008,Sailing Men's Two Person Keelboat
BRA,Robert Scheidt,M,2012,Sailing Men's Two Person Keelboat
GBR,"Charles Benedict ""Ben"" Ainslie",M,1996,Sailing Mixed One Person Dinghy
GBR,"Charles Benedict ""Ben"" Ainslie",M,2000,Sailing Mixed One Person Dinghy
GBR,"Charles Benedict ""Ben"" Ainslie",M,2004,Sailing Men's One Person Dinghy
GBR,"Charles Benedict ""Ben"" Ainslie",M,2008,Sailing Mixed One Person Dinghy
GBR,"Charles Benedict ""Ben"" Ainslie",M,2012,Sailing Men's One Person Heavyweight Dinghy


Calcule o percentual de medalhas de ouro, prata e bronze que o Brasil ganhou em cada olimpíada.

In [719]:
df_med = df_br.groupby('Medal')['Medal'].count()/df_br['Medal'].count()*100

df_med = df_med.round(2).reset_index(name='%')
df_med

Unnamed: 0,Medal,%
0,Bronze,48.44
1,Gold,23.44
2,Silver,28.12


In [725]:
import plotly.express as px

px.bar(df_med, x='Medal', y='%', color='Medal',
       category_orders={"Medal": ['Bronze', 'Silver', 'Gold']})