# História das Olimpíadas  
_(créditos ao prof. Rafael Moreira)_

Após um ano de atraso por conta da pandemia de Covid-19, as atenções do mundo todo se voltaram para Tóquio, no Japão, para acompanhar mais uma edição das Olimpíadas.

No Brasil não foi diferente, e muitos se uniram para torcer por nossos atletas em diferentes competições, tanto em esportes onde o Brasil já possui tradição quanto em novos esportes.

Vamos aproveitar o clima para estudar um pouco das Olimpíadas! Utilizaremos um _dataset_ com 120 anos de dados históricos das Olimpíadas, cobrindo desde os jogos de Atenas 1896 até Rio 2016. 

Faça o download do _dataset_ em https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results e carregue o arquivo ```athlete_events.csv``` para um DataFrame utilizando Pandas. Aproveite para explorar seu DataFrame e se familiarizar com a sua estrutura. 

OBS: Fique à vontade para acrescentar mais células Python conforme necessário em qualquer etapa do exercício.

In [3]:
import pandas as pd 

## 1. O Brasil nas Olimpíadas

*Vamos começar estudando o desempenho do nossos próprio país. Gere um DataFrame novo contendo apenas as informações sobre atletas brasileiros.*

In [4]:
atletas = pd.read_csv("athlete_events.csv")

In [5]:
atletas_brasileiros = atletas[atletas["Team"]== "Brazil"]



### Medalhistas

Vamos focar um pouco nos casos de sucesso do Brasil. Use o seu DataFrame anterior para filtrar apenas informações sobre **medalhistas** brasileiros. 

**DICA:** observe como a coluna ```Medal``` é representada quando o atleta não ganhou medalha.

In [6]:

atletas_brasileiros.groupby("Medal").size()



Medal
Bronze    185
Gold      103
Silver    161
dtype: int64

In [7]:
medalhistas_brasileiros = atletas_brasileiros.dropna(subset=["Medal"])


In [8]:
medalhistas_brasileiros.groupby(["Medal"]).head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
1651,918,Ademir Roque Kaefer,M,24.0,179.0,74.0,Brazil,BRA,1984 Summer,1984,Summer,Los Angeles,Football,Football Men's Football,Silver
1652,918,Ademir Roque Kaefer,M,28.0,179.0,74.0,Brazil,BRA,1988 Summer,1988,Summer,Seoul,Football,Football Men's Football,Silver
1668,925,Adenzia Aparecida Ferreira da Silva,F,25.0,187.0,65.0,Brazil,BRA,2012 Summer,2012,Summer,London,Volleyball,Volleyball Women's Volleyball,Gold
1733,966,Daniel Adler,M,26.0,180.0,72.0,Brazil,BRA,1984 Summer,1984,Summer,Los Angeles,Sailing,Sailing Mixed Three Person Keelboat,Silver
1856,1020,Adriana Aparecida dos Santos,F,25.0,180.0,61.0,Brazil,BRA,1996 Summer,1996,Summer,Atlanta,Basketball,Basketball Women's Basketball,Silver
1857,1020,Adriana Aparecida dos Santos,F,29.0,180.0,61.0,Brazil,BRA,2000 Summer,2000,Summer,Sydney,Basketball,Basketball Women's Basketball,Bronze
1863,1023,"Adriana ""Adrianinha"" Moiss Pinto",F,21.0,170.0,65.0,Brazil,BRA,2000 Summer,2000,Summer,Sydney,Basketball,Basketball Women's Basketball,Bronze
4226,2419,Aldair Nascimento dos Santos,M,30.0,183.0,76.0,Brazil,BRA,1996 Summer,1996,Summer,Atlanta,Football,Football Men's Football,Bronze
4457,2546,Alessandra dos Santos de Oliveira,F,22.0,200.0,85.0,Brazil,BRA,1996 Summer,1996,Summer,Atlanta,Basketball,Basketball Women's Basketball,Silver
4458,2546,Alessandra dos Santos de Oliveira,F,26.0,200.0,85.0,Brazil,BRA,2000 Summer,2000,Summer,Sydney,Basketball,Basketball Women's Basketball,Bronze


### Verão vs Inverno

Você deve ter notado que temos duas categorias distintas de jogos olímpicos, representados pela estação: temos os jogos de verão e os jogos de inverno, que ocorrem de maneira intercalada.

Agora que já conhecemos os medalhistas brasileiros, resposta: quantos atletas brasileiros receberam medalha nos jogos de verão e quantos receberam nos jogos de inverno?

In [10]:
medalhistas_brasileiros.groupby(["Season"]).size()

Season
Summer    136
dtype: int64

Os jogos de verão são bem mais populares do que os jogos de inverno no Brasil. Portanto, deste ponto em diante iremos focar apenas nos jogos de verão. Descarte de seu DataFrame os dados dos jogos de inverno.



In [66]:
jogos_inverno = atletas[atletas.drop(["Season"] == "Winter"])

SyntaxError: ignored

### Atletas do Brasil

Vamos conhecer um pouco melhor nossos atletas. Descubra a altura e peso médio de nossos medalhistas.

Imaginamos que diferentes esportes podem beneficiar diferentes tipos físicos, certo? Então refaça a análise anterior, mas obtendo os valores médios **por esporte**.

In [25]:
colunas_sport_medal = ["Name","Height","Weight","Sport","Medal"]
medalhista_esporte = medalhistas_brasileiros.filter(items= colunas_sport_medal)


In [68]:
medalhista_esporte.groupby(["Sport"]).mean()

Unnamed: 0_level_0,Height,Weight
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1
Athletics,181.166667,73.388889
Basketball,186.714286,79.058824
Boxing,166.0,56.0
Equestrianism,182.5,79.5
Football,177.648649,72.189189
Judo,185.25,102.875
Sailing,179.8,75.6
Shooting,178.0,
Swimming,195.888889,88.5
Volleyball,192.958333,84.791667


Será que os dados acima influenciaram no interesse geral dos atletas pelo esporte ou realmente impactaram no desempenho deles? Podemos tentar descobrir se há algum tipo de correlação.

Você ainda possui o dataframe original contendo todos os atletas brasileiros, incluindo os sem medalha? Obtenha os valores médios de peso e altura por esporte daquele dataframe e compare-o com os dos medalhistas. Há alguma diferença significativa em algum esporte?

In [27]:
atletas_brasileiros.head()


Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
665,386,Alexandre Abeid,M,22.0,194.0,92.0,Brazil,BRA,1972 Summer,1972.0,Summer,Munich,Volleyball,Volleyball Men's Volleyball,
666,386,Alexandre Abeid,M,26.0,194.0,92.0,Brazil,BRA,1976 Summer,1976.0,Summer,Montreal,Volleyball,Volleyball Men's Volleyball,
668,388,Abel Carlos da Silva Braga,M,19.0,190.0,73.0,Brazil,BRA,1972 Summer,1972.0,Summer,Munich,Football,Football Men's Football,
781,451,Diana Monteiro Abla,F,21.0,175.0,75.0,Brazil,BRA,2016 Summer,2016.0,Summer,Rio de Janeiro,Water Polo,Water Polo Women's Water Polo,
1005,565,Glauclio Serro Abreu,M,26.0,185.0,75.0,Brazil,BRA,2004 Summer,2004.0,Summer,Athina,Boxing,Boxing Men's Middleweight,


In [94]:
colunas_selecionadas = ["Name","Height","Weight","Sport","Medal,Sex"]

In [95]:
filtro_atletas_brasileiros= atletas_brasileiros.filter(items= colunas_selecionadas)

In [30]:
filtro_atletas_brasileiros.head()

Unnamed: 0,Name,Height,Weight,Sport,Medal
665,Alexandre Abeid,194.0,92.0,Volleyball,
666,Alexandre Abeid,194.0,92.0,Volleyball,
668,Abel Carlos da Silva Braga,190.0,73.0,Football,
781,Diana Monteiro Abla,175.0,75.0,Water Polo,
1005,Glauclio Serro Abreu,185.0,75.0,Boxing,


In [31]:
filtro_atletas_brasileiros.groupby(["Sport"]).mean()


Unnamed: 0_level_0,Height,Weight
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1
Alpine Skiing,159.0,51.0
Archery,166.833333,67.166667
Art Competitions,,
Athletics,176.524345,68.458333
Basketball,188.625,82.234375
Bobsleigh,182.166667,84.0
Boxing,172.424242,64.65625
Canoeing,178.1875,80.1875
Cross Country Skiing,159.0,50.0
Cycling,172.6,65.9375


In [33]:
medalhistas_brasileiros.groupby(["Sport"]).mean()

Unnamed: 0_level_0,ID,Age,Height,Weight,Year
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Athletics,24618.944444,25.888889,181.166667,73.388889,1988.888889
Basketball,13624.291667,25.5,186.714286,79.058824,1973.833333
Boxing,18000.0,25.666667,166.0,56.0,1998.666667
Equestrianism,27469.5,34.75,182.5,79.5,1998.0
Football,14238.702703,23.189189,177.648649,72.189189,1998.054054
Judo,20974.888889,24.777778,185.25,102.875,2004.888889
Sailing,16273.4,30.2,179.8,75.6,1975.2
Shooting,19013.666667,31.0,178.0,,1920.0
Swimming,19484.222222,22.111111,195.888889,88.5,1994.666667
Volleyball,13436.666667,27.375,192.958333,84.791667,2001.666667


*Falta realizar a comparação*

In [74]:
filtro_medalhistas = medalhista_esporte.groupby(["Sport"]).mean()
filtro_atletasBrasileiros = filtro_atletas_brasileiros.groupby(["Sport"]).mean()

In [75]:
tabela_comparacao= pd.concat([filtro_medalhistas,filtro_atletasBrasileiros], axis=1, keys= ["Medalhistas", "Geral"])

In [81]:
tabela_comparacao


Unnamed: 0_level_0,Medalhistas,Medalhistas,Geral,Geral
Unnamed: 0_level_1,Height,Weight,Height,Weight
Athletics,181.166667,73.388889,176.524345,68.458333
Basketball,186.714286,79.058824,188.625,82.234375
Boxing,166.0,56.0,172.424242,64.65625
Equestrianism,182.5,79.5,177.784314,72.877551
Football,177.648649,72.189189,175.702381,70.546667
Judo,185.25,102.875,178.352941,86.735294
Sailing,179.8,75.6,181.213115,77.508197
Shooting,178.0,,172.617647,77.363636
Swimming,195.888889,88.5,183.393701,76.966387
Volleyball,192.958333,84.791667,188.044776,80.104478


In [91]:
tabela_comparacao_limpa = tabela_comparacao.dropna(thresh=3)

In [92]:
tabela_comparacao_limpa["Comparação Altura %"]= tabela_comparacao_limpa["Medalhistas"]["Height"]/tabela_comparacao_limpa["Geral"]["Height"]
tabela_comparacao_limpa["Comparação Peso %"]= tabela_comparacao_limpa["Medalhistas"]["Weight"]/tabela_comparacao_limpa["Geral"]["Weight"]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  """Entry point for launching an IPython kernel.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [93]:
tabela_comparacao_limpa

Unnamed: 0_level_0,Medalhistas,Medalhistas,Geral,Geral,Comparação Altura %,Comparação Peso %
Unnamed: 0_level_1,Height,Weight,Height,Weight,Unnamed: 5_level_1,Unnamed: 6_level_1
Athletics,181.166667,73.388889,176.524345,68.458333,1.026298,1.072023
Basketball,186.714286,79.058824,188.625,82.234375,0.98987,0.961384
Boxing,166.0,56.0,172.424242,64.65625,0.962742,0.866119
Equestrianism,182.5,79.5,177.784314,72.877551,1.026525,1.090871
Football,177.648649,72.189189,175.702381,70.546667,1.011077,1.023283
Judo,185.25,102.875,178.352941,86.735294,1.038671,1.18608
Sailing,179.8,75.6,181.213115,77.508197,0.992202,0.975381
Shooting,178.0,,172.617647,77.363636,1.031181,
Swimming,195.888889,88.5,183.393701,76.966387,1.068133,1.149853
Volleyball,192.958333,84.791667,188.044776,80.104478,1.02613,1.058513


**RESPOSTA:** *FALTA FAZER *

Existe um detalhe importante passando batido até agora em nossa análise: as categorias esportivas costumam ser divididas por gênero justamente por conta de diferenças físicas entre homens e mulheres que poderiam influenciar no desempenho. Compare a altura e peso médios de atletas brasileiros por esporte segmentado por sexo.

In [125]:
colunas_selecionadas3= ["Sport","Height","Weight","Sex"]
todos_atletas_brasileiros= atletas_brasileiros.filter(items=colunas_selecionadas3)


In [126]:
todos_atletas_brasileiros

Unnamed: 0,Sport,Height,Weight,Sex
665,Volleyball,194.0,92.0,M
666,Volleyball,194.0,92.0,M
668,Football,190.0,73.0,M
781,Water Polo,175.0,75.0,F
1005,Boxing,185.0,75.0,M
...,...,...,...,...
61436,Football,183.0,70.0,M
61602,Basketball,187.0,77.0,F
61688,Alpine Skiing,,,M
61689,Alpine Skiing,,,M


In [127]:
brasileiro_sport_F = todos_atletas_brasileiros[todos_atletas_brasileiros['Sex']=='F']
brasileiro_sport_M = todos_atletas_brasileiros[todos_atletas_brasileiros['Sex']=='M']

In [128]:
brasileiro_sport_F

Unnamed: 0,Sport,Height,Weight,Sex
781,Water Polo,175.0,75.0,F
1668,Volleyball,187.0,65.0,F
1669,Volleyball,187.0,65.0,F
1855,Basketball,180.0,61.0,F
1856,Basketball,180.0,61.0,F
...,...,...,...,...
57897,Table Tennis,166.0,60.0,F
57898,Table Tennis,166.0,60.0,F
57899,Table Tennis,166.0,60.0,F
59051,Water Polo,170.0,67.0,F


In [130]:
brasileiro_sport_F.groupby(["Sport"]).mean()


Unnamed: 0_level_0,Height,Weight
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1
Alpine Skiing,159.0,51.0
Archery,160.0,53.6
Athletics,167.123077,61.461538
Basketball,183.37931,74.448276
Bobsleigh,168.5,74.5
Boxing,167.666667,65.0
Canoeing,,
Cross Country Skiing,159.0,50.0
Cycling,162.0,55.333333
Diving,160.0,58.0


In [131]:
brasileiro_sport_M.groupby(["Sport"]).mean()

Unnamed: 0_level_0,Height,Weight
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1
Alpine Skiing,,
Archery,171.714286,76.857143
Art Competitions,,
Athletics,179.549505,70.743719
Basketball,192.162791,88.685714
Bobsleigh,189.0,88.75
Boxing,172.9,64.62069
Canoeing,178.1875,80.1875
Cycling,174.470588,68.384615
Diving,172.083333,69.833333


Qual foi (ou quais foram) o maior medalhista brasileiro em quantidade total de medalhas?

In [31]:
colunas_selecionadas2 = ["Name","Medal"]

filtro_medalhistas_brasileiros= medalhistas_brasileiros.filter(items=colunas_selecionadas2)

In [42]:
filtro_medalhistas_brasileiros.groupby(["Name"]).count().sort_values(by="Medal", ascending= False).head()

Unnamed: 0_level_0,Medal
Name,Unnamed: 1_level_1
Robert Scheidt,5
Torben Schmidt Grael,5
"Srgio ""Escadinha"" Dutra dos Santos",4
Gustavo Frana Borges,4
Rodrigo de Paula Pessoa,3


E o(s) maior(es) em quantidade de medalhas de ouro?

In [43]:
medalha_ouro_brasil= filtro_medalhistas_brasileiros[filtro_medalhistas_brasileiros['Medal']=='Gold']

In [50]:
medalha_ouro_brasil.groupby(['Name']).count().sort_values(by="Medal", ascending= False).head(13)

Unnamed: 0_level_0,Medal
Name,Unnamed: 1_level_1
Marcelo Bastos Ferreira,2
Thasa Daher de Menezes,2
Adhemar Ferreira da Silva,2
Maurcio Camargo Lima,2
Paula Renata Marques Pequeno,2
"Jaqueline Maria ""Jaque"" Pereira de Carvalho Endres",2
Giovane Farinazzo Gvio,2
Robert Scheidt,2
"Fabiana ""Fabi"" Alvim de Oliveira",2
Sheilla Tavares de Castro Blassioli,2


Qual esporte rendeu mais medalhas de ouro para o Brasil? E qual rendeu mais medalhas no total?

**DICA:** tome muito cuidado nessa análise: cada **evento esportivo** rende 1 medalha. Por exemplo, quando a equipe de futebol vence, isso é considerado 1 medalha, mesmo tendo cerca de 20 atletas medalhistas na equipe. 

In [64]:
colunas_selecionadas3 = ["Sport","Games","Event","Medal"]

medalhas_evento_brasil= medalhistas_brasileiros.filter(items=colunas_selecionadas3)

In [67]:
medalhas_evento_brasil=medalhas_evento_brasil.drop_duplicates()

In [74]:
medalhas_evento_brasil.groupby(["Sport"]).count().sort_values(by="Medal", ascending= False).filter(items= ["Medal"])



Unnamed: 0_level_0,Medal
Sport,Unnamed: 1_level_1
Judo,22
Sailing,18
Athletics,16
Swimming,14
Volleyball,10
Football,8
Basketball,5
Boxing,5
Gymnastics,4
Shooting,4


In [80]:
medalhas_sport_ouro_brasil=medalhas_evento_brasil[medalhas_evento_brasil["Medal"]=="Gold"]

In [81]:
medalhas_sport_ouro_brasil.groupby(["Sport"]).count().sort_values(by="Medal", ascending= False).filter(items= ["Medal"])

Unnamed: 0_level_0,Medal
Sport,Unnamed: 1_level_1
Sailing,7
Athletics,5
Volleyball,5
Judo,4
Boxing,1
Equestrianism,1
Football,1
Gymnastics,1
Shooting,1
Swimming,1


Cada "categoria" dentro de um esporte é considerado um evento. Por exemplo, dentro de "atletismo", temos uma competição de 100m masculina, uma de 100m feminino, um revezamento 4 x 100m masculino, um revezamento 4 x 100m feminino, uma competição de 400m masculino, uma de 400m feminino, uma maratona masculina, uma maratona feminina, e assim sucessivamente.

Sabendo disso, qual evento esportivo mais rendeu medalhas de ouro para o Brasil? E total de medalhas?

In [82]:
medalhas_sport_ouro_brasil.groupby(["Event"]).count().sort_values(by="Medal", ascending= False).filter(items= ["Medal"])

Unnamed: 0_level_0,Medal
Event,Unnamed: 1_level_1
Volleyball Men's Volleyball,3
Volleyball Women's Volleyball,2
Athletics Men's Triple Jump,2
Sailing Mixed One Person Dinghy,2
Sailing Men's Two Person Keelboat,1
Swimming Men's 50 metres Freestyle,1
"Shooting Men's Military Pistol, 30 metres",1
Sailing Women's Skiff,1
Sailing Mixed Two Person Keelboat,1
Sailing Mixed Two Person Dinghy,1


In [83]:
medalhas_evento_brasil.groupby(["Event"]).count().sort_values(by="Medal", ascending= False).filter(items= ["Medal"])

Unnamed: 0_level_0,Medal
Event,Unnamed: 1_level_1
Athletics Men's Triple Jump,6
Volleyball Men's Volleyball,6
Football Men's Football,6
Volleyball Women's Volleyball,4
Judo Men's Lightweight,4
Judo Men's Half-Heavyweight,4
Swimming Men's 100 metres Freestyle,4
Sailing Mixed Two Person Keelboat,3
Basketball Men's Basketball,3
Sailing Mixed One Person Dinghy,3


Para finalizar sobre o Brasil: obtenha o total de medalhas de ouro, prata, bronze e total por ano.

In [117]:
colunas_selecionadas4=["Year","Medal"]
contador_medalhas= medalhistas_brasileiros.filter(items=colunas_selecionadas4)

In [105]:
contador_medalhas.groupby(["Year"]).count()

Unnamed: 0_level_0,Medal
Year,Unnamed: 1_level_1
1920,7
1948,10
1952,3
1956,1
1960,13
1964,12
1968,4
1972,2
1976,3
1980,9


In [118]:
medalha_ouro_contador= contador_medalhas[contador_medalhas["Medal"]=="Gold"].groupby(["Year"]).count()
medalha_ouro_contador.rename(columns={"Medal":"Medalhas de Ouro"})

Unnamed: 0_level_0,Medalhas de Ouro
Year,Unnamed: 1_level_1
1920,1
1952,1
1956,1
1980,4
1984,1
1988,1
1992,13
1996,3
2004,16
2008,14


In [121]:
medalha_prata_contador= contador_medalhas[contador_medalhas["Medal"]=="Silver"].groupby(["Year"]).count()
medalha_prata_contador.rename(columns={"Medal":"Medalhas de Prata"})

Unnamed: 0_level_0,Medalhas de Prata
Year,Unnamed: 1_level_1
1920,1
1968,1
1984,33
1988,17
1992,1
1996,13
2000,8
2004,17
2008,32
2012,32


In [120]:
medalha_bronze_contador= contador_medalhas[contador_medalhas["Medal"]=="Bronze"].groupby(["Year"]).count()
medalha_bronze_contador.rename(columns={"Medal":"Medalhas de Bronze"})

Unnamed: 0_level_0,Medalhas de Bronze
Year,Unnamed: 1_level_1
1920,5
1948,10
1952,2
1960,13
1964,12
1968,3
1972,2
1976,3
1980,5
1984,2


## 2. O mundo nos jogos de verão

Vamos agora analisar um pouquinho do que aconteceu nas Olimpíadas de verão em todo o mundo.

Retome o DataFrame original e descarte as informações sobre os jogos de inverno.

Obtenha a lista de todos os esportes já disputados nas olimpíadas de verão.

Obtenha a lista de todas as modalidades esportivas já disputadas nas olimpíadas de verão.

Obtenha a lista de todos os países que já disputaram olimpíadas.

Qual atleta foi o maior medalhista (em medalhas totais) da história das olimpíadas de verão?

Qual atleta foi o maior medalhista de ouro da história das olimpíadas de verão?

Qual país foi o maior medalhista de ouro da história das olimpíadas de verão? Lembre-se da questão do evento esportivo, para não considerar múltiplas medalhas para um mesmo evento (ex: uma equipe de futebol fazendo parecer que mais de 20 medalhas foram distribuídas).

Qual país foi o maior medalhista em medalhas totais na história das olimpíadas de verão?

Obtenha o total de medalhas de ouro, prata e total por edição das Olimpíadas de verão. Lembre-se da questão do evento esportivo.

## 3. Brasil vs Mundo

Para finalizar, vamos fazer algumas comparações entre Brasil e mundo. Qual o ranking do Brasil em cada edição das olimpíadas? Lembrando que o ranking é ordenado por medalhas de ouro.

Compare o maior medalhista em ouros do Brasil com o maior medalhista em ouros do mundo.

Compare o maior medalhista em total de medalhas do Brasil com o maior medalhista em total de medalhas do mundo.

Compare o maior medalhista em ouros do Brasil com o maior medalhista do mundo no mesmo esporte.

Compare o maior medalhista em total de medalhas do Brasil com o maior medalhista do mundo no mesmo esporte.

Calcule o percentual de medalhas de ouro, prata e bronze que o Brasil ganhou em cada olimpíada.