# História das Olimpíadas  
_(créditos ao prof. Rafael Moreira)_

Após um ano de atraso por conta da pandemia de Covid-19, as atenções do mundo todo se voltaram para Tóquio, no Japão, para acompanhar mais uma edição das Olimpíadas.

No Brasil não foi diferente, e muitos se uniram para torcer por nossos atletas em diferentes competições, tanto em esportes onde o Brasil já possui tradição quanto em novos esportes.

Vamos aproveitar o clima para estudar um pouco das Olimpíadas! Utilizaremos um _dataset_ com 120 anos de dados históricos das Olimpíadas, cobrindo desde os jogos de Atenas 1896 até Rio 2016. 

Faça o download do _dataset_ em https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results e carregue o arquivo ```athlete_events.csv``` para um DataFrame utilizando Pandas. Aproveite para explorar seu DataFrame e se familiarizar com a sua estrutura. 

OBS: Fique à vontade para acrescentar mais células Python conforme necessário em qualquer etapa do exercício.

In [1]:
import pandas as pd 

## 1. O Brasil nas Olimpíadas

***1.1) Vamos começar estudando o desempenho do nossos próprio país. Gere um DataFrame novo contendo apenas as informações sobre atletas brasileiros.***

In [2]:
atletas = pd.read_csv("C:\\Users\\Fabio\\Desktop\\Data Science\\Módulo 3\\Aula 04\\athlete_events.csv")
atletas.head(5)

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
4,5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,


In [3]:
#RESPOSTA 1.1)
atletas_brasileiros = atletas[atletas["Team"]== "Brazil"]
atletas_brasileiros

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
665,386,Alexandre Abeid,M,22.0,194.0,92.0,Brazil,BRA,1972 Summer,1972,Summer,Munich,Volleyball,Volleyball Men's Volleyball,
666,386,Alexandre Abeid,M,26.0,194.0,92.0,Brazil,BRA,1976 Summer,1976,Summer,Montreal,Volleyball,Volleyball Men's Volleyball,
668,388,Abel Carlos da Silva Braga,M,19.0,190.0,73.0,Brazil,BRA,1972 Summer,1972,Summer,Munich,Football,Football Men's Football,
781,451,Diana Monteiro Abla,F,21.0,175.0,75.0,Brazil,BRA,2016 Summer,2016,Summer,Rio de Janeiro,Water Polo,Water Polo Women's Water Polo,
1005,565,Glauclio Serro Abreu,M,26.0,185.0,75.0,Brazil,BRA,2004 Summer,2004,Summer,Athina,Boxing,Boxing Men's Middleweight,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
268652,134400,"Maria Jos ""Zz"" Bertolotti",F,26.0,190.0,,Brazil,BRA,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Women's Basketball,
269745,134976,Sieglinda Lenk Zigler,F,17.0,,,Brazil,BRA,1936 Summer,1936,Summer,Berlin,Swimming,Swimming Women's 100 metres Backstroke,
269899,135037,Moacir Zimmermann,M,32.0,184.0,70.0,Brazil,BRA,2016 Summer,2016,Summer,Rio de Janeiro,Athletics,Athletics Men's 20 kilometres Walk,
270478,135289,Zzimo Alves Calazans,M,20.0,,,Brazil,BRA,1952 Summer,1952,Summer,Helsinki,Football,Football Men's Football,


POR SEXO

In [4]:
atletas_brasil_sexo = atletas_brasileiros["Sex"].value_counts()
atletas_brasil_sexo

M    2648
F    1124
Name: Sex, dtype: int64

POR IDADE

In [5]:
atletas_brasil_idade = atletas_brasileiros["Age"].value_counts()
atletas_brasil_idade.head(5)

22.0    310
23.0    282
25.0    282
21.0    279
24.0    264
Name: Age, dtype: int64

In [6]:
# média de idade por ano
media_idade_ano = atletas_brasileiros.groupby(by=["Year"])["Age"].mean()
df_media_idade_ano = pd.DataFrame(media_idade_ano)
df_media_idade_ano.head(5)

Unnamed: 0_level_0,Age
Year,Unnamed: 1_level_1
1900,20.0
1920,35.428571
1924,23.142857
1932,24.9
1936,25.397849


In [7]:
# Média máxima encontrada dentre todos os anos
df_media_idade_ano.max()

Age    35.428571
dtype: float64

In [8]:
# Média mínima encontrada dentre todos os anos
df_media_idade_ano.min()

Age    20.0
dtype: float64

In [9]:
# Idade mínina encontrada entre atletas brasileiros
idade = atletas_brasileiros["Age"].min()
print(f"{idade} anos")

13.0 anos


In [10]:
# Idade máxima encontrada entre atletas brasileiros
idade = atletas_brasileiros["Age"].max()
print(f"{idade} anos")

56.0 anos


### Medalhistas

Vamos focar um pouco nos casos de sucesso do Brasil.

***1.2) Use o seu DataFrame anterior para filtrar apenas informações sobre medalhistas brasileiros.*** 

**DICA:** observe como a coluna ```Medal``` é representada quando o atleta não ganhou medalha.

In [11]:
atletas_brasileiros_medalhistas = atletas_brasileiros.groupby("Medal").size()
df_atletas_brasileiros_medalhistas = pd.DataFrame(atletas_brasileiros_medalhistas)
df_atletas_brasileiros_medalhistas

Unnamed: 0_level_0,0
Medal,Unnamed: 1_level_1
Bronze,185
Gold,103
Silver,161


In [12]:
medalhistas_brasileiros = atletas_brasileiros.dropna(subset=["Medal"])


In [13]:
medalhistas_brasileiros.groupby(["Medal"]).head(5)

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
1651,918,Ademir Roque Kaefer,M,24.0,179.0,74.0,Brazil,BRA,1984 Summer,1984,Summer,Los Angeles,Football,Football Men's Football,Silver
1652,918,Ademir Roque Kaefer,M,28.0,179.0,74.0,Brazil,BRA,1988 Summer,1988,Summer,Seoul,Football,Football Men's Football,Silver
1668,925,Adenzia Aparecida Ferreira da Silva,F,25.0,187.0,65.0,Brazil,BRA,2012 Summer,2012,Summer,London,Volleyball,Volleyball Women's Volleyball,Gold
1733,966,Daniel Adler,M,26.0,180.0,72.0,Brazil,BRA,1984 Summer,1984,Summer,Los Angeles,Sailing,Sailing Mixed Three Person Keelboat,Silver
1856,1020,Adriana Aparecida dos Santos,F,25.0,180.0,61.0,Brazil,BRA,1996 Summer,1996,Summer,Atlanta,Basketball,Basketball Women's Basketball,Silver
1857,1020,Adriana Aparecida dos Santos,F,29.0,180.0,61.0,Brazil,BRA,2000 Summer,2000,Summer,Sydney,Basketball,Basketball Women's Basketball,Bronze
1863,1023,"Adriana ""Adrianinha"" Moiss Pinto",F,21.0,170.0,65.0,Brazil,BRA,2000 Summer,2000,Summer,Sydney,Basketball,Basketball Women's Basketball,Bronze
4226,2419,Aldair Nascimento dos Santos,M,30.0,183.0,76.0,Brazil,BRA,1996 Summer,1996,Summer,Atlanta,Football,Football Men's Football,Bronze
4457,2546,Alessandra dos Santos de Oliveira,F,22.0,200.0,85.0,Brazil,BRA,1996 Summer,1996,Summer,Atlanta,Basketball,Basketball Women's Basketball,Silver
4458,2546,Alessandra dos Santos de Oliveira,F,26.0,200.0,85.0,Brazil,BRA,2000 Summer,2000,Summer,Sydney,Basketball,Basketball Women's Basketball,Bronze


In [14]:
# Atletas brasileiros que ganharam medalhas dividido por sexo
atletas_brasil_sexo = atletas_brasileiros.groupby(by=["Sex"])["Medal"].value_counts()  
df_atletas_brasil_sexo = pd.DataFrame(atletas_brasil_sexo)
df_atletas_brasil_sexo  

Unnamed: 0_level_0,Unnamed: 1_level_0,Medal
Sex,Medal,Unnamed: 2_level_1
F,Silver,47
F,Bronze,45
F,Gold,29
M,Bronze,140
M,Silver,114
M,Gold,74


In [15]:
 # Todos os medalhistas brasileiros no futebol que ganharam medalhas
atletas_brasil_futebol = medalhistas_brasileiros[medalhistas_brasileiros["Sport"] == "Football"].value_counts()
df_atletas_brasil_futebol = pd.DataFrame(atletas_brasil_futebol) 
df_atletas_brasil_futebol.head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Unnamed: 9_level_0,Unnamed: 10_level_0,Unnamed: 11_level_0,Unnamed: 12_level_0,Unnamed: 13_level_0,Unnamed: 14_level_0,0
ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal,Unnamed: 15_level_1
134211,Jos Carlos Cracco Neto,M,22.0,170.0,69.0,Brazil,BRA,2016 Summer,2016,Summer,Rio de Janeiro,Football,Football Men's Football,Gold,1
28380,"Nelson de Jess ""Dida"" Silva",M,22.0,195.0,85.0,Brazil,BRA,1996 Summer,1996,Summer,Atlanta,Football,Football Men's Football,Bronze,1
29713,Douglas dos Santos Justino de Melo,M,22.0,173.0,69.0,Brazil,BRA,2016 Summer,2016,Summer,Rio de Janeiro,Football,Football Men's Football,Gold,1
30647,"Carlos Caetano ""Dunga"" Bledorn Verri",M,20.0,174.0,68.0,Brazil,BRA,1984 Summer,1984,Summer,Los Angeles,Football,Football Men's Football,Silver,1
31426,Edmar Bernardes dos Santos,M,28.0,175.0,72.0,Brazil,BRA,1988 Summer,1988,Summer,Seoul,Football,Football Men's Football,Silver,1


In [16]:
# Todos os medalhistas brasileiros no futebol que ganharam medalhas de Ouro
atletas_brasil_futebol_ouro = medalhistas_brasileiros[(medalhistas_brasileiros["Medal"] == "Gold") & (medalhistas_brasileiros["Sport"] == "Football")].value_counts()
df_atletas_brasil_futebol_ouro = pd.DataFrame(atletas_brasil_futebol_ouro)  
df_atletas_brasil_futebol_ouro.head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Unnamed: 9_level_0,Unnamed: 10_level_0,Unnamed: 11_level_0,Unnamed: 12_level_0,Unnamed: 13_level_0,Unnamed: 14_level_0,0
ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal,Unnamed: 15_level_1
134211,Jos Carlos Cracco Neto,M,22.0,170.0,69.0,Brazil,BRA,2016 Summer,2016,Summer,Rio de Janeiro,Football,Football Men's Football,Gold,1
85613,Neymar da Silva Santos Jnior,M,24.0,174.0,64.0,Brazil,BRA,2016 Summer,2016,Summer,Rio de Janeiro,Football,Football Men's Football,Gold,1
34546,Felipe Anderson Perieira Gomes,M,23.0,178.0,66.0,Brazil,BRA,2016 Summer,2016,Summer,Rio de Janeiro,Football,Football Men's Football,Gold,1
37807,Gabriel Barbosa Almeida,M,19.0,178.0,68.0,Brazil,BRA,2016 Summer,2016,Summer,Rio de Janeiro,Football,Football Men's Football,Gold,1
37808,Gabriel Fernando de Jesus,M,19.0,175.0,68.0,Brazil,BRA,2016 Summer,2016,Summer,Rio de Janeiro,Football,Football Men's Football,Gold,1


### Verão vs Inverno

Você deve ter notado que temos duas categorias distintas de jogos olímpicos, representados pela estação: temos os jogos de verão e os jogos de inverno, que ocorrem de maneira intercalada.

***1.3) Agora que já conhecemos os medalhistas brasileiros: quantos atletas brasileiros receberam medalha nos jogos de verão e quantos receberam nos jogos de inverno?***

In [17]:
# RESPOSTA 1.3)
medalhistas_brasileiros.groupby(["Season"]).size()

Season
Summer    449
dtype: int64

Os jogos de verão são bem mais populares do que os jogos de inverno no Brasil. Portanto, deste ponto em diante iremos focar apenas nos jogos de verão.

***1.4) Descarte de seu DataFrame os dados dos jogos de inverno.***



In [18]:
# RESPOSTA 1.4)
jogos_verao = atletas[atletas["Season"] != "Winter"].value_counts()
df_jogos_verao = pd.DataFrame(jogos_verao)
df_jogos_verao.head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Unnamed: 9_level_0,Unnamed: 10_level_0,Unnamed: 11_level_0,Unnamed: 12_level_0,Unnamed: 13_level_0,Unnamed: 14_level_0,0
ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal,Unnamed: 15_level_1
135563,Olesya Nikolayevna Zykina,F,23.0,171.0,64.0,Russia,RUS,2004 Summer,2004,Summer,Athina,Athletics,Athletics Women's 4 x 400 metres Relay,Silver,1
48256,Max Hess,M,26.0,165.0,71.0,"Philadelphia Turngemeinde, Philadelphia",USA,1904 Summer,1904,Summer,St. Louis,Gymnastics,Gymnastics Men's Team All-Around,Gold,1
48283,Carl Rupert Hester,M,45.0,182.0,86.0,Great Britain,GBR,2012 Summer,2012,Summer,London,Equestrianism,"Equestrianism Mixed Dressage, Team",Gold,1
48283,Carl Rupert Hester,M,49.0,182.0,86.0,Great Britain,GBR,2016 Summer,2016,Summer,Rio de Janeiro,Equestrianism,"Equestrianism Mixed Dressage, Team",Silver,1
48288,Mihly Hesz (Hess),M,20.0,186.0,81.0,Hungary,HUN,1964 Summer,1964,Summer,Tokyo,Canoeing,"Canoeing Men's Kayak Singles, 1,000 metres",Silver,1


In [19]:
# Participações de jogos em cada cidade (Brasileiros)
verao_medalhistas_jogos_cidade = atletas_brasileiros.groupby(by=["Games"])["City"].value_counts()
df_verao_medalhistas_jogos_cidade = pd.DataFrame(verao_medalhistas_jogos_cidade)
df_verao_medalhistas_jogos_cidade.head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,City
Games,City,Unnamed: 2_level_1
1900 Summer,Paris,3
1920 Summer,Antwerpen,38
1924 Summer,Paris,18
1932 Summer,Los Angeles,67
1936 Summer,Berlin,93


### Atletas do Brasil

Vamos conhecer um pouco melhor nossos atletas. 

***1.5) Descubra a altura e peso médio de nossos medalhistas.***

Imaginamos que diferentes esportes podem beneficiar diferentes tipos físicos, certo?

**1.6) Então refaça a análise anterior, mas obtendo os valores médios por *esporte***.

In [20]:
#RESPOSTA 1.5)
colunas_sport_medal = ["Name","Height","Weight","Sport","Medal"]
medalhista_esporte = medalhistas_brasileiros.filter(items= colunas_sport_medal)
colunas_sport_medal

['Name', 'Height', 'Weight', 'Sport', 'Medal']

In [21]:
#RESPOSTA 1.6)
medalhista_esporte.groupby(["Sport"]).mean()

Unnamed: 0_level_0,Height,Weight
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1
Athletics,181.0,74.576923
Basketball,185.607843,78.478261
Boxing,170.0,64.0
Canoeing,175.0,83.25
Equestrianism,179.666667,75.0
Football,175.80303,69.961832
Gymnastics,162.75,63.75
Judo,176.666667,86.285714
Modern Pentathlon,166.0,55.0
Sailing,181.588235,80.411765


Será que os dados acima influenciaram no interesse geral dos atletas pelo esporte ou realmente impactaram no desempenho deles? Podemos tentar descobrir se há algum tipo de correlação.

Você ainda possui o dataframe original contendo todos os atletas brasileiros, incluindo os sem medalha?

***1.7) Obtenha os valores médios de peso e altura por esporte daquele dataframe e compare-o com os dos medalhistas. Há alguma diferença significativa em algum esporte?***

In [22]:
atletas_brasileiros.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
665,386,Alexandre Abeid,M,22.0,194.0,92.0,Brazil,BRA,1972 Summer,1972,Summer,Munich,Volleyball,Volleyball Men's Volleyball,
666,386,Alexandre Abeid,M,26.0,194.0,92.0,Brazil,BRA,1976 Summer,1976,Summer,Montreal,Volleyball,Volleyball Men's Volleyball,
668,388,Abel Carlos da Silva Braga,M,19.0,190.0,73.0,Brazil,BRA,1972 Summer,1972,Summer,Munich,Football,Football Men's Football,
781,451,Diana Monteiro Abla,F,21.0,175.0,75.0,Brazil,BRA,2016 Summer,2016,Summer,Rio de Janeiro,Water Polo,Water Polo Women's Water Polo,
1005,565,Glauclio Serro Abreu,M,26.0,185.0,75.0,Brazil,BRA,2004 Summer,2004,Summer,Athina,Boxing,Boxing Men's Middleweight,


In [23]:
colunas_selecionadas = ["Name","Height","Weight","Sport","Medal,Sex"]
filtro_atletas_brasileiros= atletas_brasileiros.filter(items= colunas_selecionadas)

In [24]:
filtro_atletas_brasileiros.head()

Unnamed: 0,Name,Height,Weight,Sport
665,Alexandre Abeid,194.0,92.0,Volleyball
666,Alexandre Abeid,194.0,92.0,Volleyball
668,Abel Carlos da Silva Braga,190.0,73.0,Football
781,Diana Monteiro Abla,175.0,75.0,Water Polo
1005,Glauclio Serro Abreu,185.0,75.0,Boxing


In [25]:
#RESPOSTA 1.7)
filtro_atletas_brasileiros.groupby(["Sport"]).mean()

Unnamed: 0_level_0,Height,Weight
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1
Alpine Skiing,176.631579,74.789474
Archery,172.6,71.7
Art Competitions,,
Athletics,176.203463,67.795045
Badminton,175.5,74.0
Basketball,190.911894,85.900474
Biathlon,170.0,55.0
Bobsleigh,182.642857,87.571429
Boxing,171.985075,64.106061
Canoeing,177.791667,77.395833


In [26]:
medalhistas_brasileiros.groupby(["Sport"]).mean().head(5)

Unnamed: 0_level_0,ID,Age,Height,Weight,Year
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Athletics,47442.730769,26.192308,181.0,74.576923,1990.769231
Basketball,53249.982759,25.206897,185.607843,78.478261,1974.482759
Boxing,24748.8,24.6,170.0,64.0,2004.0
Canoeing,101010.75,22.75,175.0,83.25,2016.0
Equestrianism,55699.111111,32.222222,179.666667,75.0,1998.666667


In [27]:
#Continuação da resposta 1.7)

In [28]:
filtro_medalhistas = medalhista_esporte.groupby(["Sport"]).mean()
filtro_atletasBrasileiros = filtro_atletas_brasileiros.groupby(["Sport"]).mean()
tabela_comparacao= pd.concat([filtro_medalhistas,filtro_atletasBrasileiros], axis=1, keys= ["Medalhistas", "Geral"])
tabela_comparacao_limpa = tabela_comparacao.dropna(thresh=3)
tabela_comparacao_limpa["Comparação Altura %"]= tabela_comparacao_limpa["Medalhistas"]["Height"]/tabela_comparacao_limpa["Geral"]["Height"]
tabela_comparacao_limpa["Comparação Peso %"]= tabela_comparacao_limpa["Medalhistas"]["Weight"]/tabela_comparacao_limpa["Geral"]["Weight"]
tabela_comparacao_limpa.head(5)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tabela_comparacao_limpa["Comparação Altura %"]= tabela_comparacao_limpa["Medalhistas"]["Height"]/tabela_comparacao_limpa["Geral"]["Height"]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tabela_comparacao_limpa["Comparação Peso %"]= tabela_comparacao_limpa["Medalhistas"]["Weight"]/tabela_comparacao_limpa["Geral"]["Weight"]


Unnamed: 0_level_0,Medalhistas,Medalhistas,Geral,Geral,Comparação Altura %,Comparação Peso %
Unnamed: 0_level_1,Height,Weight,Height,Weight,Unnamed: 5_level_1,Unnamed: 6_level_1
Athletics,181.0,74.576923,176.203463,67.795045,1.027222,1.100035
Basketball,185.607843,78.478261,190.911894,85.900474,0.972217,0.913595
Boxing,170.0,64.0,171.985075,64.106061,0.988458,0.998346
Canoeing,175.0,83.25,177.791667,77.395833,0.984298,1.075639
Equestrianism,179.666667,75.0,177.42953,72.313869,1.012609,1.037145


Existe um detalhe importante passando batido até agora em nossa análise: as categorias esportivas costumam ser divididas por gênero justamente por conta de diferenças físicas entre homens e mulheres que poderiam influenciar no desempenho. 

***1.8)Compare a altura e peso médios de atletas brasileiros por esporte segmentado por sexo.***

In [29]:
colunas_selecionadas3= ["Sport","Height","Weight","Sex"]
todos_atletas_brasileiros= atletas_brasileiros.filter(items=colunas_selecionadas3)
todos_atletas_brasileiros.head(5)

Unnamed: 0,Sport,Height,Weight,Sex
665,Volleyball,194.0,92.0,M
666,Volleyball,194.0,92.0,M
668,Football,190.0,73.0,M
781,Water Polo,175.0,75.0,F
1005,Boxing,185.0,75.0,M


In [30]:
brasileiro_sport_F = todos_atletas_brasileiros[todos_atletas_brasileiros['Sex']=='F']
brasileiro_sport_M = todos_atletas_brasileiros[todos_atletas_brasileiros['Sex']=='M']

In [31]:
brasileiro_sport_F.head(5)

Unnamed: 0,Sport,Height,Weight,Sex
781,Water Polo,175.0,75.0,F
1668,Volleyball,187.0,65.0,F
1669,Volleyball,187.0,65.0,F
1855,Basketball,180.0,61.0,F
1856,Basketball,180.0,61.0,F


In [32]:
brasileiro_sport_F.groupby(["Sport"]).mean().head(5)

Unnamed: 0_level_0,Height,Weight
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1
Alpine Skiing,160.333333,52.333333
Archery,162.857143,59.714286
Athletics,167.492958,59.809859
Badminton,168.0,70.0
Basketball,182.865854,73.381579


In [33]:
#RESPOSTA 1.8)
brasileiro_sport_M.groupby(["Sport"]).mean().head(5)

Unnamed: 0_level_0,Height,Weight
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1
Alpine Skiing,184.153846,85.153846
Archery,177.846154,78.153846
Art Competitions,,
Athletics,180.06875,71.549669
Badminton,183.0,78.0


***1.9)Qual foi (ou quais foram) o maior medalhista brasileiro em quantidade total de medalhas?***

In [34]:
colunas_selecionadas2 = ["Name","Medal"]
filtro_medalhistas_brasileiros= medalhistas_brasileiros.filter(items=colunas_selecionadas2)

In [35]:
#RESPOSTA 1.9)
filtro_medalhistas_brasileiros.groupby(["Name"]).count().sort_values(by="Medal", ascending= False).head()

Unnamed: 0_level_0,Medal
Name,Unnamed: 1_level_1
Robert Scheidt,5
Torben Schmidt Grael,5
"Srgio ""Escadinha"" Dutra dos Santos",4
Gustavo Frana Borges,4
Rodrigo de Paula Pessoa,3


***1.10) E o(s) maior(es) em quantidade de medalhas de ouro?***

In [36]:
medalha_ouro_brasil= filtro_medalhistas_brasileiros[filtro_medalhistas_brasileiros['Medal']=='Gold']

In [37]:
#RESPOSTA 1.10)
medalha_ouro_brasil.groupby(['Name']).count().sort_values(by="Medal", ascending= False).head(5)

Unnamed: 0_level_0,Medal
Name,Unnamed: 1_level_1
Marcelo Bastos Ferreira,2
Thasa Daher de Menezes,2
Adhemar Ferreira da Silva,2
Maurcio Camargo Lima,2
Paula Renata Marques Pequeno,2


**1.11)Qual esporte rendeu mais medalhas de ouro para o Brasil?**

**1.12)E qual rendeu mais medalhas no total?**

**DICA:** tome muito cuidado nessa análise: cada **evento esportivo** rende 1 medalha. Por exemplo, quando a equipe de futebol vence, isso é considerado 1 medalha, mesmo tendo cerca de 20 atletas medalhistas na equipe. 

In [38]:
colunas_selecionadas3 = ["Sport","Games","Event","Medal"]
medalhas_evento_brasil= medalhistas_brasileiros.filter(items=colunas_selecionadas3)

In [39]:
medalhas_evento_brasil=medalhas_evento_brasil.drop_duplicates()

In [40]:
#RESPOSTA 1.11
medalhas_sport_ouro_brasil=medalhas_evento_brasil[medalhas_evento_brasil["Medal"]=="Gold"]
medalhas_sport_ouro_brasil.groupby(["Sport"]).count().sort_values(by="Medal", ascending= False).filter(items= ["Medal"]).head(5)

Unnamed: 0_level_0,Medal
Sport,Unnamed: 1_level_1
Sailing,7
Athletics,5
Volleyball,5
Judo,4
Boxing,1


In [41]:
#RESPOSTA 1.12
medalhas_evento_brasil.groupby(["Sport"]).count().sort_values(by="Medal", ascending= False).filter(items= ["Medal"]).head(5)

Unnamed: 0_level_0,Medal
Sport,Unnamed: 1_level_1
Judo,22
Sailing,18
Athletics,16
Swimming,14
Volleyball,10


Cada "categoria" dentro de um esporte é considerado um evento. Por exemplo, dentro de "atletismo", temos uma competição de 100m masculina, uma de 100m feminino, um revezamento 4 x 100m masculino, um revezamento 4 x 100m feminino, uma competição de 400m masculino, uma de 400m feminino, uma maratona masculina, uma maratona feminina, e assim sucessivamente.

***1.13) Sabendo disso, qual evento esportivo mais rendeu medalhas de ouro para o Brasil?*** 

***1.14) E total de medalhas?***

In [42]:
#RESPOSTA 1.13)
medalhas_sport_ouro_brasil.groupby(["Event"]).count().sort_values(by="Medal", ascending= False).filter(items= ["Medal"]).head(5)

Unnamed: 0_level_0,Medal
Event,Unnamed: 1_level_1
Volleyball Men's Volleyball,3
Volleyball Women's Volleyball,2
Athletics Men's Triple Jump,2
Sailing Mixed One Person Dinghy,2
Sailing Men's Two Person Keelboat,1


In [43]:
#RESPOSTA 1.14)
medalhas_evento_brasil.groupby(["Event"]).count().sort_values(by="Medal", ascending= False).filter(items= ["Medal"]).head(5)

Unnamed: 0_level_0,Medal
Event,Unnamed: 1_level_1
Athletics Men's Triple Jump,6
Volleyball Men's Volleyball,6
Football Men's Football,6
Volleyball Women's Volleyball,4
Judo Men's Lightweight,4


***Para finalizar sobre o Brasil: obtenha o total de medalhas de ouro(1.15), prata(1.16), bronze(1.17) e total por ano.(1.18)***

In [44]:
colunas_selecionadas4=["Year","Medal"]
contador_medalhas= medalhistas_brasileiros.filter(items=colunas_selecionadas4)

In [45]:
#RESPOSTA 1.18)
contador_medalhas.groupby(["Year"]).count().head(5)

Unnamed: 0_level_0,Medal
Year,Unnamed: 1_level_1
1920,7
1948,10
1952,3
1956,1
1960,13


In [46]:
#RESPOSTA 1.15)
medalha_ouro_contador= contador_medalhas[contador_medalhas["Medal"]=="Gold"].groupby(["Year"]).count()
medalha_ouro_contador.rename(columns={"Medal":"Medalhas de Ouro"}).head(5)

Unnamed: 0_level_0,Medalhas de Ouro
Year,Unnamed: 1_level_1
1920,1
1952,1
1956,1
1980,4
1984,1


In [47]:
#RESPOSTA 1.16)
medalha_prata_contador= contador_medalhas[contador_medalhas["Medal"]=="Silver"].groupby(["Year"]).count()
medalha_prata_contador.rename(columns={"Medal":"Medalhas de Prata"}).head(5)

Unnamed: 0_level_0,Medalhas de Prata
Year,Unnamed: 1_level_1
1920,1
1968,1
1984,33
1988,17
1992,1


In [48]:
#RESPOSTA 1.17)
medalha_bronze_contador= contador_medalhas[contador_medalhas["Medal"]=="Bronze"].groupby(["Year"]).count()
medalha_bronze_contador.rename(columns={"Medal":"Medalhas de Bronze"}).head(5)

Unnamed: 0_level_0,Medalhas de Bronze
Year,Unnamed: 1_level_1
1920,5
1948,10
1952,2
1960,13
1964,12


## 2. O mundo nos jogos de verão

Vamos agora analisar um pouquinho do que aconteceu nas Olimpíadas de verão em todo o mundo.

***2.1) Retome o DataFrame original e descarte as informações sobre os jogos de inverno.***

In [49]:
atletas.head(1)

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,


In [50]:
jogos_verao = atletas[atletas["Season"] != "Winter"]  
jogos_verao.head(5)

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
26,8,"Cornelia ""Cor"" Aalten (-Strannood)",F,18.0,168.0,,Netherlands,NED,1932 Summer,1932,Summer,Los Angeles,Athletics,Athletics Women's 100 metres,


In [51]:
# Verificando se a exclusão foi feita na coluna 'Season'
jogos_verao["Season"].value_counts()

Summer    222552
Name: Season, dtype: int64

In [52]:
# Verificando se a exclusão foi feita na coluna 'Games'
jogos_verao["Games"].value_counts().head(5)

2000 Summer    13821
1996 Summer    13780
2016 Summer    13688
2008 Summer    13602
2004 Summer    13443
Name: Games, dtype: int64

Obtenha a lista de todos os esportes já disputados nas olimpíadas de verão.

In [53]:
pd.DataFrame(jogos_verao["Sport"]).head(5)

Unnamed: 0,Sport
0,Basketball
1,Judo
2,Football
3,Tug-Of-War
26,Athletics


Obtenha a lista de todas as modalidades esportivas já disputadas nas olimpíadas de verão.

In [54]:
pd.DataFrame(jogos_verao["Event"]).head(5)

Unnamed: 0,Event
0,Basketball Men's Basketball
1,Judo Men's Extra-Lightweight
2,Football Men's Football
3,Tug-Of-War Men's Tug-Of-War
26,Athletics Women's 100 metres


Obtenha a lista de todos os países que já disputaram olimpíadas.

In [55]:
# Excluí da coluna 'Team' os valores duplicados
valores_nao_duplicados = jogos_verao.drop_duplicates(subset=["Team"])
valores_nao_duplicados.head(5)

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
26,8,"Cornelia ""Cor"" Aalten (-Strannood)",F,18.0,168.0,,Netherlands,NED,1932 Summer,1932,Summer,Los Angeles,Athletics,Athletics Women's 100 metres,
29,10,"Einar Ferdinand ""Einari"" Aalto",M,26.0,,,Finland,FIN,1952 Summer,1952,Summer,Helsinki,Swimming,Swimming Men's 400 metres Freestyle,


In [56]:
lista_paises = valores_nao_duplicados["Team"]
lista_paises.head(10)

0               China
2             Denmark
3      Denmark/Sweden
26        Netherlands
29            Finland
79             Norway
80            Romania
94            Estonia
98             France
117            Taifun
Name: Team, dtype: object

Qual atleta foi o maior medalhista (em medalhas totais) da história das olimpíadas de verão?

In [57]:
atletas.groupby(["Name"]).count().sort_values(by="Medal", ascending= False).filter(items= ["Medal"]).head(5)

Unnamed: 0_level_0,Medal
Name,Unnamed: 1_level_1
"Michael Fred Phelps, II",28
Larysa Semenivna Latynina (Diriy-),18
Nikolay Yefimovich Andrianov,15
Takashi Ono,13
Borys Anfiyanovych Shakhlin,13


Qual atleta foi o maior medalhista de ouro da história das olimpíadas de verão?

In [58]:
grupo_de_atletas = atletas[atletas['Medal']=='Gold'].copy()
maior_medalhista_historia = grupo_de_atletas.groupby(['Name']).count().sort_values(by='Medal', ascending = False)
maior_medalhista_historia.head(5)                                                                           

Unnamed: 0_level_0,ID,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
"Michael Fred Phelps, II",23,23,23,23,23,23,23,23,23,23,23,23,23,23
"Raymond Clarence ""Ray"" Ewry",10,10,10,10,10,10,10,10,10,10,10,10,10,10
Paavo Johannes Nurmi,9,9,9,9,9,9,9,9,9,9,9,9,9,9
Larysa Semenivna Latynina (Diriy-),9,9,9,9,9,9,9,9,9,9,9,9,9,9
Mark Andrew Spitz,9,9,9,9,9,9,9,9,9,9,9,9,9,9


Qual país foi o maior medalhista de ouro da história das olimpíadas de verão? Lembre-se da questão do evento esportivo, para não considerar múltiplas medalhas para um mesmo evento (ex: uma equipe de futebol fazendo parecer que mais de 20 medalhas foram distribuídas).

In [59]:
grupo_de_atletas = atletas[atletas['Medal']=='Gold'].copy()
filtros = ["Team", "Season", "Medal", "Event"]
grupo_de_atletas.drop_duplicates(subset=filtros, inplace=True)
maior_pais_ouro = grupo_de_atletas.groupby(['Team']).count().sort_values(by='Medal', ascending = False)
maior_pais_ouro.head(5)

Unnamed: 0_level_0,ID,Name,Sex,Age,Height,Weight,NOC,Games,Year,Season,City,Sport,Event,Medal
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
United States,295,295,295,295,239,222,295,295,295,295,295,295,295,295
Soviet Union,182,182,182,182,166,168,182,182,182,182,182,182,182,182
Germany,175,175,175,175,120,120,175,175,175,175,175,175,175,175
France,156,156,156,155,93,89,156,156,156,156,156,156,156,156
Great Britain,154,154,154,153,95,93,154,154,154,154,154,154,154,154


Qual país foi o maior medalhista em medalhas totais na história das olimpíadas de verão?

In [60]:
grupo_de_atletas = atletas.copy()
filtros = ["Team", "Season", "Medal", "Event"]
grupo_de_atletas.drop_duplicates(subset=filtros, inplace=True)
maior_pais_total = grupo_de_atletas.groupby(['Team']).count().sort_values(by='Medal', ascending = False)
maior_pais_total.head(5)

Unnamed: 0_level_0,ID,Name,Sex,Age,Height,Weight,NOC,Games,Year,Season,City,Sport,Event,Medal
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
United States,1458,1458,1458,1447,1164,1105,1458,1458,1458,1458,1458,1458,1458,895
Germany,1097,1097,1097,1075,838,824,1097,1097,1097,1097,1097,1097,1097,592
Soviet Union,810,810,810,797,715,712,810,810,810,810,810,810,810,535
France,1100,1100,1100,1031,759,720,1100,1100,1100,1100,1100,1100,1100,531
Great Britain,1041,1041,1041,983,700,689,1041,1041,1041,1041,1041,1041,1041,518


Obtenha o total de medalhas de ouro, prata e total por edição das Olimpíadas de verão. Lembre-se da questão do evento esportivo.

In [61]:
jogos_verao_filtrado = jogos_verao.filter(items = ["Medal", "Games", "Team", "Event"])
jogos_verao_filtrado.drop_duplicates(inplace=True)
jogos_verao_filtrado.dropna(inplace=True)
outro_prata = jogos_verao_filtrado[jogos_verao_filtrado["Medal"] != "Bronze"]
pd.DataFrame(outro_prata.groupby(by=["Games"])["Medal"].value_counts()).head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,Medal
Games,Medal,Unnamed: 2_level_1
1896 Summer,Gold,43
1896 Summer,Silver,41
1900 Summer,Gold,95
1900 Summer,Silver,93
1904 Summer,Gold,96


In [62]:
jogos_verao_filtrado = jogos_verao.filter(items = ["Medal", "Games", "Team", "Event"])
jogos_verao_filtrado.drop_duplicates(inplace=True)
jogos_verao_filtrado.dropna(inplace=True)
outro_prata_total = jogos_verao_filtrado
pd.DataFrame(outro_prata_total.groupby(by=["Games"]).count()).head(5)

Unnamed: 0_level_0,Medal,Team,Event
Games,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1896 Summer,118,118,118
1900 Summer,280,280,280
1904 Summer,277,277,277
1906 Summer,222,222,222
1908 Summer,322,322,322


## 3. Brasil vs Mundo

Para finalizar, vamos fazer algumas comparações entre Brasil e mundo. Qual o ranking do Brasil em cada edição das olimpíadas? Lembrando que o ranking é ordenado por medalhas de ouro.

In [63]:
atletas_filtro = atletas.filter(items=["Team", "Games", "Medal", "Event"]).copy()
atletas_filtro = atletas_filtro.dropna()
atletas_filtro = atletas_filtro.drop_duplicates()
df_atletas_filtro = pd.DataFrame(atletas_filtro)

df_atletas_filtro_ouro = atletas_filtro[atletas_filtro["Medal"] == "Gold"]
df_atletas_filtro_prata = atletas_filtro[atletas_filtro["Medal"] == "Silver"]
df_atletas_filtro_bronze = atletas_filtro[atletas_filtro["Medal"] == "Bronze"]

df_atletas_filtro_ouro = df_atletas_filtro_ouro.groupby(by=["Games", "Team"])["Medal"].count()
df_atletas_filtro_prata = df_atletas_filtro_prata.groupby(by=["Games", "Team"])["Medal"].count()
df_atletas_filtro_bronze = df_atletas_filtro_bronze.groupby(by=["Games", "Team"])["Medal"].count()

df_atletas_filtro_ouro = pd.DataFrame(df_atletas_filtro_ouro)
df_atletas_filtro_ouro.rename(columns={"Medal": "Ouro"}, inplace=True)


df_atletas_filtro_ouro["Prata"] = df_atletas_filtro_prata
df_atletas_filtro_ouro["Bronze"] = df_atletas_filtro_bronze

df_atletas_filtro_ouro.fillna(0, inplace=True)

ranking_geral = df_atletas_filtro_ouro.sort_values(["Games","Ouro", "Prata", "Bronze"], ascending=False).groupby(by="Games").cumcount()

df_ranking_geral = pd.DataFrame(ranking_geral)
df_ranking_geral = df_ranking_geral.reset_index()

df_ranking_brasil = df_ranking_geral[df_ranking_geral["Team"] == "Brazil"]
df_ranking_brasil = df_ranking_brasil.rename(columns={0: "Ranking"})

df_ranking_brasil['Ranking'] = df_ranking_brasil['Ranking'] -1

df_ranking_brasil

Unnamed: 0,Games,Team,Ranking
13,2016 Summer,Brazil,12
111,2012 Summer,Brazil,20
194,2008 Summer,Brazil,21
273,2004 Summer,Brazil,17
444,1996 Summer,Brazil,27
534,1992 Summer,Brazil,23
589,1988 Summer,Brazil,22
631,1984 Summer,Brazil,17
667,1980 Summer,Brazil,15
918,1956 Summer,Brazil,21


Compare o maior medalhista em ouros do Brasil com o maior medalhista em ouros do mundo.

In [92]:
# MAIOR MEDALHISTA DE OURO DO BRASIL
maior_medalhista_ouro_brasil = atletas[(atletas["Team"] == "Brazil") & (atletas["Medal"] == "Gold")]
maior_medalhista_ouro_brasil = maior_medalhista_ouro_brasil.groupby(by=["Name", "Height", "Weight", "Sport"])["Medal"].count()
df_maior_medalhista_ouro_brasil = pd.DataFrame(maior_medalhista_ouro_brasil).sort_values(by=['Medal'], ascending=False).head(1)
df_maior_medalhista_ouro_brasil

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Medal
Name,Height,Weight,Sport,Unnamed: 4_level_1
Marcelo Bastos Ferreira,181.0,104.0,Sailing,2


In [91]:
# MAIOR MEDALHISTA DE OURO DO MUNDO
maior_medalhista_ouro_mundo = atletas[atletas["Medal"] == "Gold"]
maior_medalhista_ouro_mundo = maior_medalhista_ouro_mundo.groupby(by=["Name", "Height", "Weight", "Sport"])["Medal"].count()
df_maior_medalhista_ouro_mundo = pd.DataFrame(maior_medalhista_ouro_mundo).sort_values(by=['Medal'], ascending=False).head(1)
df_maior_medalhista_ouro_mundo

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Medal
Name,Height,Weight,Sport,Unnamed: 4_level_1
"Michael Fred Phelps, II",193.0,91.0,Swimming,23


In [90]:
# TABELA COMPARAÇÃO
df_tabela_comparacao_ouro = pd.concat([df_maior_medalhista_ouro_mundo, df_maior_medalhista_ouro_brasil], axis=1)  
df_tabela_comparacao_ouro.head(50)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Medal,Medal
Name,Height,Weight,Sport,Unnamed: 4_level_1,Unnamed: 5_level_1
Marcelo Bastos Ferreira,181.0,104.0,Sailing,,2.0
"Michael Fred Phelps, II",193.0,91.0,Swimming,23.0,


In [89]:
# Conferindo medalhas de Ouro de Michael Fred Phelps, II - Dados diferentes do Google
df = atletas[(atletas["Name"] == "Michael Fred Phelps, II") & (atletas["Medal"] ==  "Gold")].value_counts()
df = pd.DataFrame(df)
df.sum()

0    23
dtype: int64

Compare o maior medalhista em total de medalhas do Brasil com o maior medalhista em total de medalhas do mundo.

In [88]:
# MAIOR MEDALHISTA DO BRASIL NO TOTAL DE MEDALHAS 
total_medalhas_brasil = atletas[atletas["Team"] == "Brazil"]
total_medalhas_brasil = total_medalhas_brasil.groupby(by=["Name", "Height", "Weight", "Sport"])["Medal"].count()
df_total_medalhas_brasil = pd.DataFrame(total_medalhas_brasil).sort_values(by=['Medal'], ascending=False).head(1)
df_total_medalhas_brasil

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Medal
Name,Height,Weight,Sport,Unnamed: 4_level_1
Torben Schmidt Grael,185.0,88.0,Sailing,5


In [87]:
# MAIOR MEDALHISTA DO MUNDO NO TOTAL DE MEDALHAS 
total_medalhas_mundo  = atletas.groupby(by=["Name", "Height", "Weight", "Sport"])["Medal"].count()
df_total_medalhas_mundo  = pd.DataFrame(total_medalhas_mundo).sort_values(by=['Medal'], ascending=False).head(1)
df_total_medalhas_mundo 

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Medal
Name,Height,Weight,Sport,Unnamed: 4_level_1
"Michael Fred Phelps, II",193.0,91.0,Swimming,28


In [86]:
# TABELA COMPARAÇÃO
tabela_comparacao_mundo = pd.concat([df_total_medalhas_mundo, df_total_medalhas_brasil], axis=1 )
tabela_comparacao_mundo

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Medal,Medal
Name,Height,Weight,Sport,Unnamed: 4_level_1,Unnamed: 5_level_1
"Michael Fred Phelps, II",193.0,91.0,Swimming,28.0,
Torben Schmidt Grael,185.0,88.0,Sailing,,5.0


Compare o maior medalhista em ouros do Brasil com o maior medalhista do mundo no mesmo esporte.

In [85]:
# MAIOR MEDALHISTA DE OURO DO BRASIL
maior_medalhista_ouro_brasil = atletas[(atletas["Team"] == "Brazil") & (atletas["Medal"] == "Gold")]
maior_medalhista_ouro_brasil = maior_medalhista_ouro_brasil.groupby(by=["Name", "Height", "Weight", "Sport"])["Medal"].count()
df_maior_medalhista_ouro_brasil = pd.DataFrame(maior_medalhista_ouro_brasil).sort_values(by=['Medal'], ascending=False).head(1)
df_maior_medalhista_ouro_brasil

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Medal
Name,Height,Weight,Sport,Unnamed: 4_level_1
Marcelo Bastos Ferreira,181.0,104.0,Sailing,2


In [84]:
# MAIOR MEDALHISTA DE OURO DO MUNDO NO MESMO ESPORTE
maior_medalhista_ouro_mundo_esporte = atletas[(atletas["Medal"] == "Gold") & (atletas["Sport"] == "Sailing")]
maior_medalhista_ouro_mundo_esporte = maior_medalhista_ouro_mundo_esporte.groupby(by=["Name", "Height", "Weight", "Sport"])["Medal"].count()
df_maior_medalhista_ouro_mundo_esporte = pd.DataFrame(maior_medalhista_ouro_mundo_esporte).sort_values(by=['Medal'], ascending=False).head(1)
df_maior_medalhista_ouro_mundo_esporte

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Medal
Name,Height,Weight,Sport,Unnamed: 4_level_1
"Charles Benedict ""Ben"" Ainslie",183.0,90.0,Sailing,4


In [83]:
# TABELA COMPARAÇÃO
tabela_comparacao_medalhas_ouro = pd.concat([df_maior_medalhista_ouro_mundo_esporte, df_maior_medalhista_ouro_brasil], axis=1)
tabela_comparacao_medalhas_ouro

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Medal,Medal
Name,Height,Weight,Sport,Unnamed: 4_level_1,Unnamed: 5_level_1
"Charles Benedict ""Ben"" Ainslie",183.0,90.0,Sailing,4.0,
Marcelo Bastos Ferreira,181.0,104.0,Sailing,,2.0


Compare o maior medalhista em total de medalhas do Brasil com o maior medalhista do mundo no mesmo esporte.

In [82]:
# MAIOR MEDALHISTA DO BRASIL NO TOTAL DE MEDALHAS 
total_medalhas_brasil = atletas[atletas["Team"] == "Brazil"]
total_medalhas_brasil = total_medalhas_brasil.groupby(by=["Name", "Height", "Weight", "Sport"])["Medal"].count()
df_total_medalhas_brasil = pd.DataFrame(total_medalhas_brasil).sort_values(by=['Medal'], ascending=False).head(1)
df_total_medalhas_brasil

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Medal
Name,Height,Weight,Sport,Unnamed: 4_level_1
Torben Schmidt Grael,185.0,88.0,Sailing,5


In [81]:
# MAIOR MEDALHISTA DO MUNDO NO TOTAL DE MEDALHAS NO MESMO ESPORTE
total_medalhas_mundo_mesmoEsporte = atletas[atletas["Sport"] == "Sailing"]
total_medalhas_mundo_mesmoEsporte = total_medalhas_mundo_mesmoEsporte.groupby(by=["Name", "Height", "Weight", "Sport"])["Medal"].count()
df_total_medalhas_mundo_mesmoEsporte  = pd.DataFrame(total_medalhas_mundo_mesmoEsporte).sort_values(by=['Medal'], ascending=False).head(1)
df_total_medalhas_mundo_mesmoEsporte

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Medal
Name,Height,Weight,Sport,Unnamed: 4_level_1
Robert Scheidt,188.0,76.0,Sailing,5


In [80]:
# TABELA COMPARAÇÃO
tabela_comparacao_medalhas_ouro_total = pd.concat([df_total_medalhas_mundo_mesmoEsporte, df_total_medalhas_brasil], axis=1)
tabela_comparacao_medalhas_ouro_total

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Medal,Medal
Name,Height,Weight,Sport,Unnamed: 4_level_1,Unnamed: 5_level_1
Robert Scheidt,188.0,76.0,Sailing,5.0,
Torben Schmidt Grael,185.0,88.0,Sailing,,5.0


Calcule o percentual de medalhas de ouro, prata e bronze que o Brasil ganhou em cada olimpíada.

In [98]:
total_medalhas = percentual_medalhas_bronze_brasil + percentual_medalhas_prata_brasil + percentual_medalhas_ouro_brasil
print(f"Temos um total de {total_medalhas} medalhas")

Temos um total de 449 medalhas


In [99]:
percentual_medalhas_bronze_brasil = atletas[(atletas["Team"] == "Brazil") & (atletas["Medal"] == "Bronze")]
percentual_medalhas_bronze_brasil = percentual_medalhas_bronze_brasil.groupby(by=["Medal"])["Medal"].count().sum()
percentual_bronze = (percentual_medalhas_bronze_brasil/total_medalhas ) * 100
print(f"{percentual_medalhas_bronze_brasil} medalhas de bronze, total de {percentual_bronze:.2f} % ")

185 medalhas de bronze, total de 41.20 % 


In [100]:
percentual_medalhas_prata_brasil = atletas[(atletas["Team"] == "Brazil") & (atletas["Medal"] == "Silver")]
percentual_medalhas_prata_brasil = percentual_medalhas_prata_brasil.groupby(by=["Medal"])["Medal"].count().sum()
percentual_prata = (percentual_medalhas_prata_brasil/total_medalhas) * 100
print(f"{percentual_medalhas_prata_brasil} medalhas de prata, total de {percentual_prata:.2f} % ")

161 medalhas de prata, total de 35.86 % 


In [101]:
percentual_medalhas_ouro_brasil = atletas[(atletas["Team"] == "Brazil") & (atletas["Medal"] == "Gold")]
percentual_medalhas_ouro_brasil = percentual_medalhas_ouro_brasil.groupby(by=["Medal"])["Medal"].count().sum()
percentual_ouro = (percentual_medalhas_ouro_brasil/total_medalhas) * 100
print(f"{percentual_medalhas_ouro_brasil} medalhas de ouro, total de {percentual_ouro:.2f} % ")

103 medalhas de ouro, total de 22.94 % 


In [102]:
# TABELA FINAL
pd.DataFrame(data = [percentual_ouro, percentual_prata, percentual_bronze], index=["Ouro", "Prata", "bronze"], columns=["Porcentagem"])


Unnamed: 0,Porcentagem
Ouro,22.939866
Prata,35.857461
bronze,41.202673
