# História das Olimpíadas  
_(créditos ao prof. Rafael Moreira)_

Após um ano de atraso por conta da pandemia de Covid-19, as atenções do mundo todo se voltaram para Tóquio, no Japão, para acompanhar mais uma edição das Olimpíadas.

No Brasil não foi diferente, e muitos se uniram para torcer por nossos atletas em diferentes competições, tanto em esportes onde o Brasil já possui tradição quanto em novos esportes.

Vamos aproveitar o clima para estudar um pouco das Olimpíadas! Utilizaremos um _dataset_ com 120 anos de dados históricos das Olimpíadas, cobrindo desde os jogos de Atenas 1896 até Rio 2016. 

Faça o download do _dataset_ em https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results e carregue o arquivo ```athlete_events.csv``` para um DataFrame utilizando Pandas. Aproveite para explorar seu DataFrame e se familiarizar com a sua estrutura. 

OBS: Fique à vontade para acrescentar mais células Python conforme necessário em qualquer etapa do exercício.

## 1. O Brasil nas Olimpíadas

Vamos começar estudando o desempenho do nossos próprio país. Gere um DataFrame novo contendo apenas as informações sobre atletas brasileiros.

In [3]:
import pandas as pd
import numpy as np

In [4]:
df_atletas = pd.read_csv("./dados/athlete_events.csv")
df_atletas.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
4,5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,


In [5]:
df_atletas_bra = df_atletas[df_atletas["NOC"] == "BRA"]
df_atletas_bra.head(2)

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
665,386,Alexandre Abeid,M,22.0,194.0,92.0,Brazil,BRA,1972 Summer,1972,Summer,Munich,Volleyball,Volleyball Men's Volleyball,
666,386,Alexandre Abeid,M,26.0,194.0,92.0,Brazil,BRA,1976 Summer,1976,Summer,Montreal,Volleyball,Volleyball Men's Volleyball,


### Medalhistas

Vamos focar um pouco nos casos de sucesso do Brasil. Use o seu DataFrame anterior para filtrar apenas informações sobre **medalhistas** brasileiros. 

**DICA:** observe como a coluna ```Medal``` é representada quando o atleta não ganhou medalha.

In [6]:
df_atletas_medal = df_atletas_bra[df_atletas_bra["Medal"].notna()]
df_atletas_medal.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
1651,918,Ademir Roque Kaefer,M,24.0,179.0,74.0,Brazil,BRA,1984 Summer,1984,Summer,Los Angeles,Football,Football Men's Football,Silver
1652,918,Ademir Roque Kaefer,M,28.0,179.0,74.0,Brazil,BRA,1988 Summer,1988,Summer,Seoul,Football,Football Men's Football,Silver
1668,925,Adenzia Aparecida Ferreira da Silva,F,25.0,187.0,65.0,Brazil,BRA,2012 Summer,2012,Summer,London,Volleyball,Volleyball Women's Volleyball,Gold
1733,966,Daniel Adler,M,26.0,180.0,72.0,Brazil,BRA,1984 Summer,1984,Summer,Los Angeles,Sailing,Sailing Mixed Three Person Keelboat,Silver
1856,1020,Adriana Aparecida dos Santos,F,25.0,180.0,61.0,Brazil,BRA,1996 Summer,1996,Summer,Atlanta,Basketball,Basketball Women's Basketball,Silver


### Verão vs Inverno

Você deve ter notado que temos duas categorias distintas de jogos olímpicos, representados pela estação: temos os jogos de verão e os jogos de inverno, que ocorrem de maneira intercalada.

Agora que já conhecemos os medalhistas brasileiros, resposta: quantos atletas brasileiros receberam medalha nos jogos de verão e quantos receberam nos jogos de inverno?

In [7]:
df_atletas_medal["Season"].value_counts()

Summer    475
Name: Season, dtype: int64

In [8]:
df_atletas_bra[df_atletas_bra["Season"] == "Winter"]["Medal"].sum()

0

Os jogos de verão são bem mais populares do que os jogos de inverno no Brasil. Portanto, deste ponto em diante iremos focar apenas nos jogos de verão. Descarte de seu DataFrame os dados dos jogos de inverno.



In [9]:
index_name = df_atletas_bra[df_atletas_bra["Season"] == "Winter"].index

df_atletas_bra.drop(index_name, inplace=True)

df_atletas_bra["Season"].value_counts()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


Summer    3784
Name: Season, dtype: int64

### Atletas do Brasil

Vamos conhecer um pouco melhor nossos atletas. Descubra a altura e peso médio de nossos medalhistas.

Imaginamos que diferentes esportes podem beneficiar diferentes tipos físicos, certo? Então refaça a análise anterior, mas obtendo os valores médios **por esporte**.

In [10]:
altura_media = df_atletas_medal["Height"].mean()

peso_medio = df_atletas_medal["Weight"].mean()
print(altura_media)
print(peso_medio)

182.4945295404814
76.7069351230425


In [11]:
df_atletas_medal.head(2)

media_esporte_medal = df_atletas_medal.groupby(by=["Sport"])[["Height", "Weight"]].mean()
media_esporte_medal.rename(columns={
    "Height": "Height Medal",
    "Weight": "Weight Medal"
}, inplace=True)
media_esporte_medal

Unnamed: 0_level_0,Height Medal,Weight Medal
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1
Athletics,181.0,74.576923
Basketball,185.607843,78.478261
Beach Volleyball,184.88,78.16
Boxing,170.0,64.0
Canoeing,175.0,83.25
Equestrianism,179.666667,75.0
Football,175.80303,69.961832
Gymnastics,162.75,63.75
Judo,176.666667,86.285714
Modern Pentathlon,166.0,55.0


Será que os dados acima influenciaram no interesse geral dos atletas pelo esporte ou realmente impactaram no desempenho deles? Podemos tentar descobrir se há algum tipo de correlação.

Você ainda possui o dataframe original contendo todos os atletas brasileiros, incluindo os sem medalha? Obtenha os valores médios de peso e altura por esporte daquele dataframe e compare-o com os dos medalhistas. Há alguma diferença significativa em algum esporte?

In [12]:
media_esporte_total = df_atletas_bra.groupby(by=["Sport"])[["Height", "Weight"]].mean()

media_esporte_total.rename(columns={
    "Height": "Height Total",
    "Weight": "Weight Total"
}, inplace=True)

media_esporte_total

Unnamed: 0_level_0,Height Total,Weight Total
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1
Archery,172.6,71.7
Art Competitions,,
Athletics,176.203463,67.795045
Badminton,175.5,74.0
Basketball,190.911894,85.900474
Beach Volleyball,185.702128,78.617021
Boxing,171.985075,64.106061
Canoeing,177.791667,77.395833
Cycling,174.235955,66.870588
Diving,167.444444,64.970588


In [13]:
comparacao = pd.concat([media_esporte_medal, media_esporte_total], axis=1, join="inner")
comparacao.round()

Unnamed: 0_level_0,Height Medal,Weight Medal,Height Total,Weight Total
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Athletics,181.0,75.0,176.0,68.0
Basketball,186.0,78.0,191.0,86.0
Beach Volleyball,185.0,78.0,186.0,79.0
Boxing,170.0,64.0,172.0,64.0
Canoeing,175.0,83.0,178.0,77.0
Equestrianism,180.0,75.0,177.0,72.0
Football,176.0,70.0,173.0,68.0
Gymnastics,163.0,64.0,157.0,52.0
Judo,177.0,86.0,174.0,80.0
Modern Pentathlon,166.0,55.0,169.0,61.0


In [14]:
comparacao["% Height"] = ((comparacao["Height Medal"] / comparacao["Height Total"]) - 1) * 100
comparacao["% Weight"] = ((comparacao["Weight Medal"] / comparacao["Weight Total"]) - 1) * 100
comparacao.round()


Unnamed: 0_level_0,Height Medal,Weight Medal,Height Total,Weight Total,% Height,% Weight
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Athletics,181.0,75.0,176.0,68.0,3.0,10.0
Basketball,186.0,78.0,191.0,86.0,-3.0,-9.0
Beach Volleyball,185.0,78.0,186.0,79.0,-0.0,-1.0
Boxing,170.0,64.0,172.0,64.0,-1.0,-0.0
Canoeing,175.0,83.0,178.0,77.0,-2.0,8.0
Equestrianism,180.0,75.0,177.0,72.0,1.0,4.0
Football,176.0,70.0,173.0,68.0,1.0,3.0
Gymnastics,163.0,64.0,157.0,52.0,3.0,22.0
Judo,177.0,86.0,174.0,80.0,2.0,7.0
Modern Pentathlon,166.0,55.0,169.0,61.0,-2.0,-9.0


* Consideramos como diferença significativa variações acima de 10%, e isso só ocorreu no Peso. Na altura, a maior variação foi no Taekwondo com os medalhistas 6% mais altos que o total de brasileiros participantes. E no Peso, no Atletismo, Ginástica e Taekwondo os medalhistas possuem variação de 10%, 22% e 25% mais pesados respectivamente e no Tiro, os medalhistas foram 10% mais leves.

Existe um detalhe importante passando batido até agora em nossa análise: as categorias esportivas costumam ser divididas por gênero justamente por conta de diferenças físicas entre homens e mulheres que poderiam influenciar no desempenho. Compare a altura e peso médios de atletas brasileiros por esporte segmentado por sexo.

In [15]:
df_heigth_average_sex = pd.pivot_table(data = df_atletas_bra, index='Sport', columns='Sex', values='Height', aggfunc = "mean")
df_heigth_average_sex.rename(columns={
    "F": "F Height",
    "M": "M Height"
}, inplace=True)
df_heigth_average_sex.round()

Sex,F Height,M Height
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1
Archery,163.0,178.0
Athletics,167.0,180.0
Badminton,168.0,183.0
Basketball,183.0,195.0
Beach Volleyball,176.0,195.0
Boxing,168.0,172.0
Canoeing,170.0,179.0
Cycling,164.0,176.0
Diving,161.0,172.0
Equestrianism,169.0,178.0


In [16]:
df_weight_average_sex = pd.pivot_table(data = df_atletas_bra, index='Sport', columns='Sex', values='Weight', aggfunc = "mean")
df_weight_average_sex.rename(columns={
    "F": "F Weight",
    "M": "M Weight"
}, inplace=True)
df_weight_average_sex.round()

Sex,F Weight,M Weight
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1
Archery,60.0,78.0
Athletics,60.0,72.0
Badminton,70.0,78.0
Basketball,73.0,93.0
Beach Volleyball,65.0,92.0
Boxing,65.0,64.0
Canoeing,64.0,79.0
Cycling,54.0,70.0
Diving,59.0,70.0
Equestrianism,57.0,74.0


In [17]:
df_athletes_comparacao_sex = pd.concat([df_heigth_average_sex, df_weight_average_sex], axis = 1, join =  "inner")
df_athletes_comparacao_sex["% Heigh"] =  ((df_athletes_comparacao_sex["F Height"]/ df_athletes_comparacao_sex["M Height"])-1)*100 
df_athletes_comparacao_sex["% Weight"] =  ((df_athletes_comparacao_sex["F Weight"]/ df_athletes_comparacao_sex["M Weight"])-1)*100
df_athletes_comparacao_sex.round()

Sex,F Height,M Height,F Weight,M Weight,% Heigh,% Weight
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Archery,163.0,178.0,60.0,78.0,-8.0,-24.0
Athletics,167.0,180.0,60.0,72.0,-7.0,-16.0
Badminton,168.0,183.0,70.0,78.0,-8.0,-10.0
Basketball,183.0,195.0,73.0,93.0,-6.0,-21.0
Beach Volleyball,176.0,195.0,65.0,92.0,-9.0,-29.0
Boxing,168.0,172.0,65.0,64.0,-3.0,2.0
Canoeing,170.0,179.0,64.0,79.0,-5.0,-18.0
Cycling,164.0,176.0,54.0,70.0,-7.0,-24.0
Diving,161.0,172.0,59.0,70.0,-6.0,-15.0
Equestrianism,169.0,178.0,57.0,74.0,-5.0,-23.0


Qual foi (ou quais foram) o maior medalhista brasileiro em quantidade total de medalhas?

In [18]:
df_atletas_medal.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
1651,918,Ademir Roque Kaefer,M,24.0,179.0,74.0,Brazil,BRA,1984 Summer,1984,Summer,Los Angeles,Football,Football Men's Football,Silver
1652,918,Ademir Roque Kaefer,M,28.0,179.0,74.0,Brazil,BRA,1988 Summer,1988,Summer,Seoul,Football,Football Men's Football,Silver
1668,925,Adenzia Aparecida Ferreira da Silva,F,25.0,187.0,65.0,Brazil,BRA,2012 Summer,2012,Summer,London,Volleyball,Volleyball Women's Volleyball,Gold
1733,966,Daniel Adler,M,26.0,180.0,72.0,Brazil,BRA,1984 Summer,1984,Summer,Los Angeles,Sailing,Sailing Mixed Three Person Keelboat,Silver
1856,1020,Adriana Aparecida dos Santos,F,25.0,180.0,61.0,Brazil,BRA,1996 Summer,1996,Summer,Atlanta,Basketball,Basketball Women's Basketball,Silver


In [20]:
df_atletas_medal["Name"].value_counts()

Torben Schmidt Grael                  5
Robert Scheidt                        5
Srgio "Escadinha" Dutra dos Santos    4
Gustavo Frana Borges                  4
Ricardo Alex Costa Santos             3
                                     ..
Gilmar Lus Rinaldi                    1
Geovani Faria da Silva                1
Alexandre Gemignani Ferreira          1
Fernanda Garay Rodrigues              1
Jos Carlos Cracco Neto                1
Name: Name, Length: 360, dtype: int64

E o(s) maior(es) em quantidade de medalhas de ouro?

In [21]:
df_athletes_brazilian_gold = df_atletas_medal[(df_atletas_medal['Medal'] == 'Gold')]
df_athletes_brazilian_gold['Name'].value_counts()

Marcelo Bastos Ferreira                  2
Thasa Daher de Menezes                   2
Robert Scheidt                           2
Giovane Farinazzo Gvio                   2
Sheilla Tavares de Castro Blassioli      2
                                        ..
Martine Soffiatti Grael                  1
Gilberto Amauri "Giba" de Godoy Filho    1
Fernanda Garay Rodrigues                 1
Gabriel Fernando de Jesus                1
Jos Carlos Cracco Neto                   1
Name: Name, Length: 96, dtype: int64

Qual esporte rendeu mais medalhas de ouro para o Brasil? E qual rendeu mais medalhas no total?

**DICA:** tome muito cuidado nessa análise: cada **evento esportivo** rende 1 medalha. Por exemplo, quando a equipe de futebol vence, isso é considerado 1 medalha, mesmo tendo cerca de 20 atletas medalhistas na equipe. 

In [22]:
df_atletas_por_evento = df_atletas_medal.drop_duplicates(subset=["Year", "Event"])
max_medalhas = df_atletas_por_evento["Sport"].value_counts()
max_medalhas

Judo                 22
Sailing              18
Athletics            16
Swimming             14
Volleyball           10
Beach Volleyball     10
Football              8
Basketball            5
Boxing                5
Shooting              4
Equestrianism         3
Gymnastics            3
Canoeing              3
Taekwondo             2
Modern Pentathlon     1
Name: Sport, dtype: int64

In [23]:
max_gold = df_atletas_por_evento[(df_atletas_por_evento['Medal'] == 'Gold')]
max_gold['Sport'].value_counts()

Sailing             7
Volleyball          5
Athletics           5
Judo                4
Beach Volleyball    2
Swimming            1
Boxing              1
Football            1
Shooting            1
Equestrianism       1
Gymnastics          1
Name: Sport, dtype: int64

Cada "categoria" dentro de um esporte é considerado um evento. Por exemplo, dentro de "atletismo", temos uma competição de 100m masculina, uma de 100m feminino, um revezamento 4 x 100m masculino, um revezamento 4 x 100m feminino, uma competição de 400m masculino, uma de 400m feminino, uma maratona masculina, uma maratona feminina, e assim sucessivamente.

Sabendo disso, qual evento esportivo mais rendeu medalhas de ouro para o Brasil? E total de medalhas?

In [24]:
df_atletas_por_evento.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
1651,918,Ademir Roque Kaefer,M,24.0,179.0,74.0,Brazil,BRA,1984 Summer,1984,Summer,Los Angeles,Football,Football Men's Football,Silver
1652,918,Ademir Roque Kaefer,M,28.0,179.0,74.0,Brazil,BRA,1988 Summer,1988,Summer,Seoul,Football,Football Men's Football,Silver
1668,925,Adenzia Aparecida Ferreira da Silva,F,25.0,187.0,65.0,Brazil,BRA,2012 Summer,2012,Summer,London,Volleyball,Volleyball Women's Volleyball,Gold
1733,966,Daniel Adler,M,26.0,180.0,72.0,Brazil,BRA,1984 Summer,1984,Summer,Los Angeles,Sailing,Sailing Mixed Three Person Keelboat,Silver
1856,1020,Adriana Aparecida dos Santos,F,25.0,180.0,61.0,Brazil,BRA,1996 Summer,1996,Summer,Atlanta,Basketball,Basketball Women's Basketball,Silver


In [25]:
# ouro

max_gold_por_evento = df_atletas_por_evento[(df_atletas_por_evento['Medal'] == 'Gold')]
max_gold_por_evento['Event'].value_counts()

Volleyball Men's Volleyball                  3
Volleyball Women's Volleyball                2
Sailing Mixed One Person Dinghy              2
Athletics Men's Triple Jump                  2
Beach Volleyball Men's Beach Volleyball      2
Sailing Women's Skiff                        1
Judo Women's Lightweight                     1
Equestrianism Mixed Jumping, Individual      1
Sailing Mixed Two Person Dinghy              1
Shooting Men's Military Pistol, 30 metres    1
Judo Men's Half-Heavyweight                  1
Judo Women's Extra-Lightweight               1
Athletics Women's Long Jump                  1
Sailing Mixed Two Person Keelboat            1
Sailing Men's Two Person Keelboat            1
Football Men's Football                      1
Athletics Men's 800 metres                   1
Boxing Men's Lightweight                     1
Swimming Men's 50 metres Freestyle           1
Judo Men's Half-Lightweight                  1
Athletics Men's Pole Vault                   1
Sailing Mixed

In [26]:
# total de medalhas
df_atletas_por_evento["Event"].value_counts()

Football Men's Football                        6
Athletics Men's Triple Jump                    6
Volleyball Men's Volleyball                    6
Beach Volleyball Men's Beach Volleyball        5
Beach Volleyball Women's Beach Volleyball      5
                                              ..
Shooting Men's Free Pistol, 50 metres, Team    1
Boxing Men's Middleweight                      1
Sailing Women's Skiff                          1
Gymnastics Men's Floor Exercise                1
Boxing Women's Lightweight                     1
Name: Event, Length: 62, dtype: int64

Para finalizar sobre o Brasil: obtenha o total de medalhas de ouro, prata, bronze e total por ano.

In [27]:
df_atletas_por_evento["Medal"].value_counts()

Bronze    60
Silver    35
Gold      29
Name: Medal, dtype: int64

In [28]:
medals_year = df_atletas_por_evento.groupby(by = ['Medal'])['Year'].value_counts()
medals_year

Medal   Year
Bronze  1996    9
        2008    9
        2012    9
        2000    5
        2016    5
        1988    3
        2004    3
        1952    2
        1960    2
        1968    2
        1972    2
        1976    2
        1980    2
        1984    2
        1920    1
        1948    1
        1964    1
Gold    2016    7
        2004    5
        2008    3
        2012    3
        1980    2
        1992    2
        1996    2
        1920    1
        1952    1
        1956    1
        1984    1
        1988    1
Silver  2000    6
        2016    6
        1984    5
        2012    5
        1996    3
        2008    3
        1988    2
        2004    2
        1920    1
        1968    1
        1992    1
Name: Year, dtype: int64

In [29]:
quadro_medalhas = pd.DataFrame(medals_year)
quadro_medalhas.rename(columns={
    "Year": "Qtd"
}, inplace=True)
quadro_medalhas

Unnamed: 0_level_0,Unnamed: 1_level_0,Qtd
Medal,Year,Unnamed: 2_level_1
Bronze,1996,9
Bronze,2008,9
Bronze,2012,9
Bronze,2000,5
Bronze,2016,5
Bronze,1988,3
Bronze,2004,3
Bronze,1952,2
Bronze,1960,2
Bronze,1968,2


In [30]:
quadro_total = quadro_medalhas.reset_index()
quadro_total

Unnamed: 0,Medal,Year,Qtd
0,Bronze,1996,9
1,Bronze,2008,9
2,Bronze,2012,9
3,Bronze,2000,5
4,Bronze,2016,5
5,Bronze,1988,3
6,Bronze,2004,3
7,Bronze,1952,2
8,Bronze,1960,2
9,Bronze,1968,2


In [31]:
quadro_medalhas_pivot = pd.pivot(data=quadro_total ,index="Year", columns="Medal", values="Qtd")
quadro_medalhas_pivot.fillna(0)

Medal,Bronze,Gold,Silver
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1920,1.0,1.0,1.0
1948,1.0,0.0,0.0
1952,2.0,1.0,0.0
1956,0.0,1.0,0.0
1960,2.0,0.0,0.0
1964,1.0,0.0,0.0
1968,2.0,0.0,1.0
1972,2.0,0.0,0.0
1976,2.0,0.0,0.0
1980,2.0,2.0,0.0


## 2. O mundo nos jogos de verão

Vamos agora analisar um pouquinho do que aconteceu nas Olimpíadas de verão em todo o mundo.

Retome o DataFrame original e descarte as informações sobre os jogos de inverno.

In [32]:
index_names_2 = df_atletas[df_atletas['Season'] == 'Winter' ].index
df_atletas.drop(index_names_2 , inplace=True)
df_atletas['Season'].value_counts()

Summer    222552
Name: Season, dtype: int64

Obtenha a lista de todos os esportes já disputados nas olimpíadas de verão.

In [33]:
df_atletas_esporte= df_atletas.drop_duplicates(subset = 'Sport')

df_atletas_esporte['Sport'].values.tolist()

['Basketball',
 'Judo',
 'Football',
 'Tug-Of-War',
 'Athletics',
 'Swimming',
 'Badminton',
 'Sailing',
 'Gymnastics',
 'Art Competitions',
 'Handball',
 'Weightlifting',
 'Wrestling',
 'Water Polo',
 'Hockey',
 'Rowing',
 'Fencing',
 'Equestrianism',
 'Shooting',
 'Boxing',
 'Taekwondo',
 'Cycling',
 'Diving',
 'Canoeing',
 'Tennis',
 'Modern Pentathlon',
 'Golf',
 'Softball',
 'Archery',
 'Volleyball',
 'Synchronized Swimming',
 'Table Tennis',
 'Baseball',
 'Rhythmic Gymnastics',
 'Rugby Sevens',
 'Trampolining',
 'Beach Volleyball',
 'Triathlon',
 'Rugby',
 'Lacrosse',
 'Polo',
 'Cricket',
 'Ice Hockey',
 'Racquets',
 'Motorboating',
 'Croquet',
 'Figure Skating',
 'Jeu De Paume',
 'Roque',
 'Basque Pelota',
 'Alpinism',
 'Aeronautics']

Obtenha a lista de todas as modalidades esportivas já disputadas nas olimpíadas de verão.

In [34]:
df_atletas_evento = df_atletas.drop_duplicates(subset = 'Event')

df_atletas_evento['Event'].values.tolist()

["Basketball Men's Basketball",
 "Judo Men's Extra-Lightweight",
 "Football Men's Football",
 "Tug-Of-War Men's Tug-Of-War",
 "Athletics Women's 100 metres",
 "Athletics Women's 4 x 100 metres Relay",
 "Swimming Men's 400 metres Freestyle",
 "Badminton Men's Singles",
 "Sailing Women's Windsurfer",
 "Swimming Men's 200 metres Breaststroke",
 "Swimming Men's 400 metres Breaststroke",
 "Gymnastics Men's Individual All-Around",
 "Gymnastics Men's Team All-Around",
 "Gymnastics Men's Floor Exercise",
 "Gymnastics Men's Horse Vault",
 "Gymnastics Men's Parallel Bars",
 "Gymnastics Men's Horizontal Bar",
 "Gymnastics Men's Rings",
 "Gymnastics Men's Pommelled Horse",
 "Athletics Men's Shot Put",
 'Art Competitions Mixed Sculpturing, Unknown Event',
 "Handball Women's Handball",
 "Weightlifting Women's Super-Heavyweight",
 "Wrestling Men's Light-Heavyweight, Greco-Roman",
 "Gymnastics Men's Team All-Around, Free System",
 "Water Polo Men's Water Polo",
 'Sailing Mixed Three Person Keelboat',


Obtenha a lista de todos os países que já disputaram olimpíadas.

In [35]:
df_atletas_paises = df_atletas.drop_duplicates(subset = 'NOC')

df_atletas_paises['NOC'].values.tolist()

['CHN',
 'DEN',
 'NED',
 'FIN',
 'NOR',
 'ROU',
 'EST',
 'FRA',
 'MAR',
 'ESP',
 'EGY',
 'IRI',
 'BUL',
 'ITA',
 'CHA',
 'AZE',
 'SUD',
 'RUS',
 'ARG',
 'CUB',
 'BLR',
 'GRE',
 'CMR',
 'TUR',
 'CHI',
 'MEX',
 'USA',
 'URS',
 'NCA',
 'HUN',
 'NGR',
 'ALG',
 'KUW',
 'BRN',
 'PAK',
 'IRQ',
 'UAR',
 'LIB',
 'QAT',
 'MAS',
 'GER',
 'CAN',
 'IRL',
 'AUS',
 'RSA',
 'ERI',
 'TAN',
 'JOR',
 'TUN',
 'LBA',
 'BEL',
 'DJI',
 'PLE',
 'COM',
 'KAZ',
 'BRU',
 'IND',
 'KSA',
 'SYR',
 'MDV',
 'ETH',
 'UAE',
 'YAR',
 'INA',
 'PHI',
 'SGP',
 'UZB',
 'KGZ',
 'TJK',
 'EUN',
 'JPN',
 'CGO',
 'SUI',
 'BRA',
 'GDR',
 'MON',
 'ISR',
 'URU',
 'SWE',
 'SRI',
 'ARM',
 'CIV',
 'KEN',
 'BEN',
 'GBR',
 'GHA',
 'SOM',
 'NIG',
 'MLI',
 'AFG',
 'POL',
 'CRC',
 'PAN',
 'GEO',
 'SLO',
 'GUY',
 'NZL',
 'POR',
 'PAR',
 'ANG',
 'VEN',
 'COL',
 'FRG',
 'BAN',
 'PER',
 'ESA',
 'PUR',
 'UGA',
 'HON',
 'ECU',
 'TKM',
 'MRI',
 'SEY',
 'TCH',
 'LUX',
 'MTN',
 'SKN',
 'TTO',
 'DOM',
 'VIN',
 'JAM',
 'LBR',
 'SUR',
 'NEP',
 'MGL',


Qual atleta foi o maior medalhista (em medalhas totais) da história das olimpíadas de verão?

In [36]:
df_atletas_com_medalhas = df_atletas[df_atletas['Medal'].notna()]
df_atletas_com_medalhas['Name'].value_counts()

Michael Fred Phelps, II               28
Larysa Semenivna Latynina (Diriy-)    18
Nikolay Yefimovich Andrianov          15
Borys Anfiyanovych Shakhlin           13
Takashi Ono                           13
                                      ..
Mansur Mustafayevich Isayev            1
Anatoly Konstantinovich Isayev         1
Rbert Isaszegi                         1
Joel Isasi Gonzlez                     1
rpd Lengyel                            1
Name: Name, Length: 24545, dtype: int64

Qual atleta foi o maior medalhista de ouro da história das olimpíadas de verão?

In [37]:
df_atletas_ouro = df_atletas_com_medalhas[(df_atletas_com_medalhas['Medal'] == 'Gold')]
df_atletas_ouro['Name'].value_counts()

Michael Fred Phelps, II                23
Raymond Clarence "Ray" Ewry            10
Frederick Carlton "Carl" Lewis          9
Mark Andrew Spitz                       9
Larysa Semenivna Latynina (Diriy-)      9
                                       ..
George Hunter                           1
Francis Townsend "Frank" Hunter         1
Robert Edward "Bob" Hunter              1
Benjamin "Ben" Hunt-Davis               1
Galina Ivanovna Zybina (-Fyodorova)     1
Name: Name, Length: 8981, dtype: int64

Qual país foi o maior medalhista de ouro da história das olimpíadas de verão? Lembre-se da questão do evento esportivo, para não considerar múltiplas medalhas para um mesmo evento (ex: uma equipe de futebol fazendo parecer que mais de 20 medalhas foram distribuídas).

In [38]:
df_atletas_com_medalhas_evento = df_atletas_com_medalhas.drop_duplicates(subset = ['Year','Event'])
df_atletas_com_medalhas_evento_ouro = df_atletas_com_medalhas_evento [(df_atletas_com_medalhas_evento ['Medal'] == 'Gold')]
df_atletas_com_medalhas_evento_ouro['NOC'].value_counts()

USA    376
URS    124
FRA    100
GBR     90
ITA     90
      ... 
TTO      1
URU      1
IOA      1
UAE      1
IRI      1
Name: NOC, Length: 84, dtype: int64

Qual país foi o maior medalhista em medalhas totais na história das olimpíadas de verão?

In [39]:
df_atletas_com_medalhas_evento ['NOC'].value_counts()

USA    892
URS    318
GBR    315
FRA    311
GER    258
      ... 
BOT      1
TOG      1
GUA      1
AHO      1
BDI      1
Name: NOC, Length: 120, dtype: int64

Obtenha o total de medalhas de ouro, prata e total por edição das Olimpíadas de verão. Lembre-se da questão do evento esportivo.

In [40]:
df_medalhas_jogos= pd.DataFrame(df_atletas_com_medalhas_evento.groupby(by = ['Medal'])['Games'].value_counts())
df_medalhas_jogos.rename(columns = {'Games': 'Total Medals'}, inplace = True)
df_medalhas_jogos_2 = df_medalhas_jogos.reset_index()
df_medalhas_jogos_2

Unnamed: 0,Medal,Games,Total Medals
0,Bronze,2004 Summer,123
1,Bronze,2012 Summer,117
2,Bronze,2016 Summer,111
3,Bronze,2008 Summer,109
4,Bronze,2000 Summer,105
...,...,...,...
82,Silver,1908 Summer,35
83,Silver,1912 Summer,32
84,Silver,1906 Summer,29
85,Silver,1900 Summer,23


In [41]:
df_medalhas_jogos_novo = pd.pivot(data =df_medalhas_jogos_2, index = 'Games', columns = 'Medal', values = 'Total Medals')
df_medalhas_jogos_novo 

Medal,Bronze,Gold,Silver
Games,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1896 Summer,9,23,11
1900 Summer,24,42,23
1904 Summer,24,36,35
1906 Summer,26,19,29
1908 Summer,36,38,35
1912 Summer,34,41,32
1920 Summer,54,46,56
1924 Summer,50,39,41
1928 Summer,42,42,36
1932 Summer,37,44,45


## 3. Brasil vs Mundo

Para finalizar, vamos fazer algumas comparações entre Brasil e mundo. Qual o ranking do Brasil em cada edição das olimpíadas? Lembrando que o ranking é ordenado por medalhas de ouro.

In [42]:
# considerando só os jogos de verão...

df_jogos_ouro = pd.DataFrame(df_atletas_com_medalhas_evento_ouro.groupby(by = ['Games'])['NOC'].value_counts())
df_jogos_ouro.rename(columns = {'NOC': 'Total Gold Medals'}, inplace = True)
df_jogos_ouro_2 = df_jogos_ouro.reset_index()
df_jogos_ouro

Unnamed: 0_level_0,Unnamed: 1_level_0,Total Gold Medals
Games,NOC,Unnamed: 2_level_1
1896 Summer,USA,8
1896 Summer,GRE,5
1896 Summer,GER,4
1896 Summer,GBR,3
1896 Summer,FRA,2
...,...,...
2016 Summer,SUI,1
2016 Summer,TJK,1
2016 Summer,TUR,1
2016 Summer,UKR,1


In [43]:
index_bra = df_jogos_ouro_2[df_jogos_ouro_2['NOC'] == 'BRA'].index
index_bra

Int64Index([157, 177, 281, 334, 430, 499, 524], dtype='int64')

In [44]:
df_jogos_ouro_3 = pd.DataFrame(df_jogos_ouro_2['Games'].drop_duplicates())
df_jogos_ouro_4 = df_jogos_ouro_3.reset_index() 

df_jogos_ouro_4

Unnamed: 0,index,Games
0,0,1896 Summer
1,6,1900 Summer
2,17,1904 Summer
3,24,1906 Summer
4,33,1908 Summer
5,42,1912 Summer
6,55,1920 Summer
7,67,1924 Summer
8,79,1928 Summer
9,99,1932 Summer


Compare o maior medalhista em ouros do Brasil com o maior medalhista em ouros do mundo.

In [48]:
df_atletas_ouro_todos = df_atletas_com_medalhas[(df_atletas_com_medalhas['Medal'] == 'Gold')]
df_atletas_ouro_todos[df_atletas_ouro_todos['NOC']== 'BRA']['Name'].value_counts()

Marcelo Bastos Ferreira                  2
Thasa Daher de Menezes                   2
Robert Scheidt                           2
Giovane Farinazzo Gvio                   2
Sheilla Tavares de Castro Blassioli      2
                                        ..
Martine Soffiatti Grael                  1
Gilberto Amauri "Giba" de Godoy Filho    1
Fernanda Garay Rodrigues                 1
Gabriel Fernando de Jesus                1
Jos Carlos Cracco Neto                   1
Name: Name, Length: 96, dtype: int64

In [49]:
df_atletas_ouro_todos['Name'].value_counts()

Michael Fred Phelps, II                23
Raymond Clarence "Ray" Ewry            10
Frederick Carlton "Carl" Lewis          9
Mark Andrew Spitz                       9
Larysa Semenivna Latynina (Diriy-)      9
                                       ..
George Hunter                           1
Francis Townsend "Frank" Hunter         1
Robert Edward "Bob" Hunter              1
Benjamin "Ben" Hunt-Davis               1
Galina Ivanovna Zybina (-Fyodorova)     1
Name: Name, Length: 8981, dtype: int64

Compare o maior medalhista em total de medalhas do Brasil com o maior medalhista em total de medalhas do mundo.

In [50]:
#djfjsbfjsdbfsd

Compare o maior medalhista em ouros do Brasil com o maior medalhista do mundo no mesmo esporte.

Compare o maior medalhista em total de medalhas do Brasil com o maior medalhista do mundo no mesmo esporte.

Calcule o percentual de medalhas de ouro, prata e bronze que o Brasil ganhou em cada olimpíada.