Módulo: Bibliotecas e APIs (Python)<br>
Projeto: dataset Olympics - uso do Pandas<br>
Professor: Rafael Moreira (Analista de sistemas)<br>
Entregue: 08/09/2021<br>

# História das Olimpíadas

Após um ano de atraso por conta da pandemia de Covid-19, as atenções do mundo todo se voltaram para Tóquio, no Japão, para acompanhar mais uma edição das Olimpíadas.

No Brasil não foi diferente, e muitos se uniram para torcer por nossos atletas em diferentes competições, tanto em esportes onde o Brasil já possui tradição quanto em novos esportes.

Vamos aproveitar o clima para estudar um pouco das Olimpíadas! Utilizaremos um _dataset_ com 120 anos de dados históricos das Olimpíadas, cobrindo desde os jogos de Atenas 1896 até Rio 2016. 

Faça o download do _dataset_ em https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results e carregue o arquivo ```athlete_events.csv``` para um DataFrame utilizando Pandas. Aproveite para explorar seu DataFrame e se familiarizar com a sua estrutura. 

OBS: Fique à vontade para acrescentar mais células Python conforme necessário em qualquer etapa do exercício.

In [1]:
# Importando a biblioteca pandas e numpy 
import numpy as np
import pandas as pd

# Ajustando configuração para mostrar até 2 casas decimais
pd.set_eng_float_format(accuracy=2, use_eng_prefix=True)

In [2]:
# Carregando o arquivo 'athlete_events.csv' em um DataFrame
df_atletas = pd.read_csv('athlete_events.csv')
df_atletas.head(2)

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,


## 1. O Brasil nas Olimpíadas

Vamos começar estudando o desempenho do nossos próprio país. Gere um DataFrame novo contendo apenas as informações sobre atletas brasileiros.

In [3]:
# Criando um DataFrame filtrando os atletas do Brasil e visualizando as 2 primeiras linhas
df_atletasBR = df_atletas[df_atletas['NOC']=='BRA'].reset_index(drop=True)
df_atletasBR.head(2)

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,386,Alexandre Abeid,M,22.0,194.0,92.0,Brazil,BRA,1972 Summer,1972,Summer,Munich,Volleyball,Volleyball Men's Volleyball,
1,386,Alexandre Abeid,M,26.0,194.0,92.0,Brazil,BRA,1976 Summer,1976,Summer,Montreal,Volleyball,Volleyball Men's Volleyball,


In [4]:
# Visualizando informações gerais do DF: linhas, colunas e tipos de dados
df_atletasBR.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3848 entries, 0 to 3847
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      3848 non-null   int64  
 1   Name    3848 non-null   object 
 2   Sex     3848 non-null   object 
 3   Age     3788 non-null   float64
 4   Height  3365 non-null   float64
 5   Weight  3188 non-null   float64
 6   Team    3848 non-null   object 
 7   NOC     3848 non-null   object 
 8   Games   3848 non-null   object 
 9   Year    3848 non-null   int64  
 10  Season  3848 non-null   object 
 11  City    3848 non-null   object 
 12  Sport   3848 non-null   object 
 13  Event   3848 non-null   object 
 14  Medal   475 non-null    object 
dtypes: float64(3), int64(2), object(10)
memory usage: 451.1+ KB


### Medalhistas

Vamos focar um pouco nos casos de sucesso do Brasil. Use o seu DataFrame anterior para filtrar apenas informações sobre **medalhistas** brasileiros. 

**DICA:** observe como a coluna ```Medal``` é representada quando o atleta não ganhou medalha.

In [5]:
# Visualizando o tamanho do DataFrame,
# a quantidade de dados faltantes na coluna 'Medal' e de medalhistas
len(df_atletasBR), df_atletasBR['Medal'].isna().sum(), df_atletasBR['Medal'].value_counts().sum()

(3848, 3373, 475)

In [6]:
# Selecionando os medalhistas para um DataFrame e visualizando informações
df_medalhistasBR = df_atletasBR[~df_atletasBR['Medal'].isna()]
df_medalhistasBR.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 475 entries, 8 to 3840
Data columns (total 15 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   ID      475 non-null    int64  
 1   Name    475 non-null    object 
 2   Sex     475 non-null    object 
 3   Age     474 non-null    float64
 4   Height  457 non-null    float64
 5   Weight  447 non-null    float64
 6   Team    475 non-null    object 
 7   NOC     475 non-null    object 
 8   Games   475 non-null    object 
 9   Year    475 non-null    int64  
 10  Season  475 non-null    object 
 11  City    475 non-null    object 
 12  Sport   475 non-null    object 
 13  Event   475 non-null    object 
 14  Medal   475 non-null    object 
dtypes: float64(3), int64(2), object(10)
memory usage: 59.4+ KB


### Verão vs Inverno

Você deve ter notado que temos duas categorias distintas de jogos olímpicos, representados pela estação: temos os jogos de verão e os jogos de inverno, que ocorrem de maneira intercalada.

Agora que já conhecemos os medalhistas brasileiros, resposta: quantos atletas brasileiros receberam medalha nos jogos de verão e quantos receberam nos jogos de inverno?

* Todos os medalhistas brasileiros foram nos jogos de verão:

In [7]:
# Contando o número de medalhistas segundo a coluna 'Season'
# Note que nenhum atleta brasileiro foi medalhista nos jogos de inverno
df_medalhistasBR['Season'].value_counts() 

Summer    475
Name: Season, dtype: int64

Os jogos de verão são bem mais populares do que os jogos de inverno no Brasil. Portanto, deste ponto em diante iremos focar apenas nos jogos de verão. Descarte de seu DataFrame os dados dos jogos de inverno.



In [8]:
# Verificando os dados do DataFrame df_atletasBR segundo a coluna 'Season'
# Note que 64 atletas participaram dos jogos de inverno
df_atletasBR['Season'].value_counts() 

Summer    3784
Winter      64
Name: Season, dtype: int64

In [9]:
# Deixaremos no DataFrame somente os atletos dos jogos de verão
df_atletasBR = df_atletasBR[df_atletasBR['Season']=='Summer']
len(df_atletasBR)

3784

### Atletas do Brasil

Vamos conhecer um pouco melhor nossos atletas. Descubra a altura e peso médio de nossos medalhistas.

In [10]:
# Visualizando as médias de altura e peso dos medalhistas
round(df_medalhistasBR['Height'].mean(), 2), round(df_medalhistasBR['Weight'].mean(), 2)

(182.49, 76.71)

Imaginamos que diferentes esportes podem beneficiar diferentes tipos físicos, certo? Então refaça a análise anterior, mas obtendo os valores médios **por esporte**.

In [11]:
# Visualizando a média de altura dos medalhistas por esporte em ordem crescente 
df_medalhistasBR.groupby(by=['Sport'])['Height'].mean().sort_values().reset_index()

Unnamed: 0,Sport,Height
0,Gymnastics,162.75
1,Modern Pentathlon,166.0
2,Boxing,170.0
3,Canoeing,175.0
4,Shooting,175.0
5,Football,175.8
6,Judo,176.67
7,Equestrianism,179.67
8,Athletics,181.0
9,Sailing,181.59


In [12]:
# Visualizando a média de peso dos medalhistas por esporte em ordem crescente
df_medalhistasBR.groupby(by=['Sport'])['Weight'].mean().sort_values().reset_index()

Unnamed: 0,Sport,Weight
0,Modern Pentathlon,55.0
1,Gymnastics,63.75
2,Boxing,64.0
3,Shooting,69.0
4,Football,69.96
5,Athletics,74.58
6,Equestrianism,75.0
7,Beach Volleyball,78.16
8,Basketball,78.48
9,Taekwondo,79.5


Será que os dados acima influenciaram no interesse geral dos atletas pelo esporte ou realmente impactaram no desempenho deles? Podemos tentar descobrir se há algum tipo de correlação.

Você ainda possui o dataframe original contendo todos os atletas brasileiros, incluindo os sem medalha? Obtenha os valores médios de peso e altura por esporte daquele dataframe e compare-o com os dos medalhistas. Há alguma diferença significativa em algum esporte?

* Na tabela abaixo podemos comparar direntamente a altura média dos medalhistas e dos atletas em geral em cada esporte. Para o Basketball, os medalhistas são 5.3 cm mais baixos que a média. Os medalhistas foram 5 cm ou mais altos que a média nas seguitnes modalidades: Gymnastics, Swimming e Taekwondo. Outros esportes não tiveram medalhistas e foram omitidos da tabela (para visualizar a altura média dos atletas nessas modalidades, retirar o comando dropna()).

In [13]:
# Criando um DataFrame para comparar a altura média dos atletas totais com os medalhistas por esporte
df_alturas_esportesBR = pd.DataFrame() # Criando um DF vazio
# Coluna com média de altura por esporte para não medalhistas
df_alturas_esportesBR['Atletas totais'] = df_atletasBR.groupby(by=['Sport'])['Height'].mean()
# Coluna com média de altura por esporte para medalhistas
df_alturas_esportesBR['Medalhistas'] = df_medalhistasBR.groupby(by=['Sport'])['Height'].mean()
# Coluna com a diferença
df_alturas_esportesBR['Medalhistas - Atletas'] = df_alturas_esportesBR['Medalhistas'] - df_alturas_esportesBR['Atletas totais']
# Exibindo o DataFrame excluindo os dados ausentes e ordenando pela diferença de altura
df_alturas_esportesBR.dropna().sort_values('Medalhistas - Atletas')

Unnamed: 0_level_0,Atletas totais,Medalhistas,Medalhistas - Atletas
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Basketball,190.91,185.61,-5.30
Canoeing,177.79,175.0,-2.79
Modern Pentathlon,168.6,166.0,-2.60
Boxing,171.99,170.0,-1.99
Beach Volleyball,185.7,184.88,-822.13m
Shooting,174.04,175.0,964.71m
Sailing,179.68,181.59,1.91
Equestrianism,177.43,179.67,2.24
Football,173.37,175.8,2.43
Judo,173.93,176.67,2.74


* Na tabela abaixo podemos comparar direntamente o peso médio dos medalhistas e dos atletas em geral em cada esporte. Os medalhistas foram em média 5 kg mais leves que os atletas em geral nas modalidades Shooting, Basketball e Modern Pentathlon. Já os medalhistas foram mais de 5 kg superiores aos atletas em geral nas modalidades Canoeing, Judo, Athletics, Swimming, Gymnastics e Taekwondo. Outros esportes não tiveram medalhistas e foram omitidos da tabela (para visualizar o peso médio dos atletas nessas modalidades, retirar o comando dropna()).

In [14]:
# Criando um DataFrame para comparar o peso médio dos atletas medalhistas e não medalhistas por esporte
df_pesos_esportesBR = pd.DataFrame() # Criando um DF vazio
# Coluna com média de altura por esporte para não medalhistas
df_pesos_esportesBR['Atletas totais'] = df_atletasBR.groupby(by=['Sport'])['Weight'].mean()
# Coluna com média de altura por esporte para medalhistas
df_pesos_esportesBR['Medalhistas'] = df_medalhistasBR.groupby(by=['Sport'])['Weight'].mean()
# Coluna com a diferença
df_pesos_esportesBR['Medalhistas - Atletas totais'] = df_pesos_esportesBR['Medalhistas'] - df_pesos_esportesBR['Atletas totais']
# Exibindo o DataFrame excluindo os dados ausentes e ordenando pela diferença de altura
df_pesos_esportesBR.dropna().sort_values('Medalhistas - Atletas totais')

Unnamed: 0_level_0,Atletas totais,Medalhistas,Medalhistas - Atletas totais
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Shooting,76.92,69.0,-7.92
Basketball,85.9,78.48,-7.42
Modern Pentathlon,60.67,55.0,-5.67
Beach Volleyball,78.62,78.16,-457.02m
Boxing,64.11,64.0,-106.06m
Football,67.76,69.96,2.20
Volleyball,78.85,81.17,2.32
Equestrianism,72.31,75.0,2.69
Sailing,76.81,80.41,3.61
Canoeing,77.4,83.25,5.85


Existe um detalhe importante passando batido até agora em nossa análise: as categorias esportivas costumam ser divididas por gênero justamente por conta de diferenças físicas entre homens e mulheres que poderiam influenciar no desempenho. Compare a altura e peso médios de atletas brasileiros por esporte segmentado por sexo.

* Para comparar os dados segmentados por sexo, faremos pivot tables e incluímos uma coluna com a comparação e ordenamos os dados pela discrepância de altura e peso entre homens e mulheres. Veja as tabelas abaixo:

In [15]:
# Fazendo uma tabela da altura média para cada esporte segmentado por sexo
alturaSexo = pd.pivot_table(df_atletasBR, values='Height', index='Sport', columns='Sex', aggfunc=np.mean)
alturaSexo['Diferença (M-F)'] = alturaSexo['M'] - alturaSexo['F']
alturaSexo.dropna().sort_values('Diferença (M-F)') # Exibindo dados ordenados pela difença

Sex,F,M,Diferença (M-F)
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Modern Pentathlon,165.75,169.64,3.89
Taekwondo,171.86,176.0,4.14
Boxing,167.6,172.34,4.74
Golf,167.5,175.0,7.5
Water Polo,172.92,181.42,8.5
Canoeing,169.5,178.55,9.05
Rowing,172.33,181.4,9.07
Equestrianism,169.0,178.17,9.17
Fencing,171.83,181.2,9.37
Shooting,165.62,175.56,9.94


In [16]:
# Fazendo uma tabela do peso médio para cada esporte segmentado por sexo
pesoSexo = pd.pivot_table(df_atletasBR, values='Weight', index='Sport', columns='Sex', aggfunc=np.mean)
pesoSexo['Diferença (M-F)'] = pesoSexo['M'] - pesoSexo['F']
pesoSexo.dropna().sort_values('Diferença (M-F)')

Sex,F,M,Diferença (M-F)
Sport,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Boxing,65.0,64.03,-967.21m
Taekwondo,61.0,66.67,5.67
Badminton,70.0,78.0,8.00
Diving,59.13,69.58,10.45
Table Tennis,58.0,68.62,10.62
Athletics,59.81,71.55,11.74
Football,60.09,72.54,12.45
Canoeing,64.5,78.57,14.07
Fencing,61.58,76.57,14.98
Cycling,53.5,69.97,16.47


Qual foi (ou quais foram) o maior medalhista brasileiro em quantidade total de medalhas?

* São dois medalhistas brasileiros com 5 medalhas. Para visualizar ambos, selecionamos os nomes dos atletas com número de medalhas maior ou igual ao número máximo, caso contrário seria retornado apenas um dos nomes.

In [17]:
# Verificando que os maiores medalhistas foram Torben Schmidt Grael e Robert Scheidt 
df_medalhistasBR['Name'].value_counts()[df_medalhistasBR['Name'].value_counts() >= (df_medalhistasBR['Name'].value_counts().max())]

Torben Schmidt Grael    5
Robert Scheidt          5
Name: Name, dtype: int64

E o(s) maior(es) em quantidade de medalhas de ouro?

* Aqui, filtramos os medalhistas de ouro com número maior ou igual ao máximo de medalhas, e verificamos que diversos atletas ganharam 2 medalhas de ouro

In [18]:
# Criando DF com os medalhistas de ouro para esta e as próximas perguntas
df_ourosBR = df_medalhistasBR[df_medalhistasBR['Medal']=='Gold']
# Contando os medalhistas de ouro e selecionando aqueles com 2 ou mais medalhas
df_ourosBR['Name'].value_counts()[df_ourosBR['Name'].value_counts() >= df_ourosBR['Name'].value_counts().max()].sort_index()

Adhemar Ferreira da Silva                             2
Fabiana "Fabi" Alvim de Oliveira                      2
Fabiana Marcelino Claudino                            2
Giovane Farinazzo Gvio                                2
Jaqueline Maria "Jaque" Pereira de Carvalho Endres    2
Marcelo Bastos Ferreira                               2
Maurcio Camargo Lima                                  2
Paula Renata Marques Pequeno                          2
Robert Scheidt                                        2
Sheilla Tavares de Castro Blassioli                   2
Srgio "Escadinha" Dutra dos Santos                    2
Thasa Daher de Menezes                                2
Torben Schmidt Grael                                  2
Name: Name, dtype: int64

Qual esporte rendeu mais medalhas de ouro para o Brasil? E qual rendeu mais medalhas no total?

**DICA:** tome muito cuidado nessa análise: cada **evento esportivo** rende 1 medalha. Por exemplo, quando a equipe de futebol vence, isso é considerado 1 medalha, mesmo tendo cerca de 20 atletas medalhistas na equipe. 

* Sailing e Judo renderam mais medalhas de ouro e medalhas totais, respectivamente. Vejamos:

In [19]:
# Geramos um DF listando ano, esportes e eventos, removendo valores duplicados (esportes coletivos)
# Requisitamos um value_counts na coluna Sport e pegamos o índice com valor máximo
df_ouros_esportes_eventos = df_ourosBR[['Year', 'Sport', 'Event']].drop_duplicates().sort_values(by=['Sport']).reset_index(drop=True)
df_ouros_esportes_eventos.value_counts(subset=df_ouros_esportes_eventos['Sport']).idxmax()

'Sailing'

In [20]:
# Encontrando qual esporte rendeu mais medalhas em geral ao Brasil (ouro, prata e bronze):
# A partir do DF medalhistasBR, selecionamos as colunas Year, Sport e Event, excluímos as duplicadas e contamos por Sport:
df_medalhistasBR[['Year', 'Sport', 'Event']].drop_duplicates().value_counts(subset=df_medalhistasBR['Sport']).idxmax()

'Judo'

Cada "categoria" dentro de um esporte é considerado um evento. Por exemplo, dentro de "atletismo", temos uma competição de 100m masculina, uma de 100m feminino, um revezamento 4 x 100m masculino, um revezamento 4 x 100m feminino, uma competição de 400m masculino, uma de 400m feminino, uma maratona masculina, uma maratona feminina, e assim sucessivamente.

Sabendo disso, qual evento esportivo mais rendeu medalhas de ouro para o Brasil? E total de medalhas?

* No caso de medalhas de ouro, só um evento esportivo rendeu mais medalhas ao Brasil - o volleyball masculino. No total de medalhas, temos três eventos esportivos que renderam mais medalhas:

In [21]:
# Requisitando um value_counts na coluna 'Event' e pedamos o nome do evento com valor máximo
df_ouros_esportes_eventos.value_counts(subset=df_ouros_esportes_eventos['Event']).idxmax()

"Volleyball Men's Volleyball"

In [22]:
# Mais de uma modalidade esportiva rendeu o maior número de medalhas ao Brasil
medalhas_gerais = df_medalhistasBR[['Year', 'Sport', 'Event']].drop_duplicates().value_counts(subset=df_medalhistasBR['Event'])
medalhas_gerais[medalhas_gerais >= (medalhas_gerais.max())] # `Comando para retornar todos elementos igual ao valor máximo

Event
Volleyball Men's Volleyball    6
Football Men's Football        6
Athletics Men's Triple Jump    6
dtype: int64

Para finalizar sobre o Brasil: obtenha o total de medalhas de ouro, prata, bronze e total por ano.

In [23]:
# DF listando ano, esportes, eventos e medalha, removendo valores duplicados (esportes coletivos)
df_medalhasAnoBR = df_medalhistasBR[['Year', 'Sport', 'Event','Medal']].drop_duplicates().sort_values(by=['Sport']).reset_index(drop=True)

In [24]:
# Selecionando os anos em que o Brasil foi medalhista em um array
anos_medalhistasBR = df_medalhistasBR['Year'].unique()
anos_medalhistasBR.sort() # ordenando os anos
# Criando um DF com os anos como índices
df_medalhas_brasil_ano = pd.DataFrame(index=anos_medalhistasBR)
# Criando colunas com a contagem de cada tipo de medalha por ano
df_medalhas_brasil_ano['Gold'] = df_medalhasAnoBR.groupby('Medal')['Year'].value_counts().loc['Gold']
df_medalhas_brasil_ano['Silver'] = df_medalhasAnoBR.groupby('Medal')['Year'].value_counts().loc['Silver']
df_medalhas_brasil_ano['Bronze'] = df_medalhasAnoBR.groupby('Medal')['Year'].value_counts().loc['Bronze']
df_medalhas_brasil_ano['Total'] = df_medalhas_brasil_ano.sum(axis=1)
# Formatando os dados do DF
df_medalhas_brasil_ano.fillna(0,inplace=True) # Substitui NaN por 0
df_medalhas_brasil_ano = df_medalhas_brasil_ano.convert_dtypes() # Converte float para int
df_medalhas_brasil_ano = df_medalhas_brasil_ano[['Gold','Silver','Bronze','Total']] # ordena por tipo de medalha
df_medalhas_brasil_ano

Unnamed: 0,Gold,Silver,Bronze,Total
1920,1,1,1,3
1948,0,0,1,1
1952,1,0,2,3
1956,1,0,0,1
1960,0,0,2,2
1964,0,0,1,1
1968,0,1,2,3
1972,0,0,2,2
1976,0,0,2,2
1980,2,0,2,4


## 2. O mundo nos jogos de verão

Vamos agora analisar um pouquinho do que aconteceu nas Olimpíadas de verão em todo o mundo.

Retome o DataFrame original e descarte as informações sobre os jogos de inverno.

In [26]:
print('Tamanho DF (jogos verão e inverno):',len(df_atletas))
df_atletas = df_atletas[df_atletas['Season']=='Summer']
print('Tamanho DF (somente verão):',len(df_atletas))

Tamanho DF (jogos verão e inverno): 271116
Tamanho DF (somente verão): 222552


Obtenha a lista de todos os esportes já disputados nas olimpíadas de verão.

In [27]:
list(df_atletas['Sport'].drop_duplicates().sort_values())

['Aeronautics',
 'Alpinism',
 'Archery',
 'Art Competitions',
 'Athletics',
 'Badminton',
 'Baseball',
 'Basketball',
 'Basque Pelota',
 'Beach Volleyball',
 'Boxing',
 'Canoeing',
 'Cricket',
 'Croquet',
 'Cycling',
 'Diving',
 'Equestrianism',
 'Fencing',
 'Figure Skating',
 'Football',
 'Golf',
 'Gymnastics',
 'Handball',
 'Hockey',
 'Ice Hockey',
 'Jeu De Paume',
 'Judo',
 'Lacrosse',
 'Modern Pentathlon',
 'Motorboating',
 'Polo',
 'Racquets',
 'Rhythmic Gymnastics',
 'Roque',
 'Rowing',
 'Rugby',
 'Rugby Sevens',
 'Sailing',
 'Shooting',
 'Softball',
 'Swimming',
 'Synchronized Swimming',
 'Table Tennis',
 'Taekwondo',
 'Tennis',
 'Trampolining',
 'Triathlon',
 'Tug-Of-War',
 'Volleyball',
 'Water Polo',
 'Weightlifting',
 'Wrestling']

In [28]:
# Observação: também se pode usar o método unique pra retirar as ocorrências única de cada esporte:
print('Método .drop_duplicates():',len(list(df_atletas['Sport'].drop_duplicates())))
print('Método .unique():',len(list(df_atletas['Sport'].unique())))

Método .drop_duplicates(): 52
Método .unique(): 52


Obtenha a lista de todas as modalidades esportivas já disputadas nas olimpíadas de verão.

In [29]:
list(df_atletas['Event'].drop_duplicates().sort_values())

['Aeronautics Mixed Aeronautics',
 'Alpinism Mixed Alpinism',
 "Archery Men's Au Chapelet, 33 metres",
 "Archery Men's Au Chapelet, 50 metres",
 "Archery Men's Au Cordon Dore, 33 metres",
 "Archery Men's Au Cordon Dore, 50 metres",
 "Archery Men's Championnat Du Monde",
 "Archery Men's Continental Style",
 "Archery Men's Double American Round",
 "Archery Men's Double York Round",
 "Archery Men's Individual",
 "Archery Men's Pole Archery, Large Birds, Individual",
 "Archery Men's Pole Archery, Large Birds, Team",
 "Archery Men's Pole Archery, Small Birds, Individual",
 "Archery Men's Pole Archery, Small Birds, Team",
 "Archery Men's Sur La Perche a La Herse",
 "Archery Men's Sur La Perche a La Pyramide",
 "Archery Men's Target Archery, 28 metres, Individual",
 "Archery Men's Target Archery, 28 metres, Team",
 "Archery Men's Target Archery, 33 metres, Individual",
 "Archery Men's Target Archery, 33 metres, Team",
 "Archery Men's Target Archery, 50 metres, Individual",
 "Archery Men's Tar

Obtenha a lista de todos os países que já disputaram olimpíadas.

In [30]:
# Para visualizar essa informação, o mais correto é selecionar pelos códigos NOC
# Pois os nomes dos 'times' podem variar (ex.: Brazil, Brazil-1 e Brazil-2), mas o NOC é sempre BRA
print(len(list(df_atletas['Team'].drop_duplicates())))
print(len(list(df_atletas['NOC'].drop_duplicates())))

1157
230


In [31]:
# Retiramos os duplicados por 'NOC', pegamos os nomes dos times e ordenamos alfabeticamente
list(df_atletas[['Team','NOC']].drop_duplicates('NOC')['Team'].sort_values())

['Afghanistan',
 'Albania',
 'Algeria',
 'American Samoa',
 'Andorra',
 'Angola',
 'Antigua and Barbuda',
 'Argentina',
 'Armenia',
 'Aruba',
 'Australasia',
 'Australia',
 'Austria',
 'Azerbaijan',
 'Bahamas',
 'Bahrain',
 'Bangladesh',
 'Barbados',
 'Belarus',
 'Belgium',
 'Belize',
 'Benin',
 'Bermuda',
 'Bhutan',
 'Bohemia',
 'Bolivia',
 'Bosnia and Herzegovina',
 'Botswana',
 'Brazil',
 'British Virgin Islands',
 'Brunei',
 'Bulgaria',
 'Burkina Faso',
 'Burundi',
 'Cameroon',
 'Canada',
 'Cape Verde',
 'Cayman Islands',
 'Central African Republic',
 'Chad',
 'Chile',
 'China',
 'Chinese Taipei-1',
 'Circus',
 'Colombia',
 'Comoros',
 'Congo (Brazzaville)',
 'Congo (Kinshasa)',
 'Cook Islands',
 'Costa Rica',
 "Cote d'Ivoire",
 'Crete',
 'Croatia',
 'Cuba',
 'Cyprus',
 'Czech Republic',
 'Czechoslovakia',
 'Denmark',
 'Djibouti',
 'Dominica',
 'Dominican Republic',
 'East Germany',
 'Ecuador',
 'Egypt',
 'El Salvador',
 'Equatorial Guinea',
 'Eritrea',
 'Estonia',
 'Ethiopia',
 'F

Qual atleta foi o maior medalhista (em medalhas totais) da história das olimpíadas de verão?

In [32]:
df_atletas[~df_atletas['Medal'].isna()]['Name'].value_counts().idxmax() 

'Michael Fred Phelps, II'

In [33]:
df_atletas[~df_atletas['Medal'].isna()]['Name'].value_counts().max()

28

Qual atleta foi o maior medalhista de ouro da história das olimpíadas de verão?

In [34]:
df_atletas[df_atletas['Medal']=='Gold']['Name'].value_counts().idxmax() # Retorna o índice associado ao valor máximo

'Michael Fred Phelps, II'

In [35]:
df_atletas[df_atletas['Medal']=='Gold']['Name'].value_counts().max() # Retorna o maior número de ouros de um único atleta

23

Qual país foi o maior medalhista de ouro da história das olimpíadas de verão? Lembre-se da questão do evento esportivo, para não considerar múltiplas medalhas para um mesmo evento (ex: uma equipe de futebol fazendo parecer que mais de 20 medalhas foram distribuídas).

In [36]:
df_ourosPaises = df_atletas[df_atletas['Medal']=='Gold'] # DF só com os ouros
df_ourosPaises = df_ourosPaises[['NOC', 'Year', 'Event']].reset_index(drop=True) # Separando somente NOC,Year,Event
df_ourosPaises.drop_duplicates(inplace=True) # Exclusão de dados repetidos (ocorrências em esportes coletivos)
df_ourosPaises['NOC'].value_counts().idxmax(), df_ourosPaises['NOC'].value_counts().max() # Retorna o maior medalhista ouro

('USA', 1035)

Qual país foi o maior medalhista em medalhas totais na história das olimpíadas de verão?

In [37]:
df_medalhasPaises = df_atletas[~df_atletas['Medal'].isna()] # DF incluindo só os medalhistas
print('Tamanho do DF antes da filtragem por evento:',len(df_medalhasPaises))
df_medalhasPaises = df_medalhasPaises[['NOC', 'Year', 'Event','Medal']].reset_index(drop=True)
df_medalhasPaises.drop_duplicates(inplace=True)
print('Tamanho do DF após da filtragem por evento:',len(df_medalhasPaises))

Tamanho do DF antes da filtragem por evento: 34088
Tamanho do DF após da filtragem por evento: 16052


In [38]:
print('País com maior número de medalhas totais:')
df_medalhasPaises['NOC'].value_counts().idxmax(), df_medalhasPaises['NOC'].value_counts().max()

País com maior número de medalhas totais:


('USA', 2544)

Obtenha o total de medalhas de ouro, prata e total por edição das Olimpíadas de verão. Lembre-se da questão do evento esportivo.

In [39]:
# df_medalhasPaises está organizado por Team, NOC, Year e Event, contando por evento esportivo e não por atletas
# Criamos uma Series auxiliar para armazenar o resultado da contagem de medalhas por ano
series_aux = df_medalhasPaises.groupby('Medal')['Year'].value_counts()
series_aux

Medal   Year
Bronze  2016    360
        2012    356
        2008    353
        2000    326
        2004    326
               ... 
Silver  1912    104
        1900     98
        1904     93
        1906     77
        1896     41
Name: Year, Length: 87, dtype: int64

In [40]:
# Criamos um DF para organizar o total de medalhas por ano (edição) e tipo de medalha
df_medalhas_ano = pd.concat([series_aux.loc['Gold'], series_aux.loc['Silver'], series_aux.loc['Bronze']], axis=1)
df_medalhas_ano.columns=['Gold','Silver', 'Bronze'] # Insere o nome das colunas
df_medalhas_ano['Total'] = df_medalhas_ano.sum(axis=1)
df_medalhas_ano

Unnamed: 0_level_0,Gold,Silver,Bronze,Total
Year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1896,44,41,35,120
1900,101,98,92,291
1904,97,93,89,279
1906,74,77,73,224
1908,109,106,105,320
1912,108,104,104,316
1920,155,152,139,446
1924,129,131,131,391
1928,119,118,119,356
1932,125,125,120,370


## 3. Brasil vs Mundo

Para finalizar, vamos fazer algumas comparações entre Brasil e mundo. Qual o ranking do Brasil em cada edição das olimpíadas? Lembrando que o ranking é ordenado por medalhas de ouro.

In [41]:
# Nesta questão usaremos o df_ourosPaises que lista todas as medalhas de ouro por eventos
# Observação: Fazendo o ranking somente usando medalhas de ouro como critério
# Selecionar os anos em que o Brasil ganhou medalha de ouro:
anos_brasil_pontuou = df_ourosPaises[df_ourosPaises['NOC']=='BRA']['Year'].unique()
anos_brasil_pontuou.sort()
anos_brasil_pontuou

array([1920, 1952, 1956, 1980, 1984, 1988, 1992, 1996, 2004, 2008, 2012,
       2016], dtype=int64)

In [42]:
# Criar uma Series para guardar a colocação do Brasil, com índice = anos das olimpíadas
colocacao = pd.Series(data=np.full(len(anos_brasil_pontuou),0),index=anos_brasil_pontuou)
colocacao

1920    0
1952    0
1956    0
1980    0
1984    0
1988    0
1992    0
1996    0
2004    0
2008    0
2012    0
2016    0
dtype: int32

In [43]:
# Series com o total de ouro por ano e país
ouros_ano = df_ourosPaises.groupby('Year')['NOC'].value_counts()
ouros_ano

Year  NOC
1896  USA    11
      GRE    10
      GER     7
      FRA     5
      GBR     3
             ..
2016  SLO     1
      TJK     1
      TPE     1
      TUR     1
      VIE     1
Name: NOC, Length: 841, dtype: int64

In [44]:
# Para cada ano que o Brasil ganhou medalhas de ouro:
for ano in anos_brasil_pontuou:
    # Contar quantos países obtiveram mais medalhas de ouro que o Brasil:
    superiores = len(ouros_ano.loc[ano][ouros_ano.loc[ano] > ouros_ano.loc[ano,'BRA']])
    colocacao[ano] = superiores + 1 # Guardar a colocação segundo medalhas de ouro
colocacao

1920    14
1952    17
1956    17
1980    13
1984    19
1988    24
1992    20
1996    21
2004    16
2008    19
2012    21
2016    13
dtype: int32

Compare o maior medalhista em ouros do Brasil com o maior medalhista em ouros do mundo.

In [45]:
print('Maiores medalhistas de ouro do Brasil:')
print(df_ourosBR['Name'].value_counts()[df_ourosBR['Name'].value_counts() >= df_ourosBR['Name'].value_counts().max()].sort_index())

Maiores medalhistas de ouro do Brasil:
Adhemar Ferreira da Silva                             2
Fabiana "Fabi" Alvim de Oliveira                      2
Fabiana Marcelino Claudino                            2
Giovane Farinazzo Gvio                                2
Jaqueline Maria "Jaque" Pereira de Carvalho Endres    2
Marcelo Bastos Ferreira                               2
Maurcio Camargo Lima                                  2
Paula Renata Marques Pequeno                          2
Robert Scheidt                                        2
Sheilla Tavares de Castro Blassioli                   2
Srgio "Escadinha" Dutra dos Santos                    2
Thasa Daher de Menezes                                2
Torben Schmidt Grael                                  2
Name: Name, dtype: int64


In [46]:
print('Maior medalhista de ouro do mundo:')
print(df_atletas[df_atletas['Medal']=='Gold']['Name'].value_counts().idxmax())
print('Medalhas de ouro:', df_atletas[df_atletas['Medal']=='Gold']['Name'].value_counts().max())

Maior medalhista de ouro do mundo:
Michael Fred Phelps, II
Medalhas de ouro: 23


Compare o maior medalhista em total de medalhas do Brasil com o maior medalhista em total de medalhas do mundo.

In [47]:
print('Maiores medalhistas do Brasil e número de medalhas:')
print(df_medalhistasBR['Name'].value_counts()[df_medalhistasBR['Name'].value_counts() >= (df_medalhistasBR['Name'].value_counts().max())])

Maiores medalhistas do Brasil e número de medalhas:
Torben Schmidt Grael    5
Robert Scheidt          5
Name: Name, dtype: int64


In [48]:
print('Maior medalhista do mundo e número de medalhas:')
print(df_atletas[~df_atletas['Medal'].isna()]['Name'].value_counts().idxmax(),df_atletas[~df_atletas['Medal'].isna()]['Name'].value_counts().max())

Maior medalhista do mundo e número de medalhas:
Michael Fred Phelps, II 28


Compare o maior medalhista em ouros do Brasil com o maior medalhista do mundo no mesmo esporte.

Veja abaixo que os maiores medalhistas em ouros do mundo ganharam o dobro ou mais de medalhas que os brasileiros no mesmo esporte:

In [49]:
df_ourosBR.groupby('Sport')['Name'].value_counts()[df_ourosBR.groupby('Sport')['Name'].value_counts() > 1]

Sport       Name                                              
Athletics   Adhemar Ferreira da Silva                             2
Sailing     Marcelo Bastos Ferreira                               2
            Robert Scheidt                                        2
            Torben Schmidt Grael                                  2
Volleyball  Fabiana "Fabi" Alvim de Oliveira                      2
            Fabiana Marcelino Claudino                            2
            Giovane Farinazzo Gvio                                2
            Jaqueline Maria "Jaque" Pereira de Carvalho Endres    2
            Maurcio Camargo Lima                                  2
            Paula Renata Marques Pequeno                          2
            Sheilla Tavares de Castro Blassioli                   2
            Srgio "Escadinha" Dutra dos Santos                    2
            Thasa Daher de Menezes                                2
Name: Name, dtype: int64

In [50]:
# Selecionado os mesmos esportes para os atletas internacionais
df_atletas[(df_atletas['Medal']=='Gold') & (df_atletas['Sport'] == 'Athletics')]['Name'].value_counts().idxmax()

'Raymond Clarence "Ray" Ewry'

In [51]:
df_atletas[(df_atletas['Medal']=='Gold') & (df_atletas['Sport'] == 'Athletics')]['Name'].value_counts().max()

10

In [52]:
# Selecionado os mesmos esportes para os atletas internacionais
df_atletas[(df_atletas['Medal']=='Gold') & (df_atletas['Sport'] == 'Sailing')]['Name'].value_counts().idxmax()

'Charles Benedict "Ben" Ainslie'

In [53]:
df_atletas[(df_atletas['Medal']=='Gold') & (df_atletas['Sport'] == 'Sailing')]['Name'].value_counts().max()

4

In [54]:
df_atletas[(df_atletas['Medal']=='Gold') & (df_atletas['Sport'] == 'Volleyball')]['Name'].value_counts().idxmax()

'Marlenis Costa Blanco'

In [55]:
df_atletas[(df_atletas['Medal']=='Gold') & (df_atletas['Sport'] == 'Sailing')]['Name'].value_counts().max()

4

In [56]:
df_ourosBR['Name'].value_counts()[df_ourosBR['Name'].value_counts() > (df_ourosBR['Name'].value_counts().max()-1)]

Adhemar Ferreira da Silva                             2
Jaqueline Maria "Jaque" Pereira de Carvalho Endres    2
Srgio "Escadinha" Dutra dos Santos                    2
Fabiana "Fabi" Alvim de Oliveira                      2
Paula Renata Marques Pequeno                          2
Fabiana Marcelino Claudino                            2
Maurcio Camargo Lima                                  2
Marcelo Bastos Ferreira                               2
Torben Schmidt Grael                                  2
Thasa Daher de Menezes                                2
Sheilla Tavares de Castro Blassioli                   2
Robert Scheidt                                        2
Giovane Farinazzo Gvio                                2
Name: Name, dtype: int64

Compare o maior medalhista em total de medalhas do Brasil com o maior medalhista do mundo no mesmo esporte.

Os maiores medalhistas brasileiros em Sailing também são os maiores medalhistas mundiais, ambos com com 5 medalhas 

In [57]:
df_medalhistasBR.groupby('Sport')['Name'].value_counts()[df_medalhistasBR.groupby('Sport')['Name'].value_counts() >= df_medalhistasBR.groupby('Sport')['Name'].value_counts().max()]

Sport    Name                
Sailing  Robert Scheidt          5
         Torben Schmidt Grael    5
Name: Name, dtype: int64

In [58]:
# Vamos olhar para os medalhistas de Sailing
df_atletas[(~df_atletas['Medal'].isna()) & (df_atletas['Sport'] == 'Sailing')]['Name'].value_counts().idxmax()

'Torben Schmidt Grael'

Calcule o percentual de medalhas de ouro, prata e bronze que o Brasil ganhou em cada olimpíada.

In [59]:
df_precentual_medalhasBR = pd.DataFrame()
df_precentual_medalhasBR['Gold'] = 100 * df_medalhas_brasil_ano['Gold']/df_medalhas_brasil_ano['Total']
df_precentual_medalhasBR['Silver'] = 100 * df_medalhas_brasil_ano['Silver']/df_medalhas_brasil_ano['Total']
df_precentual_medalhasBR['Bronze'] = 100 * df_medalhas_brasil_ano['Bronze']/df_medalhas_brasil_ano['Total']
df_precentual_medalhasBR

Unnamed: 0,Gold,Silver,Bronze
1920,33.33,33.33,33.33
1948,0.0,0.0,100.0
1952,33.33,0.0,66.67
1956,100.0,0.0,0.0
1960,0.0,0.0,100.0
1964,0.0,0.0,100.0
1968,0.0,33.33,66.67
1972,0.0,0.0,100.0
1976,0.0,0.0,100.0
1980,50.0,0.0,50.0
