# SOMENTE O ITEM 1 É OBRIGATÓRIO PARA APRESENTAÇÃO!

# História das Olimpíadas - Parte 2
_(créditos ao prof. Rafael Moreira)_

Você recentemente trabalhou (ou está trabalhando) em uma análise de dados históricos dos jogos olímpicos utilizando o Pandas para auxiliá-lo.

Desde que você iniciou seus trabalhos nesse projeto, novas ferramentas bastante poderosas foram ensinadas! O seu papel agora será utilizar essas novas ferramentas para gerar algumas visualizações que tornarão certas informações muito mais claras.

Utilize qualquer uma das bibliotecas estudadas (```matplotlib```, ```seaborn``` e ```plotly```) para realizar as atividades propostas. Não há problema em usar apenas uma para realizar todas as atividades, nem em utilizar cada uma delas em uma atividade diferente - siga suas preferências pessoais!

Utilize os (muitos) parâmetros permitidos por cada função e/ou atributos dos objetos fornecidos pelas bibliotecas para criar uma identidade visual coesa para ser utilizada em todo o projeto. Use títulos, legendas e rótulos nos eixos para deixar os gráficos verdadeiramente informativos. E não se esqueça que a simples escolha das cores a serem utilizadas pode tornar os gráficos ainda mais interessantes!

Você utilizará o mesmo dataset fornecido no projeto anterior. Não há problemas em reaproveitar códigos do projeto anterior para economizar tempo e focar seus esforços na geração dos gráficos.

Para começar, importe o Pandas e carregue o arquivo ```athlete_events.csv``` fornecido no projeto anterior.

In [2]:
!pip install pandas
!pip install plotly

Collecting plotly
  Downloading plotly-5.3.1-py2.py3-none-any.whl (23.9 MB)
Collecting tenacity>=6.2.0
  Downloading tenacity-8.0.1-py3-none-any.whl (24 kB)
Installing collected packages: tenacity, plotly
Successfully installed plotly-5.3.1 tenacity-8.0.1


In [147]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

In [4]:
df = pd.read_csv('../data/athlete_events.csv', index_col = 0)

df.head()

Unnamed: 0_level_0,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,
2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,
3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,
4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,


## 1. O Brasil nas Olimpíadas

Vamos começar filtrando novamente os dados que iremos trabalhar. Crie um DataFrame contendo apenas informações sobre atletas **medalhistas** brasileiros.

In [6]:
brazil = df.loc[df['Team'] == 'Brazil']

brazil_with_medals = brazil.dropna(subset = ['Medal'])

brazil_with_medals.head()

Unnamed: 0_level_0,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
918,Ademir Roque Kaefer,M,24.0,179.0,74.0,Brazil,BRA,1984 Summer,1984,Summer,Los Angeles,Football,Football Men's Football,Silver
918,Ademir Roque Kaefer,M,28.0,179.0,74.0,Brazil,BRA,1988 Summer,1988,Summer,Seoul,Football,Football Men's Football,Silver
925,Adenzia Aparecida Ferreira da Silva,F,25.0,187.0,65.0,Brazil,BRA,2012 Summer,2012,Summer,London,Volleyball,Volleyball Women's Volleyball,Gold
966,Daniel Adler,M,26.0,180.0,72.0,Brazil,BRA,1984 Summer,1984,Summer,Los Angeles,Sailing,Sailing Mixed Three Person Keelboat,Silver
1020,Adriana Aparecida dos Santos,F,25.0,180.0,61.0,Brazil,BRA,1996 Summer,1996,Summer,Atlanta,Basketball,Basketball Women's Basketball,Silver


Vamos caracterizar fisicamente nossos medalhistas, verificando se há alguma correlação entre o desempenho em certos esportes e o tipo físico dos atletas. 

Gere um gráfico de barras contendo os diferentes esportes no eixo X e a altura dos atletas no eixo Y. Utilize barras lado-a-lado para separar atletas do sexo masculino e feminino.

In [75]:
brazil_with_medals_masculine = brazil_with_medals.loc[brazil_with_medals['Sex'] == 'M']

brazil_with_medals_feminine = brazil_with_medals.loc[brazil_with_medals['Sex'] == 'F']

brazil_with_medals_masculine_by_sport_and_height = brazil_with_medals_masculine.groupby(["Sport"])["Height"].mean()

brazil_with_medals_feminine_by_sport_and_height = brazil_with_medals_feminine.groupby(["Sport"])["Height"].mean()

data = pd.merge(
    brazil_with_medals_masculine_by_sport_and_height,
    brazil_with_medals_feminine_by_sport_and_height,
    how='left',
    left_index = True,
    right_index = True,
)

data.columns = ['Altura média masculina', 'Altura média feminina']

data.reset_index(inplace=True)

fig = px.bar(
    title = 'Comparação entre os medalhistas brasileiros e seus alturas',
    barmode ='group'
)

fig.add_bar(
    x = data['Sport'],
    y = data['Altura média masculina'],
    name = 'Altura média masculina'
)

fig.add_bar(
    x = data['Sport'],
    y = data['Altura média feminina'],
    name = 'Altura média feminina'
)

fig.update_yaxes(title_text='Altura média em cm')

fig.show()

Agora gere um gráfico semelhante ilustrando o peso dos atletas.

In [76]:
brazil_with_medals_masculine_by_sport_and_weight = brazil_with_medals_masculine.groupby(["Sport"])["Weight"].mean()

brazil_with_medals_feminine_by_sport_and_weight = brazil_with_medals_feminine.groupby(["Sport"])["Weight"].mean()

data = pd.merge(
    brazil_with_medals_masculine_by_sport_and_weight,
    brazil_with_medals_feminine_by_sport_and_weight,
    how='left',
    left_index = True,
    right_index = True,
)

data.columns = ['Peso médio masculino', 'Peso médio feminino']

data.reset_index(inplace=True)

fig = px.bar(
    title = 'Comparação entre os medalhistas brasileiros e seus pesos',
    barmode ='group'
)

fig.add_bar(
    x = data['Sport'],
    y = data['Peso médio masculino'],
    name = 'Peso médio masculino'
)

fig.add_bar(
    x = data['Sport'],
    y = data['Peso médio feminino'],
    name = 'Peso médio feminino'
)

fig.update_yaxes(title_text='Peso médio em kg')

fig.show()

Vamos analisar agora as medalhas que nossos atletas trouxeram para casa.

Encontre os maiores medalhistas brasileiros em **total de medalhas**. Em seguida, faça um gráfico de barras empilhadas. No eixo X coloque o nome dos atletas, e no eixo Y coloque o número de medalhas. Utilize as barras empilhadas para mostrar, respectivamente, as medalhas de bronze, prata e ouro de cada atleta.

In [162]:
brazil_with_medals_more_medals_for_athletes = brazil_with_medals.groupby(['Name', 'Medal'], as_index = False).size()

brazil_with_medals_more_medals_for_athletes.rename(
    columns = {
        'size': 'Number of medals'
    },
    inplace = True
)

medals_total_by_name = brazil_with_medals['Name'].value_counts()

brazil_with_medals_more_medals_for_athletes['Total of medals'] = brazil_with_medals_more_medals_for_athletes.apply(
    lambda row: medals_total_by_name[row['Name']], axis = 1
)
                                     
brazil_with_medals_more_medals_for_athletes.sort_values(
    'Total of medals',
    ascending = False
)

cut_of_medals = brazil_with_medals_more_medals_for_athletes['Total of medals'].max() - 1

data = brazil_with_medals_more_medals_for_athletes.loc[
    brazil_with_medals_more_medals_for_athletes['Total of medals'] >= cut_of_medals
]

brazil_with_medals_more_medals_for_athletes['Number of golds'] = brazil_with_medals_more_medals_for_athletes.apply(
    lambda row: row['Number of medals'] if row['Medal'] == 'Gold' else 0, axis = 1
)

brazil_with_medals_more_medals_for_athletes['Number of silvers'] = brazil_with_medals_more_medals_for_athletes.apply(
    lambda row: row['Number of medals'] if row['Medal'] == 'Silver' else 0, axis = 1
)

brazil_with_medals_more_medals_for_athletes['Number of bronzes'] = brazil_with_medals_more_medals_for_athletes.apply(
    lambda row: row['Number of medals'] if row['Medal'] == 'Bronze' else 0, axis = 1
)

fig = px.bar(
    data,
    title = 'Comparação entre os maiores medalhistas brasileiros e suas medalhas',
    barmode = 'stack',
    x = 'Name',
    y = 'Number of medals',
    color='Medal',
    color_discrete_map={
        'Gold': 'yellow',
        'Silver': 'gray',
        'Bronze': 'orange'
    },
    text='Number of medals'  
)

fig.show()
                    
data.head()                

Unnamed: 0,Name,Medal,Number of medals,Total of medals,Number of golds,Number of silvers,Number of bronzes
154,Gustavo Frana Borges,Bronze,2,4,0,0,2
155,Gustavo Frana Borges,Silver,2,4,0,2,0
302,Robert Scheidt,Bronze,1,5,0,0,1
303,Robert Scheidt,Gold,2,5,2,0,0
304,Robert Scheidt,Silver,2,5,0,2,0


Agora gere o mesmo gráfico de barras empilhadas substituindo os nomes dos atletas pelo nome de todos os esportes onde o Brasil já ganhou medalhas.

**DICA:** tome muito cuidado nessa análise: cada **evento esportivo** rende 1 medalha. Por exemplo, quando a equipe de futebol vence, isso é considerado 1 medalha, mesmo tendo cerca de 20 atletas medalhistas na equipe. 

Mais um gráfico de barras empilhadas: agora mostre os **eventos esportivos** que renderam medalhas para o Brasil.

Lembrando: cada "categoria" dentro de um esporte é considerado um evento. Por exemplo, dentro de "atletismo", temos uma competição de 100m masculina, uma de 100m feminino, um revezamento 4 x 100m masculino, um revezamento 4 x 100m feminino, uma competição de 400m masculino, uma de 400m feminino, uma maratona masculina, uma maratona feminina, e assim sucessivamente.

Utilize um gráfico de distribuição (como um histograma, por exemplo) ilustrando a quantidade total de medalhas do Brasil por esporte.

Repita o procedimento acima, mas com medalhas de ouro.

Agora faça um gráfico de setores (pizza) mostrando a distribuição de medalhas de ouro do Brasil por esporte.

Para finalizar a história do Brasil, vamos ver a série temporal de medalhas brasileiras. Crie um gráfico de linhas contendo 3 linhas: ouro, prata e bronze. Coloque no eixo X a edição da olimpíada (em ordem cronológica) e no eixo Y o total de medalhas de cada tipo.

## 2. O mundo nos jogos de verão

Filtre o DataFrame original para conter apenas informações sobre os **medalhistas** de todos os países **nos jogos de verão**.



Utilizando subplots, crie 2 boxplots ilustrando a quantidade de medalhas por atleta. Em um deles, considere todos os atletas. No segundo, experimente remover os *outliers*.

Descubra o total de medalhas de ouro de cada país (lembrando-se da restrição dos eventos esportivos, para não contabilizar múltiplas medalhas em esportes de equipe!).

Agora pegue os 10 países com mais medalhas e crie uma categoria "Outros" para o restante dos países. Exiba um gráfico de pizza mostrando a distribuição de medalhas de ouro entre essas 11 "equipes".

Repita o procedimento acima, mas mostrando o total de medalhas ao invés de apenas medalhas de ouro.

Crie um gráfico de barras empilhadas, com cada país das categorias acima no eixo X, total de medalhas no eixo Y, e barras empilhadas representando as medalhas de ouro, prata e bronze de cada país.

Crie um gráfico de distribuição (por exemplo, um histograma) mostrando a quantidade total de medalhas por país.

**Desafio bônus:** Crie uma visualização da quantidade de medalhas de ouro e outra para quantidade total de medalhas por país, ambas utilizando mapas. Utilize o tipo de mapa que achar mais adequado.

## 3. Brasil vs Mundo

Faça um gráfico de barras comparando os maiores medalhistas brasileiros com os maiores medalhistas do mundo em suas respectivas categorias.

Represente o esporte no eixo X, a quantidade de medalhas no eixo Y, coloque barras lado-a-lado representando os diferentes atletas de uma mesma modalidade e empilhe as medalhas de ouro, prata e bronze de cada atleta.

Repita o procedimento acima, mas ao invés de atletas, considere o(s) esporte(s) onde o Brasil mais possui medalha comparando-os com o país com maior quantidade de medalhas naquele esporte.

Para finalizar, repita os gráficos que você gerou com os 10 países com mais medalhas, mas remova o Brasil da categoria "Outros" e mostre-o também no gráfico.