# SOMENTE O ITEM 1 É OBRIGATÓRIO PARA APRESENTAÇÃO!

# História das Olimpíadas - Parte 2
_(créditos ao prof. Rafael Moreira)_

Você recentemente trabalhou (ou está trabalhando) em uma análise de dados históricos dos jogos olímpicos utilizando o Pandas para auxiliá-lo.

Desde que você iniciou seus trabalhos nesse projeto, novas ferramentas bastante poderosas foram ensinadas! O seu papel agora será utilizar essas novas ferramentas para gerar algumas visualizações que tornarão certas informações muito mais claras.

Utilize qualquer uma das bibliotecas estudadas (```matplotlib```, ```seaborn``` e ```plotly```) para realizar as atividades propostas. Não há problema em usar apenas uma para realizar todas as atividades, nem em utilizar cada uma delas em uma atividade diferente - siga suas preferências pessoais!

Utilize os (muitos) parâmetros permitidos por cada função e/ou atributos dos objetos fornecidos pelas bibliotecas para criar uma identidade visual coesa para ser utilizada em todo o projeto. Use títulos, legendas e rótulos nos eixos para deixar os gráficos verdadeiramente informativos. E não se esqueça que a simples escolha das cores a serem utilizadas pode tornar os gráficos ainda mais interessantes!

Você utilizará o mesmo dataset fornecido no projeto anterior. Não há problemas em reaproveitar códigos do projeto anterior para economizar tempo e focar seus esforços na geração dos gráficos.

Para começar, importe o Pandas e carregue o arquivo ```athlete_events.csv``` fornecido no projeto anterior.

In [None]:
!pip install pandas
!pip install plotly

In [None]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

In [None]:
df = pd.read_csv('../data/athlete_events.csv', index_col = 0)

df.head()

## 1. O Brasil nas Olimpíadas

Vamos começar filtrando novamente os dados que iremos trabalhar. Crie um DataFrame contendo apenas informações sobre atletas **medalhistas** brasileiros.

In [None]:
# Filtra os dados e salva um dataframe em 'brazil'contendo apenas os dados relacionados ao Brasil
brazil = df.loc[df['Team'] == 'Brazil']

# Filtra os dados e salva um dataframe em 'brazil_with_medals' contendo apenas os registros de medalhistas
brazil_with_medals = brazil.dropna(subset = ['Medal'])

# Exibe os cinco primeiros registros do dataframe
brazil_with_medals.head()

Vamos caracterizar fisicamente nossos medalhistas, verificando se há alguma correlação entre o desempenho em certos esportes e o tipo físico dos atletas. 

Gere um gráfico de barras contendo os diferentes esportes no eixo X e a altura dos atletas no eixo Y. Utilize barras lado-a-lado para separar atletas do sexo masculino e feminino.

In [None]:
# Filtra os dados e salva no dataframe 'brazil_with_medals_masculine' apenas os registros de medalhistas brasileiros do
# sexo masculino
brazil_with_medals_masculine = brazil_with_medals.loc[brazil_with_medals['Sex'] == 'M']

# Filtra os dados e salva no dataframe 'brazil_with_medals_feminine' apenas os registros de medalhistas brasileiros do
# sexo feminino
brazil_with_medals_feminine = brazil_with_medals.loc[brazil_with_medals['Sex'] == 'F']

# Calcula a altura media dos medalhistas masculinos do Brasil por esporte
brazil_with_medals_masculine_by_sport_and_height = brazil_with_medals_masculine.groupby(["Sport"])["Height"].mean()

# Calcula a altura media dos medalhistas femininos do Brasil por esporte
brazil_with_medals_feminine_by_sport_and_height = brazil_with_medals_feminine.groupby(["Sport"])["Height"].mean()

# Realiza o merge dos dois dataframes de alturas medias em um dataframe 'data'
data = pd.merge(
    brazil_with_medals_masculine_by_sport_and_height,
    brazil_with_medals_feminine_by_sport_and_height,
    how='left',
    left_index = True,
    right_index = True,
)

# Renomeia as colunas
data.columns = ['Average height of male Brazilian medalists', 'Average height of female Brazilian medalists']

# Reseta o index do datafram para transforma em outra coluna
data.reset_index(inplace=True)

# Cria a figura do grafico no modo de agrupamento
fig = px.bar(
    title = 'Comparison between Brazilian medalists and their heights',
    barmode ='group'
)

# Adicionar as barras relativas aos medalhistas masculinos
fig.add_bar(
    x = data['Sport'],
    y = data['Average height of male Brazilian medalists'],
    name = 'Average height of male Brazilian medalists'
)

# Adicionar as barras relativas aos medalhistas femininos
fig.add_bar(
    x = data['Sport'],
    y = data['Average height of female Brazilian medalists'],
    name = 'Average height of female Brazilian medalists'
)

# Renomeia o eixo y
fig.update_yaxes(title_text='Average height in cm')

# Exibe o grafico
fig.show()

Agora gere um gráfico semelhante ilustrando o peso dos atletas.

In [None]:
# Calcula o peso medio dos medalhistas brasileiros do sexo masculino por esporte
brazil_with_medals_masculine_by_sport_and_weight = brazil_with_medals_masculine.groupby(["Sport"])["Weight"].mean()

# Calcula o peso medio dos medalhistas brasileiros do sexo feminino por esporte
brazil_with_medals_feminine_by_sport_and_weight = brazil_with_medals_feminine.groupby(["Sport"])["Weight"].mean()

# Realiza o merge dos dataframes de peso medio e salva os dados em 'data'
data = pd.merge(
    brazil_with_medals_masculine_by_sport_and_weight,
    brazil_with_medals_feminine_by_sport_and_weight,
    how='left',
    left_index = True,
    right_index = True,
)

# Renomeia as colunas
data.columns = ['Average weight of male Brazilian medalists', 'Average weight of female Brazilian medalists']

# Reseta o index do dataframe e transforma em coluna
data.reset_index(inplace=True)

# Cria a figura do grafico
fig = px.bar(
    title = 'Comparison between Brazilian medalists and their heights',
    barmode ='group'
)

# Adiciona as barras relativas ao peso médio de cada medalhista do sexo masculina por esporte
fig.add_bar(
    x = data['Sport'],
    y = data['Average weight of male Brazilian medalists'],
    name = 'Average weight of male Brazilian medalists'
)

# Adiciona as barras relativas ao peso médio de cada medalhista do sexo feminino por esporte
fig.add_bar(
    x = data['Sport'],
    y = data['Average weight of female Brazilian medalists'],
    name = 'Average weight of female Brazilian medalists'
)

# Renomeia o eixo y do dataframe
fig.update_yaxes(title_text='Average weight in kg')

# Exibe o datafram
fig.show()

Vamos analisar agora as medalhas que nossos atletas trouxeram para casa.

Encontre os maiores medalhistas brasileiros em **total de medalhas**. Em seguida, faça um gráfico de barras empilhadas. No eixo X coloque o nome dos atletas, e no eixo Y coloque o número de medalhas. Utilize as barras empilhadas para mostrar, respectivamente, as medalhas de bronze, prata e ouro de cada atleta.

In [None]:
# Agrupa os medalhistas por nome e medalha e calcula a quantidade total de medalhas por atletas
brazil_with_medals_more_medals_for_athletes = brazil_with_medals.groupby(['Name', 'Medal'], as_index = False).size()

# Renomeia a coluna para 'Number of medals'
brazil_with_medals_more_medals_for_athletes.rename(
    columns = {
        'size': 'Number of medals'
    },
    inplace = True
)

# Calcula a quantidade total de medalhas por atletas
medals_total_by_name = brazil_with_medals['Name'].value_counts()


# Adiciona uma coluna com o total de medalhas de cada tipo por nome do atleta
brazil_with_medals_more_medals_for_athletes['Total of medals'] = brazil_with_medals_more_medals_for_athletes.apply(
    lambda row: medals_total_by_name[row['Name']], axis = 1
)

# Dicionarios auxiliares para salvar os registros por medalhas de cada atleta
gold_by_name = {}
silver_by_name = {}
bronze_by_name = {}

# Funcao para calcular o total de cada medalha
def add_medals(row):
    if row['Medal'] == 'Gold':
        gold_by_name[row['Name']] = row['Number of medals']
            
    if row['Medal'] == 'Silver':
        silver_by_name[row['Name']] = row['Number of medals']
            
    if row['Medal'] == 'Bronze':
        bronze_by_name[row['Name']] = row['Number of medals']

# Aplica a funcao anterior em cada linha do dataframe
brazil_with_medals_more_medals_for_athletes.apply(
    lambda row: add_medals(row),
    axis = 1
)

# Cria uma coluna com o total de ouros para cada atleta
brazil_with_medals_more_medals_for_athletes['Number of gold'] = brazil_with_medals_more_medals_for_athletes.apply(
    lambda row: 0 if not gold_by_name.get(row['Name']) else gold_by_name[row['Name']],
    axis = 1
)

# Cria uma coluna com o total de prata para cada atleta
brazil_with_medals_more_medals_for_athletes['Number of silver'] = brazil_with_medals_more_medals_for_athletes.apply(
    lambda row: 0 if not silver_by_name.get(row['Name']) else silver_by_name[row['Name']],
    axis = 1
)

# Cria uma coluna com o total de bronze para cada atleta
brazil_with_medals_more_medals_for_athletes['Number of bronze'] = brazil_with_medals_more_medals_for_athletes.apply(
    lambda row: 0 if not bronze_by_name.get(row['Name']) else bronze_by_name[row['Name']],
    axis = 1
)

# Ordena o dataframe por medalhas de ouro, prata e bronze
brazil_with_medals_more_medals_for_athletes.sort_values(
    by = ['Number of gold', 'Number of silver', 'Number of bronze'],
    ascending = False,
    inplace = True
)

# Corte para exibir os atletas brasileiros com mais medalhas
cut_of_medals = brazil_with_medals_more_medals_for_athletes['Total of medals'].max() - 1

# Filtra os dados para exibir apenas os atletas brasileiros com mais medalhas
data = brazil_with_medals_more_medals_for_athletes.loc[
    brazil_with_medals_more_medals_for_athletes['Total of medals'] >= cut_of_medals
]

# Cria o grafico de barras com o modo de empilhamento e ordena a legenda de acordo com o tipo da medalha
fig = px.bar(
    data,
    title = 'Comparison between the greatest Brazilian medalists',
    barmode = 'stack',
    x = 'Name',
    y = 'Number of medals',
    color='Medal',
    color_discrete_map={
        'Gold': 'yellow',
        'Silver': 'gray',
        'Bronze': 'orange'
    },
    category_orders = {
        'Medal': ['Gold', 'Silver', 'Bronze']
    },
    text='Number of medals'
)

# Exibe o grafico
fig.show()

Agora gere o mesmo gráfico de barras empilhadas substituindo os nomes dos atletas pelo nome de todos os esportes onde o Brasil já ganhou medalhas.

**DICA:** tome muito cuidado nessa análise: cada **evento esportivo** rende 1 medalha. Por exemplo, quando a equipe de futebol vence, isso é considerado 1 medalha, mesmo tendo cerca de 20 atletas medalhistas na equipe. 

In [None]:
# Dicionario auxiliar para salvar as medalhas por esporte
medals_by_sports = {}

# Lista auxiliar para salvar os eventos esportivos ja lidos para nao calcular os dados duplicados de eventos coletivos
list_events = []

# Funcao para pegar as medalhas por evento esportivo
def get_info_about_medals(row):
    # Chave o evento
    event = f'{row["Sport"]}:{row["Event"]}:{row["Year"]}:{row["Medal"]}'
    
    # Adiciona a chave do esporte e inicializa os valores com zero se o esporte ainda nao foi salvo
    if not medals_by_sports.get(row['Sport']):
        medals_by_sports[row['Sport']] = {
            'Gold': 0,
            'Silver': 0,
            'Bronze': 0
        }
    
    # Soma cada registro de medalha de cada esporte
    if event not in list_events:
        if row['Medal'] == 'Gold':
            medals_by_sports[row['Sport']]['Gold'] = medals_by_sports[row['Sport']]['Gold'] + 1
        
        if row['Medal'] == 'Silver':
            medals_by_sports[row['Sport']]['Silver'] = medals_by_sports[row['Sport']]['Silver'] + 1
        
        if row['Medal'] == 'Bronze':
            medals_by_sports[row['Sport']]['Bronze'] = medals_by_sports[row['Sport']]['Bronze'] + 1
    
        list_events.append(event)

# Aplica a funcao anterior em cada linha do dataframe
brazil_with_medals.apply(
    lambda row: get_info_about_medals(row),
    axis = 1
)

# Transforma o dicionario de medalhas por esporte em um dataframe
df_medals_by_sports = pd.DataFrame(medals_by_sports)

# Muda as colunas do dataframe para linhas e as linhas para colunas
df_medals_by_sports = df_medals_by_sports.transpose()

# Ordena o dataframe por tipos de medalhas
df_medals_by_sports = df_medals_by_sports.sort_values(by = ['Gold', 'Silver', 'Bronze'], ascending = False)

# Cria o grafico no modo de empilhamento
fig = px.bar(
    df_medals_by_sports,
    barmode = 'stack',
    color='variable',
    title = 'Comparison between sports by medals',
    color_discrete_map={
        'Gold': 'yellow',
        'Silver': 'gray',
        'Bronze': 'orange'
    },
)

# Renomeia a legenda do grafico
fig.update_layout(
    legend_title = 'Medal'
)

# Renomeia o eixo x
fig.update_xaxes(title='Sports')

# Renomeia o eixo y
fig.update_yaxes(title='Medals')

# Exibe o grafico
fig.show()

Mais um gráfico de barras empilhadas: agora mostre os **eventos esportivos** que renderam medalhas para o Brasil.

Lembrando: cada "categoria" dentro de um esporte é considerado um evento. Por exemplo, dentro de "atletismo", temos uma competição de 100m masculina, uma de 100m feminino, um revezamento 4 x 100m masculino, um revezamento 4 x 100m feminino, uma competição de 400m masculino, uma de 400m feminino, uma maratona masculina, uma maratona feminina, e assim sucessivamente.

In [None]:
# Dicionario para salvar as medalhas por evento
medals_by_events = {}        

# Lista auxiliar para salvar as categorias ja lidos para nao calcular os dados duplicados de eventos coletivos
list_events = []

# Funcao que busca as informacoes das medalhas por evento esportivo
def get_info_about_medals(row):
    # Chave do evento
    event = f'{row["Event"]}:{row["Year"]}:{row["Medal"]}'
    
    # Adiciona a chave do evento e inicializa os valores com zero se o evento ainda nao foi salvo 
    if not medals_by_events.get(row['Event']):
        medals_by_events[row['Event']] = {
            'Gold': 0,
            'Silver': 0,
            'Bronze': 0
        }
    
    # Soma cada registro de medalha de cada evento
    if event not in list_events:
        if row['Medal'] == 'Gold':
            medals_by_events[row['Event']]['Gold'] = medals_by_events[row['Event']]['Gold'] + 1
        
        if row['Medal'] == 'Silver':
            medals_by_events[row['Event']]['Silver'] = medals_by_events[row['Event']]['Silver'] + 1
        
        if row['Medal'] == 'Bronze':
            medals_by_events[row['Event']]['Bronze'] = medals_by_events[row['Event']]['Bronze'] + 1
    
        list_events.append(event)

# Aplica a funcao anterior em cada linha do dataframe de medalhistas brasileiros
brazil_with_medals.apply(
    lambda row: get_info_about_medals(row),
    axis = 1
)

# Cria um dataframe a partir do dicionario de medalhas por evento
df_medals_by_events = pd.DataFrame(medals_by_events)

# Muda as colunas do dataframe para linhas e as linhas para colunas
df_medals_by_events = df_medals_by_events.transpose()

# Ordena o dataframe por tipo de medalha
df_medals_by_events = df_medals_by_events.sort_values(by = ['Gold', 'Silver', 'Bronze'], ascending = False)

# Cria o grafico com modo de empilhamento
fig = px.bar(
    df_medals_by_events,
    barmode = 'stack',
    color='variable',
    title = 'Comparison between events by medals',
    color_discrete_map={
        'Gold': 'yellow',
        'Silver': 'gray',
        'Bronze': 'orange'
    },
    orientation='h'
)

# Renomeia a legenda do grafico
fig.update_layout(
    legend_title = 'Medal'
)

# Renomeia o eixo x
fig.update_yaxes(title='Events')

# Renomeia o eixo y
fig.update_xaxes(title='Medals')

# Exibe o grafico
fig.show()

Utilize um gráfico de distribuição (como um histograma, por exemplo) ilustrando a quantidade total de medalhas do Brasil por esporte.

In [None]:
# Calcula o total de medalhas por esporte e salva em uma nova coluna
df_medals_by_sports['Medal'] = df_medals_by_sports.apply(
    lambda row: row['Gold'] + row['Silver'] + row['Bronze'],
    axis = 1
)

# Cria o histograma
fig = px.histogram(
    df_medals_by_sports,
    x = 'Medal',
    y = df_medals_by_sports.index,
    color_discrete_map={
        'Gold': 'yellow',
        'Silver': 'gray',
        'Bronze': 'orange'
    },
)

# Renomeia o eixo y
fig.update_yaxes(title='Sports')

# Renomeia o eixo x
fig.update_xaxes(title='Medals')

# Exibe o grafico
fig.show()

Repita o procedimento acima, mas com medalhas de ouro.

In [None]:
# Cria o histograma com as medalhas de ouro
fig = px.histogram(
    df_medals_by_sports,
    x = 'Gold',
    y = df_medals_by_sports.index,
)

# Renomeia o eixo y
fig.update_yaxes(title='Sports')

# Renomeia o eixo x
fig.update_xaxes(title='Gold')

# Exibe o grafico
fig.show()

Agora faça um gráfico de setores (pizza) mostrando a distribuição de medalhas de ouro do Brasil por esporte.

In [None]:
# Cria o grafico de pizza utilizando as medalhas de ouro
fig = px.pie(
    df_medals_by_sports,
    values = 'Gold',
    names = df_medals_by_sports.index
)

# Exibe o grafico
fig.show()

Para finalizar a história do Brasil, vamos ver a série temporal de medalhas brasileiras. Crie um gráfico de linhas contendo 3 linhas: ouro, prata e bronze. Coloque no eixo X a edição da olimpíada (em ordem cronológica) e no eixo Y o total de medalhas de cada tipo.

In [None]:
# Dicionario para salvar as medalhas por edicao
medals_by_edition = {}        

# Lista auxiliar para salvar as categorias ja lidos para nao calcular os dados duplicados de eventos coletivos
list_events = []

# Funcao para pegar as medalhas por edicao
def get_info_about_medals(row):
    # Chave da edicao
    event = f'{row["Sport"]}:{row["Event"]}:{row["Year"]}:{row["Medal"]}'
    
    # Adiciona a chave do evento e inicializa os valores com zero se o evento ainda nao foi salvo
    if not medals_by_edition.get(row['Year']):
        medals_by_edition[row['Year']] = {
            'Gold': 0,
            'Silver': 0,
            'Bronze': 0
        }
    
    # Calcula cada tipo de medalha por edicao
    if event not in list_events:
        if row['Medal'] == 'Gold':
            medals_by_edition[row['Year']]['Gold'] = medals_by_edition[row['Year']]['Gold'] + 1
        
        if row['Medal'] == 'Silver':
            medals_by_edition[row['Year']]['Silver'] = medals_by_edition[row['Year']]['Silver'] + 1
        
        if row['Medal'] == 'Bronze':
            medals_by_edition[row['Year']]['Bronze'] = medals_by_edition[row['Year']]['Bronze'] + 1
    
        list_events.append(event)

# Aplica a funcao anterior em cada linha do dataframe de medalhistas brasileiros
brazil_with_medals.apply(
    lambda row: get_info_about_medals(row),
    axis = 1
)

# Cria uma dataframe a partir do dicionario de medalhas por edicao
df_medals_by_edition = pd.DataFrame(medals_by_edition)

# Muda as colunas do dataframe para linhas e as linhas para colunas 
df_medals_by_edition = df_medals_by_edition.transpose()

# Ordena o dataframe a partir do indice que sao as edicoes
df_medals_by_edition = df_medals_by_edition.sort_index()

# Cria o grafico de linhas com a quantidade das medalhas
fig = px.line(
    df_medals_by_edition,
    color_discrete_map = {
        'Gold': 'yellow',
        'Silver': 'gray',
        'Bronze': 'orange'
    }
)

# Renomeia a legenda
fig.update_layout(
    legend_title = 'Medal'
)

# Renomeia o eixo y
fig.update_yaxes(title='Medals')

# Renomeia o eixo x
fig.update_xaxes(title='Editions')

# Exibe o grafico
fig.show()

## 2. O mundo nos jogos de verão

Filtre o DataFrame original para conter apenas informações sobre os **medalhistas** de todos os países **nos jogos de verão**.



In [None]:
# Filtra os dados e salva todos os medalhistas das olimpiadas de verao no dataframe 'summer_medals'
summer_medals = df.loc[df['Season'] == 'Summer'].dropna(subset = ['Medal'])

# Exibe os cinco primeiros registros do dataframe
summer_medals.head()

Utilizando subplots, crie 2 boxplots ilustrando a quantidade de medalhas por atleta. Em um deles, considere todos os atletas. No segundo, experimente remover os *outliers*.

In [None]:
# Calcula a quantidade de medalhas para cada atleta
athletes_for_medals = summer_medals['Name'].value_counts()

# Converte a serie em um dataframe
athletes_for_medals = pd.DataFrame(athletes_for_medals)

# Reseta o indice para o indice 'Name' se tornar uma coluna
athletes_for_medals = athletes_for_medals.reset_index()

# Renomeia as colunas
athletes_for_medals.columns = ['Name', 'Medals']

# Cria a figura para o grafico do tipo boxplot
fig = make_subplots(
    rows=1,
    cols=2
)

# Adiciona o grafico de todos os medalhistas
fig.add_trace(
    go.Box(
        y = athletes_for_medals['Medals'],
        name = "All medalists"
    ),
    row=1,
    col=1
)

# Funcao que retorna o limite superior e inferior
def calc_inf_sup_interval(column_data):
    Q1 = column_data.quantile(q=0.25)
    
    Q3 = column_data.quantile(q=0.75)

    IQR = Q3 - Q1

    inf = Q1 - 1.5 * IQR
    
    sup = Q3 + 1.5 * IQR

    return inf, sup

# Cria um dataframe apenas com os atletas que nao sao outliers
athletes_for_medals_no_outliers = df.copy()

for column in columns_to_remove_outliers:
    inf, sup = calc_inf_sup_interval(athletes_for_medals_no_outliers[column])
    
    athletes_for_medals_no_outliers = athletes_for_medals_no_outliers[(athletes_for_medals_no_outliers[column] >= inf) & (athletes_for_medals_no_outliers[column] <= sup)]

# Adiciona o grafico dos atletas que nao sao outliers
fig.add_trace(
    go.Box(
        y = athletes_for_medals_no_outliers['Medals'],
        name = "No outliers"
    ),
    row=1,
    col=2
)

# Exibe o grafico
fig.show()

Descubra o total de medalhas de ouro de cada país (lembrando-se da restrição dos eventos esportivos, para não contabilizar múltiplas medalhas em esportes de equipe!).

Agora pegue os 10 países com mais medalhas e crie uma categoria "Outros" para o restante dos países. Exiba um gráfico de pizza mostrando a distribuição de medalhas de ouro entre essas 11 "equipes".

In [None]:
# Dicionario auxiliar para salvar as medalhas por paises
medals_by_team = {}

# Lista de eventos para contrar as medalhas por evento esportivo
list_events = []

# Funcao para buscar as informacoes das medalhas
def get_info_about_medals(row):
    # Chave do evento
    event = f'{row["Sport"]}:{row["Event"]}:{row["Year"]}:{row["Medal"]}'
    
    # Iniciliza os valores das medalhas caso esse time ainda nao foi adicionado no dicionario
    if not medals_by_team.get(row['Team']):
        medals_by_team[row['Team']] = {
            'Gold': 0,
            'Silver': 0,
            'Bronze': 0
        }
    
    # Incrementa o valor da medalha
    if event not in list_events:
        if row['Medal'] == 'Gold':
            medals_by_team[row['Team']]['Gold'] = medals_by_team[row['Team']]['Gold'] + 1
        
        if row['Medal'] == 'Silver':
            medals_by_team[row['Team']]['Silver'] = medals_by_team[row['Team']]['Silver'] + 1
        
        if row['Medal'] == 'Bronze':
            medals_by_team[row['Team']]['Bronze'] = medals_by_team[row['Team']]['Bronze'] + 1
    
        list_events.append(event)

# Aplica a funcao anterior em cada linha do dataframe
summer_medals.apply(
    lambda row: get_info_about_medals(row),
    axis = 1
)

# Filtra os dados e salva apenas os dados relativos as medalhas de ouro
gold_by_team = {key:value['Gold'] for (key, value) in medals_by_team.items()}

# Cria o dataframe a partir do dicionario com os dados das medalhas de ouro
df_gold_by_team = pd.DataFrame(gold_by_team.items(), columns=['Team', 'Gold'])

# Ordena o dataframe pela quantidade de medalhas de ouro
df_gold_by_team = df_gold_by_team.sort_values(by = ['Gold'], ascending = False)

# Seleciona apenas os dez paises com mais medalhas
data = df_gold_by_team[:10]

# Cria um registro com as medalhas dos outros paises
data = data.append(
    {
        'Team': 'Others',
        'Gold': df_gold_by_team['Gold'].sum() - data['Gold'].sum()
    }, ignore_index = True
)

# Cria o grafico de pizza com porcentagem de medalhas de ouro por pais
fig = px.pie(
    data,
    values = 'Gold',
    names = 'Team',
    title = 'Gold medals by countries'
)

# Exibe o grafico
fig.show()

Repita o procedimento acima, mas mostrando o total de medalhas ao invés de apenas medalhas de ouro.

In [None]:
# Calcula a quantidade total de medalhas por pais
total_of_medals_by_team = {key:(value['Gold'] + value['Silver'] + value['Bronze']) for (key, value) in medals_by_team.items()}

# Cria um dataframe com as informacoes do total de medalhas por pais
df_total_of_medals_by_team = pd.DataFrame(total_of_medals_by_team.items(), columns=['Team', 'Medal'])

# Ordena o dataframe pela quantidade de medalhas
df_total_of_medals_by_team = df_total_of_medals_by_team.sort_values(by = ['Medal'], ascending = False)

# Seleciona apenas os dez paises com mais medalhas
data = df_total_of_medals_by_team[:10]

# Adiciona o registro a quantidade de medalhas dos outros paises
data = data.append(
    {
        'Team': 'Others',
        'Medal': df_total_of_medals_by_team['Medal'].sum() - data['Medal'].sum()
    }, ignore_index = True
)

# Cria um grafico de pizza com a quantidade total de medalhas por pais
fig = px.pie(
    data,
    values = 'Medal',
    names = 'Team',
    title = 'Total of medals by countries'
)

# Exibe o grafico
fig.show()

Crie um gráfico de barras empilhadas, com cada país das categorias acima no eixo X, total de medalhas no eixo Y, e barras empilhadas representando as medalhas de ouro, prata e bronze de cada país.

In [None]:
# Cria um dataframe com a quantidade de cada medalha por pais
df_medals_by_team = pd.DataFrame(medals_by_team)

# Converte linhas em colunas e colunas em linhas do ultimo dataframe
df_medals_by_team = df_medals_by_team.transpose()

# Ordena os registros pelas medalhas
df_medals_by_team = df_medals_by_team.sort_values(by = ['Gold', 'Silver', 'Bronze'], ascending = False)

# Faz a copia do dataframe para edita-lo abaixo
data = df_medals_by_team.copy(deep = True)

# Seleciona apenas os dez paises com mais medalhas
data = data[:10]

# Cria um dataframe com os dados dos outros paises
others = pd.DataFrame.from_dict(
    {
        'Gold': df_medals_by_team['Gold'].sum() - data['Gold'].sum(),
        'Silver': df_medals_by_team['Silver'].sum() - data['Silver'].sum(),
        'Bronze': df_medals_by_team['Bronze'].sum() - data['Bronze'].sum()
    }, orient='index'
)

# Renomeia a coluna do dataframe dos outros paises
others.columns = ['Others']

# Une os dois dataframes
data.loc['Others'] = others['Others']

# Cria o grafico de barras no modo empilhamento
fig = px.bar(
    data,
    barmode = 'stack',
    color='variable',
    title = 'Medals by team',
    color_discrete_map={
        'Gold': 'yellow',
        'Silver': 'gray',
        'Bronze': 'orange'
    },
)

# Renomeia a legenda
fig.update_layout(
    legend_title = 'Medal'
)

# Renomeia o eixo x
fig.update_xaxes(title='Team')

# Renomaia o eixo y
fig.update_yaxes(title='Medal')

# Exibe o grafico
fig.show()

Crie um gráfico de distribuição (por exemplo, um histograma) mostrando a quantidade total de medalhas por país.

In [None]:
# Cria um dataframe com os dez paises com mais medalhas
data = df_total_of_medals_by_team[:10]

# Adiciona a quantidade total de medalhas dos outros paises
data = data.append(
    {
        'Team': 'Others',
        'Medal': df_total_of_medals_by_team['Medal'].sum() - data['Medal'].sum()
    }, ignore_index = True
)

# Ordena o dataframe pela quantidade de medalha
data = data.sort_values(by = ['Medal'], ascending = False)

# Cria o grafico de distribuicao (histograma)
fig = px.histogram(
    data,
    x = 'Medal',
    y = 'Team',
)

# Renomeia o eixo x
fig.update_xaxes(title='Medal')

# Exibe o grafico
fig.show()

**Desafio bônus:** Crie uma visualização da quantidade de medalhas de ouro e outra para quantidade total de medalhas por país, ambas utilizando mapas. Utilize o tipo de mapa que achar mais adequado.

In [None]:
# Dicionario para salvar as medalhas de cada pais de acordo com seu noc
medals_by_noc = {}        

# Lista de eventos para controlar as medalhas por evento esportivo
list_events = []

# Funcao para buscar as informacoes das medalhas
def get_info_about_medals(row):
    # Chave do evento
    event = f'{row["Sport"]}:{row["Event"]}:{row["Year"]}:{row["Medal"]}'
    
    # Inicializa os valores das medalhas de cada pais
    if not medals_by_noc.get(row['NOC']):
        medals_by_noc[row['NOC']] = {
            'Gold': 0,
            'Silver': 0,
            'Bronze': 0,
            'Team': row['Team']
        }
    
    # Incrementa os valores das medalhas
    if event not in list_events:
        if row['Medal'] == 'Gold':
            medals_by_noc[row['NOC']]['Gold'] = medals_by_noc[row['NOC']]['Gold'] + 1
        
        if row['Medal'] == 'Silver':
            medals_by_noc[row['NOC']]['Silver'] = medals_by_noc[row['NOC']]['Silver'] + 1
        
        if row['Medal'] == 'Bronze':
            medals_by_noc[row['NOC']]['Bronze'] = medals_by_noc[row['NOC']]['Bronze'] + 1
    
        list_events.append(event)

# Aplica a funcao em cada linha do dataframe
summer_medals.apply(
    lambda row: get_info_about_medals(row),
    axis = 1
)

# Formata os dados para a criacao do grafico
medals_by_noc = [
    {
        'NOC': key,
        'Gold': value['Gold'],
        'Medal': (value['Gold'] + value['Silver'] + value['Bronze']),
        'Team': value['Team']
    } for (key, value) in medals_by_noc.items()
]

# Cria o dataframe com as informacoes das medalhas por noc
df_medals_by_noc = pd.DataFrame(medals_by_noc)

# Funcao que atualiza alguns dados que faltavam
def update_vals(row):
    if 'Germany' == row['Team']:
        row['NOC'] = 'DEU'
    if 'Denmark' in row['Team']:
        row['NOC'] = 'DNK'
    return row

# Aplica a funcao em cada linha do dataframe
df_medals_by_noc = df_medals_by_noc.apply(
    lambda row: update_vals(row),
    axis=1
)

# Cria o primeiro mapa com o total de medalhas
fig = px.choropleth(
    df_medals_by_noc,
    locations = 'NOC', 
    color = 'Medal',
    hover_name = 'Team',
    projection = "natural earth"
)

# Exibe o mapa
fig.show()

# Cria o segundo mapa com a quantidade de medalhas de ouro
fig = px.choropleth(
    df_medals_by_noc,
    locations = 'NOC', 
    color = 'Gold',
    hover_name = 'Team',
    projection = "natural earth"
)

# Exibe o mapa
fig.show()

## 3. Brasil vs Mundo

Faça um gráfico de barras comparando os maiores medalhistas brasileiros com os maiores medalhistas do mundo em suas respectivas categorias.

Represente o esporte no eixo X, a quantidade de medalhas no eixo Y, coloque barras lado-a-lado representando os diferentes atletas de uma mesma modalidade e empilhe as medalhas de ouro, prata e bronze de cada atleta.

In [None]:
# Dicionario para armazenar as medalhas de todos atletas por esporte
medals_by_sports = {}        

# Lista para controlar as medalhas por evento esportivo
list_events = []

# Funcao para buscar as informacoes das medalhas
def get_info_about_medals(row):
    # Chave que controla o evento esportivo
    event = f'{row["Name"]}:{row["Sport"]}:{row["Medal"]}:{row["Year"]}:{row["Event"]}'
    
    # Intancia o esporte no dicionario de medalhas por esporte
    if not medals_by_sports.get(row['Sport']):
        medals_by_sports[row['Sport']] = {}
    
    # Instancia o atleta nos seus esportes
    if not medals_by_sports.get(row['Sport']).get(row['Name']):    
        medals_by_sports[row['Sport']][row['Name']] = {
            'Gold': 0,
            'Silver': 0,
            'Bronze': 0,
            'Team': 'Wolrd' if row['Team'] != 'Brazil' else 'Brazil'
        }
    
    # Incrementa a quantidade de medalhas por atleta e por esporte
    if event not in list_events:
        if row['Medal'] == 'Gold':
            medals_by_sports[row['Sport']][row['Name']]['Gold'] = medals_by_sports[row['Sport']][row['Name']]['Gold'] + 1
        
        if row['Medal'] == 'Silver':
            medals_by_sports[row['Sport']][row['Name']]['Silver'] = medals_by_sports[row['Sport']][row['Name']]['Silver'] + 1
        
        if row['Medal'] == 'Bronze':
            medals_by_sports[row['Sport']][row['Name']]['Bronze'] = medals_by_sports[row['Sport']][row['Name']]['Bronze'] + 1
    
        list_events.append(event)

# Aplica a funcao em cada linha do dataframe de medalhistas brasileiros
brazil_with_medals.apply(
    lambda row: get_info_about_medals(row),
    axis = 1
)

# Pega o atlheta com mais medalhas em cada esporte ordenado por ouro, prata e bronze
biggest_medalists_for_sport_in_brazil = {
    sport:sorted(
        atletes.items(),
        key = lambda athlete: (athlete[1]['Gold'], athlete[1]['Silver'], athlete[1]['Bronze']),
        reverse = True)[0]
    for sport, atletes in medals_by_sports.items()
}

# Formata os dados
biggest_medalists_for_sport_in_brazil = [
    {
        'Sport': sport,
        'Name': athlete[0],
        'Gold': athlete[1]['Gold'],
        'Silver': athlete[1]['Silver'],
        'Bronze': athlete[1]['Bronze'],
        'Team': athlete[1]['Team']
    } for sport, athlete in biggest_medalists_for_sport_in_brazil.items()
]

# Cria o dataframe com os dados dos maiores medalhistas brasileiros por esporte
df_of_the_biggest_medalists_for_sport_in_brazil = pd.DataFrame(biggest_medalists_for_sport_in_brazil)

# Dicionario que para salvar os dados de todos os atletas do mundo
medals_by_sports = {}

# Lista que controla os eventos esportivos
list_events = []

# Aplica a funcao que busca as informacoes das medalhas em cada linha do dataframe de medalhistas das olimpiadas de verao
summer_medals.apply(
    lambda row: get_info_about_medals(row),
    axis = 1
)

# Pega o atleta com mais medalha em cada esporte
biggest_medalists_for_sport_in_world = {
    sport:sorted(
        atletes.items(),
        key = lambda athlete: (athlete[1]['Gold'], athlete[1]['Silver'], athlete[1]['Bronze']),
        reverse = True)[0]
    for sport, atletes in medals_by_sports.items()
}

# Formata os dados de maiores medalhistas por esporte
biggest_medalists_for_sport_in_world = [
    {
        'Sport': sport,
        'Name': athlete[0],
        'Gold': athlete[1]['Gold'],
        'Silver': athlete[1]['Silver'],
        'Bronze': athlete[1]['Bronze'],
        'Team': athlete[1]['Team']
    } for sport, athlete in biggest_medalists_for_sport_in_world.items()
]

# Cria o dataframe com os dados
df_of_the_biggest_medalists_for_sport_in_world = pd.DataFrame(biggest_medalists_for_sport_in_world)

# Lista de esportes que o Brasil teve medalhas
sports_brazil = list(df_of_the_biggest_medalists_for_sport_in_brazil['Sport'])

# Filtra os dados de medalhas do resto do mundo salvando apenas os dados dos esportes que o Brasil tem medalha
df_of_the_biggest_medalists_for_sport_in_world = df_of_the_biggest_medalists_for_sport_in_world.iloc[
    [
        index
        for index, row
        in df_of_the_biggest_medalists_for_sport_in_world.iterrows()
        if row['Sport'] in sports_brazil
    ]
]

# Cria a figura do grafico
fig = go.Figure()

# Adiciona as barras com os valores das medalhas de ouro do Brasil
fig.add_trace(
    go.Bar(
        name = 'Brazil Gold Medals',
        y = df_of_the_biggest_medalists_for_sport_in_brazil['Sport'],
        x = df_of_the_biggest_medalists_for_sport_in_brazil['Gold'],
        legendrank = 1,
        offsetgroup = 0,
        orientation = 'h'
    )
)

# Adiciona as barras com os valores das medalhas de prata do Brasil
fig.add_trace(
    go.Bar(
        name = 'Brazil Silver Medals',
        y = df_of_the_biggest_medalists_for_sport_in_brazil['Sport'],
        x = df_of_the_biggest_medalists_for_sport_in_brazil['Silver'],
        legendrank = 2,
        offsetgroup = 0,
        orientation = 'h'
    )
)

# Adiciona as barras com os valores das medalhas de bronze do Brasil
fig.add_trace(
    go.Bar(
        name = 'Brazil Bronze Medals',
        y = df_of_the_biggest_medalists_for_sport_in_brazil['Sport'],
        x = df_of_the_biggest_medalists_for_sport_in_brazil['Bronze'],
        legendrank = 3,
        offsetgroup = 0,
        orientation = 'h'
    )
)

# Adiciona as barras com os valores das medalhas de ouro do Mundo
fig.add_trace(
    go.Bar(
        name = 'World Gold Medals',
        y = df_of_the_biggest_medalists_for_sport_in_world['Sport'],
        x = df_of_the_biggest_medalists_for_sport_in_world['Gold'],
        legendrank = 4,
        offsetgroup = 1,
        orientation = 'h'
    )
)

# Adiciona as barras com os valores das medalhas de prata do Mundo
fig.add_trace(
    go.Bar(
        name = 'World Silver Medals',
        y = df_of_the_biggest_medalists_for_sport_in_world['Sport'],
        x = df_of_the_biggest_medalists_for_sport_in_world['Silver'],
        legendrank = 5,
        offsetgroup = 1,
        orientation = 'h'
    )
)

# Adiciona as barras com os valores das medalhas de bronze do Mundo
fig.add_trace(
    go.Bar(
        name = 'World Bronze Medals',
        y = df_of_the_biggest_medalists_for_sport_in_world['Sport'],
        x = df_of_the_biggest_medalists_for_sport_in_world['Bronze'],
        legendrank = 6,
        offsetgroup = 1,
        orientation = 'h'
    )
)

# Adiciona o titulo do grafico
fig.update_layout(
    title = 'Comparison between the greatest Brazilian and world medalists'
)

# Exibe o grafico
fig.show()

Repita o procedimento acima, mas ao invés de atletas, considere o(s) esporte(s) onde o Brasil mais possui medalha comparando-os com o país com maior quantidade de medalhas naquele esporte.

In [None]:
# Dicionario para armazenar os esportes com mais medalhas
medals_by_sports = {}

# Lista para controlar os eventos esportivos
list_events = []

# Funcao para buscar as informacoes das medalhas
def get_info_about_medals(row):
    # Chave do evento
    event = f'{row["Team"]}:{row["Sport"]}:{row["Medal"]}:{row["Year"]}:{row["Event"]}'
    
    # Instancia o esporte no dicionario de medalhas por esporte
    if not medals_by_sports.get(row['Sport']):
        medals_by_sports[row['Sport']] = {}
    
    # Instancia as medalhas dos esportes
    if not medals_by_sports.get(row['Sport']).get(row['Team']):    
        medals_by_sports[row['Sport']][row['Team']] = {
            'Gold': 0,
            'Silver': 0,
            'Bronze': 0,
        }
    
    # Incrementa as medalhas dos esportes
    if event not in list_events:
        if row['Medal'] == 'Gold':
            medals_by_sports[row['Sport']][row['Team']]['Gold'] = medals_by_sports[row['Sport']][row['Team']]['Gold'] + 1
        
        if row['Medal'] == 'Silver':
            medals_by_sports[row['Sport']][row['Team']]['Silver'] = medals_by_sports[row['Sport']][row['Team']]['Silver'] + 1
        
        if row['Medal'] == 'Bronze':
            medals_by_sports[row['Sport']][row['Team']]['Bronze'] = medals_by_sports[row['Sport']][row['Team']]['Bronze'] + 1
    
        list_events.append(event)

# Aplica a funcao que busca as informacoes das medalhas em cada linha do dataframe de medalhas do Brasil
brazil_with_medals.apply(
    lambda row: get_info_about_medals(row),
    axis = 1
)

# Formata os dados do Brasil nos esportes
medals_for_sport_in_brazil = [
    {
        'Sport': sport,
        'Team': 'Brazil',
        'Gold': medals['Brazil']['Gold'],
        'Silver': medals['Brazil']['Silver'],
        'Bronze': medals['Brazil']['Bronze']
    } for sport, medals in medals_by_sports.items()
]

# Cria o dataframe com as informacoes do Brasil
df_of_medals_for_sport_in_brazil = pd.DataFrame(medals_for_sport_in_brazil)

# Dicionario para salvar as informacoes das medalhas por esporte do mundo
medals_by_sports = {}

# Lista para controlar os eventos esportivos
list_events = []

# Aplica a funcao que busca as medalhas em cada linha do dataframe de medalhas do mundo
summer_medals.apply(
    lambda row: get_info_about_medals(row),
    axis = 1
)

# Busca o pais com mais medalhas em cada esporte 
medals_for_sport_in_world = {
    sport:sorted(
        teams.items(),
        key = lambda team: (team[1]['Gold'], team[1]['Silver'], team[1]['Bronze']),
        reverse = True)[0]
    for sport, teams in medals_by_sports.items()
}

# Formato os dados do pais com mais medalhas
medals_for_sport_in_world = [
    {
        'Sport': sport,
        'Team': team[0],
        'Gold': team[1]['Gold'],
        'Silver': team[1]['Silver'],
        'Bronze': team[1]['Bronze']
    } for sport, team in medals_for_sport_in_world.items()
]

# Cria o dataframe com as informacoes dos paises com mais medalha pelo mundo
df_of_medals_for_sport_in_world = pd.DataFrame(medals_for_sport_in_world)

# Filtra os dados dos paises com mais medalhas pelo mundo e salva apenas os esportes que o Brasil tem medalhas
df_of_medals_for_sport_in_world = df_of_medals_for_sport_in_world.iloc[
    [
        index
        for index, row
        in df_of_medals_for_sport_in_world.iterrows()
        if row['Sport'] in sports_brazil
    ]
]

# Cria a figura do grafico
fig = go.Figure()

# Adiciona as barras das medalhas de ouro do Brasil
fig.add_trace(
    go.Bar(
        name = 'Brazil Gold Medals',
        y = df_of_medals_for_sport_in_brazil['Sport'],
        x = df_of_medals_for_sport_in_brazil['Gold'],
        legendrank = 1,
        offsetgroup = 0,
        orientation = 'h'
    )
)

# Adiciona as barras das medalhas de prata do Brasil
fig.add_trace(
    go.Bar(
        name = 'Brazil Silver Medals',
        y = df_of_medals_for_sport_in_brazil['Sport'],
        x = df_of_medals_for_sport_in_brazil['Silver'],
        legendrank = 2,
        offsetgroup = 0,
        orientation = 'h'
    )
)

# Adiciona as barras das medalhas de bronze do Brasil
fig.add_trace(
    go.Bar(
        name = 'Brasil Bronze Medals',
        y = df_of_medals_for_sport_in_brazil['Sport'],
        x = df_of_medals_for_sport_in_brazil['Bronze'],
        legendrank = 3,
        offsetgroup = 0,
        orientation = 'h'
    )
)

# Adiciona as barras das medalhas de ouro do mundo
fig.add_trace(
    go.Bar(
        name = 'World Gold Medals',
        y = df_of_medals_for_sport_in_world['Sport'],
        x = df_of_medals_for_sport_in_world['Gold'],
        legendrank = 4,
        offsetgroup = 1,
        orientation = 'h'
    )
)

# Adiciona as barras das medalhas de prata do mundo
fig.add_trace(
    go.Bar(
        name = 'World Silver Medals',
        y = df_of_medals_for_sport_in_world['Sport'],
        x = df_of_medals_for_sport_in_world['Silver'],
        legendrank = 5,
        offsetgroup = 1,
        orientation = 'h'
    )
)

# Adiciona as barras das medalhas de bronze do mundo
fig.add_trace(
    go.Bar(
        name = 'World Bronze Medals',
        y = df_of_medals_for_sport_in_world['Sport'],
        x = df_of_medals_for_sport_in_world['Bronze'],
        legendrank = 6,
        offsetgroup = 1,
        orientation = 'h'
    )
)

# Adiciona o titulo do grafico
fig.update_layout(
    title = 'Comparison between Brazil and the world by sport'
)

# Exibe o grafico
fig.show()

Para finalizar, repita os gráficos que você gerou com os 10 países com mais medalhas, mas remova o Brasil da categoria "Outros" e mostre-o também no gráfico.

In [None]:
# Cria um dataframe com as medalhas por pais
df_medals_by_team = pd.DataFrame(medals_by_team)

# Transforma as linhas em colunas e colunas em linhas do dataframe
df_medals_by_team = df_medals_by_team.transpose()

# Ordena os dados por medalhas de ouro, prata e bronze de forma decrescente
df_medals_by_team = df_medals_by_team.sort_values(by = ['Gold', 'Silver', 'Bronze'], ascending = False)

# Pega os dados do Brasil
medals_by_brazil = df_medals_by_team.loc['Brazil']

# Copia o dataframe para evitar o warming 'SettingWithCopyWarning'
data = df_medals_by_team.copy(deep = True)

# Pega os dez paises com mais medalhas
data = data[:10]

# Salva os dados dos outros paises
others = pd.DataFrame.from_dict(
    {
        'Gold': df_medals_by_team['Gold'].sum() - data['Gold'].sum() - medals_by_brazil['Gold'],
        'Silver': df_medals_by_team['Silver'].sum() - data['Silver'].sum() - medals_by_brazil['Silver'],
        'Bronze': df_medals_by_team['Bronze'].sum() - data['Bronze'].sum() - medals_by_brazil['Bronze']
    }, orient='index'
)

# Renomeia a coluna
others.columns = ['Others']

# Adiciona os dados dos outros paises no dataframe
data.loc['Others'] = others['Others']

# Adiciona os dados do Brazil no dataframe
data.loc['Brazil'] = medals_by_brazil

# Cria a figura do grafico
fig = px.bar(
    data,
    barmode = 'stack',
    color='variable',
    title = 'Comparison between countries by medal',
    color_discrete_map={
        'Gold': 'yellow',
        'Silver': 'gray',
        'Bronze': 'orange'
    },
)

# Renomeia a legenda
fig.update_layout(
    legend_title = 'Medal'
)

# Renomeia o titulo do eixo x
fig.update_xaxes(title='Team')

# Renomeia o titulo do eixo y
fig.update_yaxes(title='Medal')

# Exibe o grafico
fig.show()