# üìä Data Visualization - Olympics  

##### Data Science Degree da Let's Code - M√≥dulo 5 - T√©cnicas de Programa√ß√£o II | Python
---

## üì∞ Metadados

**Arquivo:**
```athlete_events.csv```.

**Formato:**
271.116 linhas e 15 colunas. Cada linha corresponde a um indiv√≠duo (atleta) que competiu em um evento ol√≠mpico individual.

**Dataset:**

| Coluna | Descri√ß√£o                                       |
|--------|-------------------------------------------------|
| ID     | Chave unica para cada atleta                    |
| Name   | Nome do atleta                                  |
| Sex    | G√™nero do atleta (M ou F)                       |
| Age    | Idade do atleta no momento da competi√ß√£o        |
| Height | Altura do atleta (cm)                           |
| Weight | Peso do atleta (kg)                             |
| Team   | Nome do time                                    |
| NOC    | National Olympic Committee (c√≥digo de 3 letras) |
| Games  | Ano e temporada dos jogos                       |
| Year   | Ano dos jogos                                   |
| Season | Temporada dos jogos (summer ou winter)          |
| City   | Cidade em que ocorreu os jogos                  |
| Sport  | Esporte praticado pelo atleta                   |
| Event  | Categoria/modalidade da competi√ß√£o              |
| Medal  | Medalha adquirida: Gold, Silver, Bronze ou NaN  |

## üß∞ Preparando a caixa de ferramentas

In [1]:
import pandas as pd
import numpy as np
import plotly.offline as pyo
import plotly.io as pio
import plotly.express as px

In [2]:
# Inicializando o Plotly em modo off-line
pyo.init_notebook_mode(connected=True)

# Definindo o template padr√£o no Plotly como Simple White
pio.templates.default = "simple_white"

In [3]:
# Lendo o Dataset
df = pd.read_csv('data/athlete_events.csv')

## üáßüá∑ O Brasil nas ol√≠mpiadas

**1.** Crie um DataFrame contendo apenas informa√ß√µes sobre atletas **brasileiros**. Exiba a quantidade de linhas desse novo DataFrame.

In [4]:
df_brazil = df[df['NOC'] == 'BRA'].copy()

print(f'O DataFrame contendo apenas informa√ß√µes sobre atletas brasileiros cont√©m {df_brazil.shape[0]} linhas.')

O DataFrame contendo apenas informa√ß√µes sobre atletas brasileiros cont√©m 3848 linhas.


**2. Ser√° que existe alguma correla√ß√£o entre a altura do atleta e seu desempenho, para algum esporte? Fa√ßa essa an√°lise separadamente para cada g√™nero, e conclua.**

Gere um ou mais gr√°ficos de sua escolha, em que seja poss√≠vel comparar as alturas dos atletas de cada esporte, separando-os por g√™nero. Se necess√°rio, crie colunas ou DataFrames auxiliares.

**Facilitador:** se quiser, analise apenas os esportes em que se tenha ao menos 5 atletas medalhistas e 5 atletas n√£o medalhistas, para facilitar visualiza√ß√µes e conclus√µes.

Os dados de desempenho limitam-se a apresentar se o atleta conquistou ou n√£o medalha (e qual medalha foi conquistada).

Nesse caso, usaremos o **facilitador** proposto,limitando os dados a esportes em que o Brasil conquistou pelo menos 5 medalhas e pelo menos 10 competidores.

In [5]:
# Agrupando os dados por esporte
df_brazil_grouped = df_brazil.groupby(by='Sport', as_index=False).count()

# Definindo os filtros
medals_filter = df_brazil_grouped['Medal'] >= 5
competitors_filter = df_brazil_grouped['ID'] >= 10

# Filtrando o DataFrame
sports_list = np.array(df_brazil_grouped[medals_filter & competitors_filter]['Sport'])

print(sports_list)

['Athletics' 'Basketball' 'Beach Volleyball' 'Boxing' 'Equestrianism'
 'Football' 'Judo' 'Sailing' 'Shooting' 'Swimming' 'Volleyball']


Esportes em que o Brasil conquistou pelo 5 medalhas:

- Athletics - Atletismo
- Basketball - Basquetebol
- Beach Volleyball - V√¥leibol de praia
- Boxing - Boxe
- Equestrianism - Equita√ß√£o
- Football - Futebol
- Judo - Jud√¥
- Sailing - Vela
- Shooting - Tiro
- Swimming - Nata√ß√£o
- Volleyball - V√¥leibol

Os esportes **Boxe** e **Jud√¥** ser√£o desconsiderados.

Boxe e Jud√¥ tem seus eventos/categorias divididas por peso - o que tem grande correla√ß√£o com a altura. Nesse caso, seria necess√°rio analisar cada categoria individualmente. Como nenhuma categoria possui mais de 5 medalhas conquistadas, os esportes ser√£o desconsiderados.

O esporte **Atletismo** possui uma variabilidade muito alta entre suas modalidades, reunindo saltos, corridas de explos√£o e de resist√™ncia e lan√ßamentos. Por isso, tamb√©m ser√° desconsiderado.

### üìù Definindo os padr√µes para plotagem dos gr√°ficos

In [6]:
# Dataframe
# Criando uma c√≥pia do DataFrame para plotagem dos gr√°ficos
df_brazil_for_plotting = df_brazil.copy()

# Criando uma nova coluna em portugu√™s para a plotagem dos gr√°ficos
values_info = {'Gold': 'Ouro',
               'Silver': 'Prata',
               'Bronze': 'Bronze',
               np.nan: 'Sem Medalha'}

df_brazil_for_plotting['Medalha'] = df_brazil_for_plotting['Medal'].map(values_info)

# Criando uma c√≥pia do DataFrame para plotagem de gr√°ficos agrupados por time
df_brazil_for_plotting_grouped = df_brazil_for_plotting.groupby(['Year','City','Sex', 
                                                                 'Medalha', 'Sport', 'Event'], 
                                                                as_index=False).mean()

# Defini√ß√µes de apresenta√ß√£o
color_info = {'Sem Medalha': 'seagreen',
              'Bronze': 'lightsalmon',
              'Prata': 'grey',
              'Ouro': 'gold'}

category_orders = {"Medalha": ["Sem Medalha", "Bronze", "Prata", "Ouro"],
                 "Sex": ["M", "F"]}

# Defini√ß√µes de Hover
# Para dados individuais (atletas)
athletes_chosen_columns = ('Height','Name','City', 'Year', 'Event')

athletes_chosen_columns_for_hover = dict(zip(df_brazil_for_plotting.columns,
                                    [True if column in athletes_chosen_columns else False 
                                     for column in df_brazil_for_plotting.columns]))

# Para dados coletivos (time)
teams_chosen_columns = ('Height', 'City', 'Year', 'Event')

teams_chosen_columns_for_hover = dict(zip(df_brazil_for_plotting_grouped.columns,
                                    [True if column in teams_chosen_columns else False 
                                     for column in df_brazil_for_plotting_grouped.columns]))

### üèÄ Basquetebol

In [7]:
# Definindo esporte a ser analisado
analyzed_sport = 'Basketball'

#### An√°lise por Atleta

In [8]:
# Filtrando o DataFrame para plotar o gr√°fico do esporte analisado
df_brazil_for_sport_plotting = df_brazil_for_plotting[df_brazil_for_plotting['Sport'] == analyzed_sport]

# Plotando gr√°fico
fig = px.strip(data_frame=df_brazil_for_sport_plotting, x='Medalha', y='Height', 
               color='Medalha', 
               facet_col='Sex',
               hover_data=athletes_chosen_columns_for_hover,
               category_orders=category_orders,
               color_discrete_map=color_info,
               title='üèÄ Altura dos Atletas x Performance em Medalhas')

# Customizando gr√°fico
fig.update_traces(hovertemplate='%{customdata[1]}<br>'
                                'Altura: %{y}cm.<br>'
                                'Competindo em: %{customdata[10]}, %{customdata[8]}.<extra></extra>')

fig.update_layout(yaxis=dict(tickfont_size=10, 
                             title=dict(font_size=12, 
                                        text='Altura (cm)')))

fig.update_xaxes(matches=None,
                 tickfont_size=10, 
                 title=dict(font_size=12, 
                            text='Performance (Medalha)'))

fig.for_each_annotation(lambda annotation: annotation.update(text='üë® Masculino', font_size=13) 
                        if annotation.text.split("=")[-1] == 'M' 
                        else annotation.update(text='üôé‚Äç‚ôÄÔ∏è Feminino', font_size=13))

# Apresentando gr√°fico
fig.show()

#### An√°lise por Time

In [9]:
# Filtrando o DataFrame para plotar o gr√°fico do esporte analisado por equipe
df_brazil_for_sport_plotting_grouped = df_brazil_for_plotting_grouped[df_brazil_for_plotting_grouped['Sport'] 
                                                                      == analyzed_sport]

# Plotando gr√°fico
fig = px.strip(data_frame=df_brazil_for_sport_plotting_grouped, x='Medalha', y='Height', 
               color='Medalha', 
               facet_col='Sex',
               hover_data=teams_chosen_columns_for_hover,
               category_orders=category_orders,
               color_discrete_map=color_info,
               title='üèÄ Altura M√©dia do Time x Performance em Medalhas')

# Customizando gr√°fico
fig.update_traces(hovertemplate='Jogos: %{customdata[1]}, %{customdata[0]}.<br>'
                                'Altura m√©dia do time: %{y:.0f}cm.<br><extra></extra>')

fig.update_layout(yaxis=dict(tickfont_size=10, 
                             title=dict(font_size=12, 
                                        text='Altura M√©dia (cm)')))

fig.update_xaxes(matches=None,
                 tickfont_size=10, 
                 title=dict(font_size=12, 
                            text='Performance (Medalha)'))

fig.for_each_annotation(lambda annotation: annotation.update(text='üë® Masculino', font_size=13) 
                        if annotation.text.split("=")[-1] == 'M' 
                        else annotation.update(text='üôé‚Äç‚ôÄÔ∏è Feminino', font_size=13))

# Apresentando gr√°fico
fig.show()

#### Conclus√£o

Na categoria masculina, notamos que jogadores mais baixos (para o padr√£o do esporte) tiveram um melhor desempenho - o que √© bastante surpreendente para o Basquetebol. Inclusive, nenhum jogador brasileiro com mais de 2m de altura conquistou alguma medalha na modalidade.

Visualizando as m√©dias dos times, notamos ainda melhor essa tend√™ncia: as medalhas est√£o concentradas nos times com as menores m√©dias de altura. Isso se inverte na categoria feminina.

### üèñ Voleibol de Praia

In [10]:
# Definindo esporte a ser analisado
analyzed_sport = 'Beach Volleyball'

#### An√°lise por Atleta

In [11]:
# Filtrando o DataFrame para plotar o gr√°fico do esporte analisado
df_brazil_for_sport_plotting = df_brazil_for_plotting[df_brazil_for_plotting['Sport'] == analyzed_sport]

# Plotando gr√°fico
fig = px.strip(data_frame=df_brazil_for_sport_plotting, x='Medalha', y='Height', 
               color='Medalha', 
               facet_col='Sex',
               hover_data=athletes_chosen_columns_for_hover,
               category_orders=category_orders,
               color_discrete_map=color_info,
               title='üèñ Altura dos Atletas x Performance em Medalhas')

# Customizando gr√°fico
fig.update_traces(hovertemplate='%{customdata[1]}<br>'
                                'Altura: %{y}cm.<br>'
                                'Competindo em: %{customdata[10]}, %{customdata[8]}.<extra></extra>')

fig.update_layout(yaxis=dict(tickfont_size=10, 
                             title=dict(font_size=12, 
                                        text='Altura (cm)')))

fig.update_xaxes(matches=None,
                 tickfont_size=10, 
                 title=dict(font_size=12, 
                            text='Performance (Medalha)'))

fig.for_each_annotation(lambda annotation: annotation.update(text='üë® Masculino', font_size=13) 
                        if annotation.text.split("=")[-1] == 'M' 
                        else annotation.update(text='üôé‚Äç‚ôÄÔ∏è Feminino', font_size=13))

# Apresentando gr√°fico
fig.show()

#### Conclus√£o

N√£o visualizamos alguma tend√™ncia entre altura e desempenho em medalhas.

### üèáüèª Equita√ß√£o

In [12]:
# Definindo esporte a ser analisado
analyzed_sport = 'Equestrianism'

#### An√°lise por Atleta

In [13]:
# Filtrando o DataFrame para plotar o gr√°fico do esporte analisado
df_brazil_for_sport_plotting = df_brazil_for_plotting[df_brazil_for_plotting['Sport'] == analyzed_sport]

# Plotando gr√°fico para observa√ß√µes do gen√™ro masculino
fig = px.strip(data_frame=df_brazil_for_sport_plotting[df_brazil_for_sport_plotting['Sex'] == 'M'], 
               x='Medalha', y='Height', 
               color='Medalha',
               hover_data=athletes_chosen_columns_for_hover,
               category_orders=category_orders,
               color_discrete_map=color_info,
               title='üèá Altura dos Atletas (Masculinos) x Performance em Medalhas')

# Customizando gr√°fico
fig.update_traces(hovertemplate='%{customdata[1]}<br>'
                                'Altura: %{y}cm.<br>'
                                'Competindo em: %{customdata[10]}, %{customdata[8]}.<extra></extra>')

fig.update_layout(yaxis=dict(tickfont_size=10, 
                             title=dict(font_size=12, 
                                        text='Altura (cm)')))

fig.update_xaxes(matches=None,
                 tickfont_size=10, 
                 title=dict(font_size=12, 
                            text='Performance (Medalha)'))

fig.for_each_annotation(lambda annotation: annotation.update(text='üë® Masculino', font_size=13) 
                        if annotation.text.split("=")[-1] == 'M' 
                        else annotation.update(text='üôé‚Äç‚ôÄÔ∏è Feminino', font_size=13))

# Adicionando aviso sobre o g√™nero apresentado
fig.add_annotation(text='<i>Aviso: N√£o houveram atletas femininas vencedoras de medalhas.</i>',
                   font_color='grey',
                   xref='paper', yref='paper',
                   x=0.5, y=-0.2, showarrow=False)

# Apresentando gr√°fico
fig.show()

#### Conclus√£o

N√£o visualizamos alguma tend√™ncia entre altura e desempenho em medalhas.

### ‚öΩÔ∏è Futebol

In [14]:
# Definindo esporte a ser analisado
analyzed_sport = 'Football'

#### An√°lise por Atleta

In [15]:
# Filtrando o DataFrame para plotar o gr√°fico do esporte analisado
df_brazil_for_sport_plotting = df_brazil_for_plotting[df_brazil_for_plotting['Sport'] == analyzed_sport]

# Plotando gr√°fico
fig = px.strip(data_frame=df_brazil_for_sport_plotting, x='Medalha', y='Height', 
               color='Medalha', 
               facet_col='Sex',
               hover_data=athletes_chosen_columns_for_hover,
               category_orders=category_orders,
               color_discrete_map=color_info,
               title='‚öΩÔ∏è Altura dos Atletas x Performance em Medalhas')

# Customizando gr√°fico
fig.update_traces(hovertemplate='%{customdata[1]}<br>'
                                'Altura: %{y}cm.<br>'
                                'Competindo em: %{customdata[10]}, %{customdata[8]}.<extra></extra>')

fig.update_layout(yaxis=dict(tickfont_size=10, 
                             title=dict(font_size=12, 
                                        text='Altura (cm)')))

fig.update_xaxes(matches=None,
                 tickfont_size=10, 
                 title=dict(font_size=12, 
                            text='Performance (Medalha)'))

fig.for_each_annotation(lambda annotation: annotation.update(text='üë® Masculino', font_size=13) 
                        if annotation.text.split("=")[-1] == 'M' 
                        else annotation.update(text='üôé‚Äç‚ôÄÔ∏è Feminino', font_size=13))

# Apresentando gr√°fico
fig.show()

#### An√°lise por Time

In [16]:
# Filtrando o DataFrame para plotar o gr√°fico do esporte analisado por equipe
df_brazil_for_sport_plotting_grouped = df_brazil_for_plotting_grouped[df_brazil_for_plotting_grouped['Sport'] 
                                                                      == analyzed_sport]

# Plotando gr√°fico
fig = px.strip(data_frame=df_brazil_for_sport_plotting_grouped, x='Medalha', y='Height', 
               color='Medalha', 
               facet_col='Sex',
               hover_data=teams_chosen_columns_for_hover,
               category_orders=category_orders,
               color_discrete_map=color_info,
               title='‚öΩÔ∏è Altura M√©dia do Time x Performance em Medalhas')

# Customizando gr√°fico
fig.update_traces(hovertemplate='Jogos: %{customdata[1]}, %{customdata[0]}.<br>'
                                'Altura m√©dia do time: %{y:.0f}cm.<br><extra></extra>')

fig.update_layout(yaxis=dict(tickfont_size=10, 
                             title=dict(font_size=12, 
                                        text='Altura M√©dia (cm)')))

fig.update_xaxes(matches=None,
                 tickfont_size=10, 
                 title=dict(font_size=12, 
                            text='Performance (Medalha)'))

fig.for_each_annotation(lambda annotation: annotation.update(text='üë® Masculino', font_size=13) 
                        if annotation.text.split("=")[-1] == 'M' 
                        else annotation.update(text='üôé‚Äç‚ôÄÔ∏è Feminino', font_size=13))

# Apresentando gr√°fico
fig.show()

#### Conclus√£o

Visualizamos (principalmente na categoria masculina) uma leve tend√™ncia de melhor desempenho conforme maior a altura do jogador. Isso se refor√ßa no gr√°fico de times, onde a concentra√ß√£o de medalhas fica na parte superior do eixo Y.

### ‚õµÔ∏è Vela

In [17]:
# Definindo esporte a ser analisado
analyzed_sport = 'Football'

#### An√°lise por Atleta

In [18]:
# Filtrando o DataFrame para plotar o gr√°fico do esporte analisado
df_brazil_for_sport_plotting = df_brazil_for_plotting[df_brazil_for_plotting['Sport'] == analyzed_sport]

# Plotando gr√°fico
fig = px.strip(data_frame=df_brazil_for_sport_plotting, x='Medalha', y='Height', 
               color='Medalha', 
               facet_col='Sex',
               hover_data=athletes_chosen_columns_for_hover,
               category_orders=category_orders,
               color_discrete_map=color_info,
               title='‚õµÔ∏è Altura dos Atletas x Performance em Medalhas')

# Customizando gr√°fico
fig.update_traces(hovertemplate='%{customdata[1]}<br>'
                                'Altura: %{y}cm.<br>'
                                'Competindo em: %{customdata[10]}, %{customdata[8]}.<extra></extra>')

fig.update_layout(yaxis=dict(tickfont_size=10, 
                             title=dict(font_size=12, 
                                        text='Altura (cm)')))

fig.update_xaxes(matches=None,
                 tickfont_size=10, 
                 title=dict(font_size=12, 
                            text='Performance (Medalha)'))

fig.for_each_annotation(lambda annotation: annotation.update(text='üë® Masculino', font_size=13) 
                        if annotation.text.split("=")[-1] == 'M' 
                        else annotation.update(text='üôé‚Äç‚ôÄÔ∏è Feminino', font_size=13))

# Apresentando gr√°fico
fig.show()

#### Conclus√£o

N√£o visualizamos alguma tend√™ncia entre altura e desempenho em medalhas.

### üî´ Tiro

In [19]:
# Definindo esporte a ser analisado
analyzed_sport = 'Shooting'

#### An√°lise por Atleta

In [20]:
# Filtrando o DataFrame para plotar o gr√°fico do esporte analisado
df_brazil_for_sport_plotting = df_brazil_for_plotting[df_brazil_for_plotting['Sport'] == analyzed_sport]

# Plotando gr√°fico para observa√ß√µes do gen√™ro masculino
fig = px.strip(data_frame=df_brazil_for_sport_plotting[df_brazil_for_sport_plotting['Sex'] == 'M'], 
               x='Medalha', y='Height', 
               color='Medalha',
               hover_data=athletes_chosen_columns_for_hover,
               category_orders=category_orders,
               color_discrete_map=color_info,
               title='üî´ Altura dos Atletas (Masculinos) x Performance em Medalhas')

# Customizando gr√°fico
fig.update_traces(hovertemplate='%{customdata[1]}<br>'
                                'Altura: %{y}cm.<br>'
                                'Competindo em: %{customdata[10]}, %{customdata[8]}.<extra></extra>')

fig.update_layout(yaxis=dict(tickfont_size=10, 
                             title=dict(font_size=12, 
                                        text='Altura (cm)')))

fig.update_xaxes(matches=None,
                 tickfont_size=10, 
                 title=dict(font_size=12, 
                            text='Performance (Medalha)'))

fig.for_each_annotation(lambda annotation: annotation.update(text='üë® Masculino', font_size=13) 
                        if annotation.text.split("=")[-1] == 'M' 
                        else annotation.update(text='üôé‚Äç‚ôÄÔ∏è Feminino', font_size=13))

# Adicionando aviso sobre o g√™nero apresentado
fig.add_annotation(text='<i>Aviso: N√£o houveram atletas femininas vencedoras de medalhas.</i>',
                   font_color='grey',
                   xref='paper', yref='paper',
                   x=0.5, y=-0.2, showarrow=False)

# Apresentando gr√°fico
fig.show()

#### Conclus√£o

N√£o visualizamos alguma tend√™ncia entre altura e desempenho em medalhas.

### üèä‚Äç‚ôÇÔ∏è Nata√ß√£o

In [21]:
# Definindo esporte a ser analisado
analyzed_sport = 'Swimming'

#### An√°lise por Atleta

In [22]:
# Filtrando o DataFrame para plotar o gr√°fico do esporte analisado
df_brazil_for_sport_plotting = df_brazil_for_plotting[df_brazil_for_plotting['Sport'] == analyzed_sport]

# Plotando gr√°fico
fig = px.strip(data_frame=df_brazil_for_sport_plotting, x='Medalha', y='Height', 
               color='Medalha', 
               facet_col='Sex',
               hover_data=athletes_chosen_columns_for_hover,
               category_orders=category_orders,
               color_discrete_map=color_info,
               title='üèä‚Äç‚ôÇÔ∏è Altura dos Atletas x Performance em Medalhas')

# Customizando gr√°fico
fig.update_traces(hovertemplate='%{customdata[1]}<br>'
                                'Altura: %{y}cm.<br>'
                                'Competindo em: %{customdata[10]}, %{customdata[8]}.<extra></extra>')

fig.update_layout(yaxis=dict(tickfont_size=10, 
                             title=dict(font_size=12, 
                                        text='Altura (cm)')))

fig.update_xaxes(matches=None,
                 tickfont_size=10, 
                 title=dict(font_size=12, 
                            text='Performance (Medalha)'))

fig.for_each_annotation(lambda annotation: annotation.update(text='üë® Masculino', font_size=13) 
                        if annotation.text.split("=")[-1] == 'M' 
                        else annotation.update(text='üôé‚Äç‚ôÄÔ∏è Feminino', font_size=13))

# Apresentando gr√°fico
fig.show()

#### Conclus√£o

Para a categoria masculina, tamb√©m visualizamos uma concentra√ß√£o de medalhas na parte superior, apesar de observamos um *outlier* de 1.58m, todos os atletas que conquistaram medalha tinham uma altura superior a 1.80m.

N√£o observamos correla√ß√£o na categoria feminina.

### üèê Voleibol

In [23]:
# Definindo esporte a ser analisado
analyzed_sport = 'Volleyball'

#### An√°lise por Atleta

In [24]:
# Filtrando o DataFrame para plotar o gr√°fico do esporte analisado
df_brazil_for_sport_plotting = df_brazil_for_plotting[df_brazil_for_plotting['Sport'] == analyzed_sport]

# Plotando gr√°fico
fig = px.strip(data_frame=df_brazil_for_sport_plotting, x='Medalha', y='Height', 
               color='Medalha', 
               facet_col='Sex',
               hover_data=athletes_chosen_columns_for_hover,
               category_orders=category_orders,
               color_discrete_map=color_info,
               title='üèê Altura dos Atletas x Performance em Medalhas')

# Customizando gr√°fico
fig.update_traces(hovertemplate='%{customdata[1]}<br>'
                                'Altura: %{y}cm.<br>'
                                'Competindo em: %{customdata[10]}, %{customdata[8]}.<extra></extra>')

fig.update_layout(yaxis=dict(tickfont_size=10, 
                             title=dict(font_size=12, 
                                        text='Altura (cm)')))

fig.update_xaxes(matches=None,
                 tickfont_size=10, 
                 title=dict(font_size=12, 
                            text='Performance (Medalha)'))

fig.for_each_annotation(lambda annotation: annotation.update(text='üë® Masculino', font_size=13) 
                        if annotation.text.split("=")[-1] == 'M' 
                        else annotation.update(text='üôé‚Äç‚ôÄÔ∏è Feminino', font_size=13))

# Apresentando gr√°fico
fig.show()

#### An√°lise por Time

In [25]:
# Filtrando o DataFrame para plotar o gr√°fico do esporte analisado por equipe
df_brazil_for_sport_plotting_grouped = df_brazil_for_plotting_grouped[df_brazil_for_plotting_grouped['Sport'] 
                                                                      == analyzed_sport]

# Plotando gr√°fico
fig = px.strip(data_frame=df_brazil_for_sport_plotting_grouped, x='Medalha', y='Height', 
               color='Medalha', 
               facet_col='Sex',
               hover_data=teams_chosen_columns_for_hover,
               category_orders=category_orders,
               color_discrete_map=color_info,
               title='üèê Altura M√©dia do Time x Performance em Medalhas')

# Customizando gr√°fico
fig.update_traces(hovertemplate='Jogos: %{customdata[1]}, %{customdata[0]}.<br>'
                                'Altura m√©dia do time: %{y:.0f}cm.<br><extra></extra>')

fig.update_layout(yaxis=dict(tickfont_size=10, 
                             title=dict(font_size=12, 
                                        text='Altura M√©dia (cm)')))

fig.update_xaxes(matches=None,
                 tickfont_size=10, 
                 title=dict(font_size=12, 
                            text='Performance (Medalha)'))

fig.for_each_annotation(lambda annotation: annotation.update(text='üë® Masculino', font_size=13) 
                        if annotation.text.split("=")[-1] == 'M' 
                        else annotation.update(text='üôé‚Äç‚ôÄÔ∏è Feminino', font_size=13))

# Apresentando gr√°fico
fig.show()

#### Conclus√£o

Aqui, principalmente na visualiza√ß√£o de altura m√©dia do time, notamos que h√° uma boa correla√ß√£o entre altura e desempenho para ambas as categorias.

Na visualiza√ß√£o de atletas, os dados est√£o mais distribu√≠dos. Por√©m, √© importante levar em considera√ß√£o que h√° atletas de posi√ß√µes naturalmente mais baixas (levantador e l√≠bero). Mesmo assim, notamos uma correla√ß√£o.

### üìù Considera√ß√µes Finais

Cada esporte tem suas peculiaridades, que s√£o din√¢micas e evoluem no tempo. Encontramos comportamentos variados em cada visualiza√ß√£o.

Para conclus√µes mais robustas, os dados de ranking final do atleta (incluindo quarto, quinto,..., √∫ltimo lugar) proveriam uma base s√≥lida para melhores conclus√µes.

## üèÖMedalhas por Esporte

**3. Vamos analisar agora as medalhas que nossos atletas trouxeram para casa.**

Crie uma visualiza√ß√£o de sua prefer√™ncia para mostrar, por esporte, a propor√ß√£o de medalhas de ouro, prata e bronze que nosso pa√≠s j√° consquistou.

**Facilitador:** Se preferir, mostre as propor√ß√µes apenas para os 6 esportes que tiveram mais medalhas.  

*DICA:* Cuidado! Esportes em equipe d√£o medalhas a todos os jogadores, mas s√≥ contabilizam uma vez!

In [26]:
# Criando uma c√≥pia do DataFrame para plotagem do gr√°fico de medalhas
df_brazil_medal_plot = df_brazil.copy()

# Agrupando o DataFrame para obter 01 registro por medalha conquistada
df_brazil_medal_plot = df_brazil_medal_plot.groupby(by=['Medal', 'Sport',
                                                        'Event', 'Year'], 
                                                    as_index=False).count()

# Agrupando o DataFrame por Medalha e Esporte
df_brazil_medal_plot = df_brazil_medal_plot.groupby(by=['Medal', 'Sport'], as_index=False).count()

# Criando uma nova coluna em portugu√™s para a plotagem das medalhas no gr√°fico
values_info = {'Gold': 'Ouro',
               'Silver': 'Prata',
               'Bronze': 'Bronze'}

df_brazil_medal_plot['Medalha'] = df_brazil_medal_plot['Medal'].map(values_info)

# Criando uma nova coluna em portugu√™s para a plotagem dos esportes nos gr√°ficos
sports_info = {'Sailing': 'Vela',
               'Athletics': 'Atletismo',
               'Volleyball': 'Voleibol',
               'Judo': 'Jud√¥',
               'Beach Volleyball': 'Voleibol de Praia',
               'Boxing': 'Boxe',
               'Equestrianism' : 'Equita√ß√£o',
               'Football': 'Futebo',
               'Gymnastics': 'Gin√°stica',
               'Shooting': ' Tiro',
               'Swimming': 'Nata√ß√£o',
               'Canoeing': 'Canoagem',
               'Basketball': 'Basquetebol',
               'Taekwondo': 'Taekwondo',
               'Modern Pentathlon': 'Pentlato Moderno'}

df_brazil_medal_plot['Esporte'] = df_brazil_medal_plot['Sport'].map(sports_info)

# Definindo a sequ√™ncia de ordena√ß√£o das colunas
df_brazil_medal_plot['Medalha'] = pd.Categorical(values=df_brazil_medal_plot['Medalha'], 
                                categories=('Bronze', 'Prata', 'Ouro'), 
                                ordered=True)

df_brazil_medal_plot.sort_values(['Medalha', 'Event'], ascending=False, inplace=True)

# Defini√ß√µes de apresenta√ß√£o
color_info = {'Bronze': 'lightsalmon',
              'Prata': 'grey',
              'Ouro': 'gold'}

# Plotando gr√°fico
fig = px.bar(data_frame=df_brazil_medal_plot, x='Event', y='Esporte', color='Medalha',
             color_discrete_map=color_info,
             orientation='h', text_auto=True,
             title='üèÖ Medalhas Ol√≠mpicas por Esporte')

# Customizando gr√°fico
fig.update_traces(textposition='inside',
                  insidetextanchor='middle',
                  textangle=0)

fig.update_layout(yaxis=dict(autorange='reversed',
                             title_text=None,
                             ticks=''),
                  xaxis_visible=False,
                  hovermode=False)

# Apresentando gr√°fico
fig.show()

## üìà S√©rie Temporal de Medalhas 

**4. Para finalizar a hist√≥ria do Brasil, vamos ver a s√©rie temporal de medalhas brasileiras.**

Crie um gr√°fico de sua escolha, que mostre o total de medalhas de ouro, prata e bronze, por edi√ß√£o da olimp√≠ada (em ordem cronol√≥gica). 

*DICA:* Mais uma vez, tome cuidado com os esportes em grupo - os contabilize apenas uma vez!

In [36]:
# Determinando o pa√≠s a ser analisado pelo NOC
chosen_country = 'BRA'

# Determinando se as Ol√≠mpiadas de Inverno ser√£o consideradas
include_winter = False

# Aplicando os filtros
df_time_plot = df[df['NOC'] == chosen_country].copy()

if not include_winter:
    df_time_plot = df_time_plot[df_time_plot['Season'] != 'Winter'].copy()

# Criando uma nova coluna em portugu√™s para a contagem das medalhas
values_info = {'Gold': 'Ouro',
               'Silver': 'Prata',
               'Bronze': 'Bronze',
               np.nan: 'Sem Medalha'}

df_time_plot['Medalha'] = df_time_plot['Medal'].map(values_info)

# Agrupando o DataFrame para contar somente 01 medalha por time
df_time_plot = df_time_plot.groupby(by=['Year', 'Medalha', 'Event'], as_index=False).count()    
df_time_plot = df_time_plot.groupby(by=['Year', 'Medalha'], as_index=False).count()    

# Obtendo os Dummies das Medalhas
df_time_plot_dummies = pd.get_dummies(df_time_plot['Medalha'])

# Reconectando o ano com a contagem de medalhas
df_time_plot = pd.concat([df_time_plot, df_time_plot_dummies.set_index(df_time_plot.index)], axis=1) 


df_time_plot



Unnamed: 0,Year,Medalha,Event,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Season,City,Sport,Medal,Bronze,Ouro,Prata,Sem Medalha
0,1900,Sem Medalha,3,3,3,3,3,3,3,3,3,3,3,3,3,3,0,0,0,1
1,1920,Bronze,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0
2,1920,Ouro,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,1,0,0
3,1920,Prata,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,1,0
4,1920,Sem Medalha,9,9,9,9,9,9,9,9,9,9,9,9,9,9,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
58,2012,Sem Medalha,125,125,125,125,125,125,125,125,125,125,125,125,125,125,0,0,0,1
59,2016,Bronze,6,6,6,6,6,6,6,6,6,6,6,6,6,6,1,0,0,0
60,2016,Ouro,7,7,7,7,7,7,7,7,7,7,7,7,7,7,0,1,0,0
61,2016,Prata,6,6,6,6,6,6,6,6,6,6,6,6,6,6,0,0,1,0


In [None]:
# Criando uma c√≥pia do DataFrame para plotagem do gr√°fico de medalhas
df_brazil_time_plot = df_brazil.copy()

# Agrupando o DataFrame para obter 01 registro por medalha conquistada
df_brazil_time_plot = df_brazil_time_plot.groupby(by=['Year', 'Medal',
                                                       'Sport', 'Event'], 
                                                    as_index=False).count()

# Agrupando o DataFrame por Medalha e Esporte
df_brazil_time_plot = df_brazil_time_plot.groupby(by=['Year', 'Medal'], 
                                                  as_index=False).count()

df_brazil_time_plot.get_dummies('Medal')
# fig = px.line(data_frame=df_brazil_time_plot, x='Year', y='Sport', color='Medal', markers=True)

# fig.update_layout(xaxis_dtick='4')

# fig.show()