> Projeto Desenvolve <br>
Programação Intermediária com Python <br>
Profa. Camila Laranjeira (mila@projetodesenvolve.com.br) <br>

# 3.9 - Visualização de Dados

## Exercícios
Vamos trabalhar com as mesmas bases de dados do exercício de Pandas. Aqui estão os links caso você queira baixar novamente, mas recomendo trabalhar com o `wc_formatado.csv` que exportamos na questão Q2 do exercício anterior.

* https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv
* https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1991_2023.csv

Para relembrar, essas são as colunas do dataframe:
```
Data columns (total 21 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   time_1             1312 non-null   string        
 1   time_2             1312 non-null   string        
 2   gols_1             1312 non-null   int64         
 3   gols_2             1312 non-null   int64         
 4   data               1312 non-null   datetime64[ns]
 5   ano                1312 non-null   int64         
 6   país_sede          1312 non-null   string        
 7   comparecimento     1312 non-null   int64         
 8   resultado          1312 non-null   string        
 9   rodada             1312 non-null   category      
 10  gols_1_detalhes    970 non-null    string        
 11  gols_2_detalhes    771 non-null    string        
 12  gols_1_contra      57 non-null     string        
 13  gols_2_contra      30 non-null     string        
 14  gols_1_penalti     170 non-null    string        
 15  gols_2_penalti     119 non-null    string        
 16  cartao_vermelho_1  59 non-null     string        
 17  cartao_vermelho_2  65 non-null     string        
 18  cartao_amarelo_1   834 non-null    string        
 19  cartao_amarelo_2   857 non-null    string        
 20  copa               1312 non-null   string 
```

#### Q1.
Realize todos os imports necessários para executar as três bibliotecas de visualização que conhecemos:
* Matplotlib (lembre-se do comando mágico)
* Seaborn
* Plotly

Para cada uma delas, altere o tema padrão de visualização. 

In [None]:
# comandos mágicos
%matplotlib inline

# imports
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Matplotlib
plt.style.use('seaborn-v0_8-darkgrid')

# Seaborn
sns.set_theme(style='darkgrid', palette='deep')

# Plotly
px.defaults.template = 'plotly_white'

wc = pd.read_csv('wc_formatado.csv', parse_dates=['data'])


#### Q2.
Sobre os dados de copa do mundo, qual a distribuição de público presente nos jogos? Isso pode ser respondido com um histograma com os dados da coluna `comparecimento`.  

Lembre-se que alguns jogos estavam com público 0 incorretamente, que tal remover essas ocorrências para não atrapalhar sua visualzação?

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos de título e rótulos de dimensão.

In [None]:
publico = wc[wc['comparecimento'] > 0]['comparecimento']

In [None]:
 Solução com matplotlib

plt.figure(figsize=(8,5))
plt.hist(publico, bins=30)
plt.title('Distribuição de Público nas Copas do Mundo')
plt.xlabel('Público')
plt.ylabel('Quantidade de Jogos')
plt.show()


In [None]:
#### solução com seaborn

plt.figure(figsize=(8,5))
sns.histplot(publico, bins=30)
plt.title('Distribuição de Público nas Copas do Mundo')
plt.xlabel('Público')
plt.ylabel('Quantidade de Jogos')
plt.show()


In [None]:
#### solução com plotly

fig = px.histogram(
    publico,
    nbins=30,
    title='Distribuição de Público nas Copas do Mundo',
    labels={'value':'Público'}
)
fig.show()


#### Q3.

Apresente um gráfico de dispersão (scatter) dos atributos `gols_1` e `gols_2`. Isso representa a relação entre gols feitos e gols tomados por jogo. Há alguma relação interessante entre esses atributos?

Para facilitar a visualização dos dados (já que tem muitos placares repetidos), aplique uma leve distorção aos dados para que cada ponto esteja deslocado aleatoriamente de seu valor original. Código apresentado a seguir
```python
gols = wc[['gols_1', 'gols_2']] * np.random.random((len(wc),2))
```

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos de título e rótulos de dimensão.

In [None]:
gols = wc[['gols_1','gols_2']] * np.random.random((len(wc),2))

In [None]:
#### solução com matplotlib

plt.figure(figsize=(6,6))
plt.scatter(gols['gols_1'], gols['gols_2'], alpha=0.6)
plt.title('Relação entre Gols Feitos e Gols Sofridos')
plt.xlabel('Gols Feitos')
plt.ylabel('Gols Sofridos')
plt.show()


In [None]:
#### solução com seaborn

plt.figure(figsize=(6,6))
sns.scatterplot(x=gols['gols_1'], y=gols['gols_2'])
plt.title('Relação entre Gols Feitos e Gols Sofridos')
plt.xlabel('Gols Feitos')
plt.ylabel('Gols Sofridos')
plt.show()


In [None]:
#### solução com plotly

fig = px.scatter(
    gols,
    x='gols_1',
    y='gols_2',
    title='Relação entre Gols Feitos e Gols Sofridos',
    labels={'gols_1':'Gols Feitos','gols_2':'Gols Sofridos'}
)
fig.show()


#### Q4.

Apresente um gráfico de barras com o top 10 países que mais participaram de copas do mundo, onde no eixo x devem estar o nome dos países e no eixo y a contagem de participações. Você deve separar a contagem de participações em copas femininas e masculinas, empilhando as barras de cada informação.

No exemplo de barras empilhadas da galeria do matplotlib, imagine que a parte azul são as participações do país em copas masculinas, e em laranja as participações femininas:
* https://matplotlib.org/stable/gallery/lines_bars_and_markers/bar_stacked.html

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos:
* título
* rótulos de dimensão.
* legenda

In [None]:
import pandas as pd
import numpy as np

# países como mandante
home = wc[['time_1','ano','copa']].rename(columns={'time_1':'país'})

# países como visitante
away = wc[['time_2','ano','copa']].rename(columns={'time_2':'país'})

participacoes = pd.concat([home, away]).drop_duplicates()

part = (
    participacoes
    .groupby(['país','copa'])
    .size()
    .unstack(fill_value=0)
)

# top 10 países com mais participações
top10 = part.sum(axis=1).sort_values(ascending=False).head(10)
part_top10 = part.loc[top10.index]


In [None]:

#### solução com matplotlib

import matplotlib.pyplot as plt

paises = part_top10.index
masculina = part_top10['Masculina']
feminina = part_top10['Feminina']

width = 0.6
bottom = np.zeros(len(paises))

fig, ax = plt.subplots(figsize=(10,6))

ax.bar(paises, masculina, width, label='Masculina')
ax.bar(paises, feminina, width, bottom=masculina, label='Feminina')

ax.set_title('Top 10 Países em Participações em Copas do Mundo')
ax.set_xlabel('País')
ax.set_ylabel('Número de Copas')
ax.legend()

plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


In [None]:
#### solução com seaborn

import seaborn as sns

df_plot = part_top10.reset_index()

plt.figure(figsize=(10,6))

plt.bar(df_plot['país'], df_plot['Masculina'], label='Masculina')
plt.bar(
    df_plot['país'],
    df_plot['Feminina'],
    bottom=df_plot['Masculina'],
    label='Feminina'
)

plt.title('Top 10 Países em Participações em Copas do Mundo')
plt.xlabel('País')
plt.ylabel('Número de Copas')
plt.legend()

plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


In [None]:
#### solução com plotly

import plotly.express as px

df_plot = part_top10.reset_index()

fig = px.bar(
    df_plot,
    x='país',
    y=['Masculina','Feminina'],
    title='Top 10 Países em Participações em Copas do Mundo',
    labels={
        'value':'Número de Copas',
        'variable':'Copa'
    }
)

fig.update_layout(barmode='stack')
fig.show()


#### Q5.

Vamos fazer um compilado com as estatísticas históricas de copas do mundo!

Com a biblioteca de sua preferência você deve criar 4 subplots organizados em um grid de 2 linhas e 2 colunas. Eles devem conter os seguintes gráficos:
* Linha 1, coluna 1: Gráfico de barras com a quantidade de jogos que aconteceram por ano
* Linha 1, coluna 2: Gráfico de área (referências a seguir) com o total de gols por ano, separando as informações de `gols_1` e `gols_2` para distinguir gols em casa e do time visitante.
* Linha 2, coluna 1: Gráfico de área com o total de cartões por ano, separando as informações de cartões amarelos e cartões vermelhos, mas agregando cartões do time 1 ou time 2. Ou seja, uma área com `cartao_amarelo_1 + cartao_amarelo_2` e outra área com `cartao_vermelho_1 + cartao_vermelho_2`.
* Linha 2, coluna 2: Gráfico de barras com o total de gols contra por ano, somando `gols_contra_1` e `gols_contra_2`.

Referências sobre gráfico de área
* Matplotlib: https://matplotlib.org/stable/gallery/lines_bars_and_markers/stackplot_demo.html#sphx-glr-gallery-lines-bars-and-markers-stackplot-demo-py
* Pandas + Matplotlib: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.area.html
* Seaborn: https://seaborn.pydata.org/generated/seaborn.objects.Area.html
* Plotly: https://plotly.com/python/filled-area-plots/

In [None]:
###Título

## Q5 – Estatísticas históricas das Copas do Mundo

In [None]:
###Preparação calcula

# Jogos por ano
jogos_ano = wc.groupby('ano').size()

# Gols por ano
gols_ano = wc.groupby('ano')[['gols_1','gols_2']].sum()

# Cartões
def conta_cartoes(x):
    if pd.isna(x):
        return 0
    return len(x.strip('[]').split(','))

wc['amarelos'] = wc['cartao_amarelo_1'].apply(conta_cartoes) + wc['cartao_amarelo_2'].apply(conta_cartoes)
wc['vermelhos'] = wc['cartao_vermelho_1'].apply(conta_cartoes) + wc['cartao_vermelho_2'].apply(conta_cartoes)

cartoes_ano = wc.groupby('ano')[['amarelos','vermelhos']].sum()

# Gols contra
gols_contra_ano = (
    wc['gols_1_contra'].notna().astype(int) +
    wc['gols_2_contra'].notna().astype(int)
).groupby(wc['ano']).sum()


In [None]:
###Visualização

import matplotlib.pyplot as plt

fig, axs = plt.subplots(2, 2, figsize=(14,10))

# Jogos por ano
axs[0,0].bar(jogos_ano.index, jogos_ano.values)
axs[0,0].set_title('Quantidade de Jogos por Ano')
axs[0,0].set_xlabel('Ano')
axs[0,0].set_ylabel('Número de Jogos')

# Gols por ano
axs[0,1].stackplot(
    gols_ano.index,
    gols_ano['gols_1'],
    gols_ano['gols_2'],
    labels=['Gols Casa','Gols Visitante']
)
axs[0,1].set_title('Total de Gols por Ano')
axs[0,1].legend()

# Cartões por ano
axs[1,0].stackplot(
    cartoes_ano.index,
    cartoes_ano['amarelos'],
    cartoes_ano['vermelhos'],
    labels=['Cartões Amarelos','Cartões Vermelhos']
)
axs[1,0].set_title('Total de Cartões por Ano')
axs[1,0].legend()

# Gols contra
axs[1,1].bar(gols_contra_ano.index, gols_contra_ano.values)
axs[1,1].set_title('Total de Gols Contra por Ano')

plt.tight_layout()
plt.show()
