> Projeto Desenvolve <br>
Programação Intermediária com Python <br>
Profa. Camila Laranjeira (mila@projetodesenvolve.com.br) <br>

# 3.9 - Visualização de Dados

## Exercícios
Vamos trabalhar com as mesmas bases de dados do exercício de Pandas. Aqui estão os links caso você queira baixar novamente, mas recomendo trabalhar com o `wc_formatado.csv` que exportamos na questão Q2 do exercício anterior.

* https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv
* https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1991_2023.csv

Para relembrar, essas são as colunas do dataframe:
```
Data columns (total 21 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   time_1             1312 non-null   string        
 1   time_2             1312 non-null   string        
 2   gols_1             1312 non-null   int64         
 3   gols_2             1312 non-null   int64         
 4   data               1312 non-null   datetime64[ns]
 5   ano                1312 non-null   int64         
 6   país_sede          1312 non-null   string        
 7   comparecimento     1312 non-null   int64         
 8   resultado          1312 non-null   string        
 9   rodada             1312 non-null   category      
 10  gols_1_detalhes    970 non-null    string        
 11  gols_2_detalhes    771 non-null    string        
 12  gols_1_contra      57 non-null     string        
 13  gols_2_contra      30 non-null     string        
 14  gols_1_penalti     170 non-null    string        
 15  gols_2_penalti     119 non-null    string        
 16  cartao_vermelho_1  59 non-null     string        
 17  cartao_vermelho_2  65 non-null     string        
 18  cartao_amarelo_1   834 non-null    string        
 19  cartao_amarelo_2   857 non-null    string        
 20  copa               1312 non-null   string 
```

#### Q1.
Realize todos os imports necessários para executar as três bibliotecas de visualização que conhecemos:
* Matplotlib (lembre-se do comando mágico)
* Seaborn
* Plotly

Para cada uma delas, altere o tema padrão de visualização. 

In [None]:
# === Q1 - Imports e temas ===
import pandas as pd
import numpy as np

# Visualização
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# Comando mágico para matplotlib
%matplotlib inline

# Alterando temas
plt.style.use('ggplot')  # matplotlib
sns.set_theme(style='darkgrid')  # seaborn
# plotly usa template nos gráficos, configuraremos nos gráficos diretamente

# Carregando os dados
wc = pd.read_csv("wc_formatado.csv", parse_dates=['data'])

# Conferir os dados
wc.head()


#### Q2.
Sobre os dados de copa do mundo, qual a distribuição de público presente nos jogos? Isso pode ser respondido com um histograma com os dados da coluna `comparecimento`.  

Lembre-se que alguns jogos estavam com público 0 incorretamente, que tal remover essas ocorrências para não atrapalhar sua visualzação?

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos de título e rótulos de dimensão.

In [None]:
#### Solução com matplotlib
plt.figure(figsize=(10,6))
plt.hist(wc_pub['comparecimento'], bins=30, color='skyblue', edgecolor='black')
plt.title('Distribuição de público nos jogos')
plt.xlabel('Comparecimento')
plt.ylabel('Número de jogos')
plt.show()

In [None]:
#### solução com seaborn
plt.figure(figsize=(10,6))
sns.histplot(wc_pub['comparecimento'], bins=30, kde=True, color='orange')
plt.title('Distribuição de público nos jogos')
plt.xlabel('Comparecimento')
plt.ylabel('Número de jogos')
plt.show()

In [None]:
#### solução com plotly
fig = px.histogram(wc_pub, x='comparecimento', nbins=30,
                   title='Distribuição de público nos jogos')
fig.update_layout(xaxis_title='Comparecimento', yaxis_title='Número de jogos', template='plotly_dark')
fig.show()

#### Q3.

Apresente um gráfico de dispersão (scatter) dos atributos `gols_1` e `gols_2`. Isso representa a relação entre gols feitos e gols tomados por jogo. Há alguma relação interessante entre esses atributos?

Para facilitar a visualização dos dados (já que tem muitos placares repetidos), aplique uma leve distorção aos dados para que cada ponto esteja deslocado aleatoriamente de seu valor original. Código apresentado a seguir
```python
gols = wc[['gols_1', 'gols_2']] * np.random.random((len(wc),2))
```

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos de título e rótulos de dimensão.

In [None]:
#### solução com matplotlib
plt.figure(figsize=(8,6))
plt.scatter(gols['gols_1'], gols['gols_2'], alpha=0.6, color='green')
plt.title('Relação entre gols feitos e gols sofridos')
plt.xlabel('Gols do time 1')
plt.ylabel('Gols do time 2')
plt.show()

In [None]:
#### solução com seaborn
plt.figure(figsize=(8,6))
sns.scatterplot(x=gols['gols_1'], y=gols['gols_2'], alpha=0.6)
plt.title('Relação entre gols feitos e gols sofridos')
plt.xlabel('Gols do time 1')
plt.ylabel('Gols do time 2')
plt.show()

In [None]:
#### solução com plotly
fig = px.scatter(gols, x='gols_1', y='gols_2', title='Relação entre gols feitos e gols sofridos')
fig.update_layout(xaxis_title='Gols do time 1', yaxis_title='Gols do time 2', template='plotly_white')
fig.show()

#### Q4.

Apresente um gráfico de barras com o top 10 países que mais participaram de copas do mundo, onde no eixo x devem estar o nome dos países e no eixo y a contagem de participações. Você deve separar a contagem de participações em copas femininas e masculinas, empilhando as barras de cada informação.

No exemplo de barras empilhadas da galeria do matplotlib, imagine que a parte azul são as participações do país em copas masculinas, e em laranja as participações femininas:
* https://matplotlib.org/stable/gallery/lines_bars_and_markers/bar_stacked.html

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos:
* título
* rótulos de dimensão.
* legenda

In [None]:
#### solução com matplotlib
participacoes = wc[['time_1','copa']].copy()
participacoes2 = wc[['time_2','copa']].copy()
participacoes2.columns = ['time_1','copa']
participacoes = pd.concat([participacoes, participacoes2])
contagem = participacoes.groupby(['time_1','copa']).size().unstack(fill_value=0)

In [None]:
#### solução com seaborn
contagem_top10.plot(kind='bar', stacked=True, figsize=(12,6))
plt.title('Top 10 países com mais participações em Copas')
plt.xlabel('País')
plt.ylabel('Número de participações')
plt.legend(title='Copa')
plt.show()

In [None]:
#### solução com plotly
contagem_top10_reset = contagem_top10.reset_index().melt(id_vars='time_1', var_name='copa', value_name='participacoes')
plt.figure(figsize=(12,6))
sns.barplot(data=contagem_top10_reset, x='time_1', y='participacoes', hue='copa')
plt.title('Top 10 países com mais participações em Copas')
plt.xlabel('País')
plt.ylabel('Número de participações')
plt.legend(title='Copa')
plt.show()

#### Q5.

Vamos fazer um compilado com as estatísticas históricas de copas do mundo!

Com a biblioteca de sua preferência você deve criar 4 subplots organizados em um grid de 2 linhas e 2 colunas. Eles devem conter os seguintes gráficos:
* Linha 1, coluna 1: Gráfico de barras com a quantidade de jogos que aconteceram por ano
* Linha 1, coluna 2: Gráfico de área (referências a seguir) com o total de gols por ano, separando as informações de `gols_1` e `gols_2` para distinguir gols em casa e do time visitante.
* Linha 2, coluna 1: Gráfico de área com o total de cartões por ano, separando as informações de cartões amarelos e cartões vermelhos, mas agregando cartões do time 1 ou time 2. Ou seja, uma área com `cartao_amarelo_1 + cartao_amarelo_2` e outra área com `cartao_vermelho_1 + cartao_vermelho_2`.
* Linha 2, coluna 2: Gráfico de barras com o total de gols contra por ano, somando `gols_contra_1` e `gols_contra_2`.

Referências sobre gráfico de área
* Matplotlib: https://matplotlib.org/stable/gallery/lines_bars_and_markers/stackplot_demo.html#sphx-glr-gallery-lines-bars-and-markers-stackplot-demo-py
* Pandas + Matplotlib: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.area.html
* Seaborn: https://seaborn.pydata.org/generated/seaborn.objects.Area.html
* Plotly: https://plotly.com/python/filled-area-plots/

In [None]:


# Pré-processamento
wc['cartao_amarelo_1'] = pd.to_numeric(wc['cartao_amarelo_1'], errors='coerce').fillna(0)
wc['cartao_amarelo_2'] = pd.to_numeric(wc['cartao_amarelo_2'], errors='coerce').fillna(0)
wc['cartao_vermelho_1'] = pd.to_numeric(wc['cartao_vermelho_1'], errors='coerce').fillna(0)
wc['cartao_vermelho_2'] = pd.to_numeric(wc['cartao_vermelho_2'], errors='coerce').fillna(0)
wc['gols_1_contra'] = pd.to_numeric(wc['gols_1_contra'], errors='coerce').fillna(0)
wc['gols_2_contra'] = pd.to_numeric(wc['gols_2_contra'], errors='coerce').fillna(0)

# Agregações
jogos_ano = wc.groupby('ano').size()
gols_ano = wc.groupby('ano')[['gols_1','gols_2']].sum()
cartoes_ano = wc.groupby('ano')[['cartao_amarelo_1','cartao_amarelo_2','cartao_vermelho_1','cartao_vermelho_2']].sum()
cartoes_ano['amarelo'] = cartoes_ano['cartao_amarelo_1'] + cartoes_ano['cartao_amarelo_2']
cartoes_ano['vermelho'] = cartoes_ano['cartao_vermelho_1'] + cartoes_ano['cartao_vermelho_2']
gols_contra_ano = wc.groupby('ano')[['gols_1_contra','gols_2_contra']].sum().sum(axis=1)

# --- Matplotlib com subplots ---
fig, axs = plt.subplots(2,2, figsize=(14,10))

# Jogos por ano
axs[0,0].bar(jogos_ano.index, jogos_ano.values, color='skyblue')
axs[0,0].set_title('Número de jogos por ano')
axs[0,0].set_xlabel('Ano')
axs[0,0].set_ylabel('Jogos')

# Gols por ano (área)
axs[0,1].stackplot(gols_ano.index, gols_ano['gols_1'], gols_ano['gols_2'], labels=['Gols 1','Gols 2'], colors=['green','orange'])
axs[0,1].set_title('Total de gols por ano')
axs[0,1].set_xlabel('Ano')
axs[0,1].set_ylabel('Gols')
axs[0,1].legend()

# Cartões por ano (área)
axs[1,0].stackplot(cartoes_ano.index, cartoes_ano['amarelo'], cartoes_ano['vermelho'], labels=['Amarelo','Vermelho'], colors=['yellow','red'])
axs[1,0].set_title('Total de cartões por ano')
axs[1,0].set_xlabel('Ano')
axs[1,0].set_ylabel('Cartões')
axs[1,0].legend()

# Gols contra
axs[1,1].bar(gols_contra_ano.index, gols_contra_ano.values, color='purple')
axs[1,1].set_title('Total de gols contra por ano')
axs[1,1].set_xlabel('Ano')
axs[1,1].set_ylabel('Gols contra')

plt.tight_layout()
plt.show()
