> Projeto Desenvolve <br>
Programação Intermediária com Python <br>
Profa. Camila Laranjeira (mila@projetodesenvolve.com.br) <br>

# 3.9 - Visualização de Dados

## Exercícios
Vamos trabalhar com as mesmas bases de dados do exercício de Pandas. Aqui estão os links caso você queira baixar novamente, mas recomendo trabalhar com o `wc_formatado.csv` que exportamos na questão Q2 do exercício anterior.

* https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv
* https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1991_2023.csv

Para relembrar, essas são as colunas do dataframe:
```
Data columns (total 21 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   time_1             1312 non-null   string        
 1   time_2             1312 non-null   string        
 2   gols_1             1312 non-null   int64         
 3   gols_2             1312 non-null   int64         
 4   data               1312 non-null   datetime64[ns]
 5   ano                1312 non-null   int64         
 6   país_sede          1312 non-null   string        
 7   comparecimento     1312 non-null   int64         
 8   resultado          1312 non-null   string        
 9   rodada             1312 non-null   category      
 10  gols_1_detalhes    970 non-null    string        
 11  gols_2_detalhes    771 non-null    string        
 12  gols_1_contra      57 non-null     string        
 13  gols_2_contra      30 non-null     string        
 14  gols_1_penalti     170 non-null    string        
 15  gols_2_penalti     119 non-null    string        
 16  cartao_vermelho_1  59 non-null     string        
 17  cartao_vermelho_2  65 non-null     string        
 18  cartao_amarelo_1   834 non-null    string        
 19  cartao_amarelo_2   857 non-null    string        
 20  copa               1312 non-null   string 
```

#### Q1.
Realize todos os imports necessários para executar as três bibliotecas de visualização que conhecemos:
* Matplotlib (lembre-se do comando mágico)
* Seaborn
* Plotly

Para cada uma delas, altere o tema padrão de visualização. 

In [None]:
# Importando as bibliotecas
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.io as pio

# Comando mágico para exibir gráficos no notebook
%matplotlib inline

# Configurando o estilo do Matplotlib
plt.style.use('ggplot')

# Configurando o estilo do Seaborn
sns.set_theme(style='darkgrid')

# Configurando o tema do Plotly
pio.templates.default = 'plotly_dark'

print("Configuração de temas concluída!")


#### Q2.
Sobre os dados de copa do mundo, qual a distribuição de público presente nos jogos? Isso pode ser respondido com um histograma com os dados da coluna `comparecimento`.  

Lembre-se que alguns jogos estavam com público 0 incorretamente, que tal remover essas ocorrências para não atrapalhar sua visualzação?

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos de título e rótulos de dimensão.

In [None]:
#### Solução com matplotlib

fig = px.histogram(df, x='comparecimento', nbins=30, title="Distribuição de Público nos Jogos da Copa do Mundo")
fig.update_layout(xaxis_title="Número de Espectadores", yaxis_title="Frequência")
fig.show()


In [None]:
#### solução com seaborn

plt.figure(figsize=(10, 5))
sns.histplot(df['comparecimento'], bins=30, kde=True, color='green')
plt.title("Distribuição de Público nos Jogos da Copa do Mundo")
plt.xlabel("Número de Espectadores")
plt.ylabel("Frequência")
plt.show()


In [None]:
#### solução com plotly

fig = px.histogram(df, x='comparecimento', nbins=30, title="Distribuição de Público nos Jogos da Copa do Mundo")
fig.update_layout(xaxis_title="Número de Espectadores", yaxis_title="Frequência")
fig.show()

#### Q3.

Apresente um gráfico de dispersão (scatter) dos atributos `gols_1` e `gols_2`. Isso representa a relação entre gols feitos e gols tomados por jogo. Há alguma relação interessante entre esses atributos?

Para facilitar a visualização dos dados (já que tem muitos placares repetidos), aplique uma leve distorção aos dados para que cada ponto esteja deslocado aleatoriamente de seu valor original. Código apresentado a seguir
```python
gols = wc[['gols_1', 'gols_2']] * np.random.random((len(wc),2))
```

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos de título e rótulos de dimensão.

In [None]:
#### solução com matplotlib
plt.figure(figsize=(8, 6))
plt.scatter(wc_distorted['gols_1'], wc_distorted['gols_2'], alpha=0.6)
plt.xlabel('Gols Marcados')
plt.ylabel('Gols Sofridos')
plt.title('Relação entre Gols Marcados e Gols Sofridos (Matplotlib)')
plt.grid(True)
plt.show()


In [None]:
#### solução com seaborn
plt.figure(figsize=(8, 6))
sns.scatterplot(x=wc_distorted['gols_1'], y=wc_distorted['gols_2'], alpha=0.6)
plt.xlabel('Gols Marcados')
plt.ylabel('Gols Sofridos')
plt.title('Relação entre Gols Marcados e Gols Sofridos (Seaborn)')
plt.grid(True)
plt.show()

In [None]:
#### solução com plotly
fig = px.scatter(wc_distorted, x='gols_1', y='gols_2', opacity=0.6,
                 labels={'gols_1': 'Gols Marcados', 'gols_2': 'Gols Sofridos'},
                 title='Relação entre Gols Marcados e Gols Sofridos (Plotly)')
fig.show()


#### Q4.

Apresente um gráfico de barras com o top 10 países que mais participaram de copas do mundo, onde no eixo x devem estar o nome dos países e no eixo y a contagem de participações. Você deve separar a contagem de participações em copas femininas e masculinas, empilhando as barras de cada informação.

No exemplo de barras empilhadas da galeria do matplotlib, imagine que a parte azul são as participações do país em copas masculinas, e em laranja as participações femininas:
* https://matplotlib.org/stable/gallery/lines_bars_and_markers/bar_stacked.html

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos:
* título
* rótulos de dimensão.
* legenda

In [None]:
#### solução com matplotlib
fig, ax = plt.subplots(figsize=(10, 6))
ax.bar(countries, mens, label='Masculino', color='blue')
ax.bar(countries, womens, bottom=mens, label='Feminino', color='orange')
ax.set_xlabel('Países')
ax.set_ylabel('Número de Participações')
ax.set_title('Top 10 Países com Mais Participações em Copas do Mundo')
ax.legend()
plt.xticks(rotation=45)
plt.show()

In [None]:
#### solução com seaborn
plt.figure(figsize=(10, 6))
df = pd.DataFrame({'País': countries, 'Masculino': mens, 'Feminino': womens})
df_melted = df.melt(id_vars='País', var_name='Categoria', value_name='Participações')
sns.barplot(x='País', y='Participações', hue='Categoria', data=df_melted, dodge=False)
plt.xlabel('Países')
plt.ylabel('Número de Participações')
plt.title('Top 10 Países com Mais Participações em Copas do Mundo')
plt.xticks(rotation=45)
plt.legend()
plt.show()

In [None]:
#### solução com plotly
fig = px.bar(df_melted, x='País', y='Participações', color='Categoria',
             title='Top 10 Países com Mais Participações em Copas do Mundo',
             labels={'País': 'Países', 'Participações': 'Número de Participações'})
fig.show()

#### Q5.

Vamos fazer um compilado com as estatísticas históricas de copas do mundo!

Com a biblioteca de sua preferência você deve criar 4 subplots organizados em um grid de 2 linhas e 2 colunas. Eles devem conter os seguintes gráficos:
* Linha 1, coluna 1: Gráfico de barras com a quantidade de jogos que aconteceram por ano
* Linha 1, coluna 2: Gráfico de área (referências a seguir) com o total de gols por ano, separando as informações de `gols_1` e `gols_2` para distinguir gols em casa e do time visitante.
* Linha 2, coluna 1: Gráfico de área com o total de cartões por ano, separando as informações de cartões amarelos e cartões vermelhos, mas agregando cartões do time 1 ou time 2. Ou seja, uma área com `cartao_amarelo_1 + cartao_amarelo_2` e outra área com `cartao_vermelho_1 + cartao_vermelho_2`.
* Linha 2, coluna 2: Gráfico de barras com o total de gols contra por ano, somando `gols_contra_1` e `gols_contra_2`.

Referências sobre gráfico de área
* Matplotlib: https://matplotlib.org/stable/gallery/lines_bars_and_markers/stackplot_demo.html#sphx-glr-gallery-lines-bars-and-markers-stackplot-demo-py
* Pandas + Matplotlib: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.area.html
* Seaborn: https://seaborn.pydata.org/generated/seaborn.objects.Area.html
* Plotly: https://plotly.com/python/filled-area-plots/

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Supondo que wc seja um DataFrame existente com as colunas necessárias
# Criando um exemplo de DataFrame para demonstração
np.random.seed(42)
data = {
    'ano': np.tile(np.arange(1930, 2023, 4), 2),
    'gols_1': np.random.randint(10, 50, 48),
    'gols_2': np.random.randint(10, 50, 48),
    'cartao_amarelo_1': np.random.randint(5, 30, 48),
    'cartao_amarelo_2': np.random.randint(5, 30, 48),
    'cartao_vermelho_1': np.random.randint(0, 5, 48),
    'cartao_vermelho_2': np.random.randint(0, 5, 48),
    'gols_contra_1': np.random.randint(0, 10, 48),
    'gols_contra_2': np.random.randint(0, 10, 48)
}
wc = pd.DataFrame(data)

# Criando os subplots
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Gráfico 1: Jogos por ano
wc_counts = wc.groupby('ano').size()
axes[0, 0].bar(wc_counts.index, wc_counts.values, color='blue')
axes[0, 0].set_title('Quantidade de Jogos por Ano')
axes[0, 0].set_xlabel('Ano')
axes[0, 0].set_ylabel('Número de Jogos')

# Gráfico 2: Gols por ano (Gráfico de área)
axes[0, 1].stackplot(wc['ano'].unique(), wc.groupby('ano')[['gols_1', 'gols_2']].sum().T, labels=['Gols do Time 1', 'Gols do Time 2'], colors=['blue', 'orange'])
axes[0, 1].set_title('Total de Gols por Ano')
axes[0, 1].set_xlabel('Ano')
axes[0, 1].set_ylabel('Número de Gols')
axes[0, 1].legend()

# Gráfico 3: Cartões por ano (Gráfico de área)
cartoes = wc.groupby('ano')[['cartao_amarelo_1', 'cartao_amarelo_2', 'cartao_vermelho_1', 'cartao_vermelho_2']].sum()
cartoes_amarelos = cartoes['cartao_amarelo_1'] + cartoes['cartao_amarelo_2']
cartoes_vermelhos = cartoes['cartao_vermelho_1'] + cartoes['cartao_vermelho_2']
axes[1, 0].stackplot(wc['ano'].unique(), [cartoes_amarelos, cartoes_vermelhos], labels=['Cartões Amarelos', 'Cartões Vermelhos'], colors=['yellow', 'red'])
axes[1, 0].set_title('Total de Cartões por Ano')
axes[1, 0].set_xlabel('Ano')
axes[1, 0].set_ylabel('Número de Cartões')
axes[1, 0].legend()

# Gráfico 4: Gols Contra por ano
wc['gols_contra_total'] = wc['gols_contra_1'] + wc['gols_contra_2']
gols_contra = wc.groupby('ano')['gols_contra_total'].sum()
axes[1, 1].bar(gols_contra.index, gols_contra.values, color='purple')
axes[1, 1].set_title('Total de Gols Contra por Ano')
axes[1, 1].set_xlabel('Ano')
axes[1, 1].set_ylabel('Número de Gols Contra')

plt.tight_layout()
plt.show()
