> Projeto Desenvolve <br>
Programação Intermediária com Python <br>
Profa. Camila Laranjeira (mila@projetodesenvolve.com.br) <br>

# 3.9 - Visualização de Dados

## Exercícios
Vamos trabalhar com as mesmas bases de dados do exercício de Pandas. Aqui estão os links caso você queira baixar novamente, mas recomendo trabalhar com o `wc_formatado.csv` que exportamos na questão Q2 do exercício anterior.

* https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv
* https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1991_2023.csv

Para relembrar, essas são as colunas do dataframe:
```
Data columns (total 21 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   time_1             1312 non-null   string        
 1   time_2             1312 non-null   string        
 2   gols_1             1312 non-null   int64         
 3   gols_2             1312 non-null   int64         
 4   data               1312 non-null   datetime64[ns]
 5   ano                1312 non-null   int64         
 6   país_sede          1312 non-null   string        
 7   comparecimento     1312 non-null   int64         
 8   resultado          1312 non-null   string        
 9   rodada             1312 non-null   category      
 10  gols_1_detalhes    970 non-null    string        
 11  gols_2_detalhes    771 non-null    string        
 12  gols_1_contra      57 non-null     string        
 13  gols_2_contra      30 non-null     string        
 14  gols_1_penalti     170 non-null    string        
 15  gols_2_penalti     119 non-null    string        
 16  cartao_vermelho_1  59 non-null     string        
 17  cartao_vermelho_2  65 non-null     string        
 18  cartao_amarelo_1   834 non-null    string        
 19  cartao_amarelo_2   857 non-null    string        
 20  copa               1312 non-null   string 
```

#### Q1.
Realize todos os imports necessários para executar as três bibliotecas de visualização que conhecemos:
* Matplotlib (lembre-se do comando mágico)
* Seaborn
* Plotly

Para cada uma delas, altere o tema padrão de visualização. 

In [None]:
# Bibliotecas de visualização
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.io as pio

# Comando mágico para notebooks Jupyter (ativa exibição inline de gráficos Matplotlib)
%matplotlib inline

# Pandas para manipulação de dados
import pandas as pd

# Carregar o dataframe já formatado (como no exercício anterior)
wc = pd.read_csv('wc_formatado.csv', parse_dates=['data'])
# Altera o estilo global do matplotlib
plt.style.use('seaborn-vibrant')  # ou 'ggplot', 'seaborn-darkgrid', etc.
# Define o estilo do seaborn
sns.set_theme(style="darkgrid")  # Opções: darkgrid, whitegrid, dark, white, ticks
# Define o template padrão do plotly
pio.templates.default = "plotly_dark"  # Outras opções: "plotly_white", "ggplot2", "seaborn"



#### Q2.
Sobre os dados de copa do mundo, qual a distribuição de público presente nos jogos? Isso pode ser respondido com um histograma com os dados da coluna `comparecimento`.  

Lembre-se que alguns jogos estavam com público 0 incorretamente, que tal remover essas ocorrências para não atrapalhar sua visualzação?

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos de título e rótulos de dimensão.

In [None]:
#### Solução com matplotlib
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
plt.hist(wc_validos['comparecimento'], bins=30, color='skyblue', edgecolor='black')
plt.title('Distribuição de Público nos Jogos da Copa do Mundo (Matplotlib)')
plt.xlabel('Público presente')
plt.ylabel('Quantidade de jogos')
plt.grid(True)
plt.tight_layout()
plt.show()


In [None]:
#### solução com seaborn
import seaborn as sns

plt.figure(figsize=(10, 6))
sns.histplot(wc_validos['comparecimento'], bins=30, color='orange', edgecolor='black')
plt.title('Distribuição de Público nos Jogos da Copa do Mundo (Seaborn)')
plt.xlabel('Público presente')
plt.ylabel('Quantidade de jogos')
plt.tight_layout()
plt.show()


In [None]:
#### solução com plotly
import plotly.express as px

fig = px.histogram(
    wc_validos,
    x='comparecimento',
    nbins=30,
    title='Distribuição de Público nos Jogos da Copa do Mundo (Plotly)',
    labels={'comparecimento': 'Público presente'},
    color_discrete_sequence=['#636EFA']
)
fig.update_layout(
    xaxis_title='Público presente',
    yaxis_title='Quantidade de jogos',
    bargap=0.1
)
fig.show()


#### Q3.

Apresente um gráfico de dispersão (scatter) dos atributos `gols_1` e `gols_2`. Isso representa a relação entre gols feitos e gols tomados por jogo. Há alguma relação interessante entre esses atributos?

Para facilitar a visualização dos dados (já que tem muitos placares repetidos), aplique uma leve distorção aos dados para que cada ponto esteja deslocado aleatoriamente de seu valor original. Código apresentado a seguir
```python
gols = wc[['gols_1', 'gols_2']] * np.random.random((len(wc),2))
```

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos de título e rótulos de dimensão.

In [None]:
#### solução com matplotlib
plt.figure(figsize=(8, 6))
plt.scatter(gols['gols_1'], gols['gols_2'], alpha=0.5, color='dodgerblue', edgecolors='k')
plt.title('Relação entre Gols Feitos e Gols Sofridos (Matplotlib)')
plt.xlabel('Gols feitos (time_1)')
plt.ylabel('Gols sofridos (time_2)')
plt.grid(True)
plt.tight_layout()
plt.show()



In [None]:
#### solução com seaborn
plt.figure(figsize=(8, 6))
sns.scatterplot(x=gols['gols_1'], y=gols['gols_2'], alpha=0.5, color='orange', edgecolor='black')
plt.title('Relação entre Gols Feitos e Gols Sofridos (Seaborn)')
plt.xlabel('Gols feitos (time_1)')
plt.ylabel('Gols sofridos (time_2)')
plt.tight_layout()
plt.show()


In [None]:
#### solução com plotly
fig = px.scatter(
    gols,
    x='gols_1',
    y='gols_2',
    title='Relação entre Gols Feitos e Gols Sofridos (Plotly)',
    labels={'gols_1': 'Gols feitos (time_1)', 'gols_2': 'Gols sofridos (time_2)'},
    opacity=0.6
)
fig.update_traces(marker=dict(color='green'))
fig.show()


#### Q4.

Apresente um gráfico de barras com o top 10 países que mais participaram de copas do mundo, onde no eixo x devem estar o nome dos países e no eixo y a contagem de participações. Você deve separar a contagem de participações em copas femininas e masculinas, empilhando as barras de cada informação.

No exemplo de barras empilhadas da galeria do matplotlib, imagine que a parte azul são as participações do país em copas masculinas, e em laranja as participações femininas:
* https://matplotlib.org/stable/gallery/lines_bars_and_markers/bar_stacked.html

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos:
* título
* rótulos de dimensão.
* legenda

In [None]:
# Total de participações por país e copa
participacao_agrupada = participacao.groupby(['país', 'copa']).sum().reset_index()

# Pivoteia para ter uma tabela com colunas 'Masculina' e 'Feminina'
participacao_pivot = participacao_agrupada.pivot(index='país', columns='copa', values='num_copas').fillna(0)

# Soma as participações para pegar os 10 maiores
participacao_pivot['total'] = participacao_pivot.sum(axis=1)

# Top 10 países com mais participações
participacao_top10 = participacao_pivot.sort_values(by='total', ascending=False).head(10)

# Ordena para exibição correta
participacao_top10 = participacao_top10[['Masculina', 'Feminina']]


In [None]:
#### solução com matplotlib
import matplotlib.pyplot as plt

fig, ax = plt.subplots(figsize=(10, 6))

paises = participacao_top10.index
masculina = participacao_top10['Masculina']
feminina = participacao_top10['Feminina']

ax.bar(paises, masculina, label='Masculina', color='steelblue')
ax.bar(paises, feminina, bottom=masculina, label='Feminina', color='coral')

ax.set_title('Top 10 Países com Mais Participações em Copas (Matplotlib)')
ax.set_xlabel('País')
ax.set_ylabel('Número de Copas')
ax.legend()
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


In [None]:
#### solução com seaborn
import seaborn as sns
import pandas as pd

# Converte para formato longo
df_long = participacao_top10.reset_index().melt(id_vars='país', value_vars=['Masculina', 'Feminina'],
                                                var_name='copa', value_name='num_copas')

plt.figure(figsize=(10, 6))
sns.barplot(data=df_long, x='país', y='num_copas', hue='copa', estimator=sum)

plt.title('Top 10 Países com Mais Participações em Copas (Seaborn)')
plt.xlabel('País')
plt.ylabel('Número de Copas')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


In [None]:
#### solução com plotly
import plotly.graph_objects as go

fig = go.Figure()

fig.add_trace(go.Bar(
    x=participacao_top10.index,
    y=participacao_top10['Masculina'],
    name='Masculina',
    marker_color='steelblue'
))

fig.add_trace(go.Bar(
    x=participacao_top10.index,
    y=participacao_top10['Feminina'],
    name='Feminina',
    marker_color='coral'
))

fig.update_layout(
    barmode='stack',
    title='Top 10 Países com Mais Participações em Copas (Plotly)',
    xaxis_title='País',
    yaxis_title='Número de Copas',
    legend_title='Tipo de Copa'
)

fig.show()


#### Q5.

Vamos fazer um compilado com as estatísticas históricas de copas do mundo!

Com a biblioteca de sua preferência você deve criar 4 subplots organizados em um grid de 2 linhas e 2 colunas. Eles devem conter os seguintes gráficos:
* Linha 1, coluna 1: Gráfico de barras com a quantidade de jogos que aconteceram por ano
* Linha 1, coluna 2: Gráfico de área (referências a seguir) com o total de gols por ano, separando as informações de `gols_1` e `gols_2` para distinguir gols em casa e do time visitante.
* Linha 2, coluna 1: Gráfico de área com o total de cartões por ano, separando as informações de cartões amarelos e cartões vermelhos, mas agregando cartões do time 1 ou time 2. Ou seja, uma área com `cartao_amarelo_1 + cartao_amarelo_2` e outra área com `cartao_vermelho_1 + cartao_vermelho_2`.
* Linha 2, coluna 2: Gráfico de barras com o total de gols contra por ano, somando `gols_contra_1` e `gols_contra_2`.

Referências sobre gráfico de área
* Matplotlib: https://matplotlib.org/stable/gallery/lines_bars_and_markers/stackplot_demo.html#sphx-glr-gallery-lines-bars-and-markers-stackplot-demo-py
* Pandas + Matplotlib: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.area.html
* Seaborn: https://seaborn.pydata.org/generated/seaborn.objects.Area.html
* Plotly: https://plotly.com/python/filled-area-plots/

In [None]:
import matplotlib.pyplot as plt

fig, axs = plt.subplots(2, 2, figsize=(15, 10))

# Gráfico 1: Barras de jogos por ano
axs[0, 0].bar(jogos_por_ano.index, jogos_por_ano.values, color='mediumslateblue')
axs[0, 0].set_title('Quantidade de Jogos por Ano')
axs[0, 0].set_xlabel('Ano')
axs[0, 0].set_ylabel('Número de Jogos')

# Gráfico 2: Área de gols por ano
axs[0, 1].stackplot(gols_por_ano.index, 
                    gols_por_ano['gols_1'], gols_por_ano['gols_2'], 
                    labels=['Gols Time da Casa', 'Gols Visitante'], 
                    colors=['lightgreen', 'salmon'])
axs[0, 1].set_title('Total de Gols por Ano')
axs[0, 1].set_xlabel('Ano')
axs[0, 1].set_ylabel('Número de Gols')
axs[0, 1].legend()

# Gráfico 3: Área de cartões por ano
axs[1, 0].stackplot(cartoes_amarelos_ano.index, 
                    cartoes_amarelos_ano.values, cartoes_vermelhos_ano.values, 
                    labels=['Cartões Amarelos', 'Cartões Vermelhos'], 
                    colors=['gold', 'red'])
axs[1, 0].set_title('Total de Cartões por Ano')
axs[1, 0].set_xlabel('Ano')
axs[1, 0].set_ylabel('Número de Cartões')
axs[1, 0].legend()

# Gráfico 4: Gols contra por ano
axs[1, 1].bar(gols_contra_total.index, gols_contra_total.values, color='gray')
axs[1, 1].set_title('Total de Gols Contra por Ano')
axs[1, 1].set_xlabel('Ano')
axs[1, 1].set_ylabel('Número de Gols Contra')

plt.tight_layout()
plt.show()
