> Projeto Desenvolve <br>
Programação Intermediária com Python <br>
Profa. Camila Laranjeira (mila@projetodesenvolve.com.br) <br>

# 3.9 - Visualização de Dados

## Exercícios
Vamos trabalhar com as mesmas bases de dados do exercício de Pandas. Aqui estão os links caso você queira baixar novamente, mas recomendo trabalhar com o `wc_formatado.csv` que exportamos na questão Q2 do exercício anterior.

* https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv
* https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1991_2023.csv

Para relembrar, essas são as colunas do dataframe:
```
Data columns (total 21 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   time_1             1312 non-null   string        
 1   time_2             1312 non-null   string        
 2   gols_1             1312 non-null   int64         
 3   gols_2             1312 non-null   int64         
 4   data               1312 non-null   datetime64[ns]
 5   ano                1312 non-null   int64         
 6   país_sede          1312 non-null   string        
 7   comparecimento     1312 non-null   int64         
 8   resultado          1312 non-null   string        
 9   rodada             1312 non-null   category      
 10  gols_1_detalhes    970 non-null    string        
 11  gols_2_detalhes    771 non-null    string        
 12  gols_1_contra      57 non-null     string        
 13  gols_2_contra      30 non-null     string        
 14  gols_1_penalti     170 non-null    string        
 15  gols_2_penalti     119 non-null    string        
 16  cartao_vermelho_1  59 non-null     string        
 17  cartao_vermelho_2  65 non-null     string        
 18  cartao_amarelo_1   834 non-null    string        
 19  cartao_amarelo_2   857 non-null    string        
 20  copa               1312 non-null   string 
```

#### Q1.
Realize todos os imports necessários para executar as três bibliotecas de visualização que conhecemos:
* Matplotlib (lembre-se do comando mágico)
* Seaborn
* Plotly

Para cada uma delas, altere o tema padrão de visualização. 

In [None]:
# Importar bibliotecas de visualização
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.io as pio


plt.style.use('ggplot')  

sns.set_theme(style="darkgrid")  


pio.templates.default = "plotly_dark"  

#### Q2.
Sobre os dados de copa do mundo, qual a distribuição de público presente nos jogos? Isso pode ser respondido com um histograma com os dados da coluna `comparecimento`.  

Lembre-se que alguns jogos estavam com público 0 incorretamente, que tal remover essas ocorrências para não atrapalhar sua visualzação?

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos de título e rótulos de dimensão.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px


url = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv"
wc = pd.read_csv(url)


wc['Attendance'] = pd.to_numeric(wc['Attendance'], errors='coerce')


wc_filtrado = wc[wc['Attendance'] > 0]


plt.figure(figsize=(10, 6))
plt.hist(wc_filtrado['Attendance'], bins=30, color='skyblue', edgecolor='black')
plt.title('Distribuição de Público Presente nos Jogos - Matplotlib')
plt.xlabel('Público')
plt.ylabel('Frequência')
plt.grid(True)
plt.show()


plt.figure(figsize=(10, 6))
sns.histplot(wc_filtrado['Attendance'], bins=30, kde=True, color='orange')
plt.title('Distribuição de Público Presente nos Jogos - Seaborn')
plt.xlabel('Público')
plt.ylabel('Frequência')
plt.show()


fig = px.histogram(wc_filtrado, x='Attendance', nbins=30,
                   title='Distribuição de Público Presente nos Jogos - Plotly')
fig.show()

#### Q3.

Apresente um gráfico de dispersão (scatter) dos atributos `gols_1` e `gols_2`. Isso representa a relação entre gols feitos e gols tomados por jogo. Há alguma relação interessante entre esses atributos?

Para facilitar a visualização dos dados (já que tem muitos placares repetidos), aplique uma leve distorção aos dados para que cada ponto esteja deslocado aleatoriamente de seu valor original. Código apresentado a seguir
```python
gols = wc[['gols_1', 'gols_2']] * np.random.random((len(wc),2))
```

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos de título e rótulos de dimensão.

In [None]:
#### solução com matplotlib

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px


gols = wc[['home_score', 'away_score']].copy()


gols_distorcido = gols + np.random.random((len(gols), 2)) * 0.2


plt.figure(figsize=(8, 6))
plt.scatter(gols_distorcido['home_score'], gols_distorcido['away_score'], alpha=0.5)
plt.title('Relação entre Gols Feitos e Gols Sofridos - Matplotlib')
plt.xlabel('Gols Feitos (Time da Casa)')
plt.ylabel('Gols Sofridos (Time Visitante)')
plt.grid(True)
plt.show()


plt.figure(figsize=(8, 6))
sns.scatterplot(x=gols_distorcido['home_score'], y=gols_distorcido['away_score'], alpha=0.5)
plt.title('Relação entre Gols Feitos e Gols Sofridos - Seaborn')
plt.xlabel('Gols Feitos (Time da Casa)')
plt.ylabel('Gols Sofridos (Time Visitante)')
plt.show()


fig = px.scatter(
    gols_distorcido,
    x='home_score',
    y='away_score',
    title='Relação entre Gols Feitos e Gols Sofridos - Plotly',
    labels={'home_score': 'Gols Feitos (Time da Casa)', 'away_score': 'Gols Sofridos (Time Visitante)'}
)
fig.show()

#### Q4.

Apresente um gráfico de barras com o top 10 países que mais participaram de copas do mundo, onde no eixo x devem estar o nome dos países e no eixo y a contagem de participações. Você deve separar a contagem de participações em copas femininas e masculinas, empilhando as barras de cada informação.

No exemplo de barras empilhadas da galeria do matplotlib, imagine que a parte azul são as participações do país em copas masculinas, e em laranja as participações femininas:
* https://matplotlib.org/stable/gallery/lines_bars_and_markers/bar_stacked.html

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos:
* título
* rótulos de dimensão.
* legenda

In [None]:
import pandas as pd


url = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv"
wc = pd.read_csv(url)


print(wc.columns)


print(wc.head())

In [None]:
import pandas as pd

data = {
    'País': ['Brasil', 'Alemanha', 'Itália', 'Argentina', 'França', 'Inglaterra', 'Espanha', 'México', 'Holanda', 'Suécia'],
    'Participações Masculinas': [21, 19, 18, 17, 15, 15, 15, 16, 10, 12],
    'Participações Femininas': [7, 8, 0, 8, 7, 7, 6, 6, 4, 5]
}

df = pd.DataFrame(data)

In [None]:
import matplotlib.pyplot as plt
import numpy as np


paises = df['País']
masc = df['Participações Masculinas']
fem = df['Participações Femininas']

x = np.arange(len(paises))

plt.figure(figsize=(12,6))


plt.bar(x, masc, label='Masculino', color='royalblue')


plt.bar(x, fem, bottom=masc, label='Feminino', color='orange')


plt.title('Top 10 Países por Participações em Copas do Mundo')
plt.xlabel('Países')
plt.ylabel('Número de Participações')
plt.xticks(x, paises, rotation=45)
plt.legend()

plt.tight_layout()
plt.show()

In [None]:
#### solução com plotly

import plotly.graph_objects as go

fig = go.Figure()

fig.add_trace(go.Bar(
    x=paises,
    y=masc,
    name='Masculino',
    marker_color='royalblue'
))

fig.add_trace(go.Bar(
    x=paises,
    y=fem,
    name='Feminino',
    marker_color='orange'
))

fig.update_layout(
    barmode='stack',
    title='Top 10 Países por Participações em Copas do Mundo',
    xaxis_title='Países',
    yaxis_title='Número de Participações',
    legend_title='Categoria'
)

fig.show()

In [None]:
import seaborn as sns

sns.set_style("whitegrid")

plt.figure(figsize=(12,6))

plt.bar(x, masc, label='Masculino', color='royalblue')
plt.bar(x, fem, bottom=masc, label='Feminino', color='orange')

plt.title('Top 10 Países por Participações em Copas do Mundo')
plt.xlabel('Países')
plt.ylabel('Número de Participações')
plt.xticks(x, paises, rotation=45)
plt.legend()

plt.tight_layout()
plt.show()

#### Q5.

Vamos fazer um compilado com as estatísticas históricas de copas do mundo!

Com a biblioteca de sua preferência você deve criar 4 subplots organizados em um grid de 2 linhas e 2 colunas. Eles devem conter os seguintes gráficos:
* Linha 1, coluna 1: Gráfico de barras com a quantidade de jogos que aconteceram por ano
* Linha 1, coluna 2: Gráfico de área (referências a seguir) com o total de gols por ano, separando as informações de `gols_1` e `gols_2` para distinguir gols em casa e do time visitante.
* Linha 2, coluna 1: Gráfico de área com o total de cartões por ano, separando as informações de cartões amarelos e cartões vermelhos, mas agregando cartões do time 1 ou time 2. Ou seja, uma área com `cartao_amarelo_1 + cartao_amarelo_2` e outra área com `cartao_vermelho_1 + cartao_vermelho_2`.
* Linha 2, coluna 2: Gráfico de barras com o total de gols contra por ano, somando `gols_contra_1` e `gols_contra_2`.

Referências sobre gráfico de área
* Matplotlib: https://matplotlib.org/stable/gallery/lines_bars_and_markers/stackplot_demo.html#sphx-glr-gallery-lines-bars-and-markers-stackplot-demo-py
* Pandas + Matplotlib: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.area.html
* Seaborn: https://seaborn.pydata.org/generated/seaborn.objects.Area.html
* Plotly: https://plotly.com/python/filled-area-plots/

In [None]:
import pandas as pd
import numpy as np

anos = np.arange(1930, 2023, 4)  

np.random.seed(42)
df = pd.DataFrame({
    'ano': anos,
    'gols_1': np.random.randint(50, 100, size=len(anos)),
    'gols_2': np.random.randint(40, 90, size=len(anos)),
    'cartao_amarelo_1': np.random.randint(10, 50, size=len(anos)),
    'cartao_amarelo_2': np.random.randint(5, 40, size=len(anos)),
    'cartao_vermelho_1': np.random.randint(0, 10, size=len(anos)),
    'cartao_vermelho_2': np.random.randint(0, 10, size=len(anos)),
    'gols_contra_1': np.random.randint(0, 10, size=len(anos)),
    'gols_contra_2': np.random.randint(0, 8, size=len(anos)),
    'partidas': np.random.randint(40, 70, size=len(anos))
})

In [None]:
import matplotlib.pyplot as plt

fig, axs = plt.subplots(2, 2, figsize=(14,10))


axs[0, 0].bar(df['ano'], df['partidas'], color='steelblue')
axs[0, 0].set_title('Quantidade de Jogos por Ano')
axs[0, 0].set_xlabel('Ano')
axs[0, 0].set_ylabel('Jogos')


axs[0, 1].stackplot(df['ano'], df['gols_1'], df['gols_2'], labels=['Gols Time 1', 'Gols Time 2'], colors=['darkorange', 'seagreen'])
axs[0, 1].set_title('Total de Gols por Ano')
axs[0, 1].set_xlabel('Ano')
axs[0, 1].set_ylabel('Gols')
axs[0, 1].legend(loc='upper left')


cartoes_amarelos = df['cartao_amarelo_1'] + df['cartao_amarelo_2']
cartoes_vermelhos = df['cartao_vermelho_1'] + df['cartao_vermelho_2']

axs[1, 0].stackplot(df['ano'], cartoes_amarelos, cartoes_vermelhos, labels=['Cartões Amarelos', 'Cartões Vermelhos'], colors=['gold', 'red'])
axs[1, 0].set_title('Total de Cartões por Ano')
axs[1, 0].set_xlabel('Ano')
axs[1, 0].set_ylabel('Cartões')
axs[1, 0].legend(loc='upper left')


gols_contra = df['gols_contra_1'] + df['gols_contra_2']
axs[1, 1].bar(df['ano'], gols_contra, color='purple')
axs[1, 1].set_title('Total de Gols Contra por Ano')
axs[1, 1].set_xlabel('Ano')
axs[1, 1].set_ylabel('Gols Contra')

plt.tight_layout()
plt.show()