> Projeto Desenvolve <br>
Programação Intermediária com Python <br>
Profa. Camila Laranjeira (mila@projetodesenvolve.com.br) <br>

# 3.9 - Visualização de Dados

## Exercícios
Vamos trabalhar com as mesmas bases de dados do exercício de Pandas. Aqui estão os links caso você queira baixar novamente, mas recomendo trabalhar com o `wc_formatado.csv` que exportamos na questão Q2 do exercício anterior.

* https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv
* https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1991_2023.csv

Para relembrar, essas são as colunas do dataframe:
```
Data columns (total 21 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   time_1             1312 non-null   string        
 1   time_2             1312 non-null   string        
 2   gols_1             1312 non-null   int64         
 3   gols_2             1312 non-null   int64         
 4   data               1312 non-null   datetime64[ns]
 5   ano                1312 non-null   int64         
 6   país_sede          1312 non-null   string        
 7   comparecimento     1312 non-null   int64         
 8   resultado          1312 non-null   string        
 9   rodada             1312 non-null   category      
 10  gols_1_detalhes    970 non-null    string        
 11  gols_2_detalhes    771 non-null    string        
 12  gols_1_contra      57 non-null     string        
 13  gols_2_contra      30 non-null     string        
 14  gols_1_penalti     170 non-null    string        
 15  gols_2_penalti     119 non-null    string        
 16  cartao_vermelho_1  59 non-null     string        
 17  cartao_vermelho_2  65 non-null     string        
 18  cartao_amarelo_1   834 non-null    string        
 19  cartao_amarelo_2   857 non-null    string        
 20  copa               1312 non-null   string 
```

#### Q1.
Realize todos os imports necessários para executar as três bibliotecas de visualização que conhecemos:
* Matplotlib (lembre-se do comando mágico)
* Seaborn
* Plotly

Para cada uma delas, altere o tema padrão de visualização. 

In [None]:
# Imports necessários
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.io as pio

# Comando mágico para exibir gráficos no notebook (se estiver usando Jupyter)
%matplotlib inline

# 1. Alterando o tema para o Matplotlib
plt.style.use('ggplot')  # Define o tema ggplot para Matplotlib

# 2. Alterando o tema para o Seaborn
sns.set_theme(style="darkgrid")  # Define o estilo de tema do Seaborn

# 3. Alterando o tema para o Plotly
pio.templates.default = "plotly_dark"  # Define o tema padrão como "plotly_dark" para Plotly

# Exemplo de visualização básica para cada biblioteca:

# Matplotlib
plt.figure(figsize=(6, 4))
plt.plot([1, 2, 3, 4], [10, 20, 25, 30], label='Exemplo')
plt.title("Gráfico Matplotlib com tema ggplot")
plt.legend()
plt.show()

# Seaborn
sns.lineplot(x=[1, 2, 3, 4], y=[10, 20, 25, 30])
plt.title("Gráfico Seaborn com tema darkgrid")
plt.show()

# Plotly
import plotly.graph_objects as go

fig = go.Figure(data=go.Scatter(x=[1, 2, 3, 4], y=[10, 20, 25, 30], mode='lines+markers', name='Exemplo'))
fig.update_layout(title="Gráfico Plotly com tema plotly_dark")
fig.show()


#### Q2.
Sobre os dados de copa do mundo, qual a distribuição de público presente nos jogos? Isso pode ser respondido com um histograma com os dados da coluna `comparecimento`.  

Lembre-se que alguns jogos estavam com público 0 incorretamente, que tal remover essas ocorrências para não atrapalhar sua visualzação?

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos de título e rótulos de dimensão.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Carregar os dados
url = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv"
df = pd.read_csv(url)

# Filtrar os dados para remover valores de público incorretos (0)
df_filtrado = df[df["comparecimento"] > 0]

# Matplotlib
plt.figure(figsize=(8, 5))
plt.hist(df_filtrado["comparecimento"], bins=20, color='skyblue', edgecolor='black')
plt.title("Distribuição do Público Presente (Matplotlib)", fontsize=14)
plt.xlabel("Público Presente", fontsize=12)
plt.ylabel("Frequência", fontsize=12)
plt.grid(axis='y', alpha=0.75)
plt.show()

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Carregar os dados
url = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv"
df = pd.read_csv(url)

# Filtrar os dados para remover valores de público incorretos (0)
df_filtrado = df[df["comparecimento"] > 0]

plt.figure(figsize=(8, 5))
sns.histplot(data=df_filtrado, x="comparecimento", bins=20, color="purple", kde=True)
plt.title("Distribuição do Público Presente (Seaborn)", fontsize=14)
plt.xlabel("Público Presente", fontsize=12)
plt.ylabel("Frequência", fontsize=12)
plt.show()

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Carregar os dados
url = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv"
df = pd.read_csv(url)

# Filtrar os dados para remover valores de público incorretos (0)
df_filtrado = df[df["comparecimento"] > 0]

# Plotly
fig = px.histogram(df_filtrado, x="comparecimento", nbins=20, title="Distribuição do Público Presente (Plotly)",
                   labels={"comparecimento": "Público Presente"}, color_discrete_sequence=['teal'])
fig.update_layout(xaxis_title="Público Presente", yaxis_title="Frequência")
fig.show()

#### Q3.

Apresente um gráfico de dispersão (scatter) dos atributos `gols_1` e `gols_2`. Isso representa a relação entre gols feitos e gols tomados por jogo. Há alguma relação interessante entre esses atributos?

Para facilitar a visualização dos dados (já que tem muitos placares repetidos), aplique uma leve distorção aos dados para que cada ponto esteja deslocado aleatoriamente de seu valor original. Código apresentado a seguir
```python
gols = wc[['gols_1', 'gols_2']] * np.random.random((len(wc),2))
```

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos de título e rótulos de dimensão.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Carregar os dados
url = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv"
wc = pd.read_csv(url)

# Aplicar leve distorção aos dados
gols = wc[['gols_1', 'gols_2']] + np.random.random((len(wc), 2))

# Solução com Matplotlib
plt.figure(figsize=(8, 5))
plt.scatter(gols['gols_1'], gols['gols_2'], alpha=0.6, color='blue', edgecolors='black')
plt.title("Relação entre Gols Feitos e Gols Tomados (Matplotlib)", fontsize=14)
plt.xlabel("Gols Feitos", fontsize=12)
plt.ylabel("Gols Tomados", fontsize=12)
plt.grid(alpha=0.5)
plt.show()


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Carregar os dados
url = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv"
wc = pd.read_csv(url)

# Aplicar leve distorção aos dados
gols = wc[['gols_1', 'gols_2']] + np.random.random((len(wc), 2))

# Solução com Seaborn
plt.figure(figsize=(8, 5))
sns.scatterplot(x=gols['gols_1'], y=gols['gols_2'], alpha=0.6, color="purple")
plt.title("Relação entre Gols Feitos e Gols Tomados (Seaborn)", fontsize=14)
plt.xlabel("Gols Feitos", fontsize=12)
plt.ylabel("Gols Tomados", fontsize=12)
plt.show()


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Carregar os dados
url = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv"
wc = pd.read_csv(url)

# Aplicar leve distorção aos dados
gols = wc[['gols_1', 'gols_2']] + np.random.random((len(wc), 2))

# Solução com Plotly
fig = px.scatter(gols, x="gols_1", y="gols_2", 
                 title="Relação entre Gols Feitos e Gols Tomados (Plotly)",
                 labels={"gols_1": "Gols Feitos", "gols_2": "Gols Tomados"},
                 opacity=0.6)
fig.update_traces(marker=dict(color='teal', size=7, line=dict(width=1, color='DarkSlateGrey')))
fig.show()

#### Q4.

Apresente um gráfico de barras com o top 10 países que mais participaram de copas do mundo, onde no eixo x devem estar o nome dos países e no eixo y a contagem de participações. Você deve separar a contagem de participações em copas femininas e masculinas, empilhando as barras de cada informação.

No exemplo de barras empilhadas da galeria do matplotlib, imagine que a parte azul são as participações do país em copas masculinas, e em laranja as participações femininas:
* https://matplotlib.org/stable/gallery/lines_bars_and_markers/bar_stacked.html

Você deve implementar essa visualização nas três bibliotecas que vimos:
* Matplotlib
* Seaborn
* Plotly

Garanta que o gráfico tenha pelo menos os atributos:
* título
* rótulos de dimensão.
* legenda

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Carregar os dados
url_1930_2022 = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv"
url_1991_2023 = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1991_2023.csv"

masculinas = pd.read_csv(url_1930_2022)
femininas = pd.read_csv(url_1991_2023)

# Contar participações por país
masculinas_contagem = masculinas.groupby('time_1')['copa'].nunique()
femininas_contagem = femininas.groupby('time_1')['copa'].nunique()

# Combinar os dados em um único DataFrame
participacoes = pd.DataFrame({
    'Masculinas': masculinas_contagem,
    'Femininas': femininas_contagem
}).fillna(0)

# Ordenar pelos países com mais participações no total e selecionar o top 10
participacoes['Total'] = participacoes['Masculinas'] + participacoes['Femininas']
participacoes = participacoes.sort_values('Total', ascending=False).head(10)

# Solução com Matplotlib
x = participacoes.index
masc = participacoes['Masculinas']
fem = participacoes['Femininas']

plt.figure(figsize=(10, 6))
plt.bar(x, masc, label='Copas Masculinas', color='blue')
plt.bar(x, fem, bottom=masc, label='Copas Femininas', color='orange')
plt.title('Top 10 Países com Mais Participações em Copas do Mundo', fontsize=14)
plt.xlabel('Países', fontsize=12)
plt.ylabel('Participações', fontsize=12)
plt.xticks(rotation=45, ha='right')
plt.legend()
plt.tight_layout()
plt.show()

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Carregar os dados
url_1930_2022 = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv"
url_1991_2023 = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1991_2023.csv"

masculinas = pd.read_csv(url_1930_2022)
femininas = pd.read_csv(url_1991_2023)

# Contar participações por país
masculinas_contagem = masculinas.groupby('time_1')['copa'].nunique()
femininas_contagem = femininas.groupby('time_1')['copa'].nunique()

# Combinar os dados em um único DataFrame
participacoes = pd.DataFrame({
    'Masculinas': masculinas_contagem,
    'Femininas': femininas_contagem
}).fillna(0)

# Ordenar pelos países com mais participações no total e selecionar o top 10
participacoes['Total'] = participacoes['Masculinas'] + participacoes['Femininas']
participacoes = participacoes.sort_values('Total', ascending=False).head(10)

# Solução com Seaborn
participacoes_reset = participacoes.reset_index().melt(id_vars='time_1', value_vars=['Masculinas', 'Femininas'], 
                                                       var_name='Tipo', value_name='Participações')

plt.figure(figsize=(10, 6))
sns.barplot(data=participacoes_reset, x='time_1', y='Participações', hue='Tipo', palette=['blue', 'orange'])
plt.title('Top 10 Países com Mais Participações em Copas do Mundo (Seaborn)', fontsize=14)
plt.xlabel('Países', fontsize=12)
plt.ylabel('Participações', fontsize=12)
plt.xticks(rotation=45, ha='right')
plt.legend(title='Tipo')
plt.tight_layout()
plt.show()


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

# Carregar os dados
url_1930_2022 = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv"
url_1991_2023 = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1991_2023.csv"

masculinas = pd.read_csv(url_1930_2022)
femininas = pd.read_csv(url_1991_2023)

# Contar participações por país
masculinas_contagem = masculinas.groupby('time_1')['copa'].nunique()
femininas_contagem = femininas.groupby('time_1')['copa'].nunique()

# Combinar os dados em um único DataFrame
participacoes = pd.DataFrame({
    'Masculinas': masculinas_contagem,
    'Femininas': femininas_contagem
}).fillna(0)

# Ordenar pelos países com mais participações no total e selecionar o top 10
participacoes['Total'] = participacoes['Masculinas'] + participacoes['Femininas']
participacoes = participacoes.sort_values('Total', ascending=False).head(10)


# Solução com Plotly
fig = px.bar(participacoes_reset, x='time_1', y='Participações', color='Tipo', 
             color_discrete_map={'Masculinas': 'blue', 'Femininas': 'orange'},
             title='Top 10 Países com Mais Participações em Copas do Mundo (Plotly)',
             labels={'time_1': 'Países', 'Participações': 'Participações'})
fig.update_layout(barmode='stack', xaxis_tickangle=-45)
fig.show()

#### Q5.

Vamos fazer um compilado com as estatísticas históricas de copas do mundo!

Com a biblioteca de sua preferência você deve criar 4 subplots organizados em um grid de 2 linhas e 2 colunas. Eles devem conter os seguintes gráficos:
* Linha 1, coluna 1: Gráfico de barras com a quantidade de jogos que aconteceram por ano
* Linha 1, coluna 2: Gráfico de área (referências a seguir) com o total de gols por ano, separando as informações de `gols_1` e `gols_2` para distinguir gols em casa e do time visitante.
* Linha 2, coluna 1: Gráfico de área com o total de cartões por ano, separando as informações de cartões amarelos e cartões vermelhos, mas agregando cartões do time 1 ou time 2. Ou seja, uma área com `cartao_amarelo_1 + cartao_amarelo_2` e outra área com `cartao_vermelho_1 + cartao_vermelho_2`.
* Linha 2, coluna 2: Gráfico de barras com o total de gols contra por ano, somando `gols_contra_1` e `gols_contra_2`.

Referências sobre gráfico de área
* Matplotlib: https://matplotlib.org/stable/gallery/lines_bars_and_markers/stackplot_demo.html#sphx-glr-gallery-lines-bars-and-markers-stackplot-demo-py
* Pandas + Matplotlib: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.area.html
* Seaborn: https://seaborn.pydata.org/generated/seaborn.objects.Area.html
* Plotly: https://plotly.com/python/filled-area-plots/

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Carregar os dados
url_1930_2022 = "https://raw.githubusercontent.com/camilalaranjeira/python-intermediario/main/fifa-wc/matches_1930_2022.csv"
wc = pd.read_csv(url_1930_2022)

# Preprocessar os dados
wc['ano'] = pd.to_datetime(wc['data']).dt.year

# Gráfico 1: Jogos por ano
jogos_por_ano = wc.groupby('ano').size()

# Gráfico 2: Gols por ano (separando gols_1 e gols_2)
gols_por_ano = wc.groupby('ano')[['gols_1', 'gols_2']].sum()

# Gráfico 3: Cartões por ano (somando cartões do time 1 e time 2)
cartoes_por_ano = wc.groupby('ano').agg({
    'cartao_amarelo_1': 'sum', 'cartao_amarelo_2': 'sum',
    'cartao_vermelho_1': 'sum', 'cartao_vermelho_2': 'sum'
})
cartoes_por_ano['amarelos'] = cartoes_por_ano['cartao_amarelo_1'] + cartoes_por_ano['cartao_amarelo_2']
cartoes_por_ano['vermelhos'] = cartoes_por_ano['cartao_vermelho_1'] + cartoes_por_ano['cartao_vermelho_2']

# Gráfico 4: Gols contra por ano (somando gols_contra_1 e gols_contra_2)
gols_contra_por_ano = wc.groupby('ano').agg({
    'gols_1_contra': 'sum', 'gols_2_contra': 'sum'
}).sum(axis=1)

# Criar os subplots
fig, axs = plt.subplots(2, 2, figsize=(14, 10))

# Gráfico 1: Jogos por ano
axs[0, 0].bar(jogos_por_ano.index, jogos_por_ano.values, color='blue')
axs[0, 0].set_title("Quantidade de Jogos por Ano")
axs[0, 0].set_xlabel("Ano")
axs[0, 0].set_ylabel("Quantidade de Jogos")

# Gráfico 2: Gols por ano
axs[0, 1].stackplot(gols_por_ano.index, gols_por_ano['gols_1'], gols_por_ano['gols_2'], 
                    labels=['Gols Casa', 'Gols Visitante'], colors=['blue', 'orange'])
axs[0, 1].set_title("Total de Gols por Ano")
axs[0, 1].set_xlabel("Ano")
axs[0, 1].set_ylabel("Gols")
axs[0, 1].legend()

# Gráfico 3: Cartões por ano
axs[1, 0].stackplot(cartoes_por_ano.index, cartoes_por_ano['amarelos'], cartoes_por_ano['vermelhos'], 
                    labels=['Cartões Amarelos', 'Cartões Vermelhos'], colors=['yellow', 'red'])
axs[1, 0].set_title("Total de Cartões por Ano")
axs[1, 0].set_xlabel("Ano")
axs[1, 0].set_ylabel("Cartões")
axs[1, 0].legend()

# Gráfico 4: Gols contra por ano
axs[1, 1].bar(gols_contra_por_ano.index, gols_contra_por_ano.values, color='green')
axs[1, 1].set_title("Total de Gols Contra por Ano")
axs[1, 1].set_xlabel("Ano")
axs[1, 1].set_ylabel("Gols Contra")

# Ajustar layout
plt.tight_layout()
plt.show()
