# Desafio Brasileirão Dataset

Você deverá gerar algumas informações sobre um dataset com informações do campeonato brasileiro de 2003 até 2022. O dataset poderá ser baixado [aqui](https://github.com/HenriqueWF/Serie_A_Campeonato_Brasileiro/blob/main/campeonato-brasileiro-full.csv). Não esqueça de salvar o arquivo no formato '.csv'. Você deverá responder a lista de perguntas abaixo:

In [None]:
# Imports e criação do objeto dataframe
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Carregar os dados aqui
df_brasileirao = pd.DataFrame(pd.read_csv("campeonato-brasileiro-full.csv"))
df_brasileirao.head()

# Versão professor
# df_brasileirao = pd.read_csv("https://raw.githubusercontent.com/HenriqueWF/Serie_A_Campeonato_Brasileiro/refs/heads/main/campeonato-brasileiro-full.csv")

In [None]:
# Parte 1 - Exploração Inicial

# 1. Quantas linhas e colunas o dataset possui?
print(f"Linhas: {df_brasileirao.shape[0]} e Colunas: {df_brasileirao.shape[1]}.")
# Versão professor
# print(df_brasileirao.shape)

# 2. Quais são as colunas do dataset?
display(df_brasileirao.info())
# Versão professor
# df_brasileirao = df_brasileirao.rename(columns={"rodata": "rodada"}) # Aqui renomeou o nome da coluna
# print(df_brasileirao.columns)

# 3. Há valores nulos? Quantos em cada coluna?
display(df_brasileirao.isna().sum())
# Versão professor
# print(df_brasileirao.isnull().sum())

# 4. Liste os tipos de dados de cada coluna.
display(df_brasileirao.dtypes)
# Versão professor
# print(df_brasileirao.dtypes)

# 5. Converta a coluna de data (se existente) para datatime e confirme a alteração.
df_brasileirao['data'] = pd.to_datetime(df_brasileirao['data'], dayfirst=True)
display(df_brasileirao.dtypes)
df_brasileirao.head()
# Versão professor
# df_brasileirao['data'] = pd.to_datetime(df_brasileirao['data'], dayfirst=True, errors='coerce') # Errors = 'coerce' significa "se der erro, continue".
# print(df_brasileirao.head())
# print(df_brasileirao.dtypes)

In [None]:
# Parte 2 - Filtragem e Agrupamento

# 1. Quantos jogos terminaram empatados?
# filtrar mandante_Placar = visitante_Placar
# fazer a contagem
print(f"Jogos empatados: {df_brasileirao[df_brasileirao['mandante_Placar'] == df_brasileirao['visitante_Placar']].shape[0]}.")
# Versão professor
# Geramos um novo dataframe apenas com os jogos que terminaram empatados. Depois chamamos o atributo shape que é composto por uma tupla, onde o primeiro valor é a quantidade de linhas do dataframe, e o segundo é a quantidade de colunas.
# qtd_jogos_empatados = df_brasileirao[df_brasileirao['mandante_Placar'] == df_brasileirao['visitante_Placar']].shape[0]
# print(f"Quantidade de jogos que terminaram empatados: {qtd_jogos_empatados}.")


# 2. Qual foi a média de gols por jogo?
# criar uma coluna somando os gols do mandante e do visitante e depois fazer a média.
df_brasileirao['gols_no_jogo'] = df_brasileirao['mandante_Placar'] + df_brasileirao['visitante_Placar']
print(f"Média de gols por jogo: {df_brasileirao['gols_no_jogo'].mean().round(2)}.")
# Versão professor
# Primeiro criamos uma nova coluna no dataframe que irá armazenar a soma dos gols dos mandantes e visitantes. Depois chamamos o método mean() para essa coluna.
# df_brasileirao['total_gols'] = df_brasileirao['mandante_Placar'] + df_brasileirao['visitante_Placar']
# media_gols_por_jogo = df_brasileirao['total_gols'].mean()
# print(f"Média de gols por jogo: {media_gols_por_jogo:.2f}")

# 3. Crie uma tabela mostrando quantas vezes cada time jogou como mandante.
print("\nTabela de quantidade de jogos como mandante:")
display(df_brasileirao.groupby('mandante')['mandante'].count())
# Versão professor
# print(df_brasileirao['mandante'].value_counts())

# 4. Qual clube mais venceu como mandante?
print("Time mais venceu como mandante:")
df_mandante_venceu = df_brasileirao[df_brasileirao['mandante_Placar'] > df_brasileirao['visitante_Placar']]
print(df_mandante_venceu['mandante'].value_counts().idxmax())
# Versão professor
# clube_mais_venceu_como_mandante = df_brasileirao[df_brasileirao['vencedor'] == df_brasileirao['mandante']]['mandante'].value_counts().idxmax()
# print(f"O clube que mais venceu como mandante foi o {clube_mais_venceu_como_mandante}.")

# 5. Quantas partidas tiveram 3 ou mais gols no total?
print(f"Jogos com 3 gols ou mais: {df_brasileirao[df_brasileirao['gols_no_jogo'] > 2].shape[0]}.")
# Versão professor
# qtde_partidas_3oumais_gols = df_brasileirao[df_brasileirao['total_gols'] >=3].shape[0]
# print(f"{qtde_partidas_3oumais_gols} partidas tiveram 3 ou mais gols marcados.")


In [None]:
# Parte 3 - Visualização

# 1. Gráfico de barras: Mostre a quantidade de vitórias dos mandantes vs visitantes:
# Versão profesor
plt.figure(figsize=(8,4))

vitorias_mandante = len(df_brasileirao[df_brasileirao['mandante_Placar'] > df_brasileirao['visitante_Placar']])
vitorias_visitante = len(df_brasileirao[df_brasileirao['visitante_Placar'] > df_brasileirao['mandante_Placar']])

print(f"Quantidade de vitórias dos mandantes: {vitorias_mandante}")
print(f"Quantidade de vitórias dos visitantes: {vitorias_visitante}")

sns.barplot(x=["Mandante", "Visitante"], y=[vitorias_mandante, vitorias_visitante])
plt.title("Vitórias Mandantes vs Visitantes")
plt.ylabel("Quantidade de Vitórias")
plt.show()

# 2. Gere um Histograma da quantidade de gols dos mandantes:

plt.figure(figsize=(8,4))

ax = sns.histplot(df_brasileirao['mandante_Placar'], bins=7, kde=True)
for p in ax.patches:
    height = p.get_height()
    x = p.get_x() + p.get_width() / 2
    ax.text(x, height, int(height), ha="center", va="bottom", fontsize=9)

plt.title("Quantidade de gols dos mandantes")
plt.xlabel("Gols dos Mandantes")
plt.ylabel("Qtde vezes")
plt.show()

# Versão professor
plt.figure(figsize=(8,4))

max_gols = df_brasileirao['mandante_Placar'].max()
bins_calc = np.arange(0, max_gols + 2) + 0.5

sns.histplot(df_brasileirao['mandante_Placar'], bins=bins_calc)
plt.title("Distribuição dos Gols dos Mandantes")
plt.xlabel("Gols do Mandante")
plt.ylabel("Frequência")
plt.show()

# 3. Gere um boxplot da distribuição total de gols por jogo:

plt.figure(figsize=(8,4))

sns.boxplot(data=df_brasileirao, y='gols_no_jogo')
plt.title("Distribuição total de gols por jogo")
plt.ylabel("Número de gols")
plt.show()

# Versão professor
plt.figure(figsize=(8,4))
sns.boxplot(x=df_brasileirao['gols_no_jogo'])
plt.title("Total de Gols por jogo")
plt.xlabel("Total de Gols")
plt.show()

In [None]:
# EXERCÍCIOS ADICIONAIS.

# 1) Qual a maior goleada do campeonato?

# 2) Quantas vezes cada estado teve times mandantes?

# 3) Qual estádio recebeu mais jogos?

# 4) Média de gols do mandante e visitante separadamente.

# 5) Em quais anos houve mais jogos?

# 6) Quais times mais participaram do campeonato?

# 7) Qual time fez mais gols como mandante?

# 8) Qual time mais sofreu gols como mandante?

# 9) Qual ano acontecerem mais partidas com 3+ gols?

# 10) Qual estado tem o melhor desempenho como mandante

# 11) Mostrar o ranking de maior média de gols por time
# - Apenas mandante
# - Apenas visitante
# - Geral