# Desafio Brasileirão Dataset

Você deverá gerar algumas informações sobre um dataset com informações do campeonato brasileiro de 2003 até 2022. O dataset poderá ser baixado [aqui](https://github.com/HenriqueWF/Serie_A_Campeonato_Brasileiro/blob/main/campeonato-brasileiro-full.csv). Não esqueça de salvar o arquivo no formato `.csv`. Você deverá responder a lista de perguntas abaixo:

In [None]:
# Imports e criação do objeto dataframe
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Carregar os dados aqui
df = pd.read_csv("https://raw.githubusercontent.com/HenriqueWF/Serie_A_Campeonato_Brasileiro/refs/heads/main/campeonato-brasileiro-full.csv")

df.info()


In [None]:
# Parte 1 - Exploração Inicial

# 1. Quantas linhas e colunas o dataset possui?
df.shape

# 2. Quais são as colunas do dataset?
df = df.rename(columns={"rodata": "rodada"})
print(df.columns)

# 3. Há valores nulos? Quantos em cada coluna?
print(df.isnull().sum())

# 4. Liste os tipos de dados de cada coluna
print(df.dtypes)

# 5. Converta a coluna de data (se existente) para datetime e confirme a alteração.
df['data'] = pd.to_datetime(df['data'], dayfirst=True, errors='coerce')
print(df.head())
print(df.dtypes)


In [None]:
# Parte 2 - Filtragem e Agrupamento

# 1. Quantos jogos terminaram empatados?
# Geramos um novo dataframe apenas com os jogos que terminaram empatados. Depois chamamos o atributo shape que é composto por uma tupla, onde o primeiro valor é a quantidade de linhas do dataframe, e o segundo é a quantidade de colunas.
qtd_jogos_empatados = df[df['mandante_Placar'] == df['visitante_Placar']].shape[0]
print(f"Quantidade de jogos que terminaram empatados: {qtd_jogos_empatados}.")

# 2. Qual foi a média de gols por jogo?
# Primeiro criamos uma nova coluna no dataframe que irá armazenar a soma dos gols dos mandantes e visitantes. Depois chamamos o método mean() para essa coluna.
df['total_gols'] = df['mandante_Placar'] + df['visitante_Placar']
media_gols_por_jogo = df['total_gols'].mean()
print(f"Média de gols por jogo: {media_gols_por_jogo:.2f}")

# 3. Crie uma tabela mostrando quantas vezes cada time jogou como mandante.
print(df['mandante'].value_counts())

# 4. Qual clube mais venceu como mandante?
clube_que_mais_venceu_como_mandante = df[df['vencedor'] == df['mandante']]['mandante'].value_counts().idxmax()
print(f"O clube que mais venceu como mandante foi o {clube_que_mais_venceu_como_mandante}.")

# 5. Quantas partidas tiveram 3 ou mais gols no total?
qtd_partidas_3oumais_gols = df[df['total_gols'] >= 3].shape[0]
print(f"{qtd_partidas_3oumais_gols} partidas tiveram 3 ou mais gols marcados")


In [None]:
# Parte 3 - Visualização

# 1. Gráfico de barras: Mostre a quantidade de vitórios dos mandantes vs visitantes
plt.figure(figsize=(8, 4))

vitorias_mandante = len(df[df['mandante_Placar'] > df['visitante_Placar']])
vitorias_visitante = len(df[df['visitante_Placar'] > df['mandante_Placar']])

print(f"Quantidade de vitórias dos mandantes: {vitorias_mandante}.")
print(f"Quantidade de vitórias dos visitantes: {vitorias_visitante}.")

sns.barplot(x=["Mandante", "Visitante"], y=[vitorias_mandante, vitorias_visitante])
plt.title("Vitórias Mandantes vs Visitantes")
plt.ylabel("Quantidade de Vitórias")
plt.show()

# 2. Gere um Histograma da quantidade de gols dos mandantes
plt.figure(figsize=(8, 4))

max_gols = df['mandante_Placar'].max()

bins = np.arange(0, max_gols + 2) + 0.5

sns.histplot(df['mandante_Placar'], bins=bins)
plt.title("Distribuição dos Gols dos Mandantes")
plt.xlabel("Gols do Mandante")
plt.ylabel("Frequência")
plt.show()

# 3. Gere um boxplot da distribuição total de gols por jogo
plt.figure(figsize=(8, 4))
sns.boxplot(x=df['total_gols'])
plt.title("Total de Gols por jogo")
plt.xlabel("Total de Gols")
plt.show()


In [None]:
# EXERCÍCIOS ADICIONAIS.

# Antes de tudo, precisamos garantir que algumas colunas sejam convertidas para o tipo correto.
df['data'] = pd.to_datetime(df['data'], dayfirst=True, errors='coerce')

df['mandante_Placar'] = pd.to_numeric(df['mandante_Placar'], errors='coerce')
df['visitante_Placar'] = pd.to_numeric(df['visitante_Placar'], errors='coerce')

df['total_gols'] = df['mandante_Placar'] + df['visitante_Placar']

# A coluna saldo nos ajudará em alguns cálculos
df['saldo'] = (df['mandante_Placar'] - df['visitante_Placar']).abs()

# A coluna ano será útil em algumas agregações
df['ano'] = df['data'].dt.year

# Criação de um indicador do mandante vencedor
df['mandante_venceu'] = df['mandante_Placar'] > df['visitante_Placar']

# 1) Qual foi a maior goleada do campeonato?
max_saldo = df['saldo'].max()
maiores_goleadas = df[df['saldo'] == max_saldo].copy()

print("1) Maior goleada (diferença de gols) = {}".format(max_saldo))
print(maiores_goleadas[['ano', 'mandante', 'visitante', 'mandante_Placar', 'visitante_Placar']])
print('*'*80, '\n')


# 2) Quantas vezes cada estado teve times mandantes?
contagem_mandante_estado = df['mandante_Estado'].value_counts(dropna=True)
print("2) Quantas vezes cada estado teve times mandantes: ")
print(contagem_mandante_estado)
print('*'*80, '\n\n')


# 3) Qual estádio recebeu mais jogos?
estadios_mais_usados = df['arena'].value_counts().head(10)
print("3) Top 10 estádios com mais jogos: ")
print(estadios_mais_usados)
print('*'*80, '\n\n')


# 4) Média de gols do mandante e visitante separadamente.
media_de_gols_mandante = df['mandante_Placar'].mean()
media_de_gols_visitante = df['visitante_Placar'].mean()
print("4) Média de gols: ")
print("   Média de gols dos times mandantes: {:.3f}".format(media_de_gols_mandante))
print("   Média de gols dos times visitantes: {:.3f}".format(media_de_gols_visitante))
print('*'*80, '\n\n')


# 5) Em quais anos houve mais jogos?
jogos_por_ano = df['ano'].value_counts().sort_index()
print("5) Número de jogos por ano: ")
print(jogos_por_ano)
print('*'*80, '\n\n')


# 6) Quais times mais participaram do campeonato?
participacoes = df['mandante'].value_counts().add(df['visitante'].value_counts(), fill_value=0)
participacoes = participacoes.sort_values(ascending=False)
print("6) Times com mais participações nos campeonatos (mandante+visitante)")
print(participacoes.head(20))    # 20 primeiros
print('*'*80, '\n\n')


# 7) Qual time fez mais gols como mandante?
gols_feitos_mandante = df.groupby('mandante')['mandante_Placar'].sum().sort_values(ascending=False)
print("7) Times que fizeram mais gols como mandantes: ")
print(gols_feitos_mandante.head(20))
print('*'*80, '\n\n')


# 8) Qual time mais sofreu gols como mandante?
gols_sofridos_casa = df.groupby('mandante')['visitante_Placar'].sum().sort_values(ascending=False)
print("8) TImes que mais sofreram gols em casa: ")
print(gols_sofridos_casa.head(20))
print('*'*80, '\n\n')


# 9) Qual ano aconteceram mais partidas com 3+ gols
jogos_3oumais_gols = df[df['total_gols'] >= 3]
jogos_3oumais_gols_anualmente = jogos_3oumais_gols['ano'].value_counts().sort_index()
print("9) Partidas com 3 ou mais gols por ano: ")
print(jogos_3oumais_gols_anualmente)
print('*'*80, '\n\n')


# 10) Qual estado tem o melhor desempenho como mandante
por_estado = df.groupby('mandante_Estado').agg(
    jogos_em_casa = ('mandante_venceu', 'count'),
    vitorias_em_casa = ('mandante_venceu', 'sum')
)
por_estado['porcentagem_vitorias'] = (por_estado['vitorias_em_casa'] / por_estado['jogos_em_casa']) * 100
por_estado_ordenado = por_estado.sort_values('porcentagem_vitorias', ascending=False)
print("10) Desempenho por estado como mandante (% de vitórias): ")
print(por_estado_ordenado[['jogos_em_casa', 'vitorias_em_casa', 'porcentagem_vitorias']].round(2))
print("\nTop estados por % com mais vitórias em casa: ")
print(por_estado_ordenado[['porcentagem_vitorias']].head(10).round(2))
print('*'*80, '\n\n')


# 11) Mostrar o ranking de maior média de gols por time
# - Apenas mandante
# - Apenas visitante
# - Geral

# Média quando o time é mandante
media_por_mandante = df.groupby('mandante')['mandante_Placar'].mean().sort_values(ascending=False)

# Média quando o time é visitante
media_por_visitante = df.groupby(
    'visitante'
)['visitante_Placar'].mean().sort_values(ascending=False)

# Total de gols marcados por time / total de jogos como mandante
gols_mandante_total = df.groupby('mandante')['mandante_Placar'].sum()
gols_visitante_total = df.groupby('visitante')['visitante_Placar'].sum()
gols_total_por_time = gols_mandante_total.add(gols_visitante_total, fill_value=0)

# Total de jogos por time
jogos_mandante = df['mandante'].value_counts()
jogos_visitante = df['visitante'].value_counts()
jogos_total_por_time = jogos_mandante.add(jogos_visitante, fill_value=0)

# Média geral de gols por jogo para cada time
media_geral_por_time = (gols_total_por_time / jogos_total_por_time).sort_values(ascending=False)

print("11) Ranking de média de gols por time (top 20): ")
print("Média de gols quando o time joga como MANDANTE: ")
print(media_por_mandante.head(20).round(3), '\n')

print("Média de gols quando o time joga como VISITANTE: ")
print(media_por_visitante.head(20).round(3), '\n')

print("Média geral de gols por jogo: ")
print(media_geral_por_time.head(20).round(3))