In [1]:
import pandas as pd
# Carrega csv com dados dos times e anos
partidas = pd.read_csv("../data/raw/campeonato-brasileiro-full.csv")

# Seleciona colunas relevantes
partidas = partidas[["data", "mandante", "visitante", "vencedor"]]
partidas.head()

Unnamed: 0,data,mandante,visitante,vencedor
0,29/03/2003,Guarani,Vasco,Guarani
1,29/03/2003,Athletico-PR,Gremio,Athletico-PR
2,30/03/2003,Flamengo,Coritiba,-
3,30/03/2003,Goias,Paysandu,-
4,30/03/2003,Internacional,Ponte Preta,-


In [2]:
partidas['data'] = pd.to_datetime(partidas['data'], dayfirst=True)
partidas['ano'] = partidas['data'].dt.year
partidas.head()

Unnamed: 0,data,mandante,visitante,vencedor,ano
0,2003-03-29,Guarani,Vasco,Guarani,2003
1,2003-03-29,Athletico-PR,Gremio,Athletico-PR,2003
2,2003-03-30,Flamengo,Coritiba,-,2003
3,2003-03-30,Goias,Paysandu,-,2003
4,2003-03-30,Internacional,Ponte Preta,-,2003


In [3]:
from typing import defaultdict
mandante_ano_dict = defaultdict()

# Iterar sobre cada partida para agregar os dados por estádio e ano
for _, partida in partidas.iterrows():
    ano = partida['ano']
    data = partida['data']
    mandante = partida['mandante']
    if data.year == 2021 and data.month < 4:
        ano = 2020

    if (ano, mandante) not in mandante_ano_dict:
        mandante_ano_dict[(ano, mandante)] = {
            'ano': ano,
            'mandante': mandante,
            'partidas': 0,
            'vitorias_casa': 0,
            'derrotas_casa': 0,
            'empates': 0,
        }
    
    # Atualizar as estatísticas
    mandante_ano_dict[(ano, mandante)]['partidas'] += 1
    if partida['vencedor'] == partida['mandante']:
        mandante_ano_dict[(ano, mandante)]['vitorias_casa'] += 1
    elif partida['vencedor'] == partida['visitante']:
        mandante_ano_dict[(ano, mandante)]['derrotas_casa'] += 1
    else:
        mandante_ano_dict[(ano, mandante)]['empates'] += 1

# Converter o dicionário em um DataFrame
mandante_ano_df = pd.DataFrame(mandante_ano_dict.values())

# Salvar o novo dataset
mandante_ano_df.to_csv('../data/processed/mandante_ano.csv', index=False)
mandante_ano_df.head()

Unnamed: 0,ano,mandante,partidas,vitorias_casa,derrotas_casa,empates
0,2003,Guarani,23,15,5,3
1,2003,Athletico-PR,23,14,5,4
2,2003,Flamengo,23,14,4,5
3,2003,Goias,23,12,4,7
4,2003,Internacional,23,13,3,7
