In [21]:
import re
import pandas as pd
import glob
import os

# Caminho da pasta contendo os arquivos (ex: "jogos/jogos2018.csv", etc.)
input_folder = "jogos/"
output_path = "jogos_todos_formatados.csv"

# Expressão regular para capturar os jogos no texto
pattern = re.compile(
    r"Rodada:\s*(\d+).*?\n\n"       # rodada
    r"(\d+)\s*x\s*(\d+)\n\n"         # placar
    r"(.+?)\n"                       # mandante
    r"(.+?)\n"                       # visitante
    r"Data:\s*(\d{2}/\d{2}/\d{4}).*?\n"  # data
    r"Local:\s*(.+?)\n",             # local
    re.DOTALL
)

# Lista para armazenar todos os jogos
all_games = []

# Iterar sobre todos os arquivos na pasta 'jogos'
for file_path in glob.glob(os.path.join(input_folder, "jogos*.csv")):
    ano_match = re.search(r"(\d{4})", os.path.basename(file_path))
    ano = int(ano_match.group(1)) if ano_match else None

    with open(file_path, "r", encoding="utf-8") as f:
        text = f.read()

    matches = pattern.findall(text)

    for rodada, g1, g2, mandante, visitante, data_jogo, local in matches:
        all_games.append({
            "ano": ano,
            "rodada": int(rodada),
            "gol_time_mandante": int(g1),
            "gol_time_visitante": int(g2),
            "mandante": mandante.strip(),
            "visitante": visitante.strip(),
            "data": data_jogo.strip(),
            "local": local.strip(),
        })

# Converter tudo em um único DataFrame
df = pd.DataFrame(all_games)

# Ordenar para organização
df = df.sort_values(by=["ano", "rodada"]).reset_index(drop=True)

# Salvar o CSV consolidado
df.to_csv(output_path, index=False, encoding="utf-8-sig")

print(f"✅ Arquivo consolidado salvo em: {output_path}")
print(f"Total de jogos processados: {len(df)}")
df


✅ Arquivo consolidado salvo em: jogos_todos_formatados.csv
Total de jogos processados: 2660


Unnamed: 0,ano,rodada,gol_time_mandante,gol_time_visitante,mandante,visitante,data,local
0,2018,1,0,1,Cruzeiro Esporte Clube,Grêmio,14/04/2018,Mineirão - Belo Horizonte - MG
1,2018,1,2,2,Vitória,Flamengo,14/04/2018,Manoel Barradas - Salvador - BA
2,2018,1,2,0,Santos Fc,Ceará,14/04/2018,Pacaembu - Sao Paulo - SP
3,2018,1,3,0,America,Sport Recife,15/04/2018,Independência - Belo Horizonte - MG
4,2018,1,2,1,Vasco da Gama,Atlético Mineiro,15/04/2018,São Januário - Rio de Janeiro - RJ
...,...,...,...,...,...,...,...,...
2655,2024,38,5,1,Red Bull Bragantino,Criciúma,08/12/2024,Nabi Abi Chedid - Braganca Paulista - SP
2656,2024,38,0,1,Palmeiras,Fluminense,08/12/2024,Allianz Parque - Sao Paulo - SP
2657,2024,38,2,1,Botafogo,São Paulo,08/12/2024,Nilton Santos - Rio de Janeiro - RJ
2658,2024,38,1,0,Atlético Mineiro Saf,Athletico Paranaense,08/12/2024,ARENA MRV - Belo Horizonte - MG


In [22]:
df[df.mandante=='Atlético'].local.unique()

array(['Olímpico Pedro Ludovico - Goiania - GO',
       'Antônio Accioly - Goiania - GO'], dtype=object)

In [23]:
df.sort_values('mandante').mandante.unique()

array(['America', 'America Saf', 'Athletico Paranaense', 'Atlético',
       'Atlético Goianiense Saf', 'Atlético Mineiro',
       'Atlético Mineiro Saf', 'Avaí', 'Bahia', 'Botafogo',
       'Botafogo de Futebol E Regatas', 'Ceará', 'Chapecoense',
       'Corinthians', 'Coritiba', 'Coritiba S.a.f.', 'Criciúma',
       'Cruzeiro Esporte Clube', 'Cruzeiro Saf', 'Csa', 'Cuiabá Saf',
       'Esporte Clube Bahia', 'Flamengo', 'Fluminense', 'Fortaleza',
       'Goiás', 'Grêmio', 'Internacional', 'Juventude', 'Palmeiras',
       'Parana', 'Red Bull Bragantino', 'Santos Fc', 'Sport Recife',
       'São Paulo', 'Vasco da Gama', 'Vasco da Gama S.a.f.', 'Vitória'],
      dtype=object)

In [28]:
df.loc[df.visitante=='America Saf', ['mandante','visitante']] = ['America','America']
df.loc[df.visitante=='Atlético', ['mandante','visitante']] = ['Atlético Goianiense Saf','Atlético Goianiense Saf']
df.loc[df.visitante=='Atlético Goianiense Saf', ['mandante','visitante']] = ['Atlético Goianiense','Atlético Goianiense']
df.loc[df.visitante=='Atlético Mineiro Saf', ['mandante','visitante']] = ['Atlético Mineiro','Atlético Mineiro']
df.loc[df.visitante=='Botafogo de Futebol E Regatas', ['mandante','visitante']] = ['Botafogo','Botafogo']
df.loc[df.visitante=='Coritiba S.a.f.', ['mandante','visitante']] = ['Coritiba','Coritiba']
df.loc[df.visitante=='Cruzeiro Esporte Clube', ['mandante','visitante']] = ['Cruzeiro','Cruzeiro']
df.loc[df.visitante=='Cruzeiro Saf', ['mandante','visitante']] = ['Cruzeiro','Cruzeiro']
df.loc[df.visitante=='Cuiabá Saf', ['mandante','visitante']] = ['Cuiabá','Cuiabá']
df.loc[df.visitante=='Esporte Clube Bahia', ['mandante','visitante']] = ['Bahia','Bahia']
df.loc[df.visitante=='Vasco da Gama S.a.f.', ['mandante','visitante']] = ['Vasco da Gama','Vasco da Gama']

In [31]:
df.to_csv('jogos_todos_formatados.csv',index=False)

In [29]:
df.sort_values('mandante').mandante.unique()

array(['America', 'Athletico Paranaense', 'Atlético Goianiense',
       'Atlético Mineiro', 'Avaí', 'Bahia', 'Botafogo', 'Ceará',
       'Chapecoense', 'Corinthians', 'Coritiba', 'Criciúma', 'Cruzeiro',
       'Csa', 'Cuiabá', 'Flamengo', 'Fluminense', 'Fortaleza', 'Goiás',
       'Grêmio', 'Internacional', 'Juventude', 'Palmeiras', 'Parana',
       'Red Bull Bragantino', 'Santos Fc', 'Sport Recife', 'São Paulo',
       'Vasco da Gama', 'Vitória'], dtype=object)

In [30]:
df.sort_values('visitante').mandante.unique()

array(['America', 'Corinthians', 'Internacional', 'Sport Recife',
       'Palmeiras', 'Parana', 'Fluminense', 'Grêmio', 'Santos Fc',
       'Vasco da Gama', 'Athletico Paranaense', 'Flamengo', 'São Paulo',
       'Ceará', 'Atlético Mineiro', 'Chapecoense', 'Vitória',
       'Red Bull Bragantino', 'Coritiba', 'Goiás', 'Botafogo',
       'Fortaleza', 'Bahia', 'Juventude', 'Csa', 'Avaí', 'Criciúma',
       'Atlético Goianiense', 'Cruzeiro', 'Cuiabá'], dtype=object)

# 2025

In [33]:
import re
import pandas as pd
import glob
import os

# Caminho da pasta contendo os arquivos (ex: "jogos/jogos2018.csv", etc.)
file_path = "jogos/jogos2025.csv"
output_path = "jogos_2025_formatados.csv"

# Expressão regular para capturar os jogos no texto
pattern = re.compile(
    r"Rodada:\s*(\d+).*?\n\n"       # rodada
    r"(\d+)\s*x\s*(\d+)\n\n"         # placar
    r"(.+?)\n"                       # mandante
    r"(.+?)\n"                       # visitante
    r"Data:\s*(\d{2}/\d{2}/\d{4}).*?\n"  # data
    r"Local:\s*(.+?)\n",             # local
    re.DOTALL
)

# Lista para armazenar todos os jogos
all_games = []


ano_match = re.search(r"(\d{4})", os.path.basename(file_path))
ano = int(ano_match.group(1)) if ano_match else None
with open(file_path, "r", encoding="utf-8") as f:
    text = f.read()
matches = pattern.findall(text)
for rodada, g1, g2, mandante, visitante, data_jogo, local in matches:
    all_games.append({
        "ano": ano,
        "rodada": int(rodada),
        "gol_time_mandante": int(g1),
        "gol_time_visitante": int(g2),
        "mandante": mandante.strip(),
        "visitante": visitante.strip(),
        "data": data_jogo.strip(),
        "local": local.strip(),
    })

# Converter tudo em um único DataFrame
df = pd.DataFrame(all_games)

# Ordenar para organização
df = df.sort_values(by=["ano", "rodada"]).reset_index(drop=True)

# Salvar o CSV consolidado
df.to_csv(output_path, index=False, encoding="utf-8-sig")

print(f"✅ Arquivo consolidado salvo em: {output_path}")
print(f"Total de jogos processados: {len(df)}")
df


✅ Arquivo consolidado salvo em: jogos_2025_formatados.csv
Total de jogos processados: 307


Unnamed: 0,ano,rodada,gol_time_mandante,gol_time_visitante,mandante,visitante,data,local
0,2025,1,2,1,Cruzeiro Saf,Mirassol,29/03/2025,Mineirão - Belo Horizonte - MG
1,2025,1,2,1,Grêmio,Atlético Mineiro Saf,29/03/2025,Arena do Grêmio - Porto Alegre - RS
2,2025,1,2,0,Fortaleza Ec Saf,Fluminense,29/03/2025,Arena Castelão - Fortaleza - CE
3,2025,1,2,0,Juventude,Vitória,29/03/2025,Alfredo Jaconi - Caxias do Sul - RS
4,2025,1,0,0,São Paulo,Sport Recife,29/03/2025,Morumbi - Sao Paulo - SP
...,...,...,...,...,...,...,...,...
302,2025,31,2,0,Corinthians,Grêmio,02/11/2025,Neo Química Arena - Sao Paulo - SP
303,2025,31,2,0,Ceará,Fluminense,02/11/2025,Arena Castelão - Fortaleza - CE
304,2025,31,0,0,Internacional,Atlético Mineiro Saf,02/11/2025,Beira-Rio - Porto Alegre - RS
305,2025,31,0,2,Juventude,Palmeiras,02/11/2025,Alfredo Jaconi - Caxias do Sul - RS
