In [8]:
import pandas as pd
import re

# Caminho para o arquivo
caminho_arquivo = "C:\\Users\\msdof\\Downloads\\Projeto_Time_Mandante\\brasileirao_2024.txt"

# Lê o conteúdo do arquivo novamente
with open(caminho_arquivo, "r", encoding="utf-8") as f:
    texto_corrigido = f.read()

# Regex ajustada para capturar placares com "X" ou "x"
padrao_corrigido = re.findall(
    r"(?P<mandante>.+?)\s+(\d+)\s*[Xx]\s*(\d+)\s+(?P<visitante>.+?)\s+Data: (?P<data>\d{2}/\d{2}/\d{4}) Hora: (?P<hora>\d{2}:\d{2})\s+Local: (?P<estadio>.+?) - (?P<cidade>.+?) - .+?Jogo: (?P<jogo>\d+) Rodada: (?P<rodada>\d+)",
    texto_corrigido
)

# Converte para DataFrame
dados_corrigidos = pd.DataFrame(padrao_corrigido, columns=[
    "Mandante", "GolsMandante", "GolsVisitante", "Visitante",
    "Data", "Hora", "Estádio", "Cidade", "Jogo", "Rodada"
])

# Cria a coluna de placar
dados_corrigidos["Placar"] = dados_corrigidos["GolsMandante"] + " x " + dados_corrigidos["GolsVisitante"]

# Reorganiza as colunas
dados_corrigidos = dados_corrigidos[["Mandante", "Visitante", "Placar", "Data", "Hora", "Estádio", "Cidade", "Jogo", "Rodada"]]

# Converte colunas numéricas
dados_corrigidos["Jogo"] = pd.to_numeric(dados_corrigidos["Jogo"])
dados_corrigidos["Rodada"] = pd.to_numeric(dados_corrigidos["Rodada"])

# Verifica quantidade final de jogos
total_corrigido = len(dados_corrigidos)
total_corrigido

380

In [9]:
dados_corrigidos

Unnamed: 0,Mandante,Visitante,Placar,Data,Hora,Estádio,Cidade,Jogo,Rodada
0,Internacional - RS,Bahia - BA,2 x 1,13/04/2024,18:30,Beira-Rio,Porto Alegre,1,1
1,Cruzeiro Saf - MG,Botafogo - RJ,3 x 2,14/04/2024,17:00,Mineirão,Belo Horizonte,2,1
2,Vitória - BA,Palmeiras - SP,0 x 1,14/04/2024,18:30,Manoel Barradas,Salvador,3,1
3,Fluminense - RJ,Red Bull Bragantino - SP,2 x 2,13/04/2024,21:00,Maracanã,Rio de Janeiro,4,1
4,Vasco da Gama S.a.f. - RJ,Grêmio - RS,2 x 1,14/04/2024,16:00,São Januário,Rio de Janeiro,5,1
...,...,...,...,...,...,...,...,...,...
375,Palmeiras - SP,Fluminense - RJ,0 x 1,08/12/2024,16:00,Allianz Parque,Sao Paulo,376,38
376,Red Bull Bragantino - SP,Criciúma - SC,5 x 1,08/12/2024,16:00,Nabi Abi Chedid,Braganca Paulista,377,38
377,Fortaleza - CE,Internacional - RS,3 x 0,08/12/2024,16:00,Arena Castelão,Fortaleza,378,38
378,Cuiabá Saf - MT,Vasco da Gama S.a.f. - RJ,1 x 2,08/12/2024,16:00,Arena Pantanal,Cuiaba,379,38


Com todos dados

In [11]:
import pandas as pd
import re
import os

# Lista dos caminhos dos arquivos .txt
arquivos = [
    "C:\\Users\\msdof\\Downloads\\Projeto_Time_Mandante\\brasileirao_2023.txt",
    "C:\\Users\\msdof\\Downloads\\Projeto_Time_Mandante\\brasileirao_2024.txt"
]

# Regex para extrair os dados
regex_jogos = r"(?P<mandante>.+?)\s+(\d+)\s*[Xx]\s*(\d+)\s+(?P<visitante>.+?)\s+Data: (?P<data>\d{2}/\d{2}/\d{4}) Hora: (?P<hora>\d{2}:\d{2})\s+Local: (?P<estadio>.+?) - (?P<cidade>.+?) - .+?Jogo: (?P<jogo>\d+) Rodada: (?P<rodada>\d+)"

# Lista para armazenar os DataFrames
lista_df = []

# Processa cada arquivo
for caminho in arquivos:
    with open(caminho, "r", encoding="utf-8") as f:
        texto = f.read()

    partidas = re.findall(regex_jogos, texto)

    df = pd.DataFrame(partidas, columns=[
        "Mandante", "GolsMandante", "GolsVisitante", "Visitante",
        "Data", "Hora", "Estádio", "Cidade", "Jogo", "Rodada"
    ])

    df["Placar"] = df["GolsMandante"] + " x " + df["GolsVisitante"]
    df["Jogo"] = pd.to_numeric(df["Jogo"])
    df["Rodada"] = pd.to_numeric(df["Rodada"])

    # Extrai o ano do nome do arquivo
    ano = re.search(r"(\d{4})", os.path.basename(caminho)).group(1)
    df["Ano"] = int(ano)

    df = df[["Ano", "Mandante", "Visitante", "Placar", "Data", "Hora", "Estádio", "Cidade", "Jogo", "Rodada"]]
    lista_df.append(df)

# Concatena todos os DataFrames
dados_completos = pd.concat(lista_df, ignore_index=True)

# Mostra o total de jogos por ano
print(dados_completos.groupby("Ano")["Jogo"].count())

# Exemplo de preview
print(dados_completos.head())


Ano
2023    380
2024    380
Name: Jogo, dtype: int64
    Ano                  Mandante             Visitante Placar        Data  \
0  2023             Flamengo - RJ  Coritiba S.a.f. - PR  3 x 0  16/04/2023   
1  2023             Botafogo - RJ        São Paulo - SP  2 x 1  15/04/2023   
2  2023            Palmeiras - SP       Cuiabá Saf - MT  2 x 1  15/04/2023   
3  2023          Corinthians - SP     Cruzeiro Saf - MG  2 x 1  16/04/2023   
4  2023  Red Bull Bragantino - SP            Bahia - BA  2 x 1  15/04/2023   

    Hora            Estádio             Cidade  Jogo  Rodada  
0  16:00           Maracanã     Rio de Janeiro     1       1  
1  18:30      Nilton Santos     Rio de Janeiro     2       1  
2  16:00     Allianz Parque          Sao Paulo     3       1  
3  16:00  Neo Química Arena          Sao Paulo     4       1  
4  18:30    Nabi Abi Chedid  Braganca Paulista     5       1  


In [12]:
dados_completos.to_csv("brasileiro_23_24.csv")