In [3]:
import pandas as pd
import json
import re
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from datetime import datetime
import os
import time

In [7]:
def transform_date(date_str):
    date_obj = datetime.strptime(date_str, "%A, %b %d %Y")
    return date_obj.strftime("%Y%m%d")

# Crear directorio para guardar los archivos JSON
os.makedirs("partidos", exist_ok=True)

# Leer el CSV
df = pd.read_csv("champions_league_fixtures.csv")

# Configurar opciones de Chrome
chrome_options = Options()
chrome_options.add_argument("--headless")  # Comentar esta línea si quieres ver el navegador
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument("--disable-dev-shm-usage")
chrome_options.add_argument("user-agent=Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.106 Safari/537.36")

# Inicializar el servicio de Chrome
service = Service(ChromeDriverManager().install())

# Inicializar el driver
driver = webdriver.Chrome(service=service, options=chrome_options)

# Contador de exportaciones
total_exportaciones = 0

# Iterar sobre cada fila del DataFrame
for index, row in df.iterrows():
    match_id = row['match_id']
    url = f'https://es.whoscored.com/Matches/{match_id}/Live/'
    
    print(f"Procesando partido: {row['home_team']} vs {row['away_team']} (ID: {match_id})")
    
    try:
        # Acceder a la página
        driver.get(url)
        
        # Esperar un poco para que se cargue el contenido dinámico
        time.sleep(5)
        
        # Obtener el contenido de la página
        soup = BeautifulSoup(driver.page_source, 'html.parser')
        
        # Buscar el script que contiene los datos
        scripts = soup.find_all("script")
        datos = ''
        for script in scripts:
            if script.string and "matchCentreData" in script.string:
                datos = script.string
                break
        
        if datos:
            # Extraer los datos JSON
            listVar = datos.split(';')
            matchCenterData = listVar[0].split('require.config.params["args"] = ')[1]
            matchCenterData = matchCenterData.replace('\n','').replace('matchId','"matchId"')
            matchCenterData = matchCenterData.replace('matchCentreData','"matchCentreData"')
            matchCenterData = matchCenterData.replace('formationIdNameMappings','"formationIdNameMappings"')
            matchCenterData = matchCenterData.replace('matchCentreEventTypeJson','"matchCentreEventTypeJson"')
            
            # Cargar los datos JSON
            data = json.loads(matchCenterData)
            
            # Crear el nombre del archivo
            file_name = f"{transform_date(row['date'])}_{row['home_team']}_{row['away_team']}_{row['match_id']}.json"
            
            # Guardar el JSON
            with open(os.path.join("partidos", file_name), 'w', encoding='utf-8') as f:
                json.dump(data, f, ensure_ascii=False, indent=4)
            
            print(f"Archivo exportado: {file_name}")
            total_exportaciones += 1
        else:
            print(f"No se encontraron datos para el partido {match_id}")
    except Exception as e:
        print(f"Error al procesar el partido {match_id}: {str(e)}")

# Cerrar el driver
driver.quit()

# Imprimir el total de exportaciones
print(f"\nTotal de partidos exportados: {total_exportaciones}")

Procesando partido: Salzburg vs Brest (ID: 1866220)
Archivo exportado: 20241001_Salzburg_Brest_1866220.json
Procesando partido: VfB Stuttgart vs Sparta Prague (ID: 1866237)
Archivo exportado: 20241001_VfB Stuttgart_Sparta Prague_1866237.json
Procesando partido: PSV Eindhoven vs Sporting CP (ID: 1866209)
Archivo exportado: 20241001_PSV Eindhoven_Sporting CP_1866209.json
Procesando partido: Arsenal vs Paris Saint-Germain (ID: 1866166)
Archivo exportado: 20241001_Arsenal_Paris Saint-Germain_1866166.json
Procesando partido: Borussia Dortmund vs Celtic (ID: 1866131)
Archivo exportado: 20241001_Borussia Dortmund_Celtic_1866131.json
Procesando partido: Barcelona vs BSC Young Boys (ID: 1866137)
Archivo exportado: 20241001_Barcelona_BSC Young Boys_1866137.json
Procesando partido: Bayer Leverkusen vs AC Milan (ID: 1866154)
Archivo exportado: 20241001_Bayer Leverkusen_AC Milan_1866154.json
Procesando partido: Slovan Bratislava vs Manchester City (ID: 1866104)
Archivo exportado: 20241001_Slovan Br