Para el desarrollo de este proyecto, se ha seleccionado como fuente de informaci√≥n primaria el archivo SP1.csv (disponible en https://www.football-data.co.uk/spainm.php), el cual contiene el registro detallado de los partidos correspondientes a la Primera Divisi√≥n de Espa√±a (La Liga) para la temporada 2024-2025.

Este conjunto de datos nos proporciona una visi√≥n de cada encuentro disputado hasta la fecha. Gracias a la documentaci√≥n t√©cnica consultada (https://www.football-data.co.uk/notes.txt), identificamos que el archivo no solo se limita a los resultados deportivos (goles, victorias/derrotas), sino que estructura la informaci√≥n en tres grandes bloques: datos del encuentro (fecha, equipos), estad√≠sticas de rendimiento (disparos, c√≥rners, faltas, tarjetas) y datos del mercado de apuestas (cuotas de apertura y cierre de m√∫ltiples casas de apuestas)

A partir de este conjunto de datos en bruto, procederemos a aplicar las t√©cnicas de preprocesamiento y limpieza necesarias para garantizar la calidad de la informaci√≥n antes de abordar su visualizaci√≥n.

# Documentaci√≥n T√©cnica: Pipeline ETL La Liga 2024-25

## Desglose Detallado del Algoritmo (Paso a Paso)

### PASO 1: Ingesta de la informaci√≥n primaria (SP1.csv) y Normalizaci√≥n Sem√°ntica

**¬øQu√© hace el c√≥digo?**
Carga el archivo `SP1.csv` (estad√≠sticas puras del juego). Pero el problema principal es la **heterogeneidad sem√°ntica**.

* **Dificultad Encontrada:** Las fuentes de datos no utilizan los mismos nombres de los diferentes equipos:
    * El CSV llama al equipo `At Bilbao`.
    * Wikipedia lo llama `Athletic Club`.
    * EstadiosDB lo llama `Athletic Club de Bilbao`.
* **Soluci√≥n T√©cnica:** Se implementa un **Diccionario de Mapeo (`mapa_nombres`)** creado a partir de todos los nombres de los diferentes equipos que se han utilizado en las distintas fuentes de datos.  Antes de hacer cualquier cruce, obligamos a todos los DataFrames a usar una nomenclatura est√°ndar.
    * *L√≥gica:* `df.replace(diccionario)` escanea todas las columnas de nombres y unifica las variantes.

---

### PASO 2: Web Scrapping sobre Wikipedia 1 (PARTIDOS, ASISTENCIA Y ESTADIOS). 

`SP1.csv` no posee la informaci√≥n de en qu√© estadio se jug√≥ el cada partido ni de los datos de asistencia del mismo. Siendo asi, iteramos sobre 20 URLs (una por equipo) sobre su p√°gina en Wikipedia (√∫nica p√°gina que hemos encontrado que nos daba esta informaci√≥n) para obtener esta informaci√≥n.

**Mec√°nica Interna:**
1.  **Petici√≥n:** Descargamos el HTML de la temporada 24/25 de cada equipo.
2.  **B√∫squeda del Contenedor:** Buscamos etiquetas `div` con la clase `vevent`. En el HTML de Wikipedia, `vevent` es un microformato est√°ndar para "Eventos" (partidos).
3. **Dificultad A**: Filtrado de Contexto (Ruido en los Datos)
    * **El Problema**: Las p√°ginas de Wikipedia mezclan partidos de La Liga, Copa del Rey y Amistosos en una misma lista visual. 
    * **Soluci√≥n T√©cnica**: B√∫squeda Inversa en el DOM (`find_previous`). Antes de aceptar un partido, el script mira "hacia arriba" en el c√≥digo HTML buscando el encabezado (`<h2>` o `<h3>`) anterior m√°s cercano. Solo si ese encabezado contiene el texto "La Liga", el script procesa el dato.
4. **Dificultad B**: Extracci√≥n de Datos "Sucios"
    * **El Problema**: El dato de asistencia en el HTML viene sucio, mezclado con texto y referencias bibliogr√°ficas. Ejemplo: "Attendance: 45,000 [3]". Python no puede sumar eso.
    * **Soluci√≥n T√©cnica**: Usamos `re.search(r'Attendance:\s*([\d,]+)', ...)`. Esta f√≥rmula ignora la palabra "Attendance", los espacios y los corchetes [3], extrayendo √∫nicamente los d√≠gitos num√©ricos para convertirlos a enteros (int).
5. **Dificultad C**: Estadios Vac√≠os
    * **El Problema**: A veces Wikipedia no escribe el nombre del estadio en la celda correspondiente si es el estadio habitual del equipo local, dej√°ndolo vac√≠o o como "Desconocido".
    * **Soluci√≥n T√©cnica**: Aprendizaje y Relleno. Creamos un diccionario din√°mico durante la ejecuci√≥n. Si el script lee una fila completa donde dice "Local: Celta -> Estadio: Bala√≠dos", guarda ese conocimiento. M√°s tarde, si encuentra "Local: Celta -> Estadio: Desconocido", usa el conocimiento previo para rellenar el hueco autom√°ticamente.

---

### PASO 3: Web Scraping EstadiosDB (Asistencia Media)

Al no ser Wikipedia una fuente oficial de informaci√≥n, hay partidos en los cuales no se dispone de la asistencia de este. Necesitamos por tanto un validador externo, en este caso EstadiosDB, el cual tiene una tabla resumen de la asistencia media a cada estadio durante la temporada 24-25.

**¬øQu√© hace el c√≥digo?**
Va a una URL espec√≠fica de EstadiosDB que contiene una tabla resumen (`<table class="arttab">`).

* **Dificultad de Formato:** Los n√∫meros en Europa usan puntos para miles (45.000) y en Python/USA usan comas o nada. Adem√°s, a veces tienen asteriscos (45.000*).
* **Limpieza:** El script aplica `.replace(".", "").replace("*", "")` para convertir el texto sucio en un n√∫mero entero puro (`int`) que podamos sumar y restar matem√°ticamente.

---

### PASO 4: Imputaci√≥n Estad√≠stica (Relleno de Huecos)

Aqu√≠ resolvemos el problema de los datos faltantes en la asistencia de los partidos.

**La L√≥gica Matem√°tica:**
No usamos la media simple (que se ver√≠a afectada por los ceros), sino una **proyecci√≥n inversa**.

1.  **Recuperamos la Media Oficial (M):** Del Paso 3 (ej: 50.000 espectadores).
2.  **Calculamos el Volumen Total Esperado (V_tot):**
    > `V_tot = Media Oficial * N√∫mero Total de Partidos Jugados`
3.  **Sumamos la Asistencia Real (V_real):** Suma de los partidos que S√ç tienen dato.
4.  **Calculamos el D√©ficit (Delta):**
    > `Delta = V_tot - V_real`
5.  **Reparto:** Ese `Delta` (los espectadores que "faltan" para cuadrar la media) se divide equitativamente entre los partidos que tienen 0 asistencia.

**Resultado:** Obtenemos un dataset completo donde la suma total es coherente con la realidad oficial del club.

---

### PASO 5: Geolocalizaci√≥n (Extracci√≥n de Coordenadas)

Necesitamos colocar los estadios en el mapa. Para ello, vamos a las p√°ginas individuales de Wikipedia de cada estadio (ej: *Santiago Bernab√©u*).

**Mec√°nica de Scraping:**
1.  **Detecci√≥n de Nombre Oficial:** A veces el nombre coloquial ("Bernab√©u") no es el oficial. Buscamos en la `infobox` (la tabla gris a la derecha en Wikipedia) el campo "Nombre completo".
2.  **Extracci√≥n Geoespacial:**
    * Wikipedia oculta las coordenadas para m√°quinas dentro de una etiqueta `<span class="geo">`.
    * *Ejemplo de HTML:* `<span class="geo">40.453; -3.688</span>`
    * *Dificultad:* A veces usan punto y coma (`;`) como separador, y a veces coma (`,`).
    * *Soluci√≥n:* El c√≥digo tiene un `if/else` para detectar qu√© separador se est√° usando, hace un `split`, y asigna Latitud (`[0]`) y Longitud (`[1]`).

---

### PASO 6: Guardado y Estructura Final

El script finaliza volcando la memoria RAM al disco duro. Se generan 3 archivos CSV clave para garantizar la integridad referencial:

1.  **`SP1_Normalizado.csv`**: La base de datos deportiva limpia.
2.  **`datos_partidos_asistencia.csv`**: La tabla de hechos (Fact Table) con el calendario y el p√∫blico.
3.  **`datos_coordenadas.csv`**: La tabla de dimensiones (Dim Table) con la ubicaci√≥n f√≠sica.

---

## Resumen de Dificultades T√©cnicas Superadas

| Dificultad | Soluci√≥n Aplicada en C√≥digo |
| :--- | :--- |
| **Bloqueo de Bots** | Inyecci√≥n de cabeceras `User-Agent` falsas. |
| **Nombres Dispares** | Diccionarios maestros de normalizaci√≥n (`mapa_nombres`). |
| **Datos Sucios** | Limpieza con Regex y `.replace` (quitar comas, asteriscos, citas). |
| **Estadios Vac√≠os** | L√≥gica de inferencia basada en el equipo Local. |
| **Ceros en Asistencia** | Algoritmo matem√°tico de imputaci√≥n basado en la media oficial. |
| **Coordenadas Raras** | Parsers condicionales para distintos formatos de separadores GPS. |

In [3]:
%pip install -r requirements.txt

Collecting folium>=0.15.0
  Downloading folium-0.20.0-py2.py3-none-any.whl (113 kB)
[2K     [38;2;114;156;31m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m113.4/113.4 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m
[?25hCollecting streamlit-folium>=0.15.0
  Downloading streamlit_folium-0.26.1-py3-none-any.whl (523 kB)
[2K     [38;2;114;156;31m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m523.7/523.7 kB[0m [31m10.4 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m
Collecting branca>=0.6.0
  Downloading branca-0.8.2-py3-none-any.whl (26 kB)
Collecting xyzservices
  Downloading xyzservices-2025.11.0-py3-none-any.whl (93 kB)
[2K     [38;2;114;156;31m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m93.9/93.9 kB[0m [31m3.9 

In [None]:
# ==============================================================================
# PROYECTO: EXTRACCI√ìN Y LIMPIEZA DE DATOS DE LALIGA 2024-25
# DESCRIPCI√ìN: Script maestro para unificar estad√≠sticas, asistencia y geolocalizaci√≥n.
# ==============================================================================

# ==============================================================================
# 1. IMPORTACI√ìN DE LIBRER√çAS
# ==============================================================================
# Importamos las herramientas necesarias:
# 'os': Para manejar rutas de archivos y crear carpetas en el sistema operativo.
# 're': Para usar expresiones regulares (b√∫squeda de patrones de texto complejos).
# 'time': Para pausar la ejecuci√≥n (sleep) y no ser bloqueados por los servidores web.
# 'io': Para manejo de flujos de entrada/salida (aunque en este script se usa poco).
# 'pandas': La herramienta principal para manipular tablas de datos (DataFrames).
# 'requests' y 'urllib': Para realizar peticiones a p√°ginas web (descargar el HTML).
# 'BeautifulSoup': Para leer ("parsear") y extraer informaci√≥n espec√≠fica del HTML descargado.

import os
import re
import time
import io
import pandas as pd
import requests
from bs4 import BeautifulSoup
from urllib.request import Request, urlopen

print("============================================")
print("--- INICIO DEL PROCESO MAESTRO DE DATOS ---")
print("============================================")
print("[INFO] Cargando librer√≠as y configuraciones iniciales...")

# ==============================================================================
# 2. CONFIGURACI√ìN DEL ENTORNO Y RUTAS
# ==============================================================================
# Definimos d√≥nde est√°n los archivos y d√≥nde se guardar√°n los resultados.

# Ruta donde se encuentra tu archivo original de estad√≠sticas (CSV base).
RUTA_CSV_ESTADISTICAS = r"inputs/SP1.csv"

# Carpeta donde guardaremos todos los archivos generados.
CARPETA_SALIDA = r"outputs"
# Verificamos si la carpeta de salida existe; si no, la creamos autom√°ticamente.
if not os.path.exists(CARPETA_SALIDA):
    os.makedirs(CARPETA_SALIDA)
    print(f"[INFO] Carpeta creada: {CARPETA_SALIDA}")

# Configuraci√≥n de 'User-Agent':
# Esto es una "m√°scara" para que Wikipedia y otras webs crean que somos un navegador Chrome real
# y no un robot (script), evitando que nos bloqueen la conexi√≥n.
HEADERS_REQUEST = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# ==============================================================================
# 3. DICCIONARIOS MAESTROS DE NORMALIZACI√ìN
# ==============================================================================
# Estos diccionarios act√∫an como traductores. Aseguran que "Real Madrid", "Real Madrid CF" 
# y "R. Madrid" sean siempre "Real Madrid". Esto es VITAL para poder cruzar las tablas despu√©s.

# MAPA DE EQUIPOS (Normalizaci√≥n de nombres)
mapa_nombres = {
    # DEPORTIVO ALAV√âS
    'Alaves': 'Deportivo Alav√©s', 
    'Alav√©s': 'Deportivo Alav√©s', 
    'Deportivo Alav√©s': 'Deportivo Alav√©s',
    # ATHLETIC CLUB
    'Ath Bilbao': 'Athletic Club', 
    'Athletic Bilbao': 'Athletic Club', 
    'Bilbao': 'Athletic Club', 
    'Athletic Club': 'Athletic Club',
    # ATL√âTICO DE MADRID
    'Ath Madrid': 'Atl√©tico de Madrid', 
    'Atl√©tico Madrid': 'Atl√©tico de Madrid', 
    'Atl√©tico de Madrid': 'Atl√©tico de Madrid',
    # FC BARCELONA
    'Barcelona': 'FC Barcelona', 
    'FC Barcelona': 'FC Barcelona',
    # REAL BETIS
    'Betis': 'Real Betis', 
    'Real Betis': 'Real Betis',
    # RC CELTA
    'Celta': 'RC Celta', 
    'Celta Vigo': 'RC Celta', 
    'Celta de Vigo': 'RC Celta', 
    'RC Celta de Vigo': 'RC Celta', 
    'RC Celta': 'RC Celta',
    # RCD ESPANYOL
    'Espanol': 'RCD Espanyol', 
    'Espanyol': 'RCD Espanyol', 
    'RCD Espanyol': 'RCD Espanyol',
    # GETAFE CF
    'Getafe': 'Getafe CF', 
    'Getafe CF': 'Getafe CF',
    # GIRONA FC
    'Girona': 'Girona FC', 
    'Girona FC': 'Girona FC',
    # UD LAS PALMAS
    'Las Palmas': 'UD Las Palmas', 
    'UD Las Palmas': 'UD Las Palmas',
    # CD LEGAN√âS
    'Leganes': 'CD Legan√©s', 
    'Legan√©s': 'CD Legan√©s', 
    'CD Legan√©s': 'CD Legan√©s',
    # RCD MALLORCA
    'Mallorca': 'RCD Mallorca', 
    'RCD Mallorca': 'RCD Mallorca',
    # CA OSASUNA
    'Osasuna': 'CA Osasuna', 
    'CA Osasuna': 'CA Osasuna',
    # RAYO VALLECANO
    'Vallecano': 'Rayo Vallecano', 
    'Rayo Vallecano': 'Rayo Vallecano',
    # REAL MADRID
    'Real Madrid': 'Real Madrid', 
    'Real Madrid CF': 'Real Madrid',
    # REAL SOCIEDAD
    'Sociedad': 'Real Sociedad', 
    'Real Sociedad': 'Real Sociedad',
    # SEVILLA FC
    'Sevilla': 'Sevilla FC', 
    'Sevilla FC': 'Sevilla FC',
    # VALENCIA CF
    'Valencia': 'Valencia CF', 
    'Valencia CF': 'Valencia CF',
    # REAL VALLADOLID
    'Valladolid': 'Real Valladolid', 
    'Real Valladolid': 'Real Valladolid',
    # VILLARREAL CF
    'Villarreal': 'Villarreal CF', 
    'Villarreal CF': 'Villarreal CF'
}

# MAPA DE ESTADIOS (Normalizaci√≥n de nombres de estadios)
mapa_estadios = {
    # DEPORTIVO ALAV√âS
    'Mendizorrotza': 'Estadio de Mendizorroza', 
    'Mendizorrotza Stadium': 'Estadio de Mendizorroza', 
    'Estadio de Mendizorroza': 'Estadio de Mendizorroza', 
    'Mendizorroza': 'Estadio de Mendizorroza',
    # ATHLETIC CLUB
    'San Mam√©s': 'Estadio de San Mam√©s', 
    'Estadio San Mam√©s': 'Estadio de San Mam√©s', 
    'Estadio de San Mam√©s': 'Estadio de San Mam√©s',
    # ATL√âTICO DE MADRID
    'C√≠vitas Metropolitano': 'Estadio Metropolitano', 
    'Riyadh Air Metropolitano': 'Estadio Metropolitano', 
    'Estadio Riyadh Air Metropolitano': 'Estadio Metropolitano', 
    'Metropolitano': 'Estadio Metropolitano', 
    'Metropolitano Stadium': 'Estadio Metropolitano', 
    'Estadio Metropolitano': 'Estadio Metropolitano',
    # FC BARCELONA
    'Estadi Ol√≠mpic Llu√≠s Companys': 'Estadi Ol√≠mpic Llu√≠s Companys', 
    'Llu√≠s Companys Olympic Stadium': 'Estadi Ol√≠mpic Llu√≠s Companys', 
    'Estadio Ol√≠mpico Llu√≠s Companys': 'Estadi Ol√≠mpic Llu√≠s Companys', 
    'Ol√≠mpic Llu√≠s Companys': 'Estadi Ol√≠mpic Llu√≠s Companys',
    # REAL BETIS
    'Benito Villamar√≠n': 'Estadio Benito Villamar√≠n', 
    'Estadio Benito Villamar√≠n': 'Estadio Benito Villamar√≠n',
    # RC CELTA
    'Bala√≠dos': 'Estadio de Bala√≠dos', 
    'Abanca-Bala√≠dos': 'Estadio de Bala√≠dos', 
    'Estadio Abanca Bala√≠dos': 'Estadio de Bala√≠dos', ''
    'Estadio de Bala√≠dos': 'Estadio de Bala√≠dos', 
    'ABANCA Bala√≠dos': 'Estadio de Bala√≠dos',
    # RCD ESPANYOL
    'RCDE Stadium': 'RCDE Stadium', 
    'Stage Front Stadium': 'RCDE Stadium',
    # GETAFE CF
    'Coliseum': 'Estadio Coliseum', 
    'Coliseum (Getafe)': 'Estadio Coliseum', 
    'Estadio Coliseum': 'Estadio Coliseum',
    # GIRONA FC
    'Montilivi': 'Estadi Montilivi', 
    'Estadi Montilivi': 'Estadi Montilivi', 
    'Estadio Municipal de Montilivi': 'Estadi Montilivi',
    # UD LAS PALMAS
    'Gran Canaria': 'Estadio de Gran Canaria', 
    'Estadio Gran Canaria': 'Estadio de Gran Canaria', 
    'Estadio de Gran Canaria': 'Estadio de Gran Canaria',
    # CD LEGAN√âS
    'Butarque': 'Estadio Municipal de Butarque', 
    'Estadio Municipal Butarque': 'Estadio Municipal de Butarque', 
    'Estadio Municipal de Butarque': 'Estadio Municipal de Butarque', 
    'Municipal de Butarque': 'Estadio Municipal de Butarque',
    # RCD MALLORCA
    'Son Moix': 'Estadi Mallorca Son Moix', 
    'Mallorca Son Moix': 'Estadi Mallorca Son Moix', 
    'Estadi Mallorca Son Moix': 'Estadi Mallorca Son Moix', 
    'Estadio de Son Moix': 'Estadi Mallorca Son Moix', 
    'Visit Mallorca Estadi': 'Estadi Mallorca Son Moix',
    # CA OSASUNA
    'El Sadar': 'Estadio El Sadar', 
    'Estadio El Sadar': 'Estadio El Sadar',
    # RAYO VALLECANO
    'Vallecas': 'Estadio de Vallecas', 
    'Estadio de Vallecas': 'Estadio de Vallecas', 
    'Campo de F√∫tbol de Vallecas': 'Estadio de Vallecas', 
    'Vallecas Stadium': 'Estadio de Vallecas',
    # REAL MADRID
    'Santiago Bernab√©u': 'Estadio Santiago Bernab√©u', 
    'Estadio Santiago Bernab√©u': 'Estadio Santiago Bernab√©u', 
    'Santiago Bernab√©u Stadium': 'Estadio Santiago Bernab√©u',
    # REAL SOCIEDAD
    'Anoeta': 'Estadio de Anoeta', 
    'Anoeta Stadium': 'Estadio de Anoeta', 
    'Reale Arena': 'Estadio de Anoeta', 
    'Estadio de Anoeta': 'Estadio de Anoeta',
    # SEVILLA FC
    'Ram√≥n S√°nchez Pizju√°n': 'Estadio Ram√≥n S√°nchez-Pizju√°n', 
    'Estadio Ram√≥n S√°nchez-Pizju√°n': 'Estadio Ram√≥n S√°nchez-Pizju√°n', 
    'Ram√≥n S√°nchez Pizju√°n Stadium': 'Estadio Ram√≥n S√°nchez-Pizju√°n', 
    'Ram√≥n S√°nchez-Pizju√°n': 'Estadio Ram√≥n S√°nchez-Pizju√°n',
    # VALENCIA CF
    'Mestalla': 'Estadio de Mestalla', 
    'Estadio de Mestalla': 'Estadio de Mestalla',
    # REAL VALLADOLID
    'Jos√© Zorrilla': 'Estadio Jos√© Zorrilla', 
    'Estadio Jos√© Zorrilla': 'Estadio Jos√© Zorrilla',
    # VILLARREAL CF
    'La Cer√°mica': 'Estadio de la Cer√°mica', 
    'Estadio de la Cer√°mica': 'Estadio de la Cer√°mica',
    # GEN√âRICOS
    'Desconocido': 'Desconocido'
}

# ==============================================================================
# PASO 1: CARGA Y NORMALIZACI√ìN DEL ARCHIVO BASE (SP1.csv)
# ==============================================================================
print("\n-------------------------------------------------------------")
print("--> PASO 1: Cargando y Normalizando archivo base (SP1.csv)")
print("-------------------------------------------------------------")

if os.path.exists(RUTA_CSV_ESTADISTICAS):
    # Leemos el CSV
    df_base = pd.read_csv(RUTA_CSV_ESTADISTICAS)
    print(f"   [OK] Archivo cargado. Filas totales: {len(df_base)}")
    
    if 'HomeTeam' in df_base.columns and 'AwayTeam' in df_base.columns:
        # Normalizamos los nombres de los equipos en el archivo original
        print("   [...] Normalizando nombres de equipos en el CSV base...")
        df_base['HomeTeam'] = df_base['HomeTeam'].replace(mapa_nombres)
        df_base['AwayTeam'] = df_base['AwayTeam'].replace(mapa_nombres)
        
        # Guardamos una copia limpia
        ruta_sp1_norm = os.path.join(CARPETA_SALIDA, "SP1_Normalizado.csv")
        df_base.to_csv(ruta_sp1_norm, index=False, encoding='utf-8-sig')
        print(f"   [GUARDADO] Archivo 'SP1_Normalizado.csv' listo.")
    else:
        print("   [ALERTA] No se encontraron columnas 'HomeTeam'/'AwayTeam'.")
else:
    print(f"   [ERROR] No se encuentra el archivo en {RUTA_CSV_ESTADISTICAS}")
    df_base = pd.DataFrame() 

# ==============================================================================
# PASO 2: WEB SCRAPING DE WIKIPEDIA (PARTIDOS, ASISTENCIA Y ESTADIOS)
# ==============================================================================
print("\n-------------------------------------------------------------")
print("--> PASO 2: Extrayendo datos de PARTIDOS desde Wikipedia")
print("-------------------------------------------------------------")

# Lista de URLs de las temporadas 2024-25 para cada equipo
urls_partidos = [
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_Athletic_Bilbao_season", 
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_Atl%C3%A9tico_Madrid_season",
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_FC_Barcelona_season", 
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_RC_Celta_de_Vigo_season",
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_Deportivo_Alav%C3%A9s_season", 
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_RCD_Espanyol_season",
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_Getafe_CF_season", 
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_Girona_FC_season",
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_UD_Las_Palmas_season", 
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_CD_Legan%C3%A9s_season",
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_RCD_Mallorca_season", 
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_CA_Osasuna_season",
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_Rayo_Vallecano_season", 
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_Real_Betis_season",
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_Real_Madrid_CF_season", 
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_Real_Sociedad_season",
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_Sevilla_FC_season", 
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_Valencia_CF_season",
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_Real_Valladolid_season", 
    "https://en.wikipedia.org/wiki/2024%E2%80%9325_Villarreal_CF_season"
]

all_data_partidos = []

# Iteramos sobre cada URL para extraer los partidos
for i, url in enumerate(urls_partidos):
    # Mostramos progreso en pantalla para saber que no se ha colgado
    print(f"   > Procesando equipo {i+1}/{len(urls_partidos)}: {url.split('wiki/')[1]}")
    
    try:
        req = Request(url, headers=HEADERS_REQUEST)
        html = urlopen(req)
        soup = BeautifulSoup(html, "html.parser")
        
        # Buscamos las cajas de los partidos (clase 'vevent' en Wikipedia)
        matches = soup.find_all("div", {"class": "vevent"})
        
        for box in matches:
            try:
                # Verificamos que sea un partido de "La Liga" mirando el encabezado previo
                prev_header = box.find_previous(["h2", "h3"])
                if prev_header and "la liga" in prev_header.get_text().lower():
                    
                    teams_spans = box.find_all("span", class_="fn org")
                    if len(teams_spans) >= 2:
                        home = teams_spans[0].get_text(strip=True)
                        away = teams_spans[1].get_text(strip=True)
                        
                        # Extraemos estadio y asistencia
                        stadium = box.find("span", class_="location").get_text(strip=True) if box.find("span", class_="location") else "Desconocido"
                        
                        att_match = re.search(r'Attendance:\s*([\d,]+)', box.get_text())
                        attendance = int(att_match.group(1).replace(",", "")) if att_match else 0
                        
                        all_data_partidos.append([home, away, stadium, attendance])
            except: continue
    except: 
        print(f"   [ERROR] Fallo al leer URL: {url}")
        continue

# Creamos el DataFrame con todo lo extra√≠do
df_wiki = pd.DataFrame(all_data_partidos, columns=["Local", "Visitante", "Estadio", "Asistencia"])

# --- NORMALIZACI√ìN DE SCRAPING ---
print("   [...] Normalizando nombres extra√≠dos de Wikipedia...")
df_wiki["Local"] = df_wiki["Local"].replace(mapa_nombres)
df_wiki["Visitante"] = df_wiki["Visitante"].replace(mapa_nombres)
df_wiki["Estadio"] = df_wiki["Estadio"].replace(mapa_estadios)

print(f"   [INFO] Total partidos brutos encontrados: {len(df_wiki)}")

# --- LIMPIEZA Y CORRECCI√ìN DE ESTADIOS ---
print("   [...] Rellenando estadios 'Desconocido' bas√°ndonos en el equipo local...")

# Filtramos las filas que S√ç tienen estadio conocido
df_con_estadio = df_wiki[df_wiki['Estadio'] != 'Desconocido']

# Creamos un "mapa de aprendizaje": {Equipo Local -> Estadio T√≠pico}
mapa_estadios_detectados = df_con_estadio.drop_duplicates(subset=['Local']).set_index('Local')['Estadio'].to_dict()

def rellenar_estadio(row):
    if row['Estadio'] == 'Desconocido':
        return mapa_estadios_detectados.get(row['Local'], 'Desconocido')
    return row['Estadio']

# Aplicamos la correcci√≥n
df_wiki['Estadio'] = df_wiki.apply(rellenar_estadio, axis=1)

# --- DEDUPLICACI√ìN FINAL ---
# Si hay datos duplicados, nos quedamos con el que tenga mayor asistencia (dato m√°s completo)
df_wiki['Asistencia'] = pd.to_numeric(df_wiki['Asistencia'], errors='coerce').fillna(0)
df_wiki['tiene_estadio'] = df_wiki['Estadio'] != "Desconocido"
df_wiki = df_wiki.sort_values(by=['Asistencia', 'tiene_estadio'], ascending=[False, False])
df_wiki = df_wiki.drop_duplicates(subset=['Local', 'Visitante'], keep='first')
df_wiki = df_wiki.drop(columns=['tiene_estadio']).reset_index(drop=True)

print(f"   [RESULTADO] Total partidos finales tras limpieza: {len(df_wiki)}")
if len(df_wiki) == 380:
    print("   [√âXITO] Calendario completo (380 partidos).")
else:
    print(f"   [AVISO] Faltan partidos o el calendario a√∫n no ha terminado ({len(df_wiki)} partidos).")

# ==============================================================================
# PASO 3: WEB SCRAPING ESTADIOSDB (ASISTENCIA MEDIA)
# ==============================================================================
print("\n-------------------------------------------------------------")
print("--> PASO 3: Extrayendo ASISTENCIA MEDIA de EstadiosDB")
print("-------------------------------------------------------------")

url_resumen = "https://estadiosdb.com/noticias/2025/06/espana_asistencia_a_los_estadios_de_la_liga_en_la_temporada_202425"
data_resumen = []

try:
    print(f"   > Conectando a: {url_resumen}")
    resp = requests.get(url_resumen, headers=HEADERS_REQUEST)
    soup = BeautifulSoup(resp.text, "html.parser")
    table = soup.find("table", class_="arttab")
    
    if table:
        rows = table.find_all("tr")[1:] # Saltamos la cabecera
        for row in rows:
            cols = row.find_all("td")
            if len(cols) >= 6:
                club = cols[1].get_text(strip=True)
                est = cols[2].get_text(strip=True)
                # Limpiamos puntos y asteriscos de los n√∫meros
                cap = int(cols[3].get_text(strip=True).replace(".", "").replace("*", ""))
                asis_media = int(cols[4].get_text(strip=True).replace(".", "").replace("*", ""))
                
                data_resumen.append([club, est, asis_media])
        print("   [OK] Datos de EstadiosDB extra√≠dos correctamente.")
    else:
        print("   [ERROR] No se encontr√≥ la tabla en EstadiosDB.")

except Exception as e:
    print(f"   [ERROR CR√çTICO] EstadiosDB: {e}")

df_estadios = pd.DataFrame(data_resumen, columns=["Club", "Estadio_DB", "Asistencia_Media"])
df_estadios["Club"] = df_estadios["Club"].replace(mapa_nombres)

# ==============================================================================
# PASO 4: IMPUTACI√ìN (RELLENO INTELIGENTE) DE DATOS FALTANTES
# ==============================================================================
print("\n-------------------------------------------------------------")
print("--> PASO 4: Rellenando huecos de asistencia (< 1000 espectadores)")
print("-------------------------------------------------------------")
# L√≥gica: Si faltan datos de asistencia en un partido, usamos la media del equipo 
# ajustada para que la suma total coincida con la realidad aproximada.

def es_dato_valido(valor):
    return valor >= 1000 

count_correcciones = 0

for index, row in df_estadios.iterrows():
    equipo = row['Club']
    media_temporada = row['Asistencia_Media']
    
    mask_local = df_wiki['Local'] == equipo
    partidos_local = df_wiki[mask_local]
    
    total_partidos = len(partidos_local)
    if total_partidos == 0: continue

    # Separamos partidos con dato bien vs partidos con dato mal (0 o muy bajo)
    partidos_validos = partidos_local[partidos_local['Asistencia'].apply(es_dato_valido)]
    partidos_a_corregir = partidos_local[~partidos_local['Asistencia'].apply(es_dato_valido)]
    
    num_a_corregir = len(partidos_a_corregir)
    if num_a_corregir == 0: continue
        
    # Calculamos cu√°nto falta para llegar a la media te√≥rica
    asistencia_total_teorica = media_temporada * total_partidos
    asistencia_real_acumulada = partidos_validos['Asistencia'].sum()
    asistencia_faltante_total = asistencia_total_teorica - asistencia_real_acumulada
    
    if asistencia_faltante_total > 0:
        nueva_estimacion = int(asistencia_faltante_total / num_a_corregir)
    else:
        nueva_estimacion = int(media_temporada)

    print(f"   > Correcci√≥n en {equipo}: {num_a_corregir} partidos imputados con valor {nueva_estimacion}")
    
    indices_a_corregir = partidos_a_corregir.index
    df_wiki.loc[indices_a_corregir, 'Asistencia'] = nueva_estimacion
    count_correcciones += num_a_corregir

print(f"   [FIN] Total de partidos corregidos: {count_correcciones}")

# ==============================================================================
# PASO 5: EXTRACCI√ìN DE COORDENADAS Y NOMBRES OFICIALES
# ==============================================================================
print("\n-------------------------------------------------------------")
print("--> PASO 5: Obteniendo Latitud/Longitud y Nombres Oficiales")
print("-------------------------------------------------------------")

urls_estadios = [
    "https://es.wikipedia.org/wiki/Estadio_de_Mendizorroza",
    "https://es.wikipedia.org/wiki/Estadio_de_San_Mam%C3%A9s",
    "https://es.wikipedia.org/wiki/Estadio_Metropolitano_(Madrid)",
    "https://es.wikipedia.org/wiki/Estadio_Ol%C3%ADmpico_Llu%C3%ADs_Companys",
    "https://es.wikipedia.org/wiki/Estadio_de_Bala%C3%ADdos",
    "https://es.wikipedia.org/wiki/RCDE_Stadium",
    "https://es.wikipedia.org/wiki/Coliseum_(Getafe)",
    "https://es.wikipedia.org/wiki/Estadio_Municipal_de_Montilivi",
    "https://es.wikipedia.org/wiki/Estadio_de_Gran_Canaria",
    "https://es.wikipedia.org/wiki/Estadio_Municipal_de_Butarque",
    "https://es.wikipedia.org/wiki/Estadio_de_Son_Moix",
    "https://es.wikipedia.org/wiki/Estadio_El_Sadar",
    "https://es.wikipedia.org/wiki/Estadio_de_Vallecas",
    "https://es.wikipedia.org/wiki/Estadio_Benito_Villamar%C3%ADn",
    "https://es.wikipedia.org/wiki/Estadio_Santiago_Bernab%C3%A9u",
    "https://es.wikipedia.org/wiki/Estadio_de_Anoeta",
    "https://es.wikipedia.org/wiki/Estadio_Jos%C3%A9_Zorrilla",
    "https://es.wikipedia.org/wiki/Estadio_Ram%C3%B3n_S%C3%A1nchez-Pizju%C3%A1n",
    "https://es.wikipedia.org/wiki/Estadio_de_Mestalla",
    "https://es.wikipedia.org/wiki/Estadio_de_la_Cer%C3%A1mica"
]

data_geo = []

for i, url in enumerate(urls_estadios):
    # Print de progreso para la geolocalizaci√≥n
    nombre_temp = url.split('/')[-1].replace("_", " ")
    print(f"   > Geolocalizando estadio {i+1}/{len(urls_estadios)}: {nombre_temp}...")
    
    try:
        response = requests.get(url, headers=HEADERS_REQUEST)
        if response.status_code != 200:
            print(f"     [ERROR HTTP] C√≥digo {response.status_code}")
            continue

        soup = BeautifulSoup(response.text, "html.parser")
        
        # --- EXTRACCI√ìN DEL NOMBRE OFICIAL ---
        nombre_final = "Desconocido"
        infobox = soup.find("table", class_="infobox")
        
        encontrado_en_tabla = False
        if infobox:
            rows = infobox.find_all("tr")
            for row in rows:
                header = row.find("th")
                if header and "Nombre completo" in header.get_text(strip=True):
                    td = row.find("td")
                    if td:
                        nombre_final = td.get_text(strip=True)
                        encontrado_en_tabla = True
                        break
        
        if not encontrado_en_tabla:
            h1 = soup.find("h1", id="firstHeading")
            if h1:
                nombre_final = h1.get_text(strip=True)

        nombre_final = re.sub(r'\[.*?\]', '', nombre_final).strip()

        # --- EXTRACCI√ìN DE COORDENADAS (GEO) ---
        latitud = None
        longitud = None
        
        geo_span = soup.find("span", class_="geo")
        
        if geo_span:
            coord_text = geo_span.get_text(strip=True)
            # Manejo de formatos con ";" o con ","
            if ";" in coord_text:
                 coords = coord_text.split(";") 
            else:
                 coords = coord_text.split(",")
            
            if len(coords) >= 2:
                latitud = coords[0].strip()
                longitud = coords[1].strip()
        
        data_geo.append([nombre_final, latitud, longitud])
        
    except Exception as e:
        print(f"     [EXCEPCI√ìN] Error procesando {url}: {e}")
    
    # Peque√±a pausa para ser "educados" con el servidor
    time.sleep(0.5)

df_geo = pd.DataFrame(data_geo, columns=["Estadio_Oficial", "Latitud", "Longitud"])
df_geo["Estadio_Oficial"] = df_geo["Estadio_Oficial"].replace(mapa_estadios)

# ==============================================================================
# PASO 6: GUARDADO DE TODOS LOS ARCHIVOS FINALES
# ==============================================================================
print("\n-------------------------------------------------------------")
print("--> PASO 6: Guardando resultados en disco")
print("-------------------------------------------------------------")

# 1. Archivo de Coordenadas
ruta_geo = os.path.join(CARPETA_SALIDA, "datos_coordenadas.csv")
df_geo.to_csv(ruta_geo, index=False, encoding='utf-8-sig')

# 2. Archivo de Partidos y Asistencia (Corregido y con Estadios Rellenados)
ruta_partidos = os.path.join(CARPETA_SALIDA, "datos_partidos_asistencia.csv")
df_wiki.to_csv(ruta_partidos, index=False, encoding='utf-8-sig')

# 3. Archivo de Capacidad y Asistencia Media (EstadiosDB)
ruta_estadios_media = os.path.join(CARPETA_SALIDA, "datos_asistencia_media_estadios.csv")
df_estadios.to_csv(ruta_estadios_media, index=False, encoding='utf-8-sig')

print(f"‚úÖ PROCESO COMPLETADO EXITOSAMENTE.")
print(f"üìÇ Archivos generados en: {CARPETA_SALIDA}")
print("   1. SP1_Normalizado.csv")
print("   2. datos_coordenadas.csv")
print("   3. datos_partidos_asistencia.csv")
print("   4. datos_asistencia_media_estadios.csv")
print("-------------------------------------------------------------")

--- INICIO DEL PROCESO MAESTRO DE DATOS ---
[INFO] Cargando librer√≠as y configuraciones iniciales...

-------------------------------------------------------------
--> PASO 1: Cargando y Normalizando archivo base (SP1.csv)
-------------------------------------------------------------
   [OK] Archivo cargado. Filas totales: 380
   [...] Normalizando nombres de equipos en el CSV base...
   [GUARDADO] Archivo 'SP1_Normalizado.csv' listo.

-------------------------------------------------------------
--> PASO 2: Extrayendo datos de PARTIDOS desde Wikipedia
-------------------------------------------------------------
   > Procesando equipo 1/20: 2024%E2%80%9325_Athletic_Bilbao_season
   [ERROR] Fallo al leer URL: https://en.wikipedia.org/wiki/2024%E2%80%9325_Athletic_Bilbao_season
   > Procesando equipo 2/20: 2024%E2%80%9325_Atl%C3%A9tico_Madrid_season
   [ERROR] Fallo al leer URL: https://en.wikipedia.org/wiki/2024%E2%80%9325_Atl%C3%A9tico_Madrid_season
   > Procesando equipo 3/20: 2024%

# üå¶Ô∏è Documentaci√≥n T√©cnica: Enriquecimiento Clim√°tico (Open-Meteo)

## üìã 1. Introducci√≥n y Objetivo

El objetivo de este script es a√±adir una **Dimensi√≥n Ambiental** al dataset maestro de partidos. No basta con saber *qui√©n* gan√≥ o *cu√°nta* gente fue; queremos saber *en qu√© condiciones* se jug√≥.

El script consulta una API meteorol√≥gica hist√≥rica para obtener las condiciones exactas (temperatura, lluvia, viento) en las coordenadas precisas del estadio y a la hora exacta del pitido inicial.

**¬øPor qu√© es importante?**
Permite responder preguntas de negocio como:
* *"¬øLa lluvia reduce dr√°sticamente la asistencia en estadios descubiertos?"*
* *"¬øAfecta el calor extremo (>30¬∞C) al n√∫mero de goles marcados?"*
* *"¬øHay una correlaci√≥n entre sensaci√≥n t√©rmica baja y venta de entradas?"*

---

## ‚öôÔ∏è 2. Arquitectura del Script

El flujo de trabajo es lineal y robusto, dise√±ado para manejar fallos de red y l√≠mites de API.

1.  **Configuraci√≥n del Cliente API:** Setup de cach√© y reintentos (Retries).
2.  **Ingesta de Datos:** Carga del CSV con coordenadas geogr√°ficas (`Latitud`, `Longitud`) y temporales (`Date`, `Time`).
3.  **Iteraci√≥n y Consulta:** Bucle `for` que procesa cada partido individualmente.
4.  **Extracci√≥n de Precisi√≥n:** Filtrado del dato horario exacto del evento.
5.  **Consolidaci√≥n:** Uni√≥n de las nuevas m√©tricas al DataFrame original.

---

## üîç 3. An√°lisis de la Fuente de Datos: Open-Meteo

Utilizamos la **Historical Weather API** de Open-Meteo. A diferencia de otras APIs, esta no requiere *API Key* para uso no comercial, pero requiere un manejo cuidadoso de las peticiones para no ser bloqueados.

### Par√°metros de la Petici√≥n (Payload)

Para cada partido, el script construye una petici√≥n din√°mica con estos par√°metros:

| Par√°metro | Valor Ejemplo | Descripci√≥n |
| :--- | :--- | :--- |
| `latitude` / `longitude` | `40.416`, `-3.703` | Ubicaci√≥n exacta del estadio. |
| `start_date` / `end_date` | `2024-09-15` | Limitamos la b√∫squeda a un solo d√≠a. |
| `hourly` | `temperature_2m` | Temperatura a 2 metros del suelo. |
| `hourly` | `apparent_temperature` | Sensaci√≥n t√©rmica (Heat Index / Wind Chill). |
| `hourly` | `precipitation` | Suma de lluvia + nieve en mm. |
| `hourly` | `wind_speed_10m` | Velocidad del viento a 10 metros de altura. |
| `hourly` | `weather_code` | C√≥digo WMO (Num√©rico) que resume el clima. |
| `timezone` | `Europe/Madrid` | **Cr√≠tico:** Asegura que las 18:00 sean hora local, no UTC. |

---

## üõ†Ô∏è 4. L√≥gica Detallada paso a paso

### üü¢ PASO 1: Configuraci√≥n de Robustez (Cach√© y Reintentos)

Las peticiones HTTP pueden fallar por mil razones (micro-cortes de internet, servidor ocupado). Para evitar que el script se rompa a la mitad (ej: en el partido 200 de 380), implementamos dos capas de seguridad:

1.  **`requests_cache`:**
    * Crea un archivo oculto `.cache`.
    * *Funci√≥n:* Si ejecutas el script dos veces, la segunda vez **no conecta a internet** para los datos que ya tiene. Los lee del disco. Esto ahorra tiempo y evita baneos.
2.  **`retry_requests`:**
    * Configurado con `retries=5` y `backoff_factor=0.2`.
    * *Funci√≥n:* Si la API da error 500 o timeout, el script espera 0.2 segundos y reintenta. Si falla, espera 0.4s, luego 0.8s... as√≠ hasta 5 veces antes de rendirse.

### üü° PASO 2: Procesamiento Temporal (La fecha ISO)

El CSV original suele tener fechas en formato humano/europeo (`DD/MM/YYYY`, ej: `15/09/2024`), pero las APIs siempre exigen el est√°ndar internacional **ISO 8601** (`YYYY-MM-DD`).

* **Transformaci√≥n:**
    ```python
    day, month, year = date_raw.split('/')
    api_date = f"{year}-{month}-{day}" # Resultado: "2024-09-15"
    ```

### üü† PASO 3: Extracci√≥n Horaria (El "Francotirador")

La API de Open-Meteo devuelve un array con **24 valores** (uno por cada hora del d√≠a solicitado: 00:00, 01:00... 23:00).

* **El Reto:** No queremos la temperatura media del d√≠a, queremos la temperatura a la hora del partido.
* **La L√≥gica:**
    1.  Tomamos la hora del partido: `18:30`.
    2.  Extraemos la hora entera: `18` (variable `match_hour`).
    3.  Usamos ese n√∫mero como **√≠ndice** para acceder al array de la API.
    * *Ejemplo:* `response.Hourly().Variables(0).ValuesAsNumpy()[18]` nos da la temperatura exacta a las 18:00.

### üî¥ PASO 4: Manejo de Errores (Try/Except)

Es posible que algunos partidos tengan datos err√≥neos (ej: coordenadas vac√≠as, fechas futuras que la API hist√≥rica no tiene).

* **Bloque `try...except`:**
    * Si ocurre un error en una fila espec√≠fica, el script **no se detiene**.
    * Imprime un aviso en consola (`[ERROR] Fallo en fila X...`).
    * Rellena los campos clim√°ticos con `None` (Vac√≠o) y salta al siguiente partido.

---

## üìÇ 5. Resultados y Estructura de Salida

El archivo generado, `partidos_con_clima_completo.csv`, mantiene todas las columnas originales y a√±ade 5 nuevas m√©tricas al final:

| Nueva Columna | Unidad | Significado |
| :--- | :--- | :--- |
| **`Temperatura_C`** | Grados Celsius (¬∞C) | Temperatura real del aire. |
| **`Sensacion_Termica_C`** | Grados Celsius (¬∞C) | C√≥mo se siente el cuerpo humano (humedad/viento). |
| **`Precipitacion_mm`** | Mil√≠metros (mm) | Cantidad de lluvia en esa hora (0 = Seco). |
| **`Viento_kmh`** | km/h | Velocidad media del viento. |
| **`Codigo_Clima`** | WMO Code (0-99) | [Tabla de c√≥digos WMO](https://www.nodc.noaa.gov/archive/arc0021/0002199/1.1/data/0-data/HTML/WMO-CODE/WMO4677.HTM). <br>Ej: `0`=Despejado, `61`=Lluvia ligera, `95`=Tormenta. |

---

## ‚ö†Ô∏è Dificultades T√©cnicas Superadas

| Dificultad | Soluci√≥n T√©cnica |
| :--- | :--- |
| **L√≠mites de API** | Uso de cach√© local para evitar peticiones redundantes. |
| **Inestabilidad de Red** | Implementaci√≥n de sistema de *Retries* (reintentos exponenciales). |
| **Formato de Fecha** | Conversi√≥n manual de string `DD/MM/YYYY` a `YYYY-MM-DD`. |
| **Precisi√≥n Horaria** | Indexaci√≥n directa del array Numpy devuelto por la API usando la hora del evento. |
| **Datos Faltantes** | Verificaci√≥n previa de coordenadas (`pd.isna`) antes de llamar a la API. |
| **Bloqueo SSL** | Uso de `urllib3.disable_warnings` para redes corporativas o Wi-Fi restringido. |

---

## ‚úÖ Conclusi√≥n

Este script transforma un dataset est√°tico en uno din√°mico y contextual. Al cruzar coordenadas espaciales y temporales con bases de datos meteorol√≥gicas, habilitamos la capacidad de realizar **an√°lisis de factores externos** sobre el rendimiento deportivo y la afluencia de p√∫blico.

In [3]:
# ==============================================================================
# PROYECTO: ENRIQUECIMIENTO CLIM√ÅTICO DE PARTIDOS (HIST√ìRICO)
# DESCRIPCI√ìN: Consulta la API de Open-Meteo para obtener temperatura, lluvia y viento
#              en la fecha y hora exacta de cada partido pasado.
# ==============================================================================

# ==============================================================================
# 1. IMPORTACI√ìN DE LIBRER√çAS Y CONFIGURACI√ìN API
# ==============================================================================
# 'openmeteo_requests': Cliente oficial para conectar con la API del clima.
# 'requests_cache': Para guardar respuestas en memoria y no pedir lo mismo dos veces.
# 'retry_requests': Para reintentar autom√°ticamente si falla la conexi√≥n (internet inestable).
# 'urllib3': Para gestionar advertencias de seguridad SSL.

import openmeteo_requests
import requests_cache
from retry_requests import retry
import urllib3

print("============================================")
print("--- INICIO DEL PROCESO DE DATOS CLIM√ÅTICOS ---")
print("============================================")

# ---------------------------------------------------------
# CONFIGURACI√ìN T√âCNICA
# ---------------------------------------------------------
# Desactivamos las advertencias de seguridad SSL (necesario a veces en redes corporativas)
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)

# Configuramos el sistema de cach√© y reintentos para la API
# Esto hace que el script sea robusto: si la API falla un segundo, lo vuelve a intentar 5 veces.
cache_session = requests_cache.CachedSession('.cache', expire_after = -1)
retry_session = retry(cache_session, retries = 5, backoff_factor = 0.2)
openmeteo = openmeteo_requests.Client(session = retry_session)

# URL del servicio de "Archivo" (Hist√≥rico) de Open-Meteo
URL_API = "https://archive-api.open-meteo.com/v1/archive"

# ==============================================================================
# 2. CONFIGURACI√ìN DE RUTAS (IMPORTANTE: REVISAR ESTO)
# ==============================================================================
# Define aqu√≠ d√≥nde est√° tu archivo con los partidos Y las coordenadas.
# EJEMPLO: Aseg√∫rate de que este CSV tenga columnas 'Latitud', 'Longitud', 'Date' y 'Time'.

RUTA_ARCHIVO_ENTRADA = r"inputs/hop.txt.csv"

# Carpeta donde guardaremos el resultado final con clima
CARPETA_SALIDA = r"outputs"

# ==============================================================================
# 3. CARGA DE DATOS
# ==============================================================================
print("\n-------------------------------------------------------------")
print("--> PASO 1: Cargando archivo de entrada")
print("-------------------------------------------------------------")

if os.path.exists(RUTA_ARCHIVO_ENTRADA):
    df = pd.read_csv(RUTA_ARCHIVO_ENTRADA)
    print(f"   [OK] Archivo cargado: {os.path.basename(RUTA_ARCHIVO_ENTRADA)}")
    print(f"   [INFO] Total de partidos a procesar: {len(df)}")
    
    # Verificaci√≥n r√°pida de columnas necesarias
    cols_necesarias = ['Latitud', 'Longitud', 'Date', 'Time']
    # Nota: Si tus columnas se llaman diferente (ej: 'Lat', 'Lon'), c√°mbialo abajo en el bucle.
    
else:
    print(f"   [ERROR CR√çTICO] No se encuentra el archivo: {RUTA_ARCHIVO_ENTRADA}")
    print("   Por favor, verifica la ruta en la secci√≥n 2 del c√≥digo.")
    exit() # Detiene el programa si no hay archivo

# ==============================================================================
# 4. PREPARACI√ìN DE LISTAS DE ALMACENAMIENTO
# ==============================================================================
# Aqu√≠ guardaremos los datos que nos vaya dando la API fila por fila
temps = []      # Temperatura (2 metros sobre suelo)
app_temps = []  # Sensaci√≥n t√©rmica
precips = []    # Precipitaci√≥n (lluvia)
winds = []      # Velocidad del viento
codes = []      # C√≥digo del clima (0=Sol, 61=Lluvia, etc.)

# ==============================================================================
# 5. BUCLE MAESTRO: CONSULTA A LA API (FILA POR FILA)
# ==============================================================================
print("\n-------------------------------------------------------------")
print("--> PASO 2: Conectando con Open-Meteo para cada partido...")
print("-------------------------------------------------------------")

for index, row in df.iterrows():
    try:
        # --- A. VALIDACI√ìN PREVIA ---
        # Si falta la latitud o longitud, no podemos pedir clima.
        if pd.isna(row.get('Latitud')) or pd.isna(row.get('Longitud')):
            print(f"   [SALTADO] Fila {index}: Sin coordenadas.")
            temps.append(None); app_temps.append(None); precips.append(None); winds.append(None); codes.append(None)
            continue

        # --- B. EXTRACCI√ìN DE DATOS DE LA FILA ---
        lat = row['Latitud']
        lon = row['Longitud']
        date_raw = row['Date']  # Se asume formato DD/MM/YYYY
        time_raw = row['Time']  # Se asume formato HH:MM

        # Convertir fecha de DD/MM/YYYY a YYYY-MM-DD (Formato ISO para la API)
        day, month, year = date_raw.split('/')
        api_date = f"{year}-{month}-{day}"

        # Obtener la hora del partido redondeada (ej: 18:30 -> 18)
        # Esto sirve para buscar el √≠ndice en el array de 24 horas que devuelve la API
        match_hour = int(time_raw.split(':')[0])

        # --- C. CONFIGURACI√ìN DE LA PETICI√ìN ---
        params = {
            "latitude": lat,
            "longitude": lon,
            "start_date": api_date,
            "end_date": api_date,
            "hourly": [
                "temperature_2m",         # Temp real
                "apparent_temperature",   # Sensaci√≥n
                "precipitation",          # Lluvia
                "wind_speed_10m",         # Viento
                "weather_code"            # Icono/Resumen
            ],
            "timezone": "Europe/Madrid"   # Importante para ajustar la hora
        }

        # --- D. LLAMADA A LA API ---
        # verify=False evita errores de SSL en algunas redes wifi
        responses = openmeteo.weather_api(URL_API, params=params, verify=False)

        # Procesamos la respuesta (La API devuelve un objeto complejo)
        response = responses[0]
        hourly = response.Hourly()

        # --- E. EXTRACCI√ìN EXACTA DE LA HORA DEL PARTIDO ---
        # La API devuelve 24 datos (uno por hora del d√≠a).
        # Usamos 'match_hour' para coger solo el dato de la hora del pitido inicial.
        t2m = hourly.Variables(0).ValuesAsNumpy()[match_hour]
        att = hourly.Variables(1).ValuesAsNumpy()[match_hour]
        prc = hourly.Variables(2).ValuesAsNumpy()[match_hour]
        wnd = hourly.Variables(3).ValuesAsNumpy()[match_hour]
        wcd = hourly.Variables(4).ValuesAsNumpy()[match_hour]

        # Guardamos en nuestras listas
        temps.append(t2m)
        app_temps.append(att)
        precips.append(prc)
        winds.append(wnd)
        codes.append(wcd)

        # --- F. FEEDBACK EN PANTALLA ---
        # Mostramos progreso cada 20 filas para no saturar la consola
        if (index + 1) % 20 == 0:
            print(f"   > Procesado {index + 1} / {len(df)} partidos... (Fecha: {api_date})")

    except Exception as e:
        # Si algo falla (fecha futura, error de formato, etc.), rellenamos con vac√≠o
        print(f"   [ERROR] Fallo en fila {index} ({date_raw}): {e}")
        temps.append(None)
        app_temps.append(None)
        precips.append(None)
        winds.append(None)
        codes.append(None)

# ==============================================================================
# 6. GUARDADO DE RESULTADOS
# ==============================================================================
print("\n-------------------------------------------------------------")
print("--> PASO 3: Guardando archivo enriquecido")
print("-------------------------------------------------------------")

# A√±adimos las listas como nuevas columnas al DataFrame original
df['Temperatura_C'] = temps
df['Sensacion_Termica_C'] = app_temps
df['Precipitacion_mm'] = precips
df['Viento_kmh'] = winds
df['Codigo_Clima'] = codes

# Definimos la ruta de salida
ruta_salida_final = os.path.join(CARPETA_SALIDA, "partidos_con_clima_completo.csv")

# Guardamos el CSV
df.to_csv(ruta_salida_final, index=False, encoding='utf-8-sig')

print(f"‚úÖ PROCESO COMPLETADO EXITOSAMENTE.")
print(f"üìÇ Archivo guardado en: {ruta_salida_final}")
print("   Contiene nuevas columnas: Temperatura, Lluvia, Viento, etc.")
print("=============================================================")

--- INICIO DEL PROCESO DE DATOS CLIM√ÅTICOS ---

-------------------------------------------------------------
--> PASO 1: Cargando archivo de entrada
-------------------------------------------------------------
   [OK] Archivo cargado: hop.txt.csv
   [INFO] Total de partidos a procesar: 380

-------------------------------------------------------------
--> PASO 2: Conectando con Open-Meteo para cada partido...
-------------------------------------------------------------
   > Procesado 20 / 380 partidos... (Fecha: 2024-08-25)
   > Procesado 40 / 380 partidos... (Fecha: 2024-09-13)
   > Procesado 60 / 380 partidos... (Fecha: 2024-09-22)
   > Procesado 80 / 380 partidos... (Fecha: 2024-09-30)
   > Procesado 100 / 380 partidos... (Fecha: 2024-10-21)
   > Procesado 120 / 380 partidos... (Fecha: 2024-11-09)
   > Procesado 140 / 380 partidos... (Fecha: 2024-11-30)
   > Procesado 160 / 380 partidos... (Fecha: 2024-12-13)
   > Procesado 180 / 380 partidos... (Fecha: 2024-12-22)
   > Procesad

## HYPE - Medici√≥n de Expectaci√≥n P√∫blica (Google Trends)

### Objetivo
Esta secci√≥n cuantifica el **nivel de inter√©s p√∫blico** que genera cada partido utilizando datos de b√∫squeda de Google Trends. El objetivo es a√±adir una m√©trica que capture la "expectaci√≥n" o "hype" del enfrentamiento.

### Metodolog√≠a

#### 1. **Fuente de datos**: Google Trends API (`pytrends`)
- Consulta b√∫squedas realizadas en **Espa√±a** (`geo='ES'`)
- Idioma: Espa√±ol (`hl='es-ES'`)

#### 2. **T√©rmino de b√∫squeda** (MEJORADO):
- **Enfoque anterior**: Buscaba `"Equipo Local vs Equipo Visitante"` (muy espec√≠fico, pocas b√∫squedas)
- **Enfoque mejorado**: Busca nombres de **equipos individuales** y calcula el promedio
  - Ejemplo: Para Real Madrid vs Barcelona
    - Busca: `"Real Madrid"` ‚Üí valor m√°ximo: 85
    - Busca: `"Barcelona"` ‚Üí valor m√°ximo: 92
    - Hype del partido = (85 + 92) / 2 = **88.5**

#### 3. **Ventana temporal**:
- **7 d√≠as** alrededor del partido:
  - 3 d√≠as antes
  - D√≠a del partido  
  - 3 d√≠as despu√©s
- Esto captura el pico de inter√©s antes, durante y despu√©s del evento
- Se toma el **valor m√°ximo** de cada equipo en esa ventana

#### 4. **Normalizaci√≥n global** (POST-PROCESAMIENTO):
Problema detectado: Google Trends normaliza valores dentro de cada consulta individual, lo que genera solo valores 0 o 100.

**Soluci√≥n aplicada**:
- Despu√©s de obtener todos los valores brutos, se aplica **normalizaci√≥n Min-Max** sobre todo el dataset:
  - `Hype_normalizado = ((Hype - Hype_min) / (Hype_max - Hype_min)) √ó 100`
- Esto garantiza una **distribuci√≥n continua** de valores entre 0 y 100

#### 5. **Protecci√≥n anti-bloqueo**:
Google Trends tiene l√≠mites estrictos de consultas:
- Pausa aleatoria de **5-10 segundos** entre peticiones
- Si detecta error 429 (Too Many Requests), pausa de **60 segundos**
- Proceso completo puede tardar **30-60 minutos** para 380 partidos

### Resultado
Se a√±ade la columna **`Hype_Google_Trends`** al dataset con valores 0-100 (normalizados globalmente) que representan el nivel de expectaci√≥n p√∫blica de cada partido.

**Archivo generado**: `outputs/partidos_completo_con_hype.csv`

### Interpretaci√≥n
- **Hype alto (>70)**: Partidos muy esperados (Real Madrid, Barcelona, Atl√©tico Madrid, etc.)
- **Hype medio (30-70)**: Partidos con inter√©s moderado
- **Hype bajo (<30)**: Partidos con poco seguimiento medi√°tico

### Ventajas de la metodolog√≠a mejorada
‚úÖ **M√°s datos**: Buscar equipos individuales captura m√°s b√∫squedas que "Local vs Visitante"  
‚úÖ **Distribuci√≥n continua**: La normalizaci√≥n global elimina el problema de valores binarios (0 o 100)  
‚úÖ **Valores comparables**: Todos los partidos est√°n en la misma escala relativa  
‚úÖ **Refleja popularidad**: El promedio de b√∫squedas de ambos equipos es un buen proxy del inter√©s del partido

In [6]:
# ==============================================================================
# PROYECTO: MEDICI√ìN DE HYPE (GOOGLE TRENDS) - LALIGA 2024-25
# DESCRIPCI√ìN: Consulta Google Trends para obtener un √≠ndice de inter√©s (0-100)
#              para cada enfrentamiento bas√°ndose en b√∫squedas de equipos.
# MEJORA: Busca equipos individuales + normalizaci√≥n global post-procesamiento
# ==============================================================================

# ==============================================================================
# 1. IMPORTACI√ìN DE LIBRER√çAS
# ==============================================================================

import random
import numpy as np
from datetime import datetime, timedelta
from pytrends.request import TrendReq

print("============================================")
print("--- INICIO DEL AN√ÅLISIS DE HYPE (GOOGLE TRENDS) ---")
print("============================================")

# ==============================================================================
# 2. CONFIGURACI√ìN
# ==============================================================================
# Configura la conexi√≥n con Google.
# hl='es-ES': Idioma espa√±ol.
# tz=360: Zona horaria (minutos), aunque no es cr√≠tico para datos diarios.
pytrends = TrendReq(hl='es-ES', tz=360)

# RUTAS (AJUSTA ESTO A TU ORDENADOR)
# Usaremos el archivo que ya tiene clima o el de partidos base.
RUTA_ENTRADA = r"outputs/partidos_con_clima_completo.csv"
CARPETA_SALIDA = r"outputs"

# ==============================================================================
# 3. CARGA DE DATOS
# ==============================================================================
print("\n-------------------------------------------------------------")
print("--> PASO 1: Cargando datos de partidos")
print("-------------------------------------------------------------")

if os.path.exists(RUTA_ENTRADA):
    df = pd.read_csv(RUTA_ENTRADA)
    print(f"   [OK] Archivo cargado. Total partidos: {len(df)}")
else:
    print(f"   [ERROR] No se encuentra: {RUTA_ENTRADA}")
    exit()

# ==============================================================================
# 4. FUNCI√ìN AUXILIAR: OBTENER HYPE (MEJORADA)
# ==============================================================================
def obtener_hype_google(equipo_local, equipo_visitante, fecha_partido):
    """
    Consulta Google Trends para los nombres de ambos equipos en una ventana de 7 d√≠as 
    alrededor del partido. Devuelve el promedio de inter√©s de ambos equipos.
    
    MEJORA: En lugar de buscar "Local vs Visitante" (b√∫squeda muy espec√≠fica),
    busca los nombres de cada equipo individualmente para obtener m√°s datos.
    """
    try:
        # 1. Construir la b√∫squeda: Nombres de equipos individuales
        # Esto captura m√°s b√∫squedas que "Equipo1 vs Equipo2"
        kw_list = [equipo_local, equipo_visitante]
        
        # 2. Definir ventana de tiempo (3 d√≠as antes y 3 d√≠as despu√©s para capturar el pico)
        # Formato fecha entrada: DD/MM/YYYY -> Convertir a datetime
        fecha_obj = datetime.strptime(fecha_partido, "%d/%m/%Y")
        start_date = (fecha_obj - timedelta(days=3)).strftime("%Y-%m-%d")
        end_date = (fecha_obj + timedelta(days=3)).strftime("%Y-%m-%d")
        
        timeframe = f"{start_date} {end_date}"
        
        # 3. Petici√≥n a Google
        # geo='ES': Solo b√∫squedas en Espa√±a
        pytrends.build_payload(kw_list, cat=0, timeframe=timeframe, geo='ES', gprop='')
        
        # 4. Obtener datos de inter√©s a lo largo del tiempo
        data = pytrends.interest_over_time()
        
        if not data.empty:
            # Extraer valores m√°ximos para cada equipo
            hype_local = data[equipo_local].max() if equipo_local in data.columns else 0
            hype_visitante = data[equipo_visitante].max() if equipo_visitante in data.columns else 0
            
            # Promedio de ambos equipos como proxy de inter√©s total del partido
            hype_score = (hype_local + hype_visitante) / 2
            return hype_score
        else:
            return 0 # Si no hay datos suficientes
            
    except Exception as e:
        # Google a veces bloquea si hacemos muchas peticiones seguidas (Error 429)
        if "429" in str(e):
            print("   [ALERTA] Bloqueo de Google (Too Many Requests). Esperando...")
            time.sleep(60) # Pausa larga si nos bloquean
        return 0  # Retorna 0 en lugar de None para evitar problemas

# ==============================================================================
# 5. BUCLE PRINCIPAL
# ==============================================================================
print("\n-------------------------------------------------------------")
print("--> PASO 2: Consultando Google Trends (Esto puede tardar...)")
print("-------------------------------------------------------------")

hypes = []

for index, row in df.iterrows():
    local = row['Local']     # O 'HomeTeam' seg√∫n tu CSV
    visitante = row['Visitante'] # O 'AwayTeam'
    fecha = row['Date']
    
    # Llamada a la funci√≥n
    hype = obtener_hype_google(local, visitante, fecha)
    hypes.append(hype)
    
    # LOG EN PANTALLA
    # Mostramos barra de progreso
    if (index + 1) % 5 == 0: # Actualiza cada 5 partidos
        print(f"   > {index + 1}/{len(df)} | {local:20s} vs {visitante:20s} -> Hype: {hype:.1f}")
    
    # PAUSA ANTI-BLOQUEO (MUY IMPORTANTE)
    # Google Trends es muy estricto. Necesitamos pausas aleatorias entre peticiones.
    sleep_time = random.randint(5, 10) 
    time.sleep(sleep_time)

# ==============================================================================
# 6. NORMALIZACI√ìN GLOBAL (POST-PROCESAMIENTO)
# ==============================================================================
print("\n-------------------------------------------------------------")
print("--> PASO 3: Normalizando valores de Hype globalmente")
print("-------------------------------------------------------------")

if hypes:
    # Convierte a numpy array para facilitar operaciones
    hypes_array = np.array(hypes)
    
    # Normalizaci√≥n Min-Max al rango 0-100 considerando TODOS los partidos
    min_hype = hypes_array.min()
    max_hype = hypes_array.max()
    
    print(f"   Valor m√≠nimo detectado: {min_hype:.2f}")
    print(f"   Valor m√°ximo detectado: {max_hype:.2f}")
    
    if max_hype > min_hype:
        # Aplica normalizaci√≥n Min-Max: (x - min) / (max - min) * 100
        hypes_normalizados = ((hypes_array - min_hype) / (max_hype - min_hype)) * 100
        print(f"   ‚úÖ Normalizaci√≥n aplicada correctamente")
    else:
        # Si todos los valores son iguales, no normalizar
        hypes_normalizados = hypes_array
        print(f"   ‚ö†Ô∏è  Todos los valores son iguales, no se aplic√≥ normalizaci√≥n")
    
    df['Hype_Google_Trends'] = hypes_normalizados
else:
    df['Hype_Google_Trends'] = hypes
    print(f"   ‚ö†Ô∏è  No hay valores de hype para normalizar")

# ==============================================================================
# 7. GUARDADO FINAL
# ==============================================================================
print("\n-------------------------------------------------------------")
print("--> PASO 4: Guardando resultados")
print("-------------------------------------------------------------")

ruta_final = os.path.join(CARPETA_SALIDA, "partidos_completo_con_hype.csv")
df.to_csv(ruta_final, index=False, encoding='utf-8-sig')

print(f"‚úÖ PROCESO COMPLETADO.")
print(f"üìÇ Archivo guardado: {ruta_final}")
print(f"   Nueva columna a√±adida: 'Hype_Google_Trends' (Escala 0-100, normalizada)")
print(f"   Estad√≠sticas finales:")
print(f"      - Media: {df['Hype_Google_Trends'].mean():.2f}")
print(f"      - Mediana: {df['Hype_Google_Trends'].median():.2f}")
print(f"      - Desviaci√≥n est√°ndar: {df['Hype_Google_Trends'].std():.2f}")
print("=============================================================")

--- INICIO DEL AN√ÅLISIS DE HYPE (GOOGLE TRENDS) ---

-------------------------------------------------------------
--> PASO 1: Cargando datos de partidos
-------------------------------------------------------------
   [OK] Archivo cargado. Total partidos: 380

-------------------------------------------------------------
--> PASO 2: Consultando Google Trends (Esto puede tardar...)
-------------------------------------------------------------
   > 5/380 | CA Osasuna           vs CD Legan√©s           -> Hype: 50.0
   > 10/380 | Villarreal CF        vs Atl√©tico de Madrid   -> Hype: 53.0
   > 15/380 | Getafe CF            vs Rayo Vallecano       -> Hype: 51.0
   [ALERTA] Bloqueo de Google (Too Many Requests). Esperando...
   > 20/380 | Atl√©tico de Madrid   vs Girona FC            -> Hype: 71.5
   > 25/380 | Real Valladolid      vs CD Legan√©s           -> Hype: 50.0
   > 30/380 | FC Barcelona         vs Real Valladolid      -> Hype: 74.5
   [ALERTA] Bloqueo de Google (Too Many Request