# üèà **An√°lisis del Conjunto de Datos ‚Äì NFL Big Data Bowl 2026**

---

## 1Ô∏è‚É£ **Objetivo principal del concurso**

El prop√≥sito del **NFL Big Data Bowl 2026** es desarrollar modelos predictivos capaces de **estimar la trayectoria futura de los jugadores** (su posici√≥n en el campo) **durante el tiempo en que el bal√≥n est√° en el aire**, usando √∫nicamente informaci√≥n disponible **antes del lanzamiento**.

- En t√©rminos t√©cnicos:  
  Se trata de un problema de **regresi√≥n multivariada y temporal**, donde el modelo debe predecir los valores futuros de **$(x, y)$** para cada jugador y cada instante temporal del vuelo del bal√≥n.  

- En t√©rminos conceptuales:  
  Se busca capturar c√≥mo los jugadores se mueven seg√∫n su posici√≥n, rol, jugada y contexto (formaci√≥n, velocidad inicial, etc.), proporcionando informaci√≥n que pueda ayudar a comprender el comportamiento de ofensiva y defensa en tiempo real.

---

## 2Ô∏è‚É£ **Variables de entrada y salida**

### üîπ **Variables de salida (targets a predecir)**

| Variable | Descripci√≥n | Rango aproximado | Tipo |
|-----------|--------------|------------------|------|
| **x** | Posici√≥n del jugador a lo largo del eje longitudinal del campo (de una zona de anotaci√≥n a la otra). | 0 ‚Äì 120 yardas | Continua |
| **y** | Posici√≥n del jugador a lo largo del eje lateral del campo (de una l√≠nea lateral a la otra). | 0 ‚Äì 53.3 yardas | Continua |

> Ambas variables representan la **posici√≥n espacial $(x, y)$** del jugador y constituyen el **objetivo de predicci√≥n** del modelo.

---

### üîπ **Variables de entrada (features conocidas antes del lanzamiento)**

Estas variables se utilizan para predecir las posiciones futuras. Se pueden agrupar por categor√≠as:

| Categor√≠a | Variables (ejemplos) | Descripci√≥n / utilidad |
|------------|----------------------|------------------------|
| **Identificaci√≥n y contexto** | `gameId`, `playId`, `frameId`, `nflId`, `team`, `position`, `playType` | Permiten identificar cada jugada, jugador y tipo de acci√≥n ofensiva o defensiva. |
| **Estado f√≠sico del jugador** | `speed`, `acceleration`, `orientation`, `direction` | Describen el movimiento del jugador justo antes del lanzamiento. |
| **Ubicaci√≥n actual** | `x_init`, `y_init` | Posici√≥n del jugador en el instante previo al lanzamiento (punto de partida de la trayectoria). |
| **Contexto del partido** | `quarter`, `down`, `yardsToGo`, `offenseFormation`, `defensiveTeam` | Variables estrat√©gicas que influyen en la jugada y movimiento. |
| **Condiciones ambientales** | `weather`, `temperature`, `humidity`, `windSpeed`, `fieldType` | Pueden afectar el comportamiento f√≠sico y el movimiento. |
| **Relaciones espaciales derivadas** | `dist_to_ball`, `dist_to_QB`, `dist_to_nearest_opponent`, `angle_to_QB` | Variables ingenierizadas que reflejan interacciones jugador-entorno. |

---

## 3Ô∏è‚É£ **An√°lisis exploratorio de datos (EDA b√°sico)**

Un an√°lisis exploratorio inicial debe orientarse a entender la **distribuci√≥n espacial, cinem√°tica y contextual** de los jugadores.

| An√°lisis | Descripci√≥n | Ejemplo de visualizaci√≥n / estad√≠stica |
|-----------|-------------|-----------------------------------------|
| **Distribuci√≥n espacial** | Examinar d√≥nde se ubican los jugadores antes del lanzamiento. | Gr√°ficos de dispersi√≥n $(x, y)$ por posici√≥n (WR, CB, TE). |
| **Velocidad y aceleraci√≥n** | Analizar distribuci√≥n de `speed` y `acceleration` para distintos roles. | Boxplots o histogramas por tipo de jugador. |
| **Direcci√≥n y orientaci√≥n** | Observar patrones de movimiento seg√∫n `direction` u `orientation`. | Diagramas polares o histogramas de √°ngulos. |
| **Contexto del juego** | Ver frecuencia de `offenseFormation`, `playType`, `yardsToGo`. | Gr√°ficos de barras o heatmaps. |
| **Correlaciones** | Medir relaciones entre variables cinem√°ticas. | Mapa de correlaci√≥n entre `speed`, `acceleration`, `orientation`. |
| **Trayectorias** | Representar movimiento real de jugadores durante jugadas. | Animaciones 2D o trayectorias en el campo. |

> El EDA sirve para detectar patrones (por ejemplo, defensas m√°s abiertas en jugadas largas) y evaluar la calidad de los datos antes del modelado.

---
# üß© **4Ô∏è‚É£ Procedimientos de codificaci√≥n de valores faltantes y variables categ√≥ricas**

El procesamiento previo de los datos asegura que las trayectorias y atributos de los jugadores sean consistentes y libres de errores antes de entrenar el modelo. A partir del c√≥digo de referencia, se aplican estrategias espec√≠ficas de **limpieza**, **imputaci√≥n** y **codificaci√≥n**.

---

## üß© **Tratamiento de valores faltantes**

### 1Ô∏è‚É£ Variables continuas y f√≠sicas
Las variables de movimiento (`x`, `y`, `s`, `a`, `dir`, `o`) se completan de forma temporal:

- Se utiliza **interpolaci√≥n por jugador**:
  $$
  x_t = x_{t-1} + \frac{(x_{t+1} - x_{t-1})}{2}
  $$
  Esto suaviza los saltos y evita discontinuidades.

- Cuando no existen valores previos o posteriores, se emplean m√©todos:
  - `bfill` (propagar hacia atr√°s)
  - `ffill` (propagar hacia adelante)
  - Valores restantes ‚Üí $0$

### 2Ô∏è‚É£ Variables antropom√©tricas
Se calculan a partir de f√≥rmulas y se imputan por mediana:

| Variable | Descripci√≥n | M√©todo |
|-----------|--------------|--------|
| `player_height` | Conversi√≥n pies-pulgadas a pulgadas totales | $\text{inches} = \text{feet} \times 12 + \text{inches}$ |
| `player_age` | Edad a partir de fecha de nacimiento | $\text{edad} = \frac{\text{fecha}_{ref} - \text{fecha}_{nac}}{365.25}$ |
| `bmi` | √çndice de masa corporal | $BMI = \frac{\text{peso} \times 703}{(\text{altura en pulgadas})^2}$ |

Si alguno de estos datos est√° ausente, se imputa con la **mediana** de la variable correspondiente.

---

## üßæ **Codificaci√≥n de variables categ√≥ricas**

La funci√≥n `encode_categorical()` emplea **Label Encoding** sobre tres columnas clave:

| Variable | Descripci√≥n | Codificaci√≥n |
|-----------|--------------|--------------|
| `player_position` | Posici√≥n del jugador (WR, CB, QB...) | Asignaci√≥n de un entero |
| `player_side` | Lado del campo (left/right) | Asignaci√≥n binaria |
| `player_role` | Rol (ofensivo/defensivo) | Entero seg√∫n rol |

El proceso garantiza que cada categor√≠a se convierta en un n√∫mero y los *encoders* se guardan para mantener coherencia en el conjunto de prueba.

---

# ‚öôÔ∏è **5Ô∏è‚É£ Estrategia de ingenier√≠a de caracter√≠sticas (Feature Engineering)**

El modelo requiere capturar **din√°micas f√≠sicas, espaciales y temporales**.  
El c√≥digo implementa una funci√≥n `engineer_features()` que crea nuevas variables a partir de las originales.

---

## üßÆ **A. Componentes de velocidad y orientaci√≥n**

Descomposici√≥n vectorial de la velocidad seg√∫n la direcci√≥n:

$$
v_x = s \cdot \cos(\theta), \quad v_y = s \cdot \sin(\theta)
$$

Descomposici√≥n del √°ngulo de orientaci√≥n:

$$
o_x = \cos(o), \quad o_y = \sin(o)
$$

Estas variables permiten modelar la cinem√°tica del movimiento.

---

## üèà **B. Relaci√≥n con el bal√≥n**

Si existen las coordenadas del punto donde aterriza el bal√≥n:

- **Distancia al bal√≥n:**
  $$
  d_{ball} = \sqrt{(x - x_b)^2 + (y - y_b)^2}
  $$

- **√Ångulo hacia el bal√≥n:**
  $$
  \alpha_{ball} = \arctan2(y_b - y, x_b - x)
  $$

- **Velocidad proyectada hacia el bal√≥n:**
  $$
  v_{‚Üíball} = s \cdot \cos(\theta - \alpha_{ball})
  $$

Estas relaciones capturan c√≥mo el jugador se desplaza respecto al punto objetivo.

---

## üß≠ **C. Posici√≥n dentro del campo**

| Variable | Definici√≥n |
|-----------|------------|
| `dist_to_left_sideline` | $y$ |
| `dist_to_right_sideline` | $53.3 - y$ |
| `dist_to_nearest_sideline` | $\min(y, 53.3 - y)$ |
| `dist_to_endzone` | $120 - x$ |

Estas distancias delimitan el espacio √∫til de movimiento del jugador.

---

## ‚è±Ô∏è **D. Variables temporales (lags y cambios)**

Se generan variables de *retardo temporal*:

$$
x_{lag1} = x(t-1), \quad s_{lag2} = s(t-2)
$$

Y se calculan los cambios entre frames consecutivos:

$$
\Delta s = s_t - s_{t-1}, \quad \Delta a = a_t - a_{t-1}
$$

La variaci√≥n angular se ajusta para mantener continuidad (valores entre $-180¬∞$ y $180¬∞$).

---

## üìä **E. Estad√≠sticas m√≥viles**

Se aplican promedios y desviaciones est√°ndar m√≥viles sobre ventanas de 3 frames:

$$
s_{roll\_mean} = \frac{1}{3}\sum_{i=t-2}^{t}s_i, \quad a_{roll\_std} = \sqrt{\frac{1}{3}\sum_{i=t-2}^{t}(a_i - \bar{a})^2}
$$

Estas variables suavizan ruidos y capturan tendencias locales.

---

## üß† **F. Atributos est√°ticos del jugador**

Se integran variables personales que afectan el desempe√±o:

- Altura (`height_inches`)
- Peso (`player_weight`)
- Edad (`player_age`)
- √çndice de masa corporal (`bmi`)
- Rol y posici√≥n (`player_position`, `player_role`)

Estas variables permiten al modelo diferenciar comportamientos seg√∫n el perfil f√≠sico y t√°ctico.

---

# üß© **6Ô∏è‚É£ Detalles para comprender, interpretar y analizar el conjunto de datos**

El *pipeline* organiza y normaliza los datos en tres fases cr√≠ticas:

---

## ‚öôÔ∏è **A. Normalizaci√≥n de la direcci√≥n de juego**

Todas las jugadas se orientan en la misma direcci√≥n.  
Si la jugada va hacia la izquierda:

$$
x' = 120 - x, \quad y' = 53.3 - y
$$

Esto asegura que el modelo no tenga que aprender dos orientaciones distintas.

---

## üìè **B. Estandarizaci√≥n num√©rica**

Se aplica `StandardScaler()`:

$$
z = \frac{x - \mu}{\sigma}
$$

A todas las variables continuas, mejorando la estabilidad num√©rica y la convergencia durante el entrenamiento.

---

## ‚è≥ **C. Secuencias temporales**

Cada jugador se representa mediante una **ventana temporal** de longitud $L = 10$ frames:

$$
\text{Secuencia}_i = [x_{t-L+1}, ..., x_t]
$$

El modelo LSTM procesa estas secuencias para capturar la evoluci√≥n temporal de las trayectorias.

---

## üìä **D. Evaluaci√≥n de desempe√±o**

Las m√©tricas principales son:

- **Error cuadr√°tico medio (RMSE):**
  $$
  RMSE = \sqrt{\frac{1}{N}\sum_i ((\hat{x}_i - x_i)^2 + (\hat{y}_i - y_i)^2)}
  $$

- **Error absoluto medio (MAE):**
  $$
  MAE = \frac{1}{N}\sum_i (|\hat{x}_i - x_i| + |\hat{y}_i - y_i|)
  $$

- **Distancia euclidiana promedio:**
  $$
  d_{mean} = \frac{1}{N}\sum_i \sqrt{(\hat{x}_i - x_i)^2 + (\hat{y}_i - y_i)^2}
  $$

---

## üéØ **E. Interpretaci√≥n visual**

El c√≥digo genera gr√°ficos de dispersi√≥n $(x_{true}, x_{pred})$ y $(y_{true}, y_{pred})$, histogramas de error y curvas acumulativas de precisi√≥n para verificar qu√© porcentaje de predicciones cae dentro de 5, 10 o 15 yardas.

---

## üîç **F. S√≠ntesis final**

El modelo LSTM integra:

- Entradas din√°micas (trayectorias y velocidades)  
- Entradas est√°ticas (atributos y contexto)  
- Predicci√≥n de salida multivariada $(x, y)$  

üß† Este flujo reproduce fielmente el comportamiento espacial y temporal de los jugadores durante las jugadas, combinando **f√≠sica, geometr√≠a y aprendizaje secuencial** en un entorno normalizado y escalable.

‚úÖ **Explicaci√≥n corta del proceso de preprocesamiento (NFL Big Data Bowl 2026)**

Este c√≥digo construye el **dataset de entrenamiento limpio y estandarizado** para los modelos de predicci√≥n del concurso NFL Big Data Bowl 2026.

1. **Unificaci√≥n de datos:** carga y concatena autom√°ticamente todos los archivos semanales (`input_2023_w*.csv`) en un solo DataFrame.
2. **Normalizaci√≥n espacial:** corrige las coordenadas de jugadas que van hacia la izquierda para que todas las jugadas est√©n orientadas en la misma direcci√≥n del campo.
3. **Ingenier√≠a de caracter√≠sticas:** genera variables adicionales como velocidad en eje X/Y, orientaci√≥n y distancias a l√≠neas del campo.
4. **Creaci√≥n de etiquetas (`x_target`, `y_target`):** define las posiciones futuras del jugador desplazadas `H` frames adelante, necesarias para el aprendizaje supervisado.
5. **Eliminaci√≥n de fugas de informaci√≥n:** remueve variables que podr√≠an anticipar el resultado real del modelo.
6. **Exportaci√≥n:** guarda el resultado final como `train_ready.csv`, un dataset limpio, sin fugas y con variables num√©ricas listas para el entrenamiento.

‚û°Ô∏è En resumen, este script automatiza todo el flujo de **preprocesamiento de datos crudos a datos modelables**, garantizando coherencia, integridad y compatibilidad con los modelos de predicci√≥n posteriores.


In [None]:
# ======================================================
# üèà NFL Big Data Bowl 2026 - Preprocesamiento Completo
# Descripci√≥n:
# Este script unifica los archivos semanales, crea etiquetas
# (x_target, y_target), elimina fugas de informaci√≥n y genera
# un dataset limpio y listo para entrenamiento (train_ready.csv)
# ======================================================

import pandas as pd
import numpy as np
from glob import glob
import os

# ======================================================
# 1Ô∏è‚É£ CONFIGURACI√ìN INICIAL
# ======================================================

# üìÇ Carpeta donde est√°n los archivos semanales
DATA_PATH = "/content"   # <-- ajusta si tus archivos est√°n en otra carpeta

# ‚è±Ô∏è Horizonte temporal (n√∫mero de frames hacia adelante a predecir)
H = 5  # puedes ajustar seg√∫n la especificaci√≥n del reto o tus pruebas

# ======================================================
# 2Ô∏è‚É£ FUNCIONES MODULARES
# ======================================================

def load_weekly_data(path_pattern="input_2023_w*.csv"):
    """Carga y concatena todos los archivos semanales."""
    files = sorted(glob(os.path.join(DATA_PATH, path_pattern)))
    if not files:
        raise FileNotFoundError("‚ùå No se encontraron archivos semanales. Verifica la ruta.")
    dfs = [pd.read_csv(f) for f in files]
    data = pd.concat(dfs, ignore_index=True)
    print(f"‚úÖ Se cargaron {len(files)} archivos semanales ({data.shape[0]} filas).")
    return data

def normalize_direction(df):
    """Normaliza coordenadas de jugadas que van hacia la izquierda."""
    df = df.copy()
    left_mask = df["play_direction"] == "left"
    df.loc[left_mask, "x"] = 120 - df.loc[left_mask, "x"]
    df.loc[left_mask, "y"] = 53.3 - df.loc[left_mask, "y"]
    df.loc[left_mask, "dir"] = (df.loc[left_mask, "dir"] + 180) % 360
    df.loc[left_mask, "o"] = (df.loc[left_mask, "o"] + 180) % 360
    return df

def create_targets(df, horizon=5):
    """Crea etiquetas x_target e y_target desplazadas hacia el futuro."""
    df = df.sort_values(["game_id", "play_id", "nfl_id", "frame_id"]).copy()
    df["x_target"] = df.groupby(["game_id", "play_id", "nfl_id"])["x"].shift(-horizon)
    df["y_target"] = df.groupby(["game_id", "play_id", "nfl_id"])["y"].shift(-horizon)
    df = df.dropna(subset=["x_target", "y_target"])
    print(f"üéØ Targets creados a horizonte h={horizon} frames.")
    return df

def engineer_features(df):
    """Crea caracter√≠sticas adicionales de movimiento."""
    df = df.copy()
    df["vx"] = df["s"] * np.cos(np.radians(df["dir"]))
    df["vy"] = df["s"] * np.sin(np.radians(df["dir"]))
    df["ox"] = np.cos(np.radians(df["o"]))
    df["oy"] = np.sin(np.radians(df["o"]))
    df["dist_to_left_sideline"] = df["y"]
    df["dist_to_right_sideline"] = 53.3 - df["y"]
    df["dist_to_nearest_sideline"] = np.minimum(df["y"], 53.3 - df["y"])
    df["dist_to_endzone"] = 120 - df["x"]
    return df

def remove_leakage(df):
    """Elimina columnas con fuga de informaci√≥n."""
    cols_leak = ["dist_to_ball", "angle_to_ball", "vel_toward_ball"]
    df = df.drop(columns=[c for c in cols_leak if c in df.columns], errors="ignore")
    print("üßπ Eliminadas columnas con fuga de informaci√≥n.")
    return df

# ======================================================
# 3Ô∏è‚É£ PIPELINE PRINCIPAL
# ======================================================

def build_training_dataset(h=H):
    """Ejecuta todo el pipeline y genera train_ready.csv."""
    print("üöÄ Iniciando construcci√≥n del dataset...")

    # 1. Cargar datos
    df = load_weekly_data("input_2023_w*.csv")

    # 2. Filtrar solo jugadores a predecir
    df = df[df["player_to_predict"] == 1].copy()
    print(f"üìå Jugadores a predecir: {df.shape[0]} filas.")

    # 3. Normalizar direcci√≥n
    df = normalize_direction(df)

    # 4. Crear caracter√≠sticas b√°sicas
    df = engineer_features(df)

    # 5. Crear etiquetas (targets)
    df = create_targets(df, horizon=h)

    # 6. Eliminar fugas
    df = remove_leakage(df)

    # 7. Guardar dataset final
    out_path = os.path.join(DATA_PATH, "train_ready.csv")
    df.to_csv(out_path, index=False)
    print(f"‚úÖ Dataset final guardado: {out_path}")
    print(f"üßæ Filas: {df.shape[0]} | Columnas: {df.shape[1]}")
    return df

# ======================================================
# 4Ô∏è‚É£ EJECUCI√ìN DIRECTA
# ======================================================

# Ejecuta todo el flujo autom√°ticamente
df_train = build_training_dataset(H)

# Vista previa
df_train.head()


üöÄ Iniciando construcci√≥n del dataset...
‚úÖ Se cargaron 18 archivos semanales (4880579 filas).
üìå Jugadores a predecir: 1303440 filas.
üéØ Targets creados a horizonte h=5 frames.
üßπ Eliminadas columnas con fuga de informaci√≥n.
‚úÖ Dataset final guardado: /content/train_ready.csv
üßæ Filas: 1073215 | Columnas: 33


Unnamed: 0,game_id,play_id,player_to_predict,nfl_id,frame_id,play_direction,absolute_yardline_number,player_name,player_height,player_weight,...,vx,vy,ox,oy,dist_to_left_sideline,dist_to_right_sideline,dist_to_nearest_sideline,dist_to_endzone,x_target,y_target
208,2023090700,101,True,44930,1,right,42,Josh Reynolds,6-3,196,...,-0.0,0.0,0.156952,0.987606,12.17,41.13,12.17,78.97,41.2,12.26
209,2023090700,101,True,44930,2,right,42,Josh Reynolds,6-3,196,...,-0.0,0.0,0.134678,0.990889,12.17,41.13,12.17,78.97,41.33,12.33
210,2023090700,101,True,44930,3,right,42,Josh Reynolds,6-3,196,...,0.008443,0.018131,0.116151,0.993232,12.18,41.12,12.18,78.95,41.54,12.42
211,2023090700,101,True,44930,4,right,42,Josh Reynolds,6-3,196,...,0.100498,0.149332,0.099493,0.995038,12.2,41.1,12.2,78.93,41.79,12.53
212,2023090700,101,True,44930,5,right,42,Josh Reynolds,6-3,196,...,0.290068,0.490674,0.031236,0.999512,12.22,41.08,12.22,78.89,42.12,12.68


‚úÖ **Explicaci√≥n corta del proceso de preprocesamiento final (Dataset listo para modelado)**

Este c√≥digo toma el dataset intermedio `train_ready.csv` y lo transforma en un **dataset completamente num√©rico y estandarizado**, preparado para entrenar modelos de Machine Learning.

1. **Conversi√≥n de variables f√≠sicas:** transforma la altura de formato `'6-3'` a pulgadas y calcula la edad del jugador a partir de su fecha de nacimiento.
2. **Eliminaci√≥n de columnas no num√©ricas:** se eliminan las columnas textuales originales (`player_height`, `player_birth_date`) que no aportan directamente al modelado.
3. **Codificaci√≥n de variables categ√≥ricas:** las columnas como `player_position`, `player_side` y `player_role` se convierten en valores num√©ricos mediante `LabelEncoder`.
4. **Estandarizaci√≥n de variables num√©ricas:** se aplica `StandardScaler` para normalizar las variables continuas y evitar que las diferencias de escala afecten el aprendizaje de los modelos.
5. **Protecci√≥n de variables clave:** se excluyen de la normalizaci√≥n los identificadores (`game_id`, `play_id`, etc.) y las variables objetivo (`x_target`, `y_target`).
6. **Exportaci√≥n final:** se guarda el dataset como `train_ready_final.csv`, con todas las columnas listas para ser usadas por los modelos predictivos.

‚û°Ô∏è En resumen, este script realiza la **√∫ltima etapa del preprocesamiento**, garantizando que todos los datos est√©n **limpios, num√©ricos y en la misma escala**, optimizando as√≠ la calidad y estabilidad del entrenamiento de los modelos.


In [None]:
# ======================================================
# üèà PREPROCESAMIENTO FINAL DEL DATASET - LISTO PARA MODELADO
# Descripci√≥n:
# Este script toma el archivo train_ready.csv y lo transforma
# completamente en un dataset 100% num√©rico, codificado y escalado,
# listo para entrenar los 10 modelos de Machine Learning.
# ======================================================

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, StandardScaler
import os

# ======================================================
# 1Ô∏è‚É£ CONFIGURACI√ìN
# ======================================================

DATA_PATH = "/content"       # Cambia si tus archivos est√°n en otra ruta
INPUT_FILE = "/content/train_ready.csv"
OUTPUT_FILE = "train_ready_final.csv"

# ======================================================
# 2Ô∏è‚É£ FUNCIONES AUXILIARES
# ======================================================

def parse_height(height_str):
    """Convierte una altura tipo '6-3' a pulgadas (ej: 75)."""
    if pd.isna(height_str):
        return np.nan
    try:
        feet, inches = map(int, str(height_str).split('-'))
        return feet * 12 + inches
    except:
        return np.nan

def calculate_age(birth_date, ref_date='2023-09-01'):
    """Convierte la fecha de nacimiento en edad en a√±os."""
    try:
        birth = pd.to_datetime(birth_date, errors='coerce')
        ref = pd.to_datetime(ref_date)
        return (ref - birth).dt.days / 365.25
    except:
        return np.nan

def encode_categoricals(df, categorical_cols):
    """Codifica variables categ√≥ricas usando LabelEncoder."""
    df = df.copy()
    for col in categorical_cols:
        le = LabelEncoder()
        df[col] = le.fit_transform(df[col].astype(str))
    return df

# ======================================================
# 3Ô∏è‚É£ CARGA DEL DATASET
# ======================================================

df = pd.read_csv(os.path.join(DATA_PATH, INPUT_FILE))
print(f"‚úÖ Dataset cargado: {df.shape[0]} filas, {df.shape[1]} columnas")

# ======================================================
# 4Ô∏è‚É£ LIMPIEZA Y TRANSFORMACI√ìN
# ======================================================

# Conversi√≥n de altura y edad
df["height_inches"] = df["player_height"].apply(parse_height)
df["player_age"] = calculate_age(df["player_birth_date"])

# Eliminar columnas originales no num√©ricas
cols_drop = ["player_height", "player_birth_date"]
df = df.drop(columns=[c for c in cols_drop if c in df.columns], errors="ignore")

# Codificaci√≥n de categ√≥ricas
categorical_cols = [c for c in ["player_position", "player_side", "player_role"]
                    if c in df.columns]
df = encode_categoricals(df, categorical_cols)
print("üî¢ Variables categ√≥ricas codificadas num√©ricamente.")

# ======================================================
# 5Ô∏è‚É£ ESCALADO DE VARIABLES NUM√âRICAS
# ======================================================

# Seleccionar columnas num√©ricas
num_cols = df.select_dtypes(include=[np.number]).columns.tolist()

# Evitar escalar los identificadores ni las variables objetivo
cols_to_exclude = ["game_id", "play_id", "nfl_id", "frame_id",
                   "x_target", "y_target"]
scale_cols = [c for c in num_cols if c not in cols_to_exclude]

scaler = StandardScaler()
df[scale_cols] = scaler.fit_transform(df[scale_cols])
print(f"‚öôÔ∏è Escaladas {len(scale_cols)} columnas num√©ricas.")

# ======================================================
# 6Ô∏è‚É£ GUARDADO FINAL
# ======================================================

output_path = os.path.join(DATA_PATH, OUTPUT_FILE)
df.to_csv(output_path, index=False)

print("\n‚úÖ Dataset final guardado correctamente.")
print(f"üìÅ Ruta: {output_path}")
print(f"üßæ Filas: {df.shape[0]} | Columnas: {df.shape[1]}")
print("üéØ Listo para entrenar los 10 modelos del punto 2.")


‚úÖ Dataset cargado: 1073215 filas, 33 columnas
üî¢ Variables categ√≥ricas codificadas num√©ricamente.
‚öôÔ∏è Escaladas 24 columnas num√©ricas.

‚úÖ Dataset final guardado correctamente.
üìÅ Ruta: /content/train_ready_final.csv
üßæ Filas: 1073215 | Columnas: 33
üéØ Listo para entrenar los 10 modelos del punto 2.


‚úÖ **Explicaci√≥n corta del proceso de limpieza final del dataset num√©rico**

Este c√≥digo realiza la **√∫ltima depuraci√≥n del dataset** antes del entrenamiento de los modelos, asegurando que **todas las columnas sean num√©ricas** y eliminando cualquier texto residual.

1. **Carga del dataset:** se lee el archivo `train_ready_final.csv` previamente procesado.
2. **Detecci√≥n de columnas no num√©ricas:** se identifican variables de tipo texto o categ√≥ricas que a√∫n no fueron convertidas.
3. **Eliminaci√≥n de texto irrelevante:** se eliminan columnas descriptivas como `player_name` y `play_direction`, ya que no aportan informaci√≥n √∫til para el modelado.
4. **Verificaci√≥n de tipos:** se revisa que todas las columnas restantes sean num√©ricas o booleanas.
5. **Guardado del dataset limpio:** se exporta como `train_ready_final_numeric.csv`, garantizando que el conjunto est√© **100 % num√©rico, sin fugas de informaci√≥n y completamente listo para el entrenamiento** de modelos de Machine Learning.


In [None]:
import pandas as pd

# Cargar el dataset final
df = pd.read_csv("/content/train_ready_final.csv")

# Verificar columnas no num√©ricas
non_numeric = df.select_dtypes(exclude=["number", "bool"]).columns.tolist()
print("Columnas no num√©ricas detectadas:", non_numeric)

# Eliminar columnas irrelevantes de texto
cols_to_drop = ["player_name", "play_direction"]  # Ajusta si cambia el nombre
df = df.drop(columns=[c for c in cols_to_drop if c in df.columns], errors="ignore")

# Confirmar limpieza
print("Tipos de datos finales:")
print(df.dtypes.value_counts())

# Guardar dataset final limpio
df.to_csv("/content/train_ready_final_numeric.csv", index=False)
print("‚úÖ Archivo guardado: train_ready_final_numeric.csv ‚Äî 100 % num√©rico y listo.")


Columnas no num√©ricas detectadas: ['play_direction', 'player_name']
Tipos de datos finales:
float64    26
int64       4
bool        1
Name: count, dtype: int64
‚úÖ Archivo guardado: train_ready_final_numeric.csv ‚Äî 100 % num√©rico y listo.
