In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from pathlib import Path

print("CWD =", Path.cwd())
data_path = "./data"

# Importar datos

In [None]:
df = pd.read_csv(data_path+"/Injury_Risk/Injury_Risk.csv")

# Análisis exploratorio de datos

## Metadatos

### Entradas (X):

- **EMG_Quad_RMS_mV** (mV): RMS EMG cuádriceps.
- **EMG_Ham_RMS_mV** (mV): RMS EMG isquiotibiales.
- **GRF_Vert_Norm_BW** (BW): Fuerza de reacción vertical (normalizada).
- **Omega_Shank_deg_s** (deg/s): Velocidad angular de la pierna (IMU).
- **Hip_Flex_deg** (deg): Flexión de cadera.

### Objetivos (y):

- **Knee_Flex_deg** (deg): Ángulo de flexión de rodilla (regresión).
- **Risk_Lesion** (0/1): Riesgo alto de lesión (clasificación).

## 1. Información Inicial

- Identificar tipo de variable: numérica, categórica, ordinal, binaria.
- Establecer unidad de análisis (por sujeto o por medición).
- Documentar el diccionario de variables.

## 2. Calidad de los datos

- Valores faltantes: porcentaje, patrón y manejo (eliminación, imputación o modelado).
- Cardinalidad irregular: detectar columnas con un solo valor o codificación errónea.
- Outliers: aplicar criterio de Tukey o z-score (>3σ).
-Validez contextual: verificar rangos fisiológicos (e.g., knee_flex_deg ∈ [0,180]).

## 3. Análisis univariado

- Variables numéricas: histograma, densidad, simetría, curtosis.
- Variables categóricas: frecuencia y proporciones.
- Objetivo de regresión: distribución y normalidad de knee_flex_deg.
- Objetivo de clasificación: balance de clases en Risk_Lesion.
- Indicadores sugeridos
    - Asimetría (skew), curtosis (kurt).
    - Test de normalidad: Shapiro–Wilk o Kolmogorov–Smirnov.
    - Detección de colas largas

## 4. Análisis bivariado

### 4.1 Regresión (knee_flex_deg)

- Correlaciones (Pearson/Spearman) entre knee_flex_deg y las variables predictoras.
- Dispersión y relación lineal/no lineal.
- Posibles transformaciones (log, sqrt, normalización z-score).

### 4.2 Clasificación (Risk_Lesion)

- Comparación de medias por grupo (t-test o ANOVA).
- Visualización de separación de clases: sns.pairplot(hue='Risk_Lesion').
- Matriz de correlación de variables relevantes para discriminación.

## 5. Análisis multivariado

- Reducción de dimensionalidad: PCA, t-SNE, o UMAP (para inspección visual).
- Evaluación de colinealidad: VIF > 5 sugiere eliminar variables redundantes.
- Mapeo estructural: identificar clústeres naturales y relaciones no lineales.

## 6. Preparación del ABT (Analytical Base Table)

- Eliminar variables con >60% de valores nulos.
- Codificar variables categóricas (one-hot o label encoding).
- Escalar numéricas (StandardScaler o MinMaxScaler).
- Dividir entre train / test sin fuga de información.

## 7. EDA orientado al modelado

- Para regresión: identificar relaciones no lineales → explorar transformaciones de knee_flex_deg.
- Para clasificación: verificar separabilidad y métricas de desequilibrio (balanced_accuracy, AUC).

# 8. Descenso de gradiente