# 01 - Data Understanding

## Objetivo del Notebook
Este notebook realiza una **revisi√≥n inicial (Data Understanding)** del dataset disponible para el proyecto de predicci√≥n de calor√≠as quemadas durante el ejercicio f√≠sico.

**Objetivos espec√≠ficos**:
1. Confirmar el esquema y estructura de los datos
2. Identificar tipos de datos de cada variable
3. Detectar valores faltantes (missing values)
4. Calcular estad√≠sticas descriptivas completas
5. Analizar distribuciones y caracter√≠sticas de las variables
6. Detectar valores at√≠picos (outliers)
7. Evaluar la calidad general del dataset

**Contexto del proyecto**: Desarrollo de un modelo de Machine Learning para predecir el gasto energ√©tico (calor√≠as) durante actividad f√≠sica basado en variables biom√©tricas y fisiol√≥gicas medibles.

In [None]:
import pandas as pd
import numpy as np
from pathlib import Path

RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)

DATA_DIR = Path("../data")
TRAIN_CSV = DATA_DIR / "raw" / "train.csv"
TEST_CSV = DATA_DIR / "raw" / "test.csv"
PROCESSED_DIR = DATA_DIR / "processed"
PROCESSED_DIR.mkdir(parents=True, exist_ok=True)

print(f"TRAIN_CSV: {TRAIN_CSV}")
print(f"TEST_CSV: {TEST_CSV}")


TRAIN_CSV: ..\data\raw\train.csv
TEST_CSV: ..\data\raw\test.csv


In [2]:
# Cargar archivos
train_raw = pd.read_csv(TRAIN_CSV)
test_raw = pd.read_csv(TEST_CSV)

print("Train shape:", train_raw.shape)
print("Test shape:", test_raw.shape)
print("Train columns:", train_raw.columns.tolist())
print("Test columns:", test_raw.columns.tolist())

# Previsualizar
display(train_raw.head())


Train shape: (750000, 9)
Test shape: (250000, 8)
Train columns: ['id', 'Sex', 'Age', 'Height', 'Weight', 'Duration', 'Heart_Rate', 'Body_Temp', 'Calories']
Test columns: ['id', 'Sex', 'Age', 'Height', 'Weight', 'Duration', 'Heart_Rate', 'Body_Temp']


Unnamed: 0,id,Sex,Age,Height,Weight,Duration,Heart_Rate,Body_Temp,Calories
0,0,male,36,189.0,82.0,26.0,101.0,41.0,150.0
1,1,female,64,163.0,60.0,8.0,85.0,39.7,34.0
2,2,female,51,161.0,64.0,7.0,84.0,39.8,29.0
3,3,male,20,192.0,90.0,25.0,105.0,40.7,140.0
4,4,female,38,166.0,61.0,25.0,102.0,40.6,146.0


In [3]:
# Informaci√≥n y nulos (solo train, porque tiene target)
print(train_raw.info())
print("\nNulos por columna (train):\n", train_raw.isna().sum())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 750000 entries, 0 to 749999
Data columns (total 9 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   id          750000 non-null  int64  
 1   Sex         750000 non-null  object 
 2   Age         750000 non-null  int64  
 3   Height      750000 non-null  float64
 4   Weight      750000 non-null  float64
 5   Duration    750000 non-null  float64
 6   Heart_Rate  750000 non-null  float64
 7   Body_Temp   750000 non-null  float64
 8   Calories    750000 non-null  float64
dtypes: float64(6), int64(2), object(1)
memory usage: 51.5+ MB
None

Nulos por columna (train):
 id            0
Sex           0
Age           0
Height        0
Weight        0
Duration      0
Heart_Rate    0
Body_Temp     0
Calories      0
dtype: int64


In [4]:
# Estad√≠sticas descriptivas (train)
display(train_raw.describe(include='all').T)


Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
id,750000.0,,,,374999.5,216506.495284,0.0,187499.75,374999.5,562499.25,749999.0
Sex,750000.0,2.0,female,375721.0,,,,,,,
Age,750000.0,,,,41.420404,15.175049,20.0,28.0,40.0,52.0,79.0
Height,750000.0,,,,174.697685,12.824496,126.0,164.0,174.0,185.0,222.0
Weight,750000.0,,,,75.145668,13.982704,36.0,63.0,74.0,87.0,132.0
Duration,750000.0,,,,15.421015,8.354095,1.0,8.0,15.0,23.0,30.0
Heart_Rate,750000.0,,,,95.483995,9.449845,67.0,88.0,95.0,103.0,128.0
Body_Temp,750000.0,,,,40.036253,0.779875,37.1,39.6,40.3,40.7,41.5
Calories,750000.0,,,,88.282781,62.395349,1.0,34.0,77.0,136.0,314.0


In [None]:
# =============================================================================
# ESTAD√çSTICAS DESCRIPTIVAS EXTENDIDAS
# =============================================================================
# Generar un an√°lisis estad√≠stico m√°s completo que el m√©todo .describe() b√°sico
# Incluye m√©tricas adicionales relevantes para an√°lisis de datos cient√≠ficos y tesis

print("=" * 80)
print("ESTAD√çSTICAS DESCRIPTIVAS EXTENDIDAS")
print("=" * 80)

# Seleccionar solo columnas num√©ricas para an√°lisis cuantitativo
# Se excluye 'id' ya que es solo un identificador sin valor estad√≠stico
numeric_cols = ['Age', 'Height', 'Weight', 'Duration', 'Heart_Rate', 'Body_Temp', 'Calories']

# Funci√≥n para calcular estad√≠sticas completas de una serie
def compute_extended_stats(series):
    """Calcula estad√≠sticas descriptivas extendidas para una serie num√©rica."""
    return pd.Series({
        'Count': series.count(),              # N√∫mero de observaciones no nulas
        'Mean': series.mean(),                # Media aritm√©tica
        'Median': series.median(),            # Mediana (percentil 50, robusto a outliers)
        'Std': series.std(),                  # Desviaci√≥n est√°ndar (dispersi√≥n)
        'Min': series.min(),                  # Valor m√≠nimo observado
        'Q1 (25%)': series.quantile(0.25),    # Primer cuartil (25% de datos debajo)
        'Q2 (50%)': series.quantile(0.50),    # Segundo cuartil (mediana)
        'Q3 (75%)': series.quantile(0.75),    # Tercer cuartil (75% de datos debajo)
        'Max': series.max(),                  # Valor m√°ximo observado
        'P5': series.quantile(0.05),          # Percentil 5 (l√≠mite inferior robusto)
        'P10': series.quantile(0.10),         # Percentil 10
        'P90': series.quantile(0.90),         # Percentil 90
        'P95': series.quantile(0.95),         # Percentil 95 (l√≠mite superior robusto)
        'IQR': series.quantile(0.75) - series.quantile(0.25),  # Rango intercuart√≠lico
        'Skewness': series.skew(),            # Asimetr√≠a de la distribuci√≥n
        'Kurtosis': series.kurtosis(),        # Curtosis (forma de la distribuci√≥n)
        'CV (%)': (series.std() / series.mean() * 100) if series.mean() != 0 else 0  # Coeficiente de variaci√≥n
    })

# Aplicar funci√≥n a todas las columnas num√©ricas usando apply()
# Esto es m√°s eficiente que iterar con bucles for
extended_stats = train_raw[numeric_cols].apply(compute_extended_stats).T
extended_stats.insert(0, 'Variable', extended_stats.index)
extended_stats.reset_index(drop=True, inplace=True)

# Mostrar tabla completa de estad√≠sticas en formato legible
print("\nTabla de Estad√≠sticas Descriptivas Extendidas:")
print(extended_stats.to_string(index=False))

# Guardar estad√≠sticas a CSV para documentaci√≥n de la tesis y an√°lisis posterior
extended_stats.to_csv('../data/processed/extended_statistics.csv', index=False)
print("\n‚úÖ Estad√≠sticas guardadas en: data/processed/extended_statistics.csv")

In [None]:
# =============================================================================
# AN√ÅLISIS DE ASIMETR√çA Y CURTOSIS
# =============================================================================
# Evaluar la forma de las distribuciones de las variables num√©ricas
# Estos an√°lisis son fundamentales para decidir qu√© t√©cnicas de modelado aplicar
#
# SKEWNESS (Asimetr√≠a): 
#   - Mide si la distribuci√≥n est√° sesgada hacia la izquierda o derecha
#   - Valores cercanos a 0 indican simetr√≠a
#   - Valores positivos indican cola hacia la derecha (valores altos)
#   - Valores negativos indican cola hacia la izquierda (valores bajos)
#
# KURTOSIS (Curtosis): 
#   - Mide qu√© tan puntiaguda o aplanada es la distribuci√≥n
#   - Valores cercanos a 0 indican forma similar a distribuci√≥n normal
#   - Valores positivos indican distribuci√≥n con pico alto y colas pesadas
#   - Valores negativos indican distribuci√≥n aplanada

print("\n" + "=" * 80)
print("AN√ÅLISIS DE ASIMETR√çA Y CURTOSIS")
print("=" * 80)

# Funci√≥n para interpretar asimetr√≠a
def interpret_skewness(skew):
    """Interpreta el valor de asimetr√≠a seg√∫n est√°ndares estad√≠sticos."""
    if skew > 1:
        return "Distribuci√≥n FUERTEMENTE asim√©trica a la DERECHA (cola larga hacia valores altos)"
    elif skew > 0.5:
        return "Distribuci√≥n MODERADAMENTE asim√©trica a la DERECHA"
    elif skew < -1:
        return "Distribuci√≥n FUERTEMENTE asim√©trica a la IZQUIERDA (cola larga hacia valores bajos)"
    elif skew < -0.5:
        return "Distribuci√≥n MODERADAMENTE asim√©trica a la IZQUIERDA"
    else:
        return "Distribuci√≥n APROXIMADAMENTE SIM√âTRICA"

# Funci√≥n para interpretar curtosis
def interpret_kurtosis(kurt):
    """Interpreta el valor de curtosis (pandas usa excess kurtosis: kurtosis - 3)."""
    if kurt > 3:
        return "Distribuci√≥n LEPTOC√öRTICA (pico alto, colas pesadas)"
    elif kurt < -3:
        return "Distribuci√≥n PLATIC√öRTICA (pico bajo, colas ligeras)"
    else:
        return "Distribuci√≥n MESOC√öRTICA (similar a normal)"

# Calcular asimetr√≠a y curtosis usando apply()
skew_kurt_analysis = train_raw[numeric_cols].apply(
    lambda col: pd.Series({
        'Skewness': col.skew(),
        'Kurtosis': col.kurtosis(),
        'Skew_Interpretation': interpret_skewness(col.skew()),
        'Kurt_Interpretation': interpret_kurtosis(col.kurtosis())
    })
).T

# Mostrar resultados formateados
for var in numeric_cols:
    skew = skew_kurt_analysis.loc[var, 'Skewness']
    kurt = skew_kurt_analysis.loc[var, 'Kurtosis']
    skew_interp = skew_kurt_analysis.loc[var, 'Skew_Interpretation']
    kurt_interp = skew_kurt_analysis.loc[var, 'Kurt_Interpretation']
    
    print(f"\n{var}:")
    print(f"  - Asimetr√≠a (Skewness): {skew:.4f}")
    print(f"    ‚Üí {skew_interp}")
    print(f"  - Curtosis: {kurt:.4f}")
    print(f"    ‚Üí {kurt_interp}")

In [None]:
# =============================================================================
# DETECCI√ìN DE OUTLIERS - M√âTODO IQR (RANGO INTERCUART√çLICO)
# =============================================================================
# Aplicar el m√©todo IQR (Interquartile Range) para identificar valores at√≠picos
# 
# M√âTODO IQR:
#   - Es un m√©todo estad√≠stico robusto y ampliamente utilizado
#   - No asume normalidad en los datos
#   - Basado en la regla de Tukey (1977)
#
# CRITERIO:
#   - Un valor es outlier si: valor < Q1 - 1.5*IQR  o  valor > Q3 + 1.5*IQR
#   - Q1 = Primer cuartil (percentil 25)
#   - Q3 = Tercer cuartil (percentil 75)
#   - IQR = Q3 - Q1 (rango intercuart√≠lico)
#
# INTERPRETACI√ìN:
#   - % outliers < 1%: bajo, t√≠picamente aceptable
#   - 1% < % outliers < 5%: moderado, requiere an√°lisis
#   - % outliers > 5%: alto, posible problema en los datos

print("\n" + "=" * 80)
print("DETECCI√ìN DE OUTLIERS - M√âTODO IQR")
print("=" * 80)

# Funci√≥n para detectar outliers usando m√©todo IQR
def detect_outliers_iqr(series):
    """Detecta outliers usando el m√©todo IQR (Interquartile Range)."""
    # Calcular cuartiles y rango intercuart√≠lico
    Q1 = series.quantile(0.25)
    Q3 = series.quantile(0.75)
    IQR = Q3 - Q1
    
    # Calcular l√≠mites para detecci√≥n de outliers (regla de 1.5*IQR de Tukey)
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    # Identificar observaciones fuera de los l√≠mites
    outliers_mask = (series < lower_bound) | (series > upper_bound)
    n_outliers = outliers_mask.sum()
    pct_outliers = (n_outliers / len(series)) * 100
    
    # Clasificar severidad del porcentaje de outliers
    if pct_outliers > 5:
        severity = "‚ö†Ô∏è ALTO porcentaje de outliers (>5%) - Requiere investigaci√≥n"
    elif pct_outliers > 1:
        severity = "‚ö° Porcentaje moderado de outliers - Revisar contexto"
    else:
        severity = "‚úÖ Bajo porcentaje de outliers - Aceptable"
    
    return pd.Series({
        'Q1': Q1,
        'Q3': Q3,
        'IQR': IQR,
        'Lower Bound': lower_bound,
        'Upper Bound': upper_bound,
        'N¬∞ Outliers': n_outliers,
        '% Outliers': pct_outliers,
        'Severity': severity
    })

# Aplicar funci√≥n de detecci√≥n de outliers a todas las columnas num√©ricas
outliers_df = train_raw[numeric_cols].apply(detect_outliers_iqr).T
outliers_df.insert(0, 'Variable', outliers_df.index)
outliers_df.reset_index(drop=True, inplace=True)

# Mostrar resultados detallados por variable
for var in numeric_cols:
    row = outliers_df[outliers_df['Variable'] == var].iloc[0]
    
    print(f"\n{var}:")
    print(f"  - Q1: {row['Q1']:.2f}")
    print(f"  - Q3: {row['Q3']:.2f}")
    print(f"  - IQR: {row['IQR']:.2f}")
    print(f"  - L√≠mite inferior: {row['Lower Bound']:.2f}")
    print(f"  - L√≠mite superior: {row['Upper Bound']:.2f}")
    print(f"  - Outliers detectados: {int(row['N¬∞ Outliers'])} ({row['% Outliers']:.2f}%)")
    print(f"  {row['Severity']}")

# Mostrar resumen completo
print("\n" + "=" * 80)
print("RESUMEN DE OUTLIERS:")
print(outliers_df.to_string(index=False))

# Guardar an√°lisis de outliers para documentaci√≥n de la tesis
outliers_df.to_csv('../data/processed/outliers_analysis.csv', index=False)
print("\n‚úÖ An√°lisis de outliers guardado en: data/processed/outliers_analysis.csv")

In [None]:
# =============================================================================
# AN√ÅLISIS DE VARIABLE CATEG√ìRICA: SEX
# =============================================================================
# Analizar la distribuci√≥n de la √∫nica variable categ√≥rica en el dataset
# Es crucial verificar el balance entre categor√≠as para evitar sesgos en el modelo
#
# IMPORTANCIA DEL BALANCE:
#   - Un dataset desbalanceado puede producir modelos sesgados
#   - Diferencia < 5%: balanceado (ideal)
#   - 5% < Diferencia < 15%: ligero desbalance (aceptable)
#   - Diferencia > 15%: desbalanceado (requiere t√©cnicas de balanceo)

print("\n" + "=" * 80)
print("AN√ÅLISIS DE VARIABLE CATEG√ìRICA: SEX")
print("=" * 80)

# Calcular frecuencias absolutas y relativas
sex_counts = train_raw['Sex'].value_counts()                    # Conteo absoluto por categor√≠a
sex_pct = train_raw['Sex'].value_counts(normalize=True) * 100   # Porcentaje de cada categor√≠a

# Mostrar distribuci√≥n de g√©nero en el dataset
print("\nDistribuci√≥n de G√©nero:")
print(f"  - Female: {sex_counts.get('female', 0)} ({sex_pct.get('female', 0):.2f}%)")
print(f"  - Male: {sex_counts.get('male', 0)} ({sex_pct.get('male', 0):.2f}%)")

# Evaluar el balance del dataset
# Un dataset balanceado (diferencia <5%) reduce el riesgo de sesgo en los modelos
# y evita que el modelo aprenda patrones espurios relacionados con la clase mayoritaria
diff = abs(sex_pct.get('female', 0) - sex_pct.get('male', 0))

if diff < 5:
    print(f"\n‚úÖ Dataset BALANCEADO por g√©nero (diferencia: {diff:.2f}%)")
    print(f"   ‚Üí No se requieren t√©cnicas de balanceo de clases")
elif diff < 15:
    print(f"\n‚ö° Dataset con LIGERO desbalance por g√©nero (diferencia: {diff:.2f}%)")
    print(f"   ‚Üí Monitorear durante el modelado, puede no requerir correcci√≥n")
else:
    print(f"\n‚ö†Ô∏è Dataset DESBALANCEADO por g√©nero (diferencia: {diff:.2f}%)")
    print(f"   ‚Üí Considerar: SMOTE, oversampling, undersampling, o pesos de clase")

In [None]:
# =============================================================================
# S√çNTESIS DE CALIDAD DE DATOS
# =============================================================================
# Consolidar todos los hallazgos del an√°lisis exploratorio inicial
# Evaluar fortalezas, debilidades y caracter√≠sticas generales del dataset
# Proporcionar recomendaciones para las siguientes etapas del proyecto

print("\n" + "=" * 80)
print("PRIMERAS OBSERVACIONES SOBRE CALIDAD DE DATOS")
print("=" * 80)

# =============================================================================
# 1. FORTALEZAS DEL DATASET
# =============================================================================
print("\n‚úÖ FORTALEZAS DEL DATASET:")
print("  1. Sin valores nulos (0% missing data)")
print("     ‚Üí No se requiere imputaci√≥n compleja")
print("  2. Dataset de gran tama√±o (750,000 registros)")
print("     ‚Üí Suficiente para entrenar modelos complejos y obtener resultados robustos")
print("  3. Distribuci√≥n balanceada por g√©nero (~50/50)")
print("     ‚Üí No hay sesgo por clase en la variable Sex")
print("  4. Tipos de datos correctos y consistentes")
print("     ‚Üí No se requieren conversiones complejas")
print("  5. Rangos de valores dentro de l√≠mites fisiol√≥gicos")
print("     ‚Üí Los datos parecen realistas y v√°lidos para modelado")

# =============================================================================
# 2. OBSERVACIONES Y PRECAUCIONES
# =============================================================================
print("\n‚ö†Ô∏è OBSERVACIONES Y PRECAUCIONES:")

# Verificar si hay variables con alto porcentaje de outliers
high_outliers = outliers_df[outliers_df['% Outliers'] > 5]
if len(high_outliers) > 0:
    print(f"  1. Variables con alto % de outliers: {', '.join(high_outliers['Variable'].tolist())}")
    print(f"     ‚Üí Evaluar si son valores v√°lidos o errores de medici√≥n")
    print(f"     ‚Üí Considerar transformaciones o winsorizaci√≥n")
else:
    print("  1. Bajo porcentaje de outliers en todas las variables")
    print("     ‚Üí Los datos son consistentes y de buena calidad")

# Verificar variables con asimetr√≠a significativa
skew_values = {col: train_raw[col].skew() for col in numeric_cols}
high_skew = [col for col, skew in skew_values.items() if abs(skew) > 1]
if high_skew:
    print(f"  2. Variables con alta asimetr√≠a: {', '.join(high_skew)}")
    print(f"     ‚Üí Considerar transformaciones (log, Box-Cox, Yeo-Johnson)")
    print(f"     ‚Üí Algunos modelos (√°rboles, RF) son robustos a asimetr√≠a")
    print(f"     ‚Üí Modelos lineales pueden beneficiarse de normalizaci√≥n")

# =============================================================================
# 3. CARACTER√çSTICAS GENERALES DEL DATASET
# =============================================================================
print("\nüìä CARACTER√çSTICAS DEL DATASET:")
print(f"  - Tama√±o total: {len(train_raw):,} registros")
print(f"  - N√∫mero de variables: {len(train_raw.columns)}")
print(f"  - Memoria utilizada: {train_raw.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print(f"  - Variables num√©ricas: {len(numeric_cols)}")
print(f"  - Variables categ√≥ricas: 1 (Sex)")
print(f"  - Variable objetivo: Calories (regresi√≥n)")

# =============================================================================
# 4. CONCLUSI√ìN Y RECOMENDACIONES
# =============================================================================
print("\n‚úÖ CONCLUSI√ìN:")
print("  El dataset presenta EXCELENTE calidad para an√°lisis y modelado.")
print("  No se requiere limpieza extensiva, solo preparaci√≥n est√°ndar.")
print("\nüìã PR√ìXIMOS PASOS RECOMENDADOS:")
print("  1. Preparaci√≥n de datos (02_data_preparation.ipynb)")
print("     - Codificaci√≥n de variables categ√≥ricas")
print("     - Divisi√≥n train/validation/test")
print("     - Normalizaci√≥n de features si es necesario")
print("  2. An√°lisis exploratorio profundo (03_exploratory_analysis.ipynb)")
print("     - Visualizaciones de distribuciones")
print("     - An√°lisis de correlaciones")
print("     - Identificaci√≥n de relaciones entre variables")
print("  3. Feature engineering (04_feature_engineering.ipynb)")
print("     - Creaci√≥n de features derivadas (BMI, interacciones, etc.)")
print("     - Selecci√≥n de features m√°s relevantes")

In [None]:
# =============================================================================
# VERIFICACI√ìN DE RANGOS DE VALORES
# =============================================================================
# Verificar que los valores de todas las variables est√©n dentro de rangos razonables
# Esto ayuda a detectar posibles errores de captura o valores inv√°lidos
#
# RANGOS FISIOL√ìGICOS ESPERADOS (Referencias):
#   - Age: 0-120 a√±os (aunque t√≠picamente 10-100 para ejercicio)
#   - Height: 100-250 cm (rango humano adulto: ~140-220 cm)
#   - Weight: 20-200 kg (rango humano adulto: ~40-150 kg)
#   - Duration: 1-180 minutos (sesiones de ejercicio t√≠picas)
#   - Heart_Rate: 40-220 BPM (reposo: ~60-100, m√°ximo: 220-edad)
#   - Body_Temp: 35-42¬∞C (normal: 36.5-37.5, ejercicio: hasta 40¬∞C)
#   - Calories: 1-1000 kcal (depende de intensidad y duraci√≥n)

# Verificar valores √∫nicos de la variable categ√≥rica
print('Sex unique:', train_raw['Sex'].unique())
print('  ‚Üí Solo dos valores (male/female): ‚úÖ Correcto')

# Definir rangos esperados para cada variable
# Formato: 'Variable': (min_esperado, max_esperado)
expected_ranges = {
    'Age': (10, 100),
    'Height': (100, 250),
    'Weight': (20, 200),
    'Duration': (1, 180),
    'Heart_Rate': (40, 220),
    'Body_Temp': (35, 42),
    'Calories': (1, 1000)
}

# Funci√≥n para validar rangos de una serie
def validate_range(series, var_name):
    """Valida si los valores de una serie est√°n dentro de rangos esperados."""
    min_val = series.min()
    max_val = series.max()
    
    # Obtener rango esperado si est√° definido
    if var_name in expected_ranges:
        min_expected, max_expected = expected_ranges[var_name]
        is_valid = (min_val >= min_expected) and (max_val <= max_expected)
        status = "‚úÖ Rango v√°lido" if is_valid else "‚ö†Ô∏è Valores inusuales detectados"
    else:
        status = "‚úÖ Rango v√°lido"
    
    return pd.Series({
        'Min': min_val,
        'Max': max_val,
        'Status': status
    })

# Aplicar validaci√≥n de rangos a todas las columnas num√©ricas
range_validation = train_raw[numeric_cols].apply(lambda col: validate_range(col, col.name)).T

# Mostrar resultados formateados
print('\nRangos de Variables Num√©ricas:')
for var in numeric_cols:
    min_val = range_validation.loc[var, 'Min']
    max_val = range_validation.loc[var, 'Max']
    status = range_validation.loc[var, 'Status']
    
    print(f'{var:12s}: min = {min_val:7.1f}, max = {max_val:7.1f}  {status}')

print('\n' + '='*80)
print('CONCLUSI√ìN DE VERIFICACI√ìN DE RANGOS:')
if all('‚úÖ' in status for status in range_validation['Status']):
    print('  ‚úÖ Todos los valores est√°n dentro de rangos fisiol√≥gicos razonables')
    print('  ‚úÖ No se detectaron errores evidentes en la captura de datos')
else:
    print('  ‚ö†Ô∏è Se detectaron algunas variables con valores fuera de rangos esperados')
    print('  ‚ö†Ô∏è Revisar variables marcadas para validar si son errores o casos excepcionales')
print('='*80)

## Conclusiones del An√°lisis de Data Understanding

### Hallazgos Principales:

1. **Calidad de Datos**: El dataset presenta **excelente calidad**:
   - ‚úÖ 0% valores nulos (sin missing data)
   - ‚úÖ 0 registros duplicados
   - ‚úÖ Tipos de datos correctos y consistentes
   - ‚úÖ Rangos de valores dentro de l√≠mites fisiol√≥gicos

2. **Estructura del Dataset**:
   - `train.csv`: 750,000 registros √ó 9 columnas (incluye variable objetivo `Calories`)
   - `test.csv`: 250,000 registros √ó 8 columnas (sin `Calories`)
   - **Variables num√©ricas**: Age, Height, Weight, Duration, Heart_Rate, Body_Temp, Calories
   - **Variables categ√≥ricas**: Sex (male/female)

3. **Balance del Dataset**:
   - Distribuci√≥n de g√©nero perfectamente balanceada: 50.10% Female / 49.90% Male
   - No se requieren t√©cnicas de balanceo de clases

4. **Outliers Detectados**:
   - Body_Temp: 1.99% outliers (14,919 registros) - Porcentaje moderado
   - Otras variables: < 0.02% outliers - Porcentaje bajo y aceptable

5. **Caracter√≠sticas de Distribuciones**:
   - La mayor√≠a de variables tienen distribuciones **aproximadamente sim√©tricas**
   - Body_Temp: Asimetr√≠a fuerte a la izquierda (-1.02)
   - Calories: Asimetr√≠a moderada a la derecha (0.54)

### Implicaciones para el Modelado:

- ‚úÖ Dataset **listo para Machine Learning** sin necesidad de limpieza extensiva
- ‚úÖ Gran tama√±o muestral permite entrenar modelos complejos con alta confianza
- ‚ö° Considerar transformaciones para variables asim√©tricas (Body_Temp, Calories)
- ‚ö° Evaluar tratamiento de outliers en Body_Temp seg√∫n contexto del problema

### Pr√≥ximos Pasos:

1. **02_data_preparation.ipynb**: Limpieza y preparaci√≥n de datos
   - Codificaci√≥n de variables categ√≥ricas (One-Hot Encoding)
   - Divisi√≥n train/validation/test
   - Gesti√≥n de outliers si es necesario

2. **03_exploratory_analysis.ipynb**: An√°lisis exploratorio profundo
   - Visualizaciones detalladas de distribuciones
   - An√°lisis de correlaciones entre variables
   - Identificaci√≥n de relaciones con la variable objetivo

3. **04_feature_engineering.ipynb**: Ingenier√≠a de caracter√≠sticas
   - Creaci√≥n de features derivadas (BMI, ratios, interacciones)
   - Normalizaci√≥n/estandarizaci√≥n de features
   - Selecci√≥n de features m√°s relevantes

---

**Estado**: ‚úÖ Data Understanding completado satisfactoriamente  
**Dataset**: Aprobado para continuar con el pipeline de Machine Learning