# üìä An√°lisis Exploratorio de Datos (EDA)
## Clasificaci√≥n de Niveles de Obesidad - Regresi√≥n Ordinal

Este notebook realiza un an√°lisis exploratorio completo del dataset para:
1. Entender la estructura y caracter√≠sticas de los datos
2. Analizar la distribuci√≥n de las clases de obesidad
3. Identificar problemas como desbalance de clases
4. Generar visualizaciones y reportes

**Problema**: Regresi√≥n Ordinal con 7 clases ordenadas de niveles de obesidad


## 1. Importaci√≥n de Librer√≠as

### ¬øPor qu√© estas librer√≠as?

- **pandas**: Manipulaci√≥n y an√°lisis de datos estructurados. Permite trabajar con DataFrames de forma eficiente.
- **numpy**: Operaciones matem√°ticas y estad√≠sticas. Base para muchas operaciones de ML.
- **matplotlib y seaborn**: Creaci√≥n de visualizaciones. Seaborn facilita gr√°ficos estad√≠sticos atractivos.
- **warnings**: Para suprimir mensajes innecesarios y mantener la salida limpia.

### Configuraci√≥n de Visualizaci√≥n

Configuramos el estilo de los gr√°ficos para que sean m√°s legibles y profesionales.


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# Configuraci√≥n para mejorar la visualizaci√≥n
warnings.filterwarnings('ignore')
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

print("‚úì Librer√≠as importadas correctamente")


## 2. Carga del Dataset

### ¬øQu√© hace este paso?

Este paso carga el archivo CSV con los datos originales. Es importante verificar que:
- El archivo se carga correctamente
- No hay errores de formato
- La estructura es la esperada

### ¬øPor qu√© es importante?

Antes de hacer cualquier an√°lisis, debemos asegurarnos de que los datos est√°n en el formato correcto y que no hay problemas obvios (valores faltantes masivos, columnas incorrectas, etc.).


In [None]:
# Cargar el dataset
df = pd.read_csv('ObesityDataSet_raw_and_data_sinthetic.csv')

# Mostrar informaci√≥n b√°sica del dataset
print(f"‚úì Dataset cargado exitosamente")
print(f"  - N√∫mero de filas: {len(df)}")
print(f"  - N√∫mero de columnas: {len(df.columns)}")
print(f"\nPrimeras 5 filas del dataset:")
df.head()


In [None]:
# Informaci√≥n general del dataset
print("Informaci√≥n general del dataset:")
df.info()


## 3. Identificaci√≥n de la Variable Objetivo

### ¬øQu√© hace este paso?

Identificamos la columna que contiene las clases de obesidad (`NObeyesdad`), que es nuestra variable objetivo (lo que queremos predecir).

### ¬øPor qu√© es importante?

- Debemos verificar que la variable objetivo existe
- Necesitamos conocer cu√°ntas clases √∫nicas hay
- Es el primer paso para entender el problema de clasificaci√≥n

### Clases de Obesidad

El problema tiene 7 clases ordenadas (regresi√≥n ordinal):
1. Insufficient_Weight
2. Normal_Weight
3. Overweight_Level_I
4. Overweight_Level_II
5. Obesity_Type_I
6. Obesity_Type_II
7. Obesity_Type_III


In [None]:
# La variable objetivo es 'NObeyesdad'
target_column = 'NObeyesdad'

# Verificar que la columna existe
if target_column in df.columns:
    print(f"‚úì Variable objetivo encontrada: '{target_column}'")
    print(f"  - Tipo de datos: {df[target_column].dtype}")
    print(f"  - Valores √∫nicos: {df[target_column].nunique()}")
    print(f"\nClases de obesidad encontradas:")
    print(df[target_column].unique())
else:
    print(f"‚úó Error: La columna '{target_column}' no existe en el dataset")
    print(f"Columnas disponibles: {list(df.columns)}")


## 4. An√°lisis de la Distribuci√≥n de Clases

### ¬øQu√© hace este paso?

Analizamos cu√°ntos registros hay en cada clase de obesidad. Esto es cr√≠tico porque:

1. **Identifica desbalance**: Si una clase tiene muchos m√°s registros que otra, el modelo puede sesgarse
2. **Planifica estrategias**: Si hay desbalance, necesitamos t√©cnicas especiales (SMOTE, pesos de clase, etc.)
3. **Valida calidad de datos**: Distribuciones muy extra√±as pueden indicar problemas en los datos

### M√©tricas de Desbalance

**Ratio de Desbalance (IR - Imbalance Ratio)**:
- F√≥rmula: `IR = tama√±o_clase_mayoritaria / tama√±o_clase_minoritaria`
- Interpretaci√≥n:
  - IR < 2: Balanceado ‚úÖ
  - IR 2-5: Desbalanceo leve ‚ö†Ô∏è
  - IR 5-10: Desbalanceo moderado ‚ö†Ô∏è‚ö†Ô∏è
  - IR > 10: Desbalanceo severo ‚ùå

### ¬øPor qu√© es importante para regresi√≥n ordinal?

Aunque el problema es ordinal (las clases tienen orden), el desbalance puede afectar:
- La capacidad del modelo de aprender clases minoritarias
- La precisi√≥n de las m√©tricas de evaluaci√≥n
- La necesidad de t√©cnicas de balanceo


In [None]:
# Contar la frecuencia de cada clase
distribucion = df[target_column].value_counts().sort_index()

# Calcular porcentajes
porcentajes = (df[target_column].value_counts(normalize=True) * 100).sort_index()

# Crear un DataFrame con la informaci√≥n
distribucion_df = pd.DataFrame({
    'Clase': distribucion.index,
    'Cantidad': distribucion.values,
    'Porcentaje': porcentajes.values
})

print("=" * 80)
print("DISTRIBUCI√ìN DE CLASES DE OBESIDAD")
print("=" * 80)
print(distribucion_df.to_string(index=False))


In [None]:
# Estad√≠sticas adicionales
print("\n" + "=" * 80)
print("ESTAD√çSTICAS DEL DESBALANCE")
print("=" * 80)
print(f"Total de registros: {len(df)}")
print(f"N√∫mero de clases: {len(distribucion)}")
print(f"Clase con M√ÅS registros: {distribucion.idxmax()} ({distribucion.max()} registros)")
print(f"Clase con MENOS registros: {distribucion.idxmin()} ({distribucion.min()} registros)")

# Calcular el ratio de desbalance (Imbalance Ratio - IR)
# IR = tama√±o de la clase mayoritaria / tama√±o de la clase minoritaria
clase_mayoritaria = distribucion.max()
clase_minoritaria = distribucion.min()
imbalance_ratio = clase_mayoritaria / clase_minoritaria

print(f"\nRatio de Desbalance (IR): {imbalance_ratio:.2f}")
print(f"  - Esto significa que la clase mayoritaria tiene {imbalance_ratio:.2f}x m√°s registros")
print(f"  - que la clase minoritaria")

# Clasificar el nivel de desbalance
if imbalance_ratio < 2:
    nivel = "BALANCEADO"
elif imbalance_ratio < 5:
    nivel = "DESBALANCEO LEVE"
elif imbalance_ratio < 10:
    nivel = "DESBALANCEO MODERADO"
else:
    nivel = "DESBALANCEO SEVERO"

print(f"\nNivel de desbalance: {nivel}")


## 5. Visualizaciones de la Distribuci√≥n

### ¬øQu√© hace este paso?

Creamos visualizaciones para entender mejor la distribuci√≥n de clases. Las visualizaciones son importantes porque:

1. **Comunicaci√≥n**: Es m√°s f√°cil entender un gr√°fico que una tabla de n√∫meros
2. **Identificaci√≥n r√°pida**: Los problemas de desbalance se ven inmediatamente
3. **Presentaci√≥n**: Necesarias para reportes y presentaciones

### Tipos de Gr√°ficos que Crearemos

1. **Gr√°fico de Barras (Cantidad)**: Muestra el n√∫mero absoluto de registros por clase
2. **Gr√°fico de Barras (Porcentajes)**: Muestra la proporci√≥n de cada clase
3. **Gr√°fico de Pastel**: Visualizaci√≥n alternativa que muestra proporciones
4. **Gr√°fico de Barras Horizontal**: Ordenado de menor a mayor para identificar f√°cilmente las clases minoritarias

### ¬øPor qu√© m√∫ltiples visualizaciones?

Cada tipo de gr√°fico tiene sus ventajas:
- **Barras verticales**: F√°ciles de leer, buenas para comparar valores
- **Barras horizontales**: √ötiles cuando hay muchos valores o nombres largos
- **Pastel**: Intuitivo para ver proporciones, pero menos preciso para comparar valores exactos


In [None]:
# Crear figura con subplots
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('An√°lisis de Distribuci√≥n de Clases de Obesidad', fontsize=16, fontweight='bold')

# 1. Gr√°fico de barras - Cantidad de registros por clase
ax1 = axes[0, 0]
distribucion.plot(kind='bar', ax=ax1, color='steelblue', edgecolor='black')
ax1.set_title('Distribuci√≥n de Clases (Cantidad de Registros)', fontweight='bold')
ax1.set_xlabel('Clase de Obesidad', fontweight='bold')
ax1.set_ylabel('Cantidad de Registros', fontweight='bold')
ax1.tick_params(axis='x', rotation=45)
ax1.grid(axis='y', alpha=0.3)

# Agregar valores en las barras
for i, v in enumerate(distribucion.values):
    ax1.text(i, v + 10, str(v), ha='center', va='bottom', fontweight='bold')

# 2. Gr√°fico de barras - Porcentajes
ax2 = axes[0, 1]
porcentajes.plot(kind='bar', ax=ax2, color='coral', edgecolor='black')
ax2.set_title('Distribuci√≥n de Clases (Porcentajes)', fontweight='bold')
ax2.set_xlabel('Clase de Obesidad', fontweight='bold')
ax2.set_ylabel('Porcentaje (%)', fontweight='bold')
ax2.tick_params(axis='x', rotation=45)
ax2.grid(axis='y', alpha=0.3)

# Agregar valores en las barras
for i, v in enumerate(porcentajes.values):
    ax2.text(i, v + 0.5, f'{v:.1f}%', ha='center', va='bottom', fontweight='bold')

# 3. Gr√°fico de pastel (pie chart)
ax3 = axes[1, 0]
colors = sns.color_palette("Set3", len(distribucion))
wedges, texts, autotexts = ax3.pie(distribucion.values, 
                                    labels=distribucion.index,
                                    autopct='%1.1f%%',
                                    colors=colors,
                                    startangle=90)
ax3.set_title('Distribuci√≥n de Clases (Gr√°fico Circular)', fontweight='bold')

# Mejorar la legibilidad del gr√°fico de pastel
for autotext in autotexts:
    autotext.set_color('black')
    autotext.set_fontweight('bold')

# 4. Gr√°fico de barras horizontal ordenado
ax4 = axes[1, 1]
distribucion_sorted = distribucion.sort_values(ascending=True)
distribucion_sorted.plot(kind='barh', ax=ax4, color='mediumseagreen', edgecolor='black')
ax4.set_title('Distribuci√≥n Ordenada (de Menor a Mayor)', fontweight='bold')
ax4.set_xlabel('Cantidad de Registros', fontweight='bold')
ax4.set_ylabel('Clase de Obesidad', fontweight='bold')
ax4.grid(axis='x', alpha=0.3)

# Agregar valores en las barras
for i, v in enumerate(distribucion_sorted.values):
    ax4.text(v + 10, i, str(v), ha='left', va='center', fontweight='bold')

plt.tight_layout()

# Guardar la figura
nombre_archivo = 'results/figuras/01_distribucion_clases_obesidad.png'
import os
os.makedirs('results/figuras', exist_ok=True)
plt.savefig(nombre_archivo, dpi=300, bbox_inches='tight')
print(f"‚úì Visualizaciones guardadas en: {nombre_archivo}")

# Mostrar el gr√°fico
plt.show()


## 6. Generaci√≥n de Reporte de Caracterizaci√≥n

### ¬øQu√© hace este paso?

Creamos un reporte en texto que documenta todos los hallazgos del an√°lisis exploratorio. Este reporte es importante porque:

1. **Documentaci√≥n**: Registra los hallazgos de forma permanente
2. **Comunicaci√≥n**: Puede ser compartido con otros investigadores o stakeholders
3. **Referencia**: √ötil para consultar m√°s adelante sin ejecutar el c√≥digo

### Contenido del Reporte

El reporte incluye:
- Informaci√≥n general del dataset
- Distribuci√≥n detallada de cada clase
- An√°lisis de desbalance con m√©tricas
- Problemas identificados
- Recomendaciones para el siguiente paso

### ¬øPor qu√© guardar en archivo?

Aunque el notebook es interactivo, tener un archivo de texto permite:
- Consultar r√°pidamente sin abrir el notebook
- Incluir en documentaci√≥n externa
- Compartir con personas que no tienen acceso al notebook


In [None]:
# Crear el reporte
orden_ordinal = [
    'Insufficient_Weight',
    'Normal_Weight', 
    'Overweight_Level_I',
    'Overweight_Level_II',
    'Obesity_Type_I',
    'Obesity_Type_II',
    'Obesity_Type_III'
]

reporte = f"""
{'='*80}
REPORTE DE CARACTERIZACI√ìN DEL DATASET
Problema: Regresi√≥n Ordinal - Clasificaci√≥n de Niveles de Obesidad
{'='*80}

1. INFORMACI√ìN GENERAL DEL DATASET
   - Total de registros: {len(df)}
   - Total de columnas: {len(df.columns)}
   - Variable objetivo: {target_column}
   - N√∫mero de clases: {len(distribucion)}

2. DISTRIBUCI√ìN DE CLASES DE OBESIDAD
   (Ordenadas seg√∫n su orden ordinal)

   Clase                    | Cantidad | Porcentaje | Estado
   {'-'*70}
"""

for clase in orden_ordinal:
    if clase in distribucion.index:
        cantidad = distribucion[clase]
        porcentaje = porcentajes[clase]
        
        # Clasificar el estado de la clase
        if porcentaje < 10:
            estado = "CR√çTICA (muy pocos datos)"
        elif porcentaje < 15:
            estado = "BAJA"
        elif porcentaje < 25:
            estado = "MODERADA"
        else:
            estado = "ALTA"
        
        reporte += f"   {clase:24} | {cantidad:8} | {porcentaje:9.2f}% | {estado}\n"

reporte += f"""
3. AN√ÅLISIS DE DESBALANCE

   Clase Mayoritaria: {distribucion.idxmax()}
   - Cantidad: {clase_mayoritaria} registros
   - Porcentaje: {porcentajes[distribucion.idxmax()]:.2f}%

   Clase Minoritaria: {distribucion.idxmin()}
   - Cantidad: {clase_minoritaria} registros
   - Porcentaje: {porcentajes[distribucion.idxmin()]:.2f}%

   Ratio de Desbalance (IR): {imbalance_ratio:.2f}
   Nivel de Desbalance: {nivel}

4. PROBLEMAS IDENTIFICADOS

   ‚úì La caracterizaci√≥n de la base de datos ahora est√° completa
   ‚úì Se ha identificado el problema de desbalance:
     - El ratio de desbalance es {imbalance_ratio:.2f}
     - Esto indica que hay una diferencia significativa entre las clases
     - Las clases con menos datos pueden tener peor rendimiento en el modelo

5. RECOMENDACIONES

   - Implementar t√©cnicas de balanceo de datos (SMOTE, ADASYN, etc.)
   - Usar m√©tricas de evaluaci√≥n apropiadas para datos desbalanceados
   - Considerar pesos de clase en los modelos
   - Usar validaci√≥n cruzada estratificada
   - Considerar modelos espec√≠ficos para regresi√≥n ordinal

{'='*80}
Reporte generado autom√°ticamente
{'='*80}
"""

# Guardar el reporte
os.makedirs('results/reportes', exist_ok=True)
nombre_reporte = 'results/reportes/01_reporte_caracterizacion.txt'
with open(nombre_reporte, 'w', encoding='utf-8') as f:
    f.write(reporte)

print(f"‚úì Reporte guardado en: {nombre_reporte}")

# Mostrar el reporte
print(reporte)
