### **Tecnológico de Monterrey**

#### **Maestría en Inteligencia Artificial Aplicada**
#### **Clase**: Operaciones de Aprendizaje Automático
#### **Docentes**: Dr. Gerardo Rodríguez Hernández | Mtro. Ricardo Valdez Hernández | Mtro. Carlos Alberto Vences Sánchez

##### **Actividad**: Proyecto: Avance (Fase 1) - **Notebook**: Limpieza y corrección de datos
##### **Equipo 25**:
| Nombre | Matrícula |
|--------|-----------|
| Rafael Becerra García | A01796211 |
| Andrea Xcaret Gómez Alfaro | A01796384 |
| David Hernández Castellanos | A01795964 |
| Juan Pablo López Sánchez | A01313663 |
| Osiris Xcaret Saavedra Solís | A01795992 |

### Objetivos:

**Analisis de Requerimientos**
**Tarea**: Analiza la problemática a resolver siguiendo la liga con la descripción del dataset asignado.

**Manipulación y preparación de datos**
**Tarea**: Realizar tareas de Exploratory Data Analysis (EDA)  y limpieza de datos utilizando herramientas y bibliotecas específicas (Python, Pandas, DVC, Scikitlearn, etc.)

**Exploración y preprocesamiento de datos**
**Tarea**: Explorar y preprocesar los datos para identificar patrones, tendencias y relaciones significativas.

**Versionado de datos**
**Tarea**: Aplicar técnicas de versionado de datos para asegurar reproducibilidad y trazabilidad.

**Construcción, ajuste y evaluación de Modelos de Machine Learning**
**Tarea**: Construir, ajustar y evaluar modelos de Machine Learning utilizando técnicas y algoritmos apropiados al problema.

In [1]:
# --- Importaciones e inicializaciones --- #

import pandas as pd
import numpy as np

In [2]:
# --- Cargar Dataset --- #

df = pd.read_csv('../../data/raw/obesity_estimation_modified.csv')
print('Dataset de trabajo (df)', df.shape)

Dataset de trabajo (df) (2153, 18)


### Exploración inicial
Revisar información general, tipos de datos, primeros registros y estadísticas descriptivas.

In [3]:
# --- Revisión inicial --- #

df.head()

Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,MTRANS,NObeyesdad,mixed_type_col
0,Female,21.0,1.62,64.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,0.0,1.0,NO,Public_Transportation,Normal_Weight,bad
1,Female,21.0,1.52,56.0,yes,no,3.0,3.0,Sometimes,yes,3.0,yes,3.0,0.0,Sometimes,Public_Transportation,nORMAL_wEIGHT,
2,Male,23.0,1.8,77.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,2.0,1.0,Frequently,Public_Transportation,Normal_Weight,208
3,Male,27.0,1.8,87.0,no,no,3.0,3.0,Sometimes,no,2.0,no,2.0,0.0,Frequently,Walking,oVERWEIGHT_lEVEL_i,585
4,Male,22.0,1.78,89.8,no,no,2.0,1.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II,200


In [4]:
# Información general y tipos
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2153 entries, 0 to 2152
Data columns (total 18 columns):
 #   Column                          Non-Null Count  Dtype 
---  ------                          --------------  ----- 
 0   Gender                          2135 non-null   object
 1   Age                             2126 non-null   object
 2   Height                          2125 non-null   object
 3   Weight                          2137 non-null   object
 4   family_history_with_overweight  2133 non-null   object
 5   FAVC                            2137 non-null   object
 6   FCVC                            2136 non-null   object
 7   NCP                             2129 non-null   object
 8   CAEC                            2131 non-null   object
 9   SMOKE                           2134 non-null   object
 10  CH2O                            2124 non-null   object
 11  SCC                             2138 non-null   object
 12  FAF                             2124 non-null   

### Correcciones
Removemos columnas sin valor, corregimos datos en columnas, removemos valores atípicos obvios, imputamos valores faltantes.

In [5]:
# --- Remover columna mixed_type_col ---#

# Justificación:
# - No tiene valores uniformes
# - No parece guardar información que sea valiosa

df.drop(columns=['mixed_type_col'], axis=1, inplace=True)

# Confirmamos que la columna fue removida
df.head()

Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,MTRANS,NObeyesdad
0,Female,21.0,1.62,64.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,0.0,1.0,NO,Public_Transportation,Normal_Weight
1,Female,21.0,1.52,56.0,yes,no,3.0,3.0,Sometimes,yes,3.0,yes,3.0,0.0,Sometimes,Public_Transportation,nORMAL_wEIGHT
2,Male,23.0,1.8,77.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,Male,27.0,1.8,87.0,no,no,3.0,3.0,Sometimes,no,2.0,no,2.0,0.0,Frequently,Walking,oVERWEIGHT_lEVEL_i
4,Male,22.0,1.78,89.8,no,no,2.0,1.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II


In [6]:
# --- Corrección de tipos de datos --- #

# Justificación:
# Todas las columnas son identificadas como objeto, por lo cual es necesario revisar y corregir
# los tipos de datos, para obtener datos adecuados en cada columna y poder actuar en ellos.

# Según la página base del dataset, tenemos valores:
# - Categóricos: Gender, CAEC, CALC, MTRANS, NObeyesdad
# - Enteros: FCVC, TUE
# - Flotantes: Age, Height, Weight, NCP, CH2O, FAF
# - Binarios: family_history_with_overweight, FAVC, SMOKE, SCC

# Sin embargo, de acuerdo a la exploración visual encontramos valores flotantes en FCVC y TUE, así que los consideraremos flotantes.
numeric_cols = ['Age','Height','Weight','FCVC','NCP','CH2O','FAF','TUE']

# Inspeccionemos los primeros 20 valores de cada columna numérica
print("Valores en columnas numéricas:\n")
for col in numeric_cols:
    print(f"{col}: {df[col].unique()[:20]}")

# Columnas binarias (yes, no)
binary_cols = ['family_history_with_overweight', 'FAVC', 'SMOKE', 'SCC']

# Inspeccionemos los primeros 20 valores de cada columna binaria
print("\nValores en columnas binarias:\n")
for col in binary_cols:
    print(f"{col}: {df[col].unique()[:20]}")

# Columnas de tipo texto
object_cols = ['Gender', 'CAEC', 'CALC', 'MTRANS', 'NObeyesdad']

# Inspeccionemos los primeros 20 valores de cada columna de texto
print("\nValores en columnas de texto:\n")
for col in object_cols:
    print(f"{col}: {df[col].unique()[:20]}")


Valores en columnas numéricas:

Age: ['21.0' '23.0' '27.0' '22.0' '29.0' '24.0' '26.0' '41.0' ' 22.0 ' '30.0'
 '52.0' '20.0' '19.0' '31.0' ' 24.0 ' '39.0' ' 21.0 ' '17.0' ' 19.0 ' nan]
Height: ['1.62' '1.52' '1.8' '1.78' '1.5' '1.64' '1.72' '1.85' '1.65' '1.77' '1.7'
 '1.93' '1.53' '1.71' '1.69' '1.6' '1.75' '1.68' '1.58' ' 1.79 ']
Weight: ['64.0' '56.0' '77.0' '87.0' '89.8' '53.0' '55.0' '68.0' ' 105.0 ' '80.0'
 '99.0' '60.0' '66.0' '102.0' '78.0' '82.0' '70.0' ' 80.0 ' '50.0' '65.0']
FCVC: ['2.0' '3.0' '21138.0' '1.0' nan ' 3.0 ' ' 2.0 ' '201.0' ' 1.0 ' '515.0'
 '98.0' '2.450218' '2.880161' '2.00876' '2.596579' '2.591439' '2.392665'
 'invalid' '1.123939' '2.027574']
NCP: ['3.0' '1.0' '4.0' ' 1.0 ' ' 4.0 ' ' 3.0 ' nan '674.0' '456.0' '547.0'
 '724.0' '895.0' '282.0' '478.0' '3.28926' '3.995147' '1.72626' '2.581015'
 '1.600812' '1.73762']
CH2O: ['2.0' '3.0' '1.0' ' 2.0 ' nan ' 3.0 ' '531.0' ' NAN ' ' 1.0 ' '241.0'
 '68.0' '34.0' ' 1.152736 ' '1.115967' '2.704507' ' 2.184707 ' '2.406541

In [7]:
# --- Corrección y limpieza --- #

# Justificación: encontramos algunas cosas irregulares, por ejemplo:
# - Espacios en blanco alreadedor del valor numérico: ' 3.0 '
# - Valores textuales: 'invalid' o ' NAN ' o '?'
# - Encontramos diferentes cadenas con diferente construcción de mayúsculas y minúsculas

# Convertir todas las columnas numéricas a float
for col in numeric_cols:
    df[col] = pd.to_numeric(df[col], errors='coerce')

# Convertimos las columnas que identificamos como binarias a valores binarios (0 y 1)
binary_map = {'yes': 1, 'no': 0}
for col in binary_cols:
    df[col] = (
        df[col]
        .astype(str)              # Convertir todo a string
        .str.strip()              # Eliminar espacios
        .str.lower()              # Uniformar a minúsculas
        .replace({'nan': np.nan}) # Convertir texto "nan"/" NAN " a NaN real
        .map(binary_map)          # Mapear yes/no a 1/0
    )

# Convertir a enteros con soporte para NaN
df[binary_cols] = df[binary_cols].astype('Int64')

# Aplicamos strip y lower en todas las columnas de texto
for col in object_cols:
    df[col] = df[col].astype(str).str.strip().str.lower()

# Reemplazar valores no numéricos por NaN
df.replace({'nan': np.nan, '?': np.nan, 'error': np.nan, 'invalid': np.nan, 'n/a': np.nan, 'null': np.nan}, inplace=True)

# Verificar resultados
print(df.info())
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2153 entries, 0 to 2152
Data columns (total 17 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Gender                          2135 non-null   object 
 1   Age                             2119 non-null   float64
 2   Height                          2111 non-null   float64
 3   Weight                          2127 non-null   float64
 4   family_history_with_overweight  2131 non-null   Int64  
 5   FAVC                            2137 non-null   Int64  
 6   FCVC                            2124 non-null   float64
 7   NCP                             2119 non-null   float64
 8   CAEC                            2131 non-null   object 
 9   SMOKE                           2133 non-null   Int64  
 10  CH2O                            2121 non-null   float64
 11  SCC                             2138 non-null   Int64  
 12  FAF                             21

Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,MTRANS,NObeyesdad
0,female,21.0,1.62,64.0,1,0,2.0,3.0,sometimes,0,2.0,0,0.0,1.0,no,public_transportation,normal_weight
1,female,21.0,1.52,56.0,1,0,3.0,3.0,sometimes,1,3.0,1,3.0,0.0,sometimes,public_transportation,normal_weight
2,male,23.0,1.8,77.0,1,0,2.0,3.0,sometimes,0,2.0,0,2.0,1.0,frequently,public_transportation,normal_weight
3,male,27.0,1.8,87.0,0,0,3.0,3.0,sometimes,0,2.0,0,2.0,0.0,frequently,walking,overweight_level_i
4,male,22.0,1.78,89.8,0,0,2.0,1.0,sometimes,0,2.0,0,0.0,0.0,sometimes,public_transportation,overweight_level_ii


In [8]:
# --- Validación visual ---#

# Reimprimimos los valores de muestra una vez corregidos
print("Valores en columnas numéricas:\n")
for col in numeric_cols:
    print(f"{col}: {df[col].unique()[:20]}")

# Inspeccionemos los primeros 20 valores de cada columna binaria
print("\nValores en columnas binarias:\n")
for col in binary_cols:
    print(f"{col}: {df[col].unique()[:20]}")

# Inspeccionemos los primeros 20 valores de cada columna de texto
print("\nValores en columnas de texto:\n")
for col in object_cols:
    print(f"{col}: {df[col].unique()[:20]}")

Valores en columnas numéricas:

Age: [ 21.  23.  27.  22.  29.  24.  26.  41.  30.  52.  20.  19.  31.  39.
  17.  nan  25.  55.  38. 706.]
Height: [1.62 1.52 1.8  1.78 1.5  1.64 1.72 1.85 1.65 1.77 1.7  1.93 1.53 1.71
 1.69 1.6  1.75 1.68 1.58 1.79]
Weight: [ 64.   56.   77.   87.   89.8  53.   55.   68.  105.   80.   99.   60.
  66.  102.   78.   82.   70.   50.   65.   52. ]
FCVC: [2.000000e+00 3.000000e+00 2.113800e+04 1.000000e+00          nan
 2.010000e+02 5.150000e+02 9.800000e+01 2.450218e+00 2.880161e+00
 2.008760e+00 2.596579e+00 2.591439e+00 2.392665e+00 1.123939e+00
 2.027574e+00 2.658112e+00 2.886260e+00 2.714447e+00 2.750715e+00]
NCP: [  3.         1.         4.              nan 674.       456.
 547.       724.       895.       282.       478.         3.28926
   3.995147   1.72626    2.581015   1.600812   1.73762    1.10548
   2.0846     1.894384]
CH2O: [  2.         3.         1.              nan 531.       241.
  68.        34.         1.152736   1.115967   2.704507   2

In [9]:
# --- Filtrado de outliers obvios --- #

# Justificación:
# - Hay valores muy fuera de los esperados o simplemente inválidos

# Definir rangos normales para cada columna numérica
valid_ranges = {
    'Age': (5, 120),         # años
    'Height': (1.3, 2.2),    # metros
    'Weight': (30, 200),     # kg
    'FCVC': (1, 3),          # frecuencia comida principal
    'NCP': (1, 3),           # número de comidas
    'CH2O': (1, 3),          # litros de agua
    'FAF': (0, 5),           # actividad física
    'TUE': (0, 3)            # tiempo frente a pantalla
}

# Aplicar filtros: si el valor cae fuera del rango establecido como normal, poner NaN
for col, (min_val, max_val) in valid_ranges.items():
    df.loc[(df[col] < min_val) | (df[col] > max_val), col] = np.nan

# Verificar resultados
for col in valid_ranges.keys():
    print(f"{col}: valores únicos (primeros 20) después de filtrar outliers")
    print(df[col].unique()[:20])
    print("----")

Age: valores únicos (primeros 20) después de filtrar outliers
[21. 23. 27. 22. 29. 24. 26. 41. 30. 52. 20. 19. 31. 39. 17. nan 25. 55.
 38. 18.]
----
Height: valores únicos (primeros 20) después de filtrar outliers
[1.62 1.52 1.8  1.78 1.5  1.64 1.72 1.85 1.65 1.77 1.7  1.93 1.53 1.71
 1.69 1.6  1.75 1.68 1.58 1.79]
----
Weight: valores únicos (primeros 20) después de filtrar outliers
[ 64.   56.   77.   87.   89.8  53.   55.   68.  105.   80.   99.   60.
  66.  102.   78.   82.   70.   50.   65.   52. ]
----
FCVC: valores únicos (primeros 20) después de filtrar outliers
[2.       3.            nan 1.       2.450218 2.880161 2.00876  2.596579
 2.591439 2.392665 1.123939 2.027574 2.658112 2.88626  2.714447 2.750715
 1.4925   2.205439 2.059138 2.310423]
----
NCP: valores únicos (primeros 20) después de filtrar outliers
[3.       1.            nan 1.72626  2.581015 1.600812 1.73762  1.10548
 2.0846   1.894384 2.857787 1.07976  2.057935 2.000986 1.259803 1.273128
 1.717608 2.884479 1.47308

In [10]:
# --- Imputación de NaN y limpieza final --- #

# Columnas numéricas: imputar con mediana
for col in numeric_cols:
    median_value = df[col].median()
    df[col] = df[col].fillna(median_value)
    print(f"Columna {col}: mediana imputada = {median_value}")

# Columnas categóricas: imputar con moda
for col in object_cols:
    mode_value = df[col].mode()[0]
    df[col] = df[col].fillna(mode_value)
    print(f"Columna {col}: modo imputado = '{mode_value}'")

# Columnas binarias: imputar con moda
for col in binary_cols:
    moda = df[col].mode(dropna=True)[0]
    df[col] = df[col].fillna(moda)

# Buscar registros duplicados, es decir, que sean exactamente iguales
dups = df.duplicated().sum()
print(f'Registros duplicados: {dups}\n')

# En caso de encontrar alguno, eliminarlos
if dups > 0:
    print('Eliminando duplicados ...')
    df = df.drop_duplicates()
    dups = df.duplicated().sum()
    print(f'Registros duplicados: {dups}\n')

# Veamos las nuevas dimensiones del dataset
print('Nuevas dimensiones del dataset (df)', df.shape)

# Verificación final
print("\nInformación final del dataset:")
print(df.info())
df.head()

Columna Age: mediana imputada = 22.815416
Columna Height: mediana imputada = 1.701818
Columna Weight: mediana imputada = 83.0078375
Columna FCVC: mediana imputada = 2.387797
Columna NCP: mediana imputada = 3.0
Columna CH2O: mediana imputada = 2.0
Columna FAF: mediana imputada = 1.0
Columna TUE: mediana imputada = 0.619012
Columna Gender: modo imputado = 'male'
Columna CAEC: modo imputado = 'sometimes'
Columna CALC: modo imputado = 'sometimes'
Columna MTRANS: modo imputado = 'public_transportation'
Columna NObeyesdad: modo imputado = 'obesity_type_i'
Registros duplicados: 49

Eliminando duplicados ...
Registros duplicados: 0

Nuevas dimensiones del dataset (df) (2104, 17)

Información final del dataset:
<class 'pandas.core.frame.DataFrame'>
Index: 2104 entries, 0 to 2152
Data columns (total 17 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Gender                          2104 non-null   object 
 1 

Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,MTRANS,NObeyesdad
0,female,21.0,1.62,64.0,1,0,2.0,3.0,sometimes,0,2.0,0,0.0,1.0,no,public_transportation,normal_weight
1,female,21.0,1.52,56.0,1,0,3.0,3.0,sometimes,1,3.0,1,3.0,0.0,sometimes,public_transportation,normal_weight
2,male,23.0,1.8,77.0,1,0,2.0,3.0,sometimes,0,2.0,0,2.0,1.0,frequently,public_transportation,normal_weight
3,male,27.0,1.8,87.0,0,0,3.0,3.0,sometimes,0,2.0,0,2.0,0.0,frequently,walking,overweight_level_i
4,male,22.0,1.78,89.8,0,0,2.0,1.0,sometimes,0,2.0,0,0.0,0.0,sometimes,public_transportation,overweight_level_ii


In [11]:
# --- Guardar versión limpia después del procesamiento realizado --- #

# Generamos una copia del dataframe (df_clean) para continuar en ella el EDA
df_clean = df.copy()

# Y versionamos nuestra copia limpia
df_clean.to_csv('../../data/processed/a01313663/obesity_estimation_clean.csv', index=False)

### Inspección Visual
Revisemos las estadísticas por tipo de columna y el conteo de valores nulos por columna.

In [None]:
# --- Estadísticas descriptivas --- #

# Columnas numéricas
desc_num = df_clean[numeric_cols].describe()
print(desc_num)

# Columnas binarias (estadísticas tipo object)
desc_bin = df_clean[binary_cols].astype('object').describe()
print(desc_bin)

# Columnas de texto
desc_cat = df_clean[object_cols].describe()
print(desc_cat)

               Age       Height       Weight         FCVC          NCP  \
count  2104.000000  2104.000000  2104.000000  2104.000000  2104.000000   
mean     24.333645     1.703235    86.668139     2.420834     2.634216   
std       6.308472     0.091972    25.822392     0.529082     0.688156   
min      14.000000     1.450000    39.000000     1.000000     1.000000   
25%      20.000000     1.633764    66.000000     2.000000     2.715608   
50%      22.815416     1.701818    83.007837     2.387797     3.000000   
75%      26.000000     1.768514   106.514663     3.000000     3.000000   
max      61.000000     1.980000   173.000000     3.000000     3.000000   

              CH2O          FAF          TUE  
count  2104.000000  2104.000000  2104.000000  
mean      2.006795     1.014265     0.657255  
std       0.604129     0.841670     0.598577  
min       1.000000     0.000000     0.000000  
25%       1.613064     0.144869     0.000000  
50%       2.000000     1.000000     0.619012  
75% 

In [13]:
# Conteo de nulos por columna
df_clean.isnull().sum()

Gender                            0
Age                               0
Height                            0
Weight                            0
family_history_with_overweight    0
FAVC                              0
FCVC                              0
NCP                               0
CAEC                              0
SMOKE                             0
CH2O                              0
SCC                               0
FAF                               0
TUE                               0
CALC                              0
MTRANS                            0
NObeyesdad                        0
dtype: int64