# **Limpieza de Datos**

Identificar y manejar valores nulos, duplicados, inconsistencias o posibles outliers.

# 1.- **Importar librerias**

In [1]:
# Importar librerías estándar
import sys
import os

#!git init
#!dvc init

# 2. Configurar la ruta para que Python encuentre el código en 'src'. Esto añade la carpeta raíz del proyecto al sys.path
ruta_raiz_proyecto = os.path.abspath(os.path.join(os.getcwd(), '../../'))
sys.path.append(ruta_raiz_proyecto)

# 3. Importar las funciones directamente.
from src.cargar_analisis import cargar_dataframe, crear_listas_variables
from src.limpieza import limpiar_y_detectar_atipicos, eliminar_atipicos, guardar_dataframe
from src.carga_dvc import run, save_csv_and_push

print("Funciones importadas exitosamente desde src/")

Funciones importadas exitosamente desde src/


# **2.- Importar datos**

In [2]:
# Ruta de la base de datos
path_data = '../../data/obesity_estimation_modified.csv'

# Ejecutar función para cargar datos
df = cargar_dataframe(path_data)

# Ejecutar la función para generar listas con las variables numericas, categoricas y objetivo
variables_numericas, variables_categoricas, variable_objetivo = crear_listas_variables(to_lower=1)

Archivo CSV cargado exitosamente desde: ../../data/obesity_estimation_modified.csv


# **3.- Limpieza de datos**

In [3]:
# Paso 1: Limpiar y preparar los datos
df_limpio = limpiar_y_detectar_atipicos(df, variables_numericas, variables_categoricas, variable_objetivo, 'mixed_type_col')

---

## **Proceso de Limpieza y Detección de Atípicos**

---

1. Estandarizando nombres de columnas...
2. Eliminando columnas irrelevantes y duplicados...
3. Estandarizando valores en columnas categóricas...
4. Asegurando tipos de datos numéricos...
5. Imputando valores nulos...
   - No se encontraron más valores nulos.


### Detección de Atípicos (Método IQR)


Columna 'age':
  - Límite inferior: 2.00
  - Límite superior: 44.00
  - Número de atípicos encontrados: 36
  - Porcentaje de atípicos: 1.70%

Columna 'height':
  - Límite inferior: 1.22
  - Límite superior: 2.18
  - Número de atípicos encontrados: 19
  - Porcentaje de atípicos: 0.90%

Columna 'weight':
  - Límite inferior: -60.58
  - Límite superior: 234.84
  - Número de atípicos encontrados: 19
  - Porcentaje de atípicos: 0.90%

Columna 'fcvc':
  - Límite inferior: -1.00
  - Límite superior: 6.00
  - Número de atípicos encontrados: 20
  - Porcentaje de atípicos: 0.95%

Columna 'ncp':
  - Límite inferior: 1.80
  - Límite superior: 3.90
  - Número de atípicos encontrados: 455
  - Porcentaje de atípicos: 21.52%

Columna 'ch2o':
  - Límite inferior: -1.06
  - Límite superior: 5.18
  - Número de atípicos encontrados: 21
  - Porcentaje de atípicos: 0.99%

Columna 'faf':
  - Límite inferior: -4.44
  - Límite superior: 6.29
  - Número de atípicos encontrados: 27
  - Porcentaje de atípicos: 1

---


Proceso de limpieza finalizado.


In [4]:
# Paso 2: Eliminar los atípicos del dataframe ya limpio
df_final = eliminar_atipicos(df_limpio, age_range=(5, 50), height_max=2.5, ncp_max=10.0, iqr_factor=1.5)
df_final.head()

---

## **Proceso de Eliminación de Atípicos**

---

1. Aplicando reglas de negocio para 'age', 'height' y 'ncp'...
   - Se eliminaron 69 filas con reglas de negocio.

2. Aplicando método IQR para el resto de variables numéricas...
   - Se eliminaron 99 filas adicionales con el método IQR.


### Reporte Final de Eliminación

Filas iniciales: 2,114
Filas finales:   1,946
Total de filas eliminadas: 168 (7.95%)


---


Proceso de eliminación de atípicos finalizado.


Unnamed: 0,gender,age,height,weight,family_history_with_overweight,favc,fcvc,ncp,caec,smoke,ch2o,scc,faf,tue,calc,mtrans,nobeyesdad
0,female,21.0,1.62,64.0,yes,no,2.0,3.0,sometimes,no,2.0,no,0.0,1.0,no,public_transportation,1
1,female,21.0,1.52,56.0,yes,no,3.0,3.0,sometimes,yes,3.0,yes,3.0,0.0,sometimes,public_transportation,1
2,male,23.0,1.8,77.0,yes,no,2.0,3.0,sometimes,no,2.0,no,2.0,1.0,frequently,public_transportation,1
3,male,27.0,1.8,87.0,no,no,3.0,3.0,sometimes,no,2.0,no,2.0,0.0,frequently,walking,2
4,male,22.0,1.78,89.8,no,no,2.0,1.0,sometimes,no,2.0,no,0.0,0.0,sometimes,public_transportation,3


# **4.- Guardar los Resultados**

In [5]:
# Llamar a la función para guardar resultados
nombre_archivo = 'obesity_estimation_cleaned.csv'
ruta_destino = '../../data/'

guardado_exitoso = guardar_dataframe(
    df=df_final,
    file_name=nombre_archivo,
    destination_path=ruta_destino
)

# Resultado
if guardado_exitoso:
    print("\nProceso de guardado finalizado con éxito.")
else:
    print("\nProceso de guardado fallido. Revisar la ruta destino.")

DataFrame guardado exitosamente en: ../../data/obesity_estimation_cleaned.csv
Verificación local: El archivo se ha creado correctamente.

Proceso de guardado finalizado con éxito.


# **5.- Guardar los Resultados en DVC**

In [6]:
# Guardar dataset limpio
save_csv_and_push(df_final)

..\data\obesity_estimation_cleaned.csv
On branch main
Untracked files:
  (use "git add <file>..." to include in what will be committed)
	1.1_import_data_initial_analysis.ipynb
	1.2_data_cleaning.ipynb
	1.3_exploratory_analysis_eda.ipynb
	Contenido.md

nothing added to commit but untracked files present (use "git add" to track)

➜ Git: sin cambios que commitear.








fatal: No configured push destination.
Either specify the URL from the command-line or configure a remote repository using

    git remote add <name> <url>

and then push using the remote name

    git push <name>




RuntimeError: git push