# **Importar datos y Análisis Inicial**

Inspeccionar la estructura, tipos de datos y estadísticas descriptivas del dataset.

# 1.- **Importar librerias**

In [15]:
# Importar librerías estándar
import sys
import os

# 1. Detectar la raíz del proyecto buscando la carpeta que contiene 'src'
def find_project_root(path):
    while path != os.path.dirname(path):
        if 'src' in os.listdir(path):
            return path
        path = os.path.dirname(path)
    raise FileNotFoundError("No se encontró la carpeta 'src' en la jerarquía de carpetas.")

ruta_raiz_proyecto = find_project_root(os.getcwd())
src_path = os.path.join(ruta_raiz_proyecto, 'src')
if src_path not in sys.path:
    sys.path.append(src_path)

# 2. Importar funciones desde src/cargar_analisis.py
from cargar_analisis import cargar_dataframe, crear_listas_variables, resumen_eda

# 3. Crear las listas de variables con nombres en minúsculas
variables_numericas, variables_categoricas, variable_objetivo = crear_listas_variables(to_lower=True)

print("Funciones importadas exitosamente desde src/cargar_analisis.py")

Funciones importadas exitosamente desde src/cargar_analisis.py


In [18]:
print(src_path)

d:\OneDrive\Escritorio\Maestria IA\Trimestre 4\MLOps\Git_Local\ObesityMine53\src


# **2.- Importar datos**

In [16]:
# Ruta de la base de datos (ajustada a la estructura estándar)
path_data = os.path.join(ruta_raiz_proyecto, 'data', 'raw', 'obesity_estimation_cleaned.csv')

# Ejecutar función para cargar datos
df = cargar_dataframe(path_data)

# Mostrar las columnas del DataFrame
print("\nColumnas del DataFrame:")
print(df.columns.tolist())

Archivo CSV cargado exitosamente desde: d:\OneDrive\Escritorio\Maestria IA\Trimestre 4\MLOps\Git_Local\ObesityMine53\data\raw\obesity_estimation_cleaned.csv

Columnas del DataFrame:
['gender', 'age', 'height', 'weight', 'family_history_with_overweight', 'favc', 'fcvc', 'ncp', 'caec', 'smoke', 'ch2o', 'scc', 'faf', 'tue', 'calc', 'mtrans', 'nobeyesdad']


# **3.- Análisis Inicial**

In [17]:
# Elimina columnas inexistentes de la lista de variables numéricas
variables_numericas_validas = [col for col in variables_numericas if col in df.columns]

# Ejecutar la función para generar un resumen de dataset
resumen_eda(df, variables_numericas_validas, variables_categoricas, variable_objetivo)

---

## **Análisis Exploratorio del Dataset**

---

### 1. Dimensiones del Dataset

Número de Filas:    1,909
Número de Columnas: 17




### 2. Tipos de Datos y Uso de Memoria

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1909 entries, 0 to 1908
Data columns (total 17 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   gender                          1909 non-null   object 
 1   age                             1909 non-null   float64
 2   height                          1909 non-null   float64
 3   weight                          1909 non-null   float64
 4   family_history_with_overweight  1909 non-null   object 
 5   favc                            1909 non-null   object 
 6   fcvc                            1909 non-null   float64
 7   ncp                             1909 non-null   float64
 8   caec                            1909 non-null   object 
 9   smoke                           1909 non-null   object 
 10  ch2o                            1909 non-null   float64
 11  scc                             1909 non-null   object 
 12  faf                             19

### 3. Muestra Aleatoria de Datos

Unnamed: 0,gender,age,height,weight,family_history_with_overweight,favc,fcvc,ncp,caec,smoke,ch2o,scc,faf,tue,calc,mtrans,nobeyesdad
399,male,21.0,1.71,100.0,yes,yes,2.0,1.0,sometimes,no,2.0,no,0.0,2.0,no,public_transportation,4
588,female,19.21164,1.567981,41.934368,no,yes,2.070964,1.0,sometimes,no,1.676975,no,0.0,1.718513,sometimes,public_transportation,0
246,male,16.0,1.82,71.0,yes,yes,2.0,3.0,frequently,no,2.0,no,2.0,1.0,sometimes,public_transportation,1
486,female,17.082867,1.640824,43.365005,no,yes,2.815157,3.0,sometimes,no,2.911187,no,2.595128,1.380204,sometimes,public_transportation,0
1828,female,26.0,1.639524,111.945588,yes,yes,3.0,3.0,sometimes,no,2.739351,no,0.0,0.064769,sometimes,public_transportation,6






### 4. Calidad de los Datos

Número total de filas duplicadas: 0
Conteo de valores nulos por columna:
No se encontraron valores nulos.




### 5. Estadísticas Descriptivas

#### **Variables Numéricas**

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
age,1909.0,24.169519,5.970277,15.0,19.920629,22.851804,26.0,47.7061
height,1909.0,1.705036,0.092429,1.456346,1.635905,1.70418,1.770278,1.98
weight,1909.0,86.975472,25.953326,39.101805,66.0,83.544074,108.019211,165.057269
fcvc,1909.0,2.422436,0.52904,1.0,2.0,2.408561,3.0,3.0
ncp,1909.0,2.699278,0.760778,1.0,2.711238,3.0,3.0,4.0
ch2o,1909.0,2.012707,0.60253,1.0,1.61837,2.0,2.472903,3.0
faf,1909.0,1.021628,0.847201,0.0,0.146919,1.0,1.668961,3.0
tue,1909.0,0.67413,0.602997,0.0,0.004813,0.632467,1.0,2.0


#### **Variables Categóricas**

Unnamed: 0,count,unique,top,freq
gender,1909,2,male,986
family_history_with_overweight,1909,2,yes,1583
favc,1909,2,yes,1692
caec,1909,4,sometimes,1618
smoke,1909,2,no,1872
scc,1909,2,no,1823
calc,1909,4,sometimes,1289
mtrans,1909,5,public_transportation,1430






### 6. Distribución de la Variable Objetivo: 'nobeyesdad'

Unnamed: 0_level_0,Frecuencia,Porcentaje (%)
nobeyesdad,Unnamed: 1_level_1,Unnamed: 2_level_1
4,313,16.4
6,296,15.51
5,280,14.67
2,262,13.72
3,259,13.57
1,252,13.2
0,247,12.94
