# **Importar datos y Análisis Inicial**

Inspeccionar la estructura, tipos de datos y estadísticas descriptivas del dataset.

# 1.- **Importar librerias**

In [10]:
# Importar librerías estándar
import sys
import os

# 2. Configurar la ruta para que Python encuentre el código en 'src'
# Esto añade la carpeta raíz del proyecto al sys.path
ruta_raiz_proyecto = os.path.abspath(os.path.join(os.getcwd(), '../../'))
sys.path.append(ruta_raiz_proyecto)

# 3. Importar las funciones directamente. 
# Si la raíz está en sys.path, Python busca 'cargar_analisis.py' en la carpeta 'src'.
from src.cargar_analisis import cargar_dataframe, crear_listas_variables, resumen_eda

# 4. Crear las listas de variables con nombres en minúsculas
variables_numericas, variables_categoricas, variable_objetivo = crear_listas_variables(to_lower=True)

print("Funciones importadas exitosamente desde src/cargar_analisis.py")

Funciones importadas exitosamente desde src/cargar_analisis.py


# **2.- Importar datos**

In [11]:
# Ruta de la base de datos
path_data = '../data/obesity_estimation_cleaned.csv'

# Ejecutar función para cargar datos
df = cargar_dataframe(path_data)

# Mostrar las columnas del DataFrame
print("\nColumnas del DataFrame:")
print(df.columns.tolist())

Archivo CSV cargado exitosamente desde: ../data/obesity_estimation_cleaned.csv

Columnas del DataFrame:
['gender', 'age', 'height', 'weight', 'family_history_with_overweight', 'favc', 'fcvc', 'ncp', 'caec', 'smoke', 'ch2o', 'scc', 'faf', 'tue', 'calc', 'mtrans', 'nobeyesdad']


# **3.- Análisis Inicial**

In [12]:
# Define the correct variable lists based on the actual DataFrame columns
variables_numericas = ['age', 'height', 'weight', 'fcvc', 'ncp', 'ch2o', 'faf', 'tue']
variables_categoricas = ['gender', 'family_history_with_overweight', 'favc', 'caec', 'smoke', 'scc', 'calc', 'mtrans']
variable_objetivo = 'nobeyesdad'

# Ejecutar la función para generar un resumen de dataset
resumen_eda(df, variables_numericas, variables_categoricas, variable_objetivo)

---

## **Análisis Exploratorio del Dataset**

---

### 1. Dimensiones del Dataset

Número de Filas:    1,946
Número de Columnas: 17




### 2. Tipos de Datos y Uso de Memoria

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1946 entries, 0 to 1945
Data columns (total 17 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   gender                          1946 non-null   object 
 1   age                             1946 non-null   float64
 2   height                          1946 non-null   float64
 3   weight                          1946 non-null   float64
 4   family_history_with_overweight  1946 non-null   object 
 5   favc                            1946 non-null   object 
 6   fcvc                            1946 non-null   float64
 7   ncp                             1946 non-null   float64
 8   caec                            1946 non-null   object 
 9   smoke                           1946 non-null   object 
 10  ch2o                            1946 non-null   float64
 11  scc                             1946 non-null   object 
 12  faf                             19

### 3. Muestra Aleatoria de Datos

Unnamed: 0,gender,age,height,weight,family_history_with_overweight,favc,fcvc,ncp,caec,smoke,ch2o,scc,faf,tue,calc,mtrans,nobeyesdad
36,female,21.0,1.66,64.0,yes,yes,1.0,3.0,sometimes,no,2.0,no,0.0,0.0,no,public_transportation,1
80,male,26.0,1.7,70.0,yes,no,3.0,1.0,frequently,no,2.0,no,2.0,0.0,frequently,public_transportation,1
989,female,19.821996,1.653431,75.090439,yes,no,2.766036,2.443812,sometimes,no,2.707927,no,0.702839,0.827439,sometimes,public_transportation,3
1371,male,27.991467,1.82559,120.860386,yes,yes,3.0,3.0,sometimes,no,3.0,no,0.691369,1.415536,sometimes,public_transportation,5
1598,male,25.057878,1.763987,113.069667,yes,yes,1.412566,3.0,sometimes,no,2.002495,no,1.592795,0.001867,sometimes,public_transportation,5






### 4. Calidad de los Datos

Número total de filas duplicadas: 37
Conteo de valores nulos por columna:
No se encontraron valores nulos.




### 5. Estadísticas Descriptivas

#### **Variables Numéricas**

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
age,1946.0,24.148324,5.93828,15.0,19.983146,22.851804,26.0,47.7061
height,1946.0,1.704715,0.092479,1.456346,1.634428,1.70418,1.770093,1.98
weight,1946.0,86.897181,25.951658,39.101805,66.031741,83.544074,108.017559,165.057269
fcvc,1946.0,2.420032,0.528187,1.0,2.0,2.408561,3.0,3.0
ncp,1946.0,2.691787,0.766672,1.0,2.696268,3.0,3.0,4.0
ch2o,1946.0,2.016276,0.604417,1.0,1.62227,2.0,2.479917,3.0
faf,1946.0,1.021618,0.844441,0.0,0.159962,1.0,1.66393,3.0
tue,1946.0,0.672193,0.604946,0.0,0.001754,0.632467,1.0,2.0


#### **Variables Categóricas**

Unnamed: 0,count,unique,top,freq
gender,1946,2,male,1013
family_history_with_overweight,1946,2,yes,1608
favc,1946,2,yes,1727
caec,1946,4,sometimes,1640
smoke,1946,2,no,1908
scc,1946,2,no,1860
calc,1946,4,sometimes,1318
mtrans,1946,5,public_transportation,1461






### 6. Distribución de la Variable Objetivo: 'nobeyesdad'

Unnamed: 0,Frecuencia,Porcentaje (%)
4,317,16.29
6,299,15.36
5,285,14.65
2,275,14.13
3,261,13.41
1,258,13.26
0,251,12.9
