# **Proyecto 3 – Agrupación de datos sobre obesidad** 🍲

## Integrantes:
📌Marjoris Parejo

📌Leidys Valencia

📌Adriana Maldonado

📌Julio Cesar Rodríguez

## Explicación del problema🍔🍟
La obesidad es un problema de salud pública que afecta a muchas personas en todo el mundo. En este proyecto, se pretende explorar la base de datos sobre obesidad utilizando técnicas de reducción de dimensionalidad y agrupación (clustering) para analizar los patrones de los hábitos alimenticios y otras variables que afectan a la obesidad.

La base de datos con la que trabajaremos como un dataframe, incluye datos para estimar los niveles de obesidad en México, Perú y Colombia, teniendo en cuenta los hábitos alimenticios🌯🥐🍫 y la condición física🏃‍♀️‍➡️🧎‍♂️🚴🛌

Tenemos el siguiente diccionario de datos que nos proporciona información sobre la descripción de cada una de las variables del dataset `ObesityDataSet_raw_and_data_sinthetic.csv` y su tipo. 📚

<div align="center">


| Nombre de la Variable           | Tipo         | Descripción                                                                              |
|---------------------------------|--------------|------------------------------------------------------------------------------------------|
| Gender                          | Categórica   | Género                                                                                   |
| Age                             | Continua     | Edad                                                                                    |
| Height                          | Continua     | Altura                                                                                   |
| Weight                          | Continua     | Peso                                                                                    |
| family_history_with_overweight  | Binaria      | ¿Algún familiar ha sufrido o sufre de sobrepeso?                                        |
| FAVC                            | Binaria      | ¿Consumes alimentos altos en calorías frecuentemente?                                   |
| FCVC                            | Entera       | ¿Sueles comer vegetales en tus comidas?                                                 |
| NCP                             | Continua     | ¿Cuántas comidas principales tienes al día?                                             |
| CAEC                            | Categórica   | ¿Consumes alimentos entre comidas?                                                      |
| SMOKE                           | Binaria      | ¿Fumas?                                                                                 |
| CH2O                            | Continua     | ¿Cuánta agua bebes al día?                                                              |
| SCC                             | Binaria      | ¿Monitoreas las calorías que consumes diariamente?                                      |
| FAF                             | Continua     | ¿Con qué frecuencia realizas actividad física?                                          |
| TUE                             | Entera       | ¿Cuánto tiempo usas dispositivos tecnológicos como teléfono, videojuegos, televisión, computadora y otros? |
| CALC                            | Categórica   | ¿Con qué frecuencia consumes alcohol?                                                   |
| MTRANS                          | Categórica   | ¿Qué medio de transporte usas habitualmente?                                            |
| NObeyesdad                      | Categórica   | Nivel de obesidad                                                                       |


</div>

Para desarrollar el proyecto instalaremos e importaremos las librerías necesarias.📖

In [3]:
# Importar las librerías necesarias

import subprocess
import sys

# Función para instalar un paquete
def instalar_paquete(paquete):
    subprocess.check_call([sys.executable, "-m", "pip", "install", paquete])

# Lista de librerías necesarias
paquetes = [
    "pandas", "numpy", "matplotlib", "seaborn", "plotly", 
    "statsmodels", "scikit-learn", "ucimlrepo", "ipython", "tabulate"
]

# Instalar las librerías si no están presentes
for paquete in paquetes:
    try:
        __import__(paquete)
    except ImportError:
        print(f"Instalando {paquete}...")
        instalar_paquete(paquete)

# Importar las librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go
import plotly.express as px
import statsmodels.api as sm
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from ucimlrepo import fetch_ucirepo
from IPython.display import display, HTML
from statsmodels.formula.api import ols
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from tabulate import tabulate

print("Todas las librerías se han instalado e importado correctamente.")


Instalando pandas...
Instalando matplotlib...
Instalando seaborn...
Instalando plotly...
Instalando statsmodels...
Instalando scikit-learn...
Instalando ucimlrepo...
Instalando ipython...
Instalando tabulate...
Todas las librerías se han instalado e importado correctamente.


Importamos la base de datos como dataframe 📊💻

In [4]:
obesity=pd.read_csv('ObesityDataSet_raw_and_data_sinthetic.csv')

Observamos la información del dataframe que creamos para conocer las variables que lo componen.

In [5]:
obesity.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 17 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Gender                          2111 non-null   object 
 1   Age                             2111 non-null   float64
 2   Height                          2111 non-null   float64
 3   Weight                          2111 non-null   float64
 4   family_history_with_overweight  2111 non-null   object 
 5   FAVC                            2111 non-null   object 
 6   FCVC                            2111 non-null   float64
 7   NCP                             2111 non-null   float64
 8   CAEC                            2111 non-null   object 
 9   SMOKE                           2111 non-null   object 
 10  CH2O                            2111 non-null   float64
 11  SCC                             2111 non-null   object 
 12  FAF                             21

Identificamos los registros 📊 y las variables 🗂️ del DataFrame.

In [6]:
obesity.shape

(2111, 17)

In [7]:
variables_numericas= obesity.select_dtypes(include=['int64', 'float64']).columns.tolist()
variables_cualitativas= obesity.select_dtypes(include=['object']).columns.tolist()
print(f'Variables numéricas📈: {variables_numericas}\n')
print(f'Variables cualitativas📊: {variables_cualitativas}\n')


Variables numéricas📈: ['Age', 'Height', 'Weight', 'FCVC', 'NCP', 'CH2O', 'FAF', 'TUE']

Variables cualitativas📊: ['Gender', 'family_history_with_overweight', 'FAVC', 'CAEC', 'SMOKE', 'SCC', 'CALC', 'MTRANS', 'NObeyesdad']



Nuestro dataframe incluye 2111 observaciones y 17 variables (8 númericas y 9 cualitativas, que se observan en las tablas.🔢🔠



### **Variables Numéricas**


<div align="center">

| Nombre de la Variable | Tipo     |
|-----------------------|----------|
| Age                   | Continua |
| Height                | Continua |
| Weight                | Continua |
| FCVC                  | Continua |
| NCP                   | Continua |
| CH2O                  | Continua |
| FAF                   | Continua |
| TUE                   | Continua |

</div>

### **Variables Cualitativas**

<div align="center">

| Nombre de la Variable           | Tipo         |
|---------------------------------|--------------|
| Gender                          | Categórica   |
| family_history_with_overweight  | Binaria      |
| FAVC                            | Binaria      |
| CAEC                            | Categórica   |
| SMOKE                           | Binaria      |
| SCC                             | Binaria      |
| CALC                            | Categórica   |
| MTRANS                          | Categórica   |
| NObeyesdad                      | Categórica   |

</div>


Para conocer la estructura del dataframe visualizamos las primeras 10 observaciones. 🔎

In [8]:
obesity.head(10)

Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,MTRANS,NObeyesdad
0,Female,21.0,1.62,64.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,0.0,1.0,no,Public_Transportation,Normal_Weight
1,Female,21.0,1.52,56.0,yes,no,3.0,3.0,Sometimes,yes,3.0,yes,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,Male,23.0,1.8,77.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,Male,27.0,1.8,87.0,no,no,3.0,3.0,Sometimes,no,2.0,no,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,Male,22.0,1.78,89.8,no,no,2.0,1.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II
5,Male,29.0,1.62,53.0,no,yes,2.0,3.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Automobile,Normal_Weight
6,Female,23.0,1.5,55.0,yes,yes,3.0,3.0,Sometimes,no,2.0,no,1.0,0.0,Sometimes,Motorbike,Normal_Weight
7,Male,22.0,1.64,53.0,no,no,2.0,3.0,Sometimes,no,2.0,no,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
8,Male,24.0,1.78,64.0,yes,yes,3.0,3.0,Sometimes,no,2.0,no,1.0,1.0,Frequently,Public_Transportation,Normal_Weight
9,Male,22.0,1.72,68.0,yes,yes,2.0,3.0,Sometimes,no,2.0,no,1.0,1.0,no,Public_Transportation,Normal_Weight


Para cada una de las variables de nuestro DataFrame 📊, vamos a explorar las categorías 🗂️ y el número de observaciones 👀 que tiene cada una de ellas.

In [9]:
# Lista de columnas que se van a contar
columns_to_count = [
    'Gender',
    'family_history_with_overweight',
    'FAVC',
    'CAEC',
    'SMOKE',
    'SCC',
    'CALC',
    'MTRANS',
    'NObeyesdad'
]

# Función para crear Dataframe
def create_styled_table(column):
    counts = obesity[column].value_counts()
    df = pd.DataFrame(counts).reset_index()
    df.columns = ['Category', 'Count']
    df['Category'] = df['Category'].astype(str)  #Categorías tipo str

    # Generar HTML
    html = df.to_html(index=False, escape=False)
    return f"<h4>{column}</h4>" + html

# Imprimir los conteos de cada columna en tablas separadas
for column in columns_to_count:
    table_html = create_styled_table(column)
    display(HTML(table_html))

Category,Count
Male,1068
Female,1043


Category,Count
yes,1726
no,385


Category,Count
yes,1866
no,245


Category,Count
Sometimes,1765
Frequently,242
Always,53
no,51


Category,Count
no,2067
yes,44


Category,Count
no,2015
yes,96


Category,Count
Sometimes,1401
no,639
Frequently,70
Always,1


Category,Count
Public_Transportation,1580
Automobile,457
Walking,56
Motorbike,11
Bike,7


Category,Count
Obesity_Type_I,351
Obesity_Type_III,324
Obesity_Type_II,297
Overweight_Level_I,290
Overweight_Level_II,290
Normal_Weight,287
Insufficient_Weight,272


Para realizar el análisis de agrupamiento se convertirán las variables cualitativas en numéricas.

In [10]:
# Codificación de las variables cualitativas

# Gender: Categórica (masculino: 0, femenino: 1)
obesity['Gender'] = obesity['Gender'].map({'Male': 0, 'Female': 1})

# family_history_with_overweight: Binaria (no: 0, sí: 1)
obesity['family_history_with_overweight'] = obesity['family_history_with_overweight'].map({'no': 0, 'yes': 1})

# FAVC: Binaria (no: 0, sí: 1)
obesity['FAVC'] = obesity['FAVC'].map({'no': 0, 'yes': 1})

#CAEC Categórica
obesity['CAEC'] = obesity['CAEC'].map({'no': 0, 'Sometimes': 1, 'Frequently': 2, 'Always': 3})

# SMOKE: Binaria (no: 0, sí: 1)
obesity['SMOKE'] = obesity['SMOKE'].map({'no': 0, 'yes': 1})

# SCC: Binaria (no: 0, sí: 1)
obesity['SCC'] = obesity['SCC'].map({'no': 0, 'yes': 1})

#CALC Categórica
obesity['CALC'] = obesity['CALC'].map({'no': 0, 'Sometimes': 1, 'Frequently': 2, 'Always': 3})

# MTRANS: Categórica (aplicando codificación one-hot)
obesity = pd.get_dummies(obesity, columns=['MTRANS'], drop_first=True)

# NObeyesdad: Categórica (por nivel de obesidad)
obesity['NObeyesdad'] = obesity['NObeyesdad'].map({
    'Insufficient_Weight': 0,
    'Normal_Weight': 1,
    'Overweight_Level_I': 2,
    'Overweight_Level_II': 3,
    'Obesity_Type_I': 4,
    'Obesity_Type_II': 5,
    'Obesity_Type_III': 6
})

# Mostrar el DataFrame con las conversiones
obesity.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 20 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Gender                          2111 non-null   int64  
 1   Age                             2111 non-null   float64
 2   Height                          2111 non-null   float64
 3   Weight                          2111 non-null   float64
 4   family_history_with_overweight  2111 non-null   int64  
 5   FAVC                            2111 non-null   int64  
 6   FCVC                            2111 non-null   float64
 7   NCP                             2111 non-null   float64
 8   CAEC                            2111 non-null   int64  
 9   SMOKE                           2111 non-null   int64  
 10  CH2O                            2111 non-null   float64
 11  SCC                             2111 non-null   int64  
 12  FAF                             21

In [11]:
#Ver la estructura de las primeras filas del dataframe
obesity.head(10)

Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,NObeyesdad,MTRANS_Bike,MTRANS_Motorbike,MTRANS_Public_Transportation,MTRANS_Walking
0,1,21.0,1.62,64.0,1,0,2.0,3.0,1,0,2.0,0,0.0,1.0,0,1,False,False,True,False
1,1,21.0,1.52,56.0,1,0,3.0,3.0,1,1,3.0,1,3.0,0.0,1,1,False,False,True,False
2,0,23.0,1.8,77.0,1,0,2.0,3.0,1,0,2.0,0,2.0,1.0,2,1,False,False,True,False
3,0,27.0,1.8,87.0,0,0,3.0,3.0,1,0,2.0,0,2.0,0.0,2,2,False,False,False,True
4,0,22.0,1.78,89.8,0,0,2.0,1.0,1,0,2.0,0,0.0,0.0,1,3,False,False,True,False
5,0,29.0,1.62,53.0,0,1,2.0,3.0,1,0,2.0,0,0.0,0.0,1,1,False,False,False,False
6,1,23.0,1.5,55.0,1,1,3.0,3.0,1,0,2.0,0,1.0,0.0,1,1,False,True,False,False
7,0,22.0,1.64,53.0,0,0,2.0,3.0,1,0,2.0,0,3.0,0.0,1,1,False,False,True,False
8,0,24.0,1.78,64.0,1,1,3.0,3.0,1,0,2.0,0,1.0,1.0,2,1,False,False,True,False
9,0,22.0,1.72,68.0,1,1,2.0,3.0,1,0,2.0,0,1.0,1.0,0,1,False,False,True,False


Elaboramos una matriz de correlación para identificar como se relacionan entre si todas las variables del dataframe para plantear hipótesis a partir del análisis de esta.

In [24]:
import plotly.io as pio
pio.renderers.default = "browser"

#Calcular la matriz de correlación
correlation_matrix = obesity.corr()

rounded_correlation_matrix = correlation_matrix.round(2)


#Visualizar la matriz de correlación
fig = px.imshow(
    rounded_correlation_matrix,
    labels=dict(x="Variables", y="Variables", color="Correlación"),
    x=rounded_correlation_matrix.columns,
    y=rounded_correlation_matrix.index,
    color_continuous_scale=px.colors.sequential.Viridis,
    title="Matriz de Correlación - Variables Numéricas",
    template='seaborn',
    width=1500,
    height=1500,
    text_auto=True
)

# Mostrar el gráfico
fig.show()