# **Proyecto 3 – Agrupación de datos sobre obesidad** 🍲

## Integrantes:
📌Marjoris Parejo

📌Leidys Valencia

📌Adriana Maldonado

📌Julio Cesar Rodríguez

## Explicación del problema🍔🍟
La obesidad es un problema de salud pública que afecta a muchas personas en todo el mundo. En este proyecto, se pretende explorar la base de datos sobre obesidad utilizando técnicas de reducción de dimensionalidad y agrupación (clustering) para analizar los patrones de los hábitos alimenticios y otras variables que afectan a la obesidad.

La base de datos con la que trabajaremos como un dataframe, incluye datos para estimar los niveles de obesidad en México, Perú y Colombia, teniendo en cuenta los hábitos alimenticios🌯🥐🍫 y la condición física🏃‍♀️‍➡️🧎‍♂️🚴🛌

Tenemos el siguiente diccionario de datos que nos proporciona información sobre la descripción de cada una de las variables del dataset `ObesityDataSet_raw_and_data_sinthetic.csv` y su tipo. 📚

<div align="center">


| Nombre de la Variable           | Tipo         | Descripción                                                                              |
|---------------------------------|--------------|------------------------------------------------------------------------------------------|
| Gender                          | Categórica   | Género                                                                                   |
| Age                             | Continua     | Edad                                                                                    |
| Height                          | Continua     | Altura                                                                                   |
| Weight                          | Continua     | Peso                                                                                    |
| family_history_with_overweight  | Binaria      | ¿Algún familiar ha sufrido o sufre de sobrepeso?                                        |
| FAVC                            | Binaria      | ¿Consumes alimentos altos en calorías frecuentemente?                                   |
| FCVC                            | Entera       | ¿Sueles comer vegetales en tus comidas?                                                 |
| NCP                             | Continua     | ¿Cuántas comidas principales tienes al día?                                             |
| CAEC                            | Categórica   | ¿Consumes alimentos entre comidas?                                                      |
| SMOKE                           | Binaria      | ¿Fumas?                                                                                 |
| CH2O                            | Continua     | ¿Cuánta agua bebes al día?                                                              |
| SCC                             | Binaria      | ¿Monitoreas las calorías que consumes diariamente?                                      |
| FAF                             | Continua     | ¿Con qué frecuencia realizas actividad física?                                          |
| TUE                             | Entera       | ¿Cuánto tiempo usas dispositivos tecnológicos como teléfono, videojuegos, televisión, computadora y otros? |
| CALC                            | Categórica   | ¿Con qué frecuencia consumes alcohol?                                                   |
| MTRANS                          | Categórica   | ¿Qué medio de transporte usas habitualmente?                                            |
| NObeyesdad                      | Categórica   | Nivel de obesidad                                                                       |


</div>

Para desarrollar el proyecto instalaremos e importaremos las librerías necesarias.📖

In [2]:
# Importar las librerías necesarias

import subprocess
import sys

# Función para instalar un paquete
def instalar_paquete(paquete):
    subprocess.check_call([sys.executable, "-m", "pip", "install", paquete])

# Lista de librerías necesarias
paquetes = [
    "pandas", "numpy", "matplotlib", "seaborn", "plotly", 
    "statsmodels", "scikit-learn", "ucimlrepo", "ipython", "tabulate"
]

# Instalar las librerías si no están presentes
for paquete in paquetes:
    try:
        __import__(paquete)
    except ImportError:
        print(f"Instalando {paquete}...")
        instalar_paquete(paquete)

# Importar las librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go
import plotly.express as px
import statsmodels.api as sm
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from ucimlrepo import fetch_ucirepo
from IPython.display import display, HTML
from statsmodels.formula.api import ols
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from tabulate import tabulate

print("Todas las librerías se han instalado e importado correctamente.")


Instalando scikit-learn...
Instalando ipython...
Todas las librerías se han instalado e importado correctamente.


Importamos la base de datos como dataframe 📊💻

In [3]:
obesity=pd.read_csv('ObesityDataSet_raw_and_data_sinthetic.csv')

Observamos la información del dataframe que creamos para conocer las variables que lo componen.

In [4]:
obesity.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 17 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Gender                          2111 non-null   object 
 1   Age                             2111 non-null   float64
 2   Height                          2111 non-null   float64
 3   Weight                          2111 non-null   float64
 4   family_history_with_overweight  2111 non-null   object 
 5   FAVC                            2111 non-null   object 
 6   FCVC                            2111 non-null   float64
 7   NCP                             2111 non-null   float64
 8   CAEC                            2111 non-null   object 
 9   SMOKE                           2111 non-null   object 
 10  CH2O                            2111 non-null   float64
 11  SCC                             2111 non-null   object 
 12  FAF                             21

Identificamos los registros 📊 y las variables 🗂️ del DataFrame.

In [5]:
obesity.shape

(2111, 17)

In [6]:
variables_numericas= obesity.select_dtypes(include=['int64', 'float64']).columns.tolist()
variables_cualitativas= obesity.select_dtypes(include=['object']).columns.tolist()
print(f'Variables numéricas📈: {variables_numericas}\n')
print(f'Variables cualitativas📊: {variables_cualitativas}\n')


Variables numéricas📈: ['Age', 'Height', 'Weight', 'FCVC', 'NCP', 'CH2O', 'FAF', 'TUE']

Variables cualitativas📊: ['Gender', 'family_history_with_overweight', 'FAVC', 'CAEC', 'SMOKE', 'SCC', 'CALC', 'MTRANS', 'NObeyesdad']



Nuestro dataframe incluye 2111 observaciones y 17 variables (8 númericas y 9 cualitativas, que se observan en las tablas.🔢🔠



### **Variables Numéricas**


<div align="center">

| Nombre de la Variable | Tipo     |
|-----------------------|----------|
| Age                   | Continua |
| Height                | Continua |
| Weight                | Continua |
| FCVC                  | Continua |
| NCP                   | Continua |
| CH2O                  | Continua |
| FAF                   | Continua |
| TUE                   | Continua |

</div>

### **Variables Cualitativas**

<div align="center">

| Nombre de la Variable           | Tipo         |
|---------------------------------|--------------|
| Gender                          | Categórica   |
| family_history_with_overweight  | Binaria      |
| FAVC                            | Binaria      |
| CAEC                            | Categórica   |
| SMOKE                           | Binaria      |
| SCC                             | Binaria      |
| CALC                            | Categórica   |
| MTRANS                          | Categórica   |
| NObeyesdad                      | Categórica   |

</div>


Para conocer la estructura del dataframe visualizamos las primeras 10 observaciones. 🔎

In [7]:
obesity.head(10)

Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,MTRANS,NObeyesdad
0,Female,21.0,1.62,64.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,0.0,1.0,no,Public_Transportation,Normal_Weight
1,Female,21.0,1.52,56.0,yes,no,3.0,3.0,Sometimes,yes,3.0,yes,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,Male,23.0,1.8,77.0,yes,no,2.0,3.0,Sometimes,no,2.0,no,2.0,1.0,Frequently,Public_Transportation,Normal_Weight
3,Male,27.0,1.8,87.0,no,no,3.0,3.0,Sometimes,no,2.0,no,2.0,0.0,Frequently,Walking,Overweight_Level_I
4,Male,22.0,1.78,89.8,no,no,2.0,1.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II
5,Male,29.0,1.62,53.0,no,yes,2.0,3.0,Sometimes,no,2.0,no,0.0,0.0,Sometimes,Automobile,Normal_Weight
6,Female,23.0,1.5,55.0,yes,yes,3.0,3.0,Sometimes,no,2.0,no,1.0,0.0,Sometimes,Motorbike,Normal_Weight
7,Male,22.0,1.64,53.0,no,no,2.0,3.0,Sometimes,no,2.0,no,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
8,Male,24.0,1.78,64.0,yes,yes,3.0,3.0,Sometimes,no,2.0,no,1.0,1.0,Frequently,Public_Transportation,Normal_Weight
9,Male,22.0,1.72,68.0,yes,yes,2.0,3.0,Sometimes,no,2.0,no,1.0,1.0,no,Public_Transportation,Normal_Weight


Para cada una de las variables de nuestro DataFrame 📊, vamos a explorar las categorías 🗂️ y el número de observaciones 👀 que tiene cada una de ellas.

In [8]:
# Lista de columnas que se van a contar
columns_to_count = [
    'Gender',
    'family_history_with_overweight',
    'FAVC',
    'CAEC',
    'SMOKE',
    'SCC',
    'CALC',
    'MTRANS',
    'NObeyesdad'
]

# Función para crear Dataframe
def create_styled_table(column):
    counts = obesity[column].value_counts()
    df = pd.DataFrame(counts).reset_index()
    df.columns = ['Category', 'Count']
    df['Category'] = df['Category'].astype(str)  #Categorías tipo str

    # Generar HTML
    html = df.to_html(index=False, escape=False)
    return f"<h4>{column}</h4>" + html

# Imprimir los conteos de cada columna en tablas separadas
for column in columns_to_count:
    table_html = create_styled_table(column)
    display(HTML(table_html))

Category,Count
Male,1068
Female,1043


Category,Count
yes,1726
no,385


Category,Count
yes,1866
no,245


Category,Count
Sometimes,1765
Frequently,242
Always,53
no,51


Category,Count
no,2067
yes,44


Category,Count
no,2015
yes,96


Category,Count
Sometimes,1401
no,639
Frequently,70
Always,1


Category,Count
Public_Transportation,1580
Automobile,457
Walking,56
Motorbike,11
Bike,7


Category,Count
Obesity_Type_I,351
Obesity_Type_III,324
Obesity_Type_II,297
Overweight_Level_I,290
Overweight_Level_II,290
Normal_Weight,287
Insufficient_Weight,272


Para realizar el análisis de agrupamiento se convertirán las variables cualitativas en numéricas.

In [9]:
# Codificación de las variables cualitativas

# Gender: Categórica (masculino: 0, femenino: 1)
obesity['Gender'] = obesity['Gender'].map({'Male': 0, 'Female': 1})

# family_history_with_overweight: Binaria (no: 0, sí: 1)
obesity['family_history_with_overweight'] = obesity['family_history_with_overweight'].map({'no': 0, 'yes': 1})

# FAVC: Binaria (no: 0, sí: 1)
obesity['FAVC'] = obesity['FAVC'].map({'no': 0, 'yes': 1})

#CAEC Categórica
obesity['CAEC'] = obesity['CAEC'].map({'no': 0, 'Sometimes': 1, 'Frequently': 2, 'Always': 3})

# SMOKE: Binaria (no: 0, sí: 1)
obesity['SMOKE'] = obesity['SMOKE'].map({'no': 0, 'yes': 1})

# SCC: Binaria (no: 0, sí: 1)
obesity['SCC'] = obesity['SCC'].map({'no': 0, 'yes': 1})

#CALC Categórica
obesity['CALC'] = obesity['CALC'].map({'no': 0, 'Sometimes': 1, 'Frequently': 2, 'Always': 3})

# MTRANS: Categórica (aplicando codificación one-hot)
obesity = pd.get_dummies(obesity, columns=['MTRANS'], drop_first=True)

# NObeyesdad: Categórica (por nivel de obesidad)
obesity['NObeyesdad'] = obesity['NObeyesdad'].map({
    'Insufficient_Weight': 0,
    'Normal_Weight': 1,
    'Overweight_Level_I': 2,
    'Overweight_Level_II': 3,
    'Obesity_Type_I': 4,
    'Obesity_Type_II': 5,
    'Obesity_Type_III': 6
})

# Mostrar el DataFrame con las conversiones
obesity.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2111 entries, 0 to 2110
Data columns (total 20 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Gender                          2111 non-null   int64  
 1   Age                             2111 non-null   float64
 2   Height                          2111 non-null   float64
 3   Weight                          2111 non-null   float64
 4   family_history_with_overweight  2111 non-null   int64  
 5   FAVC                            2111 non-null   int64  
 6   FCVC                            2111 non-null   float64
 7   NCP                             2111 non-null   float64
 8   CAEC                            2111 non-null   int64  
 9   SMOKE                           2111 non-null   int64  
 10  CH2O                            2111 non-null   float64
 11  SCC                             2111 non-null   int64  
 12  FAF                             21

In [10]:
#Ver la estructura de las primeras filas del dataframe
obesity.head(10)

Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,NObeyesdad,MTRANS_Bike,MTRANS_Motorbike,MTRANS_Public_Transportation,MTRANS_Walking
0,1,21.0,1.62,64.0,1,0,2.0,3.0,1,0,2.0,0,0.0,1.0,0,1,False,False,True,False
1,1,21.0,1.52,56.0,1,0,3.0,3.0,1,1,3.0,1,3.0,0.0,1,1,False,False,True,False
2,0,23.0,1.8,77.0,1,0,2.0,3.0,1,0,2.0,0,2.0,1.0,2,1,False,False,True,False
3,0,27.0,1.8,87.0,0,0,3.0,3.0,1,0,2.0,0,2.0,0.0,2,2,False,False,False,True
4,0,22.0,1.78,89.8,0,0,2.0,1.0,1,0,2.0,0,0.0,0.0,1,3,False,False,True,False
5,0,29.0,1.62,53.0,0,1,2.0,3.0,1,0,2.0,0,0.0,0.0,1,1,False,False,False,False
6,1,23.0,1.5,55.0,1,1,3.0,3.0,1,0,2.0,0,1.0,0.0,1,1,False,True,False,False
7,0,22.0,1.64,53.0,0,0,2.0,3.0,1,0,2.0,0,3.0,0.0,1,1,False,False,True,False
8,0,24.0,1.78,64.0,1,1,3.0,3.0,1,0,2.0,0,1.0,1.0,2,1,False,False,True,False
9,0,22.0,1.72,68.0,1,1,2.0,3.0,1,0,2.0,0,1.0,1.0,0,1,False,False,True,False


Elaboramos una matriz de correlación para identificar como se relacionan entre si todas las variables del dataframe para plantear hipótesis a partir del análisis de esta.

In [11]:
#Calcular la matriz de correlación
correlation_matrix = obesity.corr()

rounded_correlation_matrix = correlation_matrix.round(2)


#Visualizar la matriz de correlación
fig = px.imshow(
    rounded_correlation_matrix,
    labels=dict(x="Variables", y="Variables", color="Correlación"),
    x=rounded_correlation_matrix.columns,
    y=rounded_correlation_matrix.index,
    color_continuous_scale=px.colors.sequential.Viridis,
    title="Matriz de Correlación - Variables Numéricas",
    template='seaborn',
    width=1500,
    height=1500,
    text_auto=True
)

# Mostrar el gráfico
fig.show()

A partir la matriz de correlación se puede plantear lo siguiente:
- 🍔Existe una correlación positiva significativa entre el peso `weight` y el nivel de obesidad `NObeyesdad` en la población estudiada. A medida que aumenta el peso de un individuo, también tiende a aumentar su nivel de obesidad, lo que sugiere que el peso es un factor determinante en la clasificación de la obesidad.

  > Esta hipótesis se fundamenta en la correlación alta observada (0.91) entre las variables de peso y nivel de obesidad, lo que indica que hay una relación fuerte entre ambas. Este hallazgo es relevante para entender los factores que contribuyen a la obesidad en la población analizada y puede ser útil en el desarrollo de estrategias de intervención para prevenir y tratar la obesidad.

- 🍕Existe una correlación positiva moderada entre la historia familiar de sobrepeso `family_history_with_overweight` y el nivel de obesidad `NObeyesdad` en la población estudiada. Es decir, los individuos con antecedentes familiares de sobrepeso tienden a tener un mayor nivel de obesidad.


  > La correlación de 0.51 indica que hay una relación significativa, aunque no extremadamente fuerte, entre tener un historial familiar de sobrepeso y el nivel de obesidad de un individuo. Este hallazgo sugiere que los factores genéticos y ambientales compartidos en las familias pueden influir en el peso de las personas. Es probable que aquellos con antecedentes familiares de sobrepeso tengan un mayor riesgo de desarrollar obesidad, posiblemente debido a la combinación de factores genéticos, hábitos alimenticios y estilos de vida similares que se transmiten entre los miembros de la familia.

- 🍟Existe una correlación positiva moderada entre la historia familiar de sobrepeso `family_history_with_overweight` y el peso `weight` en la población estudiada. Esto implica que los individuos con antecedentes familiares de sobrepeso tienden a tener un mayor peso corporal.


  > La correlación de 0.5 indica que hay una relación significativa entre las variables, lo que sugiere que las personas que tienen familiares con problemas de sobrepeso pueden estar predispuestas a tener un peso mayor. Esta predisposición puede ser el resultado de factores genéticos, hábitos alimenticios y estilos de vida compartidos en el entorno familiar. Por ejemplo, los patrones de alimentación, la actividad física y las actitudes hacia el peso pueden ser similares dentro de las familias, lo que contribuye a un aumento del peso en aquellos que tienen antecedentes familiares de sobrepeso.


- 🍞Existe una correlación negativa moderada (-0.55) entre el uso del transporte público (MTRANS_Public_Transportation) y la edad (Age). A medida que aumenta la edad, es menos probable que las personas utilicen el transporte público.


  > **Implicaciones**
Este hallazgo es relevante para entender cómo los patrones de transporte afectan la actividad física. Si los adultos mayores utilizan menos el transporte público, podrían tener niveles de actividad física más bajos, lo que podría aumentar el riesgo de obesidad.



El uso del método
`describe()` en el DataFrame obesity proporciona un resumen estadístico que ayuda a identificar variables numéricas 📈, así como sus características clave, como media y frecuencias. Esta información es esencial para entender la distribución de los datos y facilitar la formulación de hipótesis 🧠, así como el desarrollo de técnicas de agrupamiento y reducción de dimensionalidad en el análisis de la obesidad 📊.


In [12]:
# Obtener estadísticas descriptivas de las variables numéricas
obesity.describe()

Unnamed: 0,Gender,Age,Height,Weight,family_history_with_overweight,FAVC,FCVC,NCP,CAEC,SMOKE,CH2O,SCC,FAF,TUE,CALC,NObeyesdad
count,2111.0,2111.0,2111.0,2111.0,2111.0,2111.0,2111.0,2111.0,2111.0,2111.0,2111.0,2111.0,2111.0,2111.0,2111.0,2111.0
mean,0.494079,24.3126,1.701677,86.586058,0.817622,0.883941,2.419043,2.685628,1.140692,0.020843,2.008011,0.045476,1.010298,0.657866,0.731407,3.112269
std,0.500083,6.345968,0.093305,26.191172,0.386247,0.320371,0.533927,0.778039,0.468543,0.142893,0.612953,0.208395,0.850592,0.608927,0.515498,1.985062
min,0.0,14.0,1.45,39.0,0.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,19.947192,1.63,65.473343,1.0,1.0,2.0,2.658738,1.0,0.0,1.584812,0.0,0.124505,0.0,0.0,1.0
50%,0.0,22.77789,1.700499,83.0,1.0,1.0,2.385502,3.0,1.0,0.0,2.0,0.0,1.0,0.62535,1.0,3.0
75%,1.0,26.0,1.768464,107.430682,1.0,1.0,3.0,3.0,1.0,0.0,2.47742,0.0,1.666678,1.0,1.0,5.0
max,1.0,61.0,1.98,173.0,1.0,1.0,3.0,4.0,3.0,1.0,3.0,1.0,3.0,2.0,3.0,6.0


El anterior resumen descriptivo nos ayuda a determinar si debemos escalar nuestros datos. Para ello, se presenta el siguiente análisis:

 1. **Diferencias en Escalas de las Variables**
   - Algunas variables, como `Age`, `Height`, y `Weight`, tienen rangos amplios, mientras que otras (`FCVC`, `NCP`, `CH2O`, `FAF`, `TUE`) tienen un rango limitado, generalmente entre 0 y 4.
   - Esta diferencia en escalas indica que, al realizar un análisis de clustering, las variables con valores mayores (como `Weight`) podrían tener un mayor impacto en la distancia que aquellas con valores pequeños (como `FCVC`).

2. **Tipo de Variables**
   - Las variables relacionadas con el estilo de vida (`FCVC`, `NCP`, `CH2O`, `FAF`, `TUE`) parecen estar en una escala ordinal o categórica, mientras que `Age`, `Height`, y `Weight` son variables continuas y de rango más amplio.
   - Escalar las variables continuas reducirá el efecto de estas diferencias y permitirá que todas las variables contribuyan de manera equilibrada en el análisis de clustering.

3. **Distribución de las Variables**
   - Si las variables tienen distribuciones muy diferentes, además de escalar, a veces es útil realizar una transformación (por ejemplo, logarítmica) para que las variables sean más comparables. Sin embargo, en este caso, parece que estandarizar es suficiente.

Se concluye que se escalarán los datos.

In [13]:
# Escalar los datos
scaler = StandardScaler()
scaled_data = scaler.fit_transform(obesity)

# Reducción de dimensionalidad usando Análisis de Componentes Principales (ACP)
pca = PCA(n_components=2)
pca_data = pca.fit_transform(scaled_data)

# Visualización de los datos reducidos a dos dimensiones con Plotly
import plotly.graph_objects as go

# Crear la figura
fig = go.Figure()

# Añadir los puntos de PCA al gráfico
fig.add_trace(go.Scatter(
    x=pca_data[:, 0],
    y=pca_data[:, 1],
    mode='markers',
    marker=dict(
        size=20,
        color='lime',
        line=dict(width=1, color='green'),
    ),
    name='Datos PCA'
))

# Configuración del layout
fig.update_layout(
    title='Reducción de dimensionalidad con ACP',
    xaxis_title='Componente Principal 1',
    yaxis_title='Componente Principal 2',
    template='seaborn',
    width=1000,
    height=800
)

# Mostrar el gráfico
fig.show()

Utilizaremos el método del codo (Elbow Method) 💪 como una técnica para determinar el número óptimo de clústeres en el análisis de agrupamiento.El análisis de clústeres nos permitirá identificar grupos de individuos que comparten características similares en relación con su peso, hábitos alimenticios, actividad física y otros factores. Estos grupos pueden proporcionar información valiosa para la comprensión de los patrones de obesidad en la población estudiada.

In [14]:
# Fijación de semilla para la reproducibilidad
seed = 40

# Selección de variables cuantitativas
X = obesity

# Determinación de número óptimo de clústeres utilizando el método del codo
inertia = []
k_values = range(1, 11)

for k in k_values:
    kmeans = KMeans(n_clusters=k, random_state=seed)
    kmeans.fit(X)
    inertia.append(kmeans.inertia_)

# Creación del gráfico
fig = go.Figure()

fig.add_trace(go.Scatter(
    x=list(k_values),
    y=inertia,
    mode='lines+markers',
    name='Inercia',
    marker=dict(size=10, color='Lime')
))

# Ajustar el tamaño del gráfico
fig.update_layout(
    title='Método del codo',
    xaxis_title='Número de clústeres',
    yaxis_title='Inercia',
    xaxis=dict(tickvals=list(k_values)),
    yaxis=dict(showgrid=True),
    template='seaborn',
    width=1000,
    height=800
)

fig.show()

Según el método del codo, el número óptimo de clústeres es 2.

In [15]:
# Selección del número de clústeres según el método del codo
optimal_k = 2
kmeans = KMeans(n_clusters=optimal_k, random_state=seed)
kmeans_labels = kmeans.fit_predict(pca_data)

# Crear la figura con Plotly
import plotly.express as px

# Convertir los datos a un DataFrame para facilitar la visualización
import pandas as pd

pca_df = pd.DataFrame(data=pca_data, columns=['Componente Principal 1', 'Componente Principal 2'])
pca_df['Cluster'] = kmeans_labels
obesity['Cluster'] = kmeans_labels

# Definir colores y nombres personalizados para cada clúster
colores = [ '#3283FE', '#F6F926']
nombres_clusters = {0: "Clúster 2 ", 1: "Clúster 1"}

# Mapear los nombres a los clústeres
pca_df['Nombre del Cluster'] = pca_df['Cluster'].map(nombres_clusters)

# Crear el gráfico de dispersión
fig = px.scatter(
    pca_df,
    x='Componente Principal 1',
    y='Componente Principal 2',
    title='Agrupación de datos con K-means',
    color_discrete_sequence=colores,
    color='Nombre del Cluster',
    labels={'Cluster': 'Cluster'},
    opacity=0.7,
)

# Aumentar el tamaño de los puntos y agregar bordes
fig.update_traces(marker=dict(size=20, line=dict(width=2, color='black')))  # Bordes en negro


# Añadir etiquetas de ejes
fig.update_layout(
    xaxis_title='Componente Principal 1',
    yaxis_title='Componente Principal 2',
    template='seaborn',
    width=1000,
    height=800
)

# Mostrar el gráfico
fig.show()

En el análisis de clústeres, especialmente en el contexto de la obesidad, es fundamental no solo identificar los clústeres óptimos, sino también evaluar qué tan bien se han formado esos clústeres. Un buen agrupamiento no solo debe tener una separación clara entre los clústeres, sino que también debe mostrar que los puntos dentro de cada clúster son más similares entre sí que con los puntos de otros clústeres. Aquí es donde el índice de silueta entra en juego.

In [16]:
# Evaluación de los clústeres usando el índice de silueta
silhouette_avg = silhouette_score(pca_data, kmeans_labels)
print(f'Índice de Silueta para k={optimal_k}: {silhouette_avg:.2f}')

Índice de Silueta para k=2: 0.41


En nuestro análisis de clústeres, utilizamos el método del codo para determinar que un número óptimo de clústeres es k=2, lo que resultó en un índice de silueta promedio de 0.41. Este índice, que varía entre -1 y 1, indica que los puntos en nuestros clústeres están moderadamente bien agrupados, aunque existe cierto solapamiento entre ellos. Un valor de 0.41 sugiere que algunos individuos podrían no estar claramente definidos en un único clúster, lo cual es relevante en el estudio de obesidad, donde los hábitos y características pueden ser similares entre grupos. Aunque el método del codo nos ayudó a identificar el número de clústeres, es esencial considerar la calidad de la agrupación y explorar posibles modelos alternativos para mejorar la comprensión de los patrones de obesidad en la población estudiada.

Para cada clúster realizaremos un análisis descriptivo que ayuda a entender las características promedio de cada clúster, permitiendo identificar patrones y diferencias.

In [17]:
# Agrupamos los datos por 'Cluster' y calculamos la media de cada variable
cluster_profiles = obesity.groupby('Cluster').mean().reset_index()
cluster_profiles.columns = ['Cluster'] + [f'Media_{col}' for col in cluster_profiles.columns[1:]]  # Renombrar columnas
cluster_profiles_df = pd.DataFrame(cluster_profiles)

# Mostrar los perfiles de clústeres
print("Perfiles de Clústeres (Media):")
print(tabulate(cluster_profiles_df, headers='keys', tablefmt='pretty', showindex=False))  # Mostrar con tabulate

# Separar visualmente las salidas
print("\n" + "="*50 + "\n")  # Línea de separación


Perfiles de Clústeres (Media):
+---------+---------------------+--------------------+--------------------+-------------------+--------------------------------------+--------------------+--------------------+--------------------+--------------------+----------------------+--------------------+----------------------+--------------------+--------------------+--------------------+--------------------+----------------------+------------------------+------------------------------------+----------------------+
| Cluster |    Media_Gender     |     Media_Age      |    Media_Height    |   Media_Weight    | Media_family_history_with_overweight |     Media_FAVC     |     Media_FCVC     |     Media_NCP      |     Media_CAEC     |     Media_SMOKE      |     Media_CH2O     |      Media_SCC       |     Media_FAF      |     Media_TUE      |     Media_CALC     |  Media_NObeyesdad  |  Media_MTRANS_Bike   | Media_MTRANS_Motorbike | Media_MTRANS_Public_Transportation | Media_MTRANS_Walking |
+---------+--

En resumen observamos que:

## Cluster 1:
- **Demografía:** Este grupo tiene una media de edad de aproximadamente 26 años y una altura media de 1.72 m.
- **Peso:** La media de peso es notablemente alta, alcanzando los 101.32 kg, lo que podría indicar un mayor nivel de obesidad en este clúster.
- **Historia Familiar:** La mayoría (99.03%) de los individuos en este clúster reporta antecedentes familiares de sobrepeso.
- **Hábitos Alimenticios:** Este clúster muestra un alto consumo de alimentos altos en calorías (FAVC = 97.77%) y un consumo moderado de vegetales (FCVC = 2.46).
- **Estilo de Vida:** La actividad física es baja, con una media de 0.60 en el monitoreo de calorías y una media de 4.27 en la frecuencia de actividad física.
- **Nivel de Obesidad:** La media de la variable **NObeyesdad** es de 0.798, lo que indica una tendencia hacia niveles más altos de obesidad.

## Cluster 2:
- **Demografía:** Este grupo es más joven, con una media de edad de 21 años y una altura media de 1.67 m.
- **Peso:** El peso medio es significativamente menor, en 60.77 kg, indicando menos obesidad en comparación con el clúster anterior.
- **Historia Familiar:** Un 51.50% de los individuos tiene antecedentes familiares de sobrepeso.
- **Hábitos Alimenticios:** Se observa un consumo menor de alimentos altos en calorías (FAVC = 71.97%) y un consumo similar de vegetales (FCVC = 2.34).
- **Estilo de Vida:** Este clúster también tiene una baja actividad física, con un índice de monitoreo de calorías de 0.75 y una frecuencia de actividad física de 1.08.
- **Nivel de Obesidad:** La media de la variable **NObeyesdad** es de 0.614, lo que sugiere un nivel de obesidad más bajo en comparación con el clúster anterior.

En el diagrama de cajas y bigotes podemos visualizar mejor la distribución del peso por clúster.

In [18]:
# Visualización de la distribución del peso por clúster usando Plotly
fig = px.box(obesity, x='Cluster', y='Weight',
              title='Distribución del Peso por Clúster',
              labels={'Cluster': 'Clúster', 'Weight': 'Peso'},
              color='Cluster',
              height=800,
              template='seaborn',
)

# Mostrar el gráfico
fig.show()

Este boxplot nos muestra que los dos clusters tienen distribuciones de peso distintas

Cluster 1: Tiene un peso promedio más alto y una mayor variabilidad en los pesos.
Cluster 2: Tiene un peso promedio más bajo y una menor variabilidad en los pesos.

El ANOVA permite determinar si hay diferencias significativas en la variable dependiente NObeyesdad entre los diferentes clústeres. Esto ayuda a validar si los clústeres son distintos en términos de las variables clave. El análisis se realiza a continuación

In [19]:
#ANOVA
anova = ols('NObeyesdad ~ C(Cluster)', data=obesity).fit()
anova_table = sm.stats.anova_lm(anova, typ=2)
print(anova_table)


                 sum_sq      df            F  PR(>F)
C(Cluster)  4952.403682     1.0  3106.679042     0.0
Residual    3361.988549  2109.0          NaN     NaN


Los resultados del análisis de varianza (ANOVA) revelan que la variable de agrupación, los clústeres, tiene un efecto estadísticamente significativo sobre la variable dependiente analizada, como se evidencia en el estadístico F de 3106.68 y un valor P de 0.00. Esto indica que las diferencias en las medias de los clústeres son sustanciales y no son atribuibles al azar, lo que sugiere que los perfiles de obesidad entre los grupos estudiados son distintos. La suma de cuadrados total de 4952.40 para los clústeres, en contraste con la suma de cuadrados residual de 3361.99, enfatiza la capacidad de la agrupación para explicar la variabilidad en los datos.

El análisis de características clave mediante un modelo de bosque aleatorio proporciona información valiosa sobre las variables más influyentes en la clasificación de la obesidad. Al observar las importancias de las características, podemos identificar cuáles son los factores determinantes que contribuyen a la obesidad en la población estudiada.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from ucimlrepo import fetch_ucirepo

# Cargar la base de datos desde UCIMLRepo
estimation_of_obesity_levels_based_on_eating_habits_and_physical_condition = fetch_ucirepo(id=544)

# Datos (como dataframes de pandas)
X = estimation_of_obesity_levels_based_on_eating_habits_and_physical_condition.data.features
y = estimation_of_obesity_levels_based_on_eating_habits_and_physical_condition.data.targets

# Metadata
enumerate(estimation_of_obesity_levels_based_on_eating_habits_and_physical_condition.metadata)

# Información de variables
print(estimation_of_obesity_levels_based_on_eating_habits_and_physical_condition.variables)

# Resumen de la base de datos
num_rows, num_columns = X.shape
print(f'Cantidad de registros: {num_rows}, Cantidad de variables: {num_columns}\n')

# Identificar las variables numéricas y cualitativas
numerical_features = X.select_dtypes(include=['int64', 'float64']).columns.tolist()
categorical_features = X.select_dtypes(include=['object']).columns.tolist()

print(f'Variables numéricas: {numerical_features}\n')
print(f'Variables cualitativas: {categorical_features}\n')

# Resumen estadístico de las variables numéricas
print(X[numerical_features].describe())

# Exploración manual de la base de datos
print(X.head())

# Hipótesis planteadas:
# 1. Existe una correlación significativa entre los hábitos alimenticios y la obesidad.
# 2. Las variables de actividad física tienen un impacto importante en los niveles de obesidad.

# Escalamiento de las variables numéricas para el análisis de agrupación
scaler = StandardScaler()
scaled_data = scaler.fit_transform(X[numerical_features])

# Reducción de dimensionalidad usando Análisis de Componentes Principales (ACP)
pca = PCA(n_components=2)
pca_data = pca.fit_transform(scaled_data)

# Visualización de los datos reducidos a dos dimensiones
plt.figure(figsize=(10, 6))
plt.scatter(pca_data[:, 0], pca_data[:, 1], alpha=0.5)
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.title('Reducción de dimensionalidad con ACP')
plt.show()

# Agrupación de los datos usando K-means
# Determinar el número óptimo de clústeres usando el método del codo
inertia = []
k_values = range(1, 11)

for k in k_values:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(pca_data)
    inertia.append(kmeans.inertia_)

plt.figure(figsize=(10, 6))
plt.plot(k_values, inertia, marker='o')
plt.xlabel('Número de clústeres (k)')
plt.ylabel('Inercia')
plt.title('Método del codo para determinar el número óptimo de clústeres')
plt.show()

# Selección del número de clústeres según el método del codo
optimal_k =   # Puede ajustar este valor según el gráfico del método del codo
kmeans = KMeans(n_clusters=optimal_k, random_state=42)
kmeans_labels = kmeans.fit_predict(pca_data)

# Visualización de los clústeres
plt.figure(figsize=(10, 6))
sns.scatterplot(x=pca_data[:, 0], y=pca_data[:, 1], hue=kmeans_labels, palette='Set1', alpha=0.7)
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.title(f'Agrupación de datos sobre obesidad con K-means (k={optimal_k})')
plt.legend(title='Cluster')
plt.show()

# Evaluación de los clústeres usando el índice de silueta
silhouette_avg = silhouette_score(pca_data, kmeans_labels)
print(f'Índice de Silueta para k={optimal_k}: {silhouette_avg:.2f}')

# Conclusiones
# Según el análisis de ACP y la agrupación con K-means, se lograron identificar {optimal_k} clústeres distintos que agrupan a los individuos según sus características relacionadas con la obesidad.
# Se podría reentrenar el modelo con un número diferente de clústeres o usando otros métodos de agrupación (e.g., DBSCAN o Agglomerative Clustering) para evaluar si se obtienen mejores resultados según el índice de silueta.

# Fin del proyecto