1. Implemente un modelo de regresión que estime el peso de una persona a partir de su altura y edad. Luego, imprima en pantalla la métrica R^2 para medir el desempeño del modelo.

In [3]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

filepath = './obesity.csv'
dataset = pd.read_csv(filepath, header=0)

x = dataset[['Height', 'Age']].values
y = dataset['Weight'].values

regression_model = LinearRegression()
regression_model.fit(x, y)

y_pred = regression_model.predict(X)
r2 = regression_model.score(x, y)

print(f'Coeficiente R² del modelo: {r2:.4f}')

Coeficiente R² del modelo: 0.2606


2. Aumente la complejidad del modelo de regresión y agregue variables independientes (numéricas y/o categóricas) tanto como se requiera, con el fin de mejorar las métricas de evaluación. Despliegue en la sesión de trabajo los resultados respectivos.

In [5]:
from sklearn.preprocessing import LabelEncoder

label_encoders = {}
categorical_features = ['Gender', 'family_history_with_overweight', 'FAVC', 'CAEC', 'SMOKE', 'SCC', 'CALC', 'MTRANS']

for feature in categorical_features:
    le = LabelEncoder()
    dataset[feature] = le.fit_transform(dataset[feature].astype(str))
    label_encoders[feature] = le

features = ['Age', 'Height', 'FCVC', 'NCP', 'CH2O', 'FAF', 'TUE'] + categorical_features
x_full = dataset[features]
y = dataset['Weight']

model_full = LinearRegression()
model_full.fit(x_full, y)
y_pred_full = model_full.predict(x_full)
r2_full = model_full.score(x_full, y)

print(f"R² con todas las variables: {r2_full:.4f}")

R² con todas las variables: 0.5525


3. Implemente un modelo de clasificación que estime el grado de obesidad de una persona (NObeyesdad) basado únicamente en atributos de sus hábitos de alimentación. Luego, imprima en pantalla la exactitud del modelo y su matriz de confusión.

In [18]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import confusion_matrix

eating_habits_features = ['FAVC', 'FCVC', 'NCP', 'CAEC', 'CH2O', 'CALC']

X_eating = dataset[eating_habits_features]
y_obesity = dataset['NObeyesdad']


n_neighbors = 7
knn_model = KNeighborsClassifier(n_neighbors=n_neighbors)
knn_model.fit(X_eating, y_obesity)

y_pred = knn_model.predict(X_eating)
accuracy = knn_model.score(X_eating, y_obesity)

print(f'{accuracy:.4f}')

print("---------------------------------------\n")

cm = confusion_matrix(y_obesity, y_pred)

print(cm)

0.6712
---------------------------------------

[[195  28  13  11   5   9  11]
 [ 29 223  11   2   0   9  13]
 [ 11  47 213  23  14  22  21]
 [  5  20  14 230  17   6   5]
 [  0   4   3   0 317   0   0]
 [ 14  54  40  33  11 125  13]
 [ 13  65  60  18   3  17 114]]


4. Implemente otro modelo de clasificación que estime el NObeyesdad de una persona basado únicamente en atributos relacionados con su condición física. Luego, imprima en pantalla la exactitud del modelo y su matriz de confusión.

In [17]:
from sklearn import svm
from sklearn.metrics import confusion_matrix

physical_condition_features = ['SCC', 'FAF', 'TUE', 'MTRANS']

X_physical = dataset[physical_condition_features]
y_obesity = dataset['NObeyesdad']

svm_model = svm.SVC(degree=3, C=10)
svm_model.fit(X_physical, y_obesity)

y_pred_phys = svm_model.predict(X_physical)
accuracy_phys = svm_model.score(X_physical, y_obesity)

print(f'{accuracy_phys:.4f}')

print("---------------------------------------\n")

cm_phys = confusion_matrix(y_obesity, y_pred_phys)

print(cm_phys)

0.3937
---------------------------------------

[[ 64   7  71  29  97   3   1]
 [ 20  67  27  54 101   8  10]
 [ 31  15 144  51  90   5  15]
 [  1   4  45 162  52   5  28]
 [  0   0   4   0 320   0   0]
 [ 15  25  59  95  43  40  13]
 [ 34  11  60  46 101   4  34]]


5. Opcional: ¿Cuál de los dos modelos logra predecir con mayor exactitud el grado de obesidad de una persona? ¿Cuál es la categoría de obesidad que presentó más falsos negativos para cada modelo? ¿Cuál es la categoría de obesidad que presentó más falsos positivos para cada modelo?


Si se suman todas las entradas $M_{i,j}$ de la fila $i$ en donde $i \neq j$ se obtiene el total de **falsos positivos** para la clase ${c}_i$ y si se suman todas las entradas $M_{i,j}$ de la columna $j$ en donde $i \neq j$ se obtiene el total de **falsos negativos** para la clase ${c}_j$.


¿Cuál de los dos modelos logra predecir con mayor exactitud el grado de obesidad de una persona?

El modelo k-NN basado en hábitos de alimentación predice con mayor exactitud (67.12%) que el modelo SVM basado en condición física (39.37%).

¿Cuál es la categoría de obesidad que presentó más falsos negativos para cada modelo?

En el modelo k-NN: Overweight_Level_II (176 falsos negativos)

En el modelo SVM: Overweight_Level_II (256 falsos negativos)

¿Cuál es la categoría de obesidad que presentó más falsos positivos para cada modelo?

En el modelo k-NN: Overweight_Level_II (176 falsos positivos)

En el modelo SVM: Overweight_Level_II (256 falsos positivos)

La categoría "Overweight_Level_II" es la que presenta más problemas de clasificación en ambos modelos.