# Problema

Predecir el coste del seguro

## Instrucciones

 Utilizar el dataset (insurance.csv) para entrenar un modelo de regresión capaz de predecir el valor del seguro en función de las características del cliente. Realizar limpieza, preprocesado modelado y testeo del modelo aportando conclusiones de todos estos pasos.

# El set de datos

* age: age of primary beneficiary

* sex: insurance contractor gender, female, male

* bmi: Body mass index, providing an understanding of body, weights that are relatively high or low relative to height,
objective index of body weight (kg / m ^ 2) using the ratio of height to weight, ideally 18.5 to 24.9

* children: Number of children covered by health insurance / Number of dependents

* smoker: Smoking

* region: the beneficiary's residential area in the US, northeast, southeast, southwest, northwest.

* charges: Individual medical costs billed by health insurance



In [1]:
# imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler, PolynomialFeatures
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

In [2]:
ruta = "insurance.csv"
data = pd.read_csv(ruta)

In [3]:
print(data.shape)
data.head()

(1338, 7)


Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


# Objetivo

Generar un model de regresión capaz de predecir el valor del seguro en base a las características del cliente.

* Aplicar las técnicas oportunas de procesamiento de datos (lipieza, nans, escalado...)

* Valorar diferentes modelos de regresión (linear regressor, polynomial, ridge, lasso, elastic, decission tree y random forest)

* Comparación entre modelos (dividir el dataset en train y test, entrenar con el train y evaluar con el test)

* Métricas (todas, y que aporta cada una)

* Conclusiones finales

## Implementación

In [4]:
data.dtypes

age           int64
sex          object
bmi         float64
children      int64
smoker       object
region       object
charges     float64
dtype: object

In [5]:
print(data.isna().sum())

age         0
sex         0
bmi         0
children    0
smoker      0
region      0
charges     0
dtype: int64


In [6]:
categorical_cols = data.select_dtypes(include=['object']).columns
data_encoded = pd.get_dummies(data, columns=categorical_cols, drop_first=True)

In [7]:
numeric_cols = data_encoded.select_dtypes(include=np.number).columns.tolist()
scaler = MinMaxScaler()
data_encoded[numeric_cols] = scaler.fit_transform(data_encoded[numeric_cols])

In [8]:
X = data_encoded.drop('charges', axis=1)
y = data_encoded['charges']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [9]:
results = []
def train_and_evaluate(model, model_name, X_train, X_test, y_train, y_test):
    model.fit(X_train, y_train)
    y_pred_train = model.predict(X_train)
    y_pred_test = model.predict(X_test)
    mae_train = mean_absolute_error(y_train, y_pred_train)
    mse_train = mean_squared_error(y_train, y_pred_train)
    rmse_train = np.sqrt(mse_train)
    r2_train = r2_score(y_train, y_pred_train)
    mae_test = mean_absolute_error(y_test, y_pred_test)
    mse_test = mean_squared_error(y_test, y_pred_test)
    rmse_test = np.sqrt(mse_test)
    r2_test = r2_score(y_test, y_pred_test)
    results.append({'Model': model_name, 'MAE Train': mae_train, 'MAE Test': mae_test, 'MSE Train': mse_train, 'MSE Test': mse_test, 'RMSE Train': rmse_train, 'RMSE Test': rmse_test, 'R2 Train': r2_train, 'R2 Test': r2_test})
    print(f"Modelo: {model_name}")
    print(f"Métricas en Train: MAE: {mae_train:.4f}, MSE: {mse_train:.4f}, RMSE: {rmse_train:.4f}, R2: {r2_train:.4f}")
    print(f"Métricas en Test: MAE: {mae_test:.4f}, MSE: {mse_test:.4f}, RMSE: {rmse_test:.4f}, R2: {r2_test:.4f}")
    print('-'*50)

In [10]:
models = {
    'Linear Regression': LinearRegression(),
    'Ridge Regression': Ridge(),
    'Lasso Regression': Lasso(),
    'ElasticNet Regression': ElasticNet(),
    'Decision Tree': DecisionTreeRegressor(random_state=42),
    'Random Forest': RandomForestRegressor(random_state=42)
}
for name, model in models.items():
    train_and_evaluate(model, name, X_train, X_test, y_train, y_test)

Modelo: Linear Regression
Métricas en Train: MAE: 0.0671, MSE: 0.0095, RMSE: 0.0975, R2: 0.7416
Métricas en Test: MAE: 0.0667, MSE: 0.0086, RMSE: 0.0925, R2: 0.7838
--------------------------------------------------
Modelo: Ridge Regression
Métricas en Train: MAE: 0.0670, MSE: 0.0095, RMSE: 0.0975, R2: 0.7416
Métricas en Test: MAE: 0.0666, MSE: 0.0086, RMSE: 0.0926, R2: 0.7833
--------------------------------------------------
Modelo: Lasso Regression
Métricas en Train: MAE: 0.1437, MSE: 0.0368, RMSE: 0.1918, R2: 0.0000
Métricas en Test: MAE: 0.1531, MSE: 0.0396, RMSE: 0.1990, R2: -0.0009
--------------------------------------------------
Modelo: ElasticNet Regression
Métricas en Train: MAE: 0.1437, MSE: 0.0368, RMSE: 0.1918, R2: 0.0000
Métricas en Test: MAE: 0.1531, MSE: 0.0396, RMSE: 0.1990, R2: -0.0009
--------------------------------------------------
Modelo: Decision Tree
Métricas en Train: MAE: 0.0000, MSE: 0.0000, RMSE: 0.0000, R2: 1.0000
Métricas en Test: MAE: 0.0489, MSE: 0.01

In [11]:
poly = PolynomialFeatures(degree=2)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)
poly_model = LinearRegression()
train_and_evaluate(poly_model, 'Polynomial Regression', X_train_poly, X_test_poly, y_train, y_test)

Modelo: Polynomial Regression
Métricas en Train: MAE: 0.0460, MSE: 0.0058, RMSE: 0.0761, R2: 0.8423
Métricas en Test: MAE: 0.0434, MSE: 0.0053, RMSE: 0.0729, R2: 0.8657
--------------------------------------------------


# Conclusiones

In [12]:
results_df = pd.DataFrame(results)
results_df

Unnamed: 0,Model,MAE Train,MAE Test,MSE Train,MSE Test,RMSE Train,RMSE Test,R2 Train,R2 Test
0,Linear Regression,0.067141,0.066661,0.009501,0.008552,0.097474,0.092478,0.741634,0.783789
1,Ridge Regression,0.067026,0.066558,0.009504,0.00857,0.097486,0.092573,0.741567,0.783347
2,Lasso Regression,0.143666,0.153128,0.036774,0.039591,0.191765,0.198975,0.0,-0.000919
3,ElasticNet Regression,0.143666,0.153128,0.036774,0.039591,0.191765,0.198975,0.0,-0.000919
4,Decision Tree,0.0,0.048899,0.0,0.010785,0.0,0.103851,0.727013,
5,Random Forest,0.017193,0.043556,0.000977,0.005659,0.031259,0.075224,0.973429,0.85694
6,Polynomial Regression,0.046041,0.043447,0.005798,0.005313,0.076147,0.072887,0.842322,0.865691


### Análisis de Métricas

- **MAE (Mean Absolute Error)**: Mide el error promedio absoluto. Un valor más bajo es mejor. Es fácil de interpretar porque está en las mismas unidades que la variable objetivo.
- **MSE (Mean Squared Error)**: Mide el error cuadrático promedio. Penaliza más los errores grandes. Un valor más bajo es mejor.
- **RMSE (Root Mean Squared Error)**: Es la raíz cuadrada del MSE, por lo que está en las mismas unidades que la variable objetivo, facilitando la interpretación. Un valor más bajo es mejor.
- **R² (Coeficiente de Determinación)**: Indica la proporción de la varianza de la variable objetivo que es explicada por el modelo. Un valor más cercano a 1 es mejor.

### Conclusiones del Modelo

1.  **Mejor Modelo**: La **Regresión Polinómica** seguida de cerca por el **Random Forest** son los modelos con el mejor rendimiento en el conjunto de test. La Regresión Polinómica obtiene el R² más alto (0.8657), lo que sugiere que las relaciones entre las características y el coste del seguro no son puramente lineales. El Random Forest también es muy competitivo, con un R² de 0.8569 y el MAE más bajo en test (0.0436) junto a la Regresión Polinómica.

2.  **Sobreajuste (Overfitting)**: El **Decision Tree** muestra un claro sobreajuste. Tiene un rendimiento perfecto en el conjunto de entrenamiento (R²=1.0), pero su rendimiento en el test es considerablemente más bajo (R²=0.7270). El **Random Forest**, al ser un ensamblado de árboles, mitiga este sobreajuste de manera efectiva, mostrando una diferencia mucho menor entre las métricas de train y test.

3.  **Modelos de Bajo Rendimiento**: Los modelos de regularización **Lasso** y **ElasticNet** tienen un rendimiento extremadamente bajo, con un R² negativo en el test. Esto indica que son peores que un modelo que simplemente predice la media de los costes. La regularización L1 (utilizada por Lasso y ElasticNet) podría estar penalizando demasiado los coeficientes, llevando a un modelo demasiado simple que no captura la información relevante.

4.  **Modelos Lineales**: La **Regresión Lineal** y **Ridge** ofrecen un rendimiento decente y muy similar (R² ≈ 0.78), pero son superados por los modelos no lineales. Esto confirma que existen relaciones más complejas en los datos que estos modelos no pueden capturar.

**Recomendación Final**: Para este problema, la **Regresión Polinómica de grado 2** es el modelo recomendado. Ofrece el mejor poder predictivo según el R² y un error bajo, sin mostrar un sobreajuste excesivo.