# Problema

Predecir el coste del seguro

# El set de datos

* age: age of primary beneficiary

* sex: insurance contractor gender, female, male

* bmi: Body mass index, providing an understanding of body, weights that are relatively high or low relative to height,
objective index of body weight (kg / m ^ 2) using the ratio of height to weight, ideally 18.5 to 24.9

* children: Number of children covered by health insurance / Number of dependents

* smoker: Smoking

* region: the beneficiary's residential area in the US, northeast, southeast, southwest, northwest.

* charges: Individual medical costs billed by health insurance



In [None]:
# imports
import pandas as pd

In [None]:
ruta = "/content/insurance.csv"
data = pd.read_csv(ruta)

In [None]:
print(data.shape)
data.head()

(1338, 7)


Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


# Objetivo

Generar un model de regresión capaz de predecir el valor del seguro en base a las características del cliente.

* Aplicar las técnicas oportunas de procesamiento de datos

* Valorar diferentes modelos de regresión

* Comparación entre modelos

* Ensemble

* Métricas

* Conclusiones finales

## Implementación

In [None]:
data.isna().sum()

age         0
sex         0
bmi         0
children    0
smoker      0
region      0
charges     0
dtype: int64

In [None]:
import pandas as pd

# Variables que pueden ser tratadas con one-hot encoding
categorical_variables = ['sex', 'smoker', 'region']

# Aplicar one-hot encoding a las variables categóricas
data_encoded = pd.get_dummies(data, columns=categorical_variables, drop_first=True)

# Mostrar el DataFrame con las variables codificadas
print(data_encoded.head())


   age     bmi  children      charges  sex_male  smoker_yes  region_northwest  \
0   19  27.900         0  16884.92400         0           1                 0   
1   18  33.770         1   1725.55230         1           0                 0   
2   28  33.000         3   4449.46200         1           0                 0   
3   33  22.705         0  21984.47061         1           0                 1   
4   32  28.880         0   3866.85520         1           0                 1   

   region_southeast  region_southwest  
0                 0                 1  
1                 1                 0  
2                 1                 0  
3                 0                 0  
4                 0                 0  


In [None]:
from sklearn.preprocessing import MinMaxScaler

# Selecciona solo las características numéricas
numeric_data = data[['age', 'bmi']]  # Las características deben estar dentro de una lista []

# Inicializa el escalador Min-Max
scaler = MinMaxScaler()

# Escala las características numéricas
scaled_numeric_data = scaler.fit_transform(numeric_data)

# Crea un nuevo DataFrame con las características escaladas
scaled_data = pd.DataFrame(scaled_numeric_data, columns=['age', 'bmi'])

# Reemplaza las características originales con las características escaladas en tu DataFrame
data_encoded[['age', 'bmi']] = scaled_data

print(data_encoded.head())


        age       bmi  children      charges  sex_male  smoker_yes  \
0  0.021739  0.321227         0  16884.92400         0           1   
1  0.000000  0.479150         1   1725.55230         1           0   
2  0.217391  0.458434         3   4449.46200         1           0   
3  0.326087  0.181464         0  21984.47061         1           0   
4  0.304348  0.347592         0   3866.85520         1           0   

   region_northwest  region_southeast  region_southwest  
0                 0                 0                 1  
1                 0                 1                 0  
2                 0                 1                 0  
3                 1                 0                 0  
4                 1                 0                 0  


# Modelos


In [None]:
# Características (X): todas las columnas excepto 'charges'
X = data_encoded.drop('charges', axis=1)

# Etiquetas (y): la columna 'charges'
y = data_encoded['charges']

# Verificación rápida de las dimensiones de X e y
print("Dimensiones de X:", X.shape)
print("Dimensiones de y:", y.shape)

Dimensiones de X: (1338, 8)
Dimensiones de y: (1338,)


## Random Forest

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score


# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar y entrenar el modelo de Random Forest
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = rf_model.predict(X_test)


# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)

# Calcular la raíz del error cuadrático medio (RMSE)
rmse = mean_squared_error(y_test, y_pred, squared=False)

# Calcular el error absoluto medio (MAE)
mae = mean_absolute_error(y_test, y_pred)

# Calcular el coeficiente de determinación (R^2)
r2 = r2_score(y_test, y_pred)

# Mostrar las métricas
print("Mean Squared Error (MSE):", mse)
print("Root Mean Squared Error (RMSE):", rmse)
print("Mean Absolute Error (MAE):", mae)
print("R^2 Score:", r2)


Mean Squared Error (MSE): 20987946.604972903
Root Mean Squared Error (RMSE): 4581.260372973021
Mean Absolute Error (MAE): 2564.826207922704
R^2 Score: 0.8648108335359569


## Árboles de Decisiones


In [None]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar y entrenar el modelo de árbol de decisión
decision_tree_model = DecisionTreeRegressor(random_state=42)
decision_tree_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = decision_tree_model.predict(X_test)


# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)

# Calcular la raíz del error cuadrático medio (RMSE)
rmse = mean_squared_error(y_test, y_pred, squared=False)

# Calcular el error absoluto medio (MAE)
mae = mean_absolute_error(y_test, y_pred)

# Calcular el coeficiente de determinación (R^2)
r2 = r2_score(y_test, y_pred)

# Mostrar las métricas
print("Mean Squared Error (MSE):", mse)
print("Root Mean Squared Error (RMSE):", rmse)
print("Mean Absolute Error (MAE):", mae)
print("R^2 Score:", r2)

Mean Squared Error (MSE): 42446748.91927925
Root Mean Squared Error (RMSE): 6515.11695361482
Mean Absolute Error (MAE): 3194.7066420373135
R^2 Score: 0.726588755274123


## SVR

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.svm import SVR
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score


# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Escalar características utilizando StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Inicializar y entrenar el modelo SVR
svr_model = SVR(kernel='rbf')  # RBF kernel es comúnmente utilizado
svr_model.fit(X_train_scaled, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = svr_model.predict(X_test_scaled)


# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)

# Calcular la raíz del error cuadrático medio (RMSE)
rmse = mean_squared_error(y_test, y_pred, squared=False)

# Calcular el error absoluto medio (MAE)
mae = mean_absolute_error(y_test, y_pred)

# Calcular el coeficiente de determinación (R^2)
r2 = r2_score(y_test, y_pred)

# Mostrar las métricas
print("Mean Squared Error (MSE):", mse)
print("Root Mean Squared Error (RMSE):", rmse)
print("Mean Absolute Error (MAE):", mae)
print("R^2 Score:", r2)

Mean Squared Error (MSE): 166128803.80848217
Root Mean Squared Error (RMSE): 12889.096314656128
Mean Absolute Error (MAE): 8612.408423351833
R^2 Score: -0.07008155372454805


## Gradient Boosting Regresor


In [None]:
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar y entrenar el modelo de Gradient Boosting
gradient_boosting_model = GradientBoostingRegressor(n_estimators=100, learning_rate=0.1, random_state=42)
gradient_boosting_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = gradient_boosting_model.predict(X_test)


# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)

# Calcular la raíz del error cuadrático medio (RMSE)
rmse = mean_squared_error(y_test, y_pred, squared=False)

# Calcular el error absoluto medio (MAE)
mae = mean_absolute_error(y_test, y_pred)

# Calcular el coeficiente de determinación (R^2)
r2 = r2_score(y_test, y_pred)

# Mostrar las métricas
print("Mean Squared Error (MSE):", mse)
print("Root Mean Squared Error (RMSE):", rmse)
print("Mean Absolute Error (MAE):", mae)
print("R^2 Score:", r2)

Mean Squared Error (MSE): 18745176.47586223
Root Mean Squared Error (RMSE): 4329.570010504765
Mean Absolute Error (MAE): 2443.483262376879
R^2 Score: 0.8792571359795264


# Ensembles

## Bagging (Random Forest)


In [None]:
from sklearn.ensemble import BaggingRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar y entrenar el modelo de Random Forest
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)

# Inicializar y entrenar el modelo Bagging con Random Forest como estimador base
bagging_model = BaggingRegressor(base_estimator=rf_model, n_estimators=10, random_state=42)
bagging_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = bagging_model.predict(X_test)


# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)

# Calcular la raíz del error cuadrático medio (RMSE)
rmse = mean_squared_error(y_test, y_pred, squared=False)

# Calcular el error absoluto medio (MAE)
mae = mean_absolute_error(y_test, y_pred)

# Calcular el coeficiente de determinación (R^2)
r2 = r2_score(y_test, y_pred)

# Mostrar las métricas
print("Mean Squared Error (MSE):", mse)
print("Root Mean Squared Error (RMSE):", rmse)
print("Mean Absolute Error (MAE):", mae)
print("R^2 Score:", r2)



Mean Squared Error (MSE): 19859942.921931837
Root Mean Squared Error (RMSE): 4456.449587051539
Mean Absolute Error (MAE): 2557.9716379752576
R^2 Score: 0.8720766171092084


## Hist Gradient Boosting Regressor (Gradient Boosting Regresor)


In [None]:
from sklearn.experimental import enable_hist_gradient_boosting
from sklearn.ensemble import HistGradientBoostingRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar y entrenar el modelo de HistGradientBoosting
hist_gradient_boosting_model = HistGradientBoostingRegressor(random_state=42)
hist_gradient_boosting_model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = hist_gradient_boosting_model.predict(X_test)


# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(y_test, y_pred)

# Calcular la raíz del error cuadrático medio (RMSE)
rmse = mean_squared_error(y_test, y_pred, squared=False)

# Calcular el error absoluto medio (MAE)
mae = mean_absolute_error(y_test, y_pred)

# Calcular el coeficiente de determinación (R^2)
r2 = r2_score(y_test, y_pred)

# Mostrar las métricas
print("Mean Squared Error (MSE):", mse)
print("Root Mean Squared Error (RMSE):", rmse)
print("Mean Absolute Error (MAE):", mae)
print("R^2 Score:", r2)

Mean Squared Error (MSE): 21238495.88655289
Root Mean Squared Error (RMSE): 4608.5242634223905
Mean Absolute Error (MAE): 2669.9226935830657
R^2 Score: 0.8631969763458048


# Conclusiones

Después de analizar los resultados de los modelos de regresión aplicados para predecir el coste del seguro, podemos observar varias conclusiones clave. Primero, el modelo de Gradient Boosting Regressor mostró el mejor desempeño con un R² de 0.879 y un RMSE de 4329.57, indicando que captura bien la variabilidad en los costes del seguro. El modelo Random Forest también tuvo un rendimiento sólido con un R² de 0.865 y un RMSE de 4581.26. En contraste, el modelo SVR no fue adecuado para este conjunto de datos, ya que obtuvo un R² negativo, lo que sugiere que no captura correctamente la relación entre las variables predictoras y la variable objetivo.

Además, los modelos de Bagging y Hist Gradient Boosting Regressor también mostraron buenos resultados, con R² superiores a 0.86, lo que indica que son capaces de predecir con precisión los costes del seguro. Por otro lado, el modelo de Decision Tree tuvo un desempeño inferior comparado con los otros modelos ensemble, con un R² de 0.726, mostrando su limitación en la captura de relaciones complejas en los datos.

En resumen, los modelos de Gradient Boosting y Random Forest se destacan como las mejores opciones para este problema, proporcionando predicciones precisas y consistentes. Para futuras mejoras, se pueden considerar técnicas de hiperparametrización y la inclusión de más características relevantes para aumentar la precisión de las predicciones.