# Predicción del coste de un seguro
***

***Autor:** Jesús Casado Rodríguez*<br>
***Fecha:** 15-06-2023*<br>

https://scikit-learn.org/stable/auto_examples/compose/plot_column_transformer_mixed_types.html

In [1]:
import os
import numpy as np
import pandas as pd
import joblib
import seaborn as sns
%matplotlib inline

from sklearn.compose import ColumnTransformer
from sklearn.linear_model import SGDRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder

## 1 Análisis exploratorio de datos

In [2]:
# importar datos
insurance = pd.read_csv('data/insurance.csv')

insurance.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB


Hay al menos 3 variables categóricos (_sex_, _smoker_, _region_), puesto que son de tipo texto. Además, incluiré como categórica la variable _children_, puesto que, a pesar de ser de tipo entero, tiene valores discretos que pueden tomarse como categorías. Sobre estas categorías habrá que hacer un preprocesado para que puedan utilizarse en el modelo de regresión.

Por el contrario, las variables _age_ y _bmi_ son numéricas. Sobre ellas aplicaré un escalado para que tengan un orden de magnitud similar.

In [3]:
# check if there are missing values in the dataset
insurance.isnull().sum()

age         0
sex         0
bmi         0
children    0
smoker      0
region      0
charges     0
dtype: int64

El resultado de la celda anterior muestra que no hay datos faltantes que sea necesario rellenar en el preprocesado de los datos.

Ahora genero dos gráficos para tener una idea de la relación entre las variables. Primero genero un gráfico con la matriz de correlación. Luego genero un gráfico que incluye los diagramas de dispersión de cada par de variables y la función de distribución de cada variable. Para que las variables categóricas aparezcan en este segundo gráfico tengo que convertirlas en numéricas "manualmente".

In [4]:
# matriz de correlación
sns.heatmap(insurance_ohe.corr('spearman') > .5, cmap='viridis');

NameError: name 'insurance_ohe' is not defined

In [None]:
insurance_transformed = insurance.replace({'sex': {'female': 1, 'male': 0},
                                           'smoker': {'yes': 1, 'no': 0},
                                           'region': {'southwest': 2, 'southeast': 1, 'northwest': 3, 'northeast': 0}})

sns.pairplot(insurance_transformed, hue='smoker', corner=True);

Se ve una clara relación entre el coste del seguro y el hecho de ser fumador o no.Además, hay un cierto incremento del coste con la edad y el índice de masa corporal (aunque esta última no aparece en la matriz de correlación). A priori no se ve una relación clara ni con el sexo ni la región.

## 2 Modelo de predicción

He decidido utilizar como modelo de regresión `SGDRegressor`. Antes de poder aplicar el modelo, creo un preprocesador independiente para las variables numéricas y las variables categóricas, y los uno en un único `Pipeline` de preprocesado. Posteriormente creo el `Pipeline` del modelo, que incluye el preprocesador y el modelo de regresión.

Entreno el modelo y veo el rendimiento tanto en la muestra de entrenamiento como en la de validación. He utilizado como métrica la raíz del error cuadrático medio (RMSE) porque tiene las mismas unidades que la variable a predecir.

In [None]:
# crear muestras de entrenamiento y validación
y = insurance.charges
X = insurance.drop('charges', axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.3, random_state=0, shuffle=True)

In [None]:
# preprocesador de las variables numéricas: reescalado de las variables
numeric_features = ['age', 'bmi']
numeric_transformer = Pipeline(steps=[('scaler', StandardScaler())])

# preprocesador de las variables categóricas: one hot encoder
categorical_features = ['sex', 'smoker', 'region', 'children']
categorical_transformer = Pipeline(steps=[('encoder', OneHotEncoder(handle_unknown='ignore'))])

# unir ambos preprocesos en un solo transformador
preprocessor = ColumnTransformer(transformers=[('numeric', numeric_transformer, numeric_features),
                                               ('categorical', categorical_transformer, categorical_features)])

# definir el pipeline del modelo: preproceso + regresor
model = Pipeline(steps=[('preprocessor', preprocessor),
                        ('regressor', SGDRegressor(max_iter=1000, penalty='elasticnet', tol=1e-3, random_state=0))])

In [None]:
model.fit(X_train, y_train.values)

In [None]:
# calcular el rendimiento del modelo como la raíz del error cuadrático medio
rmse_train = np.sqrt(mean_squared_error(y_train, model.predict(X_train)))
rmse_test = np.sqrt(mean_squared_error(y_test, model.predict(X_test)))
print('RMSE (train) =\t{0:.2f} €'.format(rmse_train))
print('RMSE (test)  =\t{0:.2f} €'.format(rmse_test))

In [None]:
# exportar el modelo
joblib.dump(model, open('modelo.pkl', 'wb'))