# Problema

Predecir el coste del seguro

## Instrucciones

 Utilizar el dataset (insurance.csv) para entrenar un modelo de regresión capaz de predecir el valor del seguro en función de las características del cliente. Realizar limpieza, preprocesado modelado y testeo del modelo aportando conclusiones de todos estos pasos.

# El set de datos

* age: age of primary beneficiary

* sex: insurance contractor gender, female, male

* bmi: Body mass index, providing an understanding of body, weights that are relatively high or low relative to height,
objective index of body weight (kg / m ^ 2) using the ratio of height to weight, ideally 18.5 to 24.9

* children: Number of children covered by health insurance / Number of dependents

* smoker: Smoking

* region: the beneficiary's residential area in the US, northeast, southeast, southwest, northwest.

* charges: Individual medical costs billed by health insurance



In [2]:
# imports
import pandas as pd
# from google.colab import drive
# drive.mount('/gdrive')

In [3]:
ruta = "C:\\Users\\josan\\Documents\\GitHub\\EDEM_MDA2324\\Alumnos\\ES\\Josan_Rodrigo_Cortes\\Machine_learning\\EntregablesHechos\\insurance (1).csv"
data = pd.read_csv(ruta)

In [4]:
print(data.shape)
data.head()

(1338, 7)


Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


# Objetivo

Generar un model de regresión capaz de predecir el valor del seguro en base a las características del cliente.

* Aplicar las técnicas oportunas de procesamiento de datos

* Valorar diferentes modelos de regresión

* Comparación entre modelos

* Ensemble

* Métricas

* Conclusiones finales

In [5]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1338 entries, 0 to 1337
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       1338 non-null   int64  
 1   sex       1338 non-null   object 
 2   bmi       1338 non-null   float64
 3   children  1338 non-null   int64  
 4   smoker    1338 non-null   object 
 5   region    1338 non-null   object 
 6   charges   1338 non-null   float64
dtypes: float64(2), int64(2), object(3)
memory usage: 73.3+ KB


In [8]:
for col in data.columns:
    print(f'Valores únicos de la variable {col}: {data[col].unique()}')

Valores únicos de la variable age: [19 18 28 33 32 31 46 37 60 25 62 23 56 27 52 30 34 59 63 55 22 26 35 24
 41 38 36 21 48 40 58 53 43 64 20 61 44 57 29 45 54 49 47 51 42 50 39]
Valores únicos de la variable sex: ['female' 'male']
Valores únicos de la variable bmi: [27.9   33.77  33.    22.705 28.88  25.74  33.44  27.74  29.83  25.84
 26.22  26.29  34.4   39.82  42.13  24.6   30.78  23.845 40.3   35.3
 36.005 32.4   34.1   31.92  28.025 27.72  23.085 32.775 17.385 36.3
 35.6   26.315 28.6   28.31  36.4   20.425 32.965 20.8   36.67  39.9
 26.6   36.63  21.78  30.8   37.05  37.3   38.665 34.77  24.53  35.2
 35.625 33.63  28.    34.43  28.69  36.955 31.825 31.68  22.88  37.335
 27.36  33.66  24.7   25.935 22.42  28.9   39.1   36.19  23.98  24.75
 28.5   28.1   32.01  27.4   34.01  29.59  35.53  39.805 26.885 38.285
 37.62  41.23  34.8   22.895 31.16  27.2   26.98  39.49  24.795 31.3
 38.28  19.95  19.3   31.6   25.46  30.115 29.92  27.5   28.4   30.875
 27.94  35.09  29.7   35.72  32.205

In [15]:
from sklearn.preprocessing import LabelEncoder

label_mappings={}

le = LabelEncoder()

data['sex'] = le.fit_transform(data['sex'])
# Almacenar las clases y sus etiquetas correspondientes
label_mappings['sex'] = dict(zip(le.classes_, le.transform(le.classes_)))

data['smoker'] = le.fit_transform(data['smoker'])
# Almacenar las clases y sus etiquetas correspondientes
label_mappings['smoker'] = dict(zip(le.classes_, le.transform(le.classes_)))

data['region'] = le.fit_transform(data['region'])
# Almacenar las clases y sus etiquetas correspondientes
label_mappings['region'] = dict(zip(le.classes_, le.transform(le.classes_)))

print("\nAsignaciones de Label Encoder para cada columna:")
for column, mappings in label_mappings.items():
    print(f"{column}: {mappings}")


Asignaciones de Label Encoder para cada columna:
sex: {'female': 0, 'male': 1}
smoker: {'no': 0, 'yes': 1}
region: {'northeast': 0, 'northwest': 1, 'southeast': 2, 'southwest': 3}


## Implementación

In [33]:
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor, AdaBoostRegressor, ExtraTreesRegressor
from sklearn.svm import SVR
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error

# Diccionario inicial con instancias de modelo
modelos_regresion = {
    "Regresión Lineal": {"modelo": LinearRegression()},
    "Regresión Ridge": {"modelo": Ridge()},
    "Regresión Lasso": {"modelo": Lasso()},
    "Elastic Net": {"modelo": ElasticNet()},
    "Árbol de Decisión": {"modelo": DecisionTreeRegressor()},
    "Random Forest": {"modelo": RandomForestRegressor()},
    "Gradient Boosting": {"modelo": GradientBoostingRegressor()},
    "Support Vector Regression (SVR)": {"modelo": SVR()},
    "AdaBoost Regressor": {"modelo": AdaBoostRegressor()},
    "Extra Trees Regressor": {"modelo": ExtraTreesRegressor()},
    "XGBoost": {"modelo": XGBRegressor()}
}



In [38]:
from sklearn.model_selection import train_test_split

X = data.drop(columns='charges')
Y = data['charges']

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.15, random_state=42)

# No sé si vale la pena realizar una partición entre test y validacion


# X_train, X_val, y_train, y_val = train_test_split(X, Y, test_size=0.15)

# for nombre, modelo in modelos_regresion.items():
#     modelo.fit(X_train, y_train)
#     y_pred = modelo.predict(X_test)
#     mse = mean_squared_error(y_test, y_pred)
#     print(f"{nombre} MSE: {mse}")


In [40]:
# Suponiendo que X_train, y_train, X_test, y_test están definidos

for nombre, info in modelos_regresion.items():
    try:
        # Entrenar el modelo
        modelo = info["modelo"]
        modelo.fit(X_train, y_train)

        # Almacenar el modelo entrenado
        info["entrenado"] = modelo

        # Hacer predicciones y calcular MSE
        y_pred = modelo.predict(X_test)
        mse = mean_squared_error(y_test, y_pred)
        info["MSE"] = mse

        print(f"Modelo: {nombre}, MSE: {mse}")

    except Exception as e:
        print(f"Error al entrenar o evaluar el modelo {nombre}: {e}")



Modelo: Regresión Lineal, MSE: 30901806.396031726
Modelo: Regresión Ridge, MSE: 30918132.459202476
Modelo: Regresión Lasso, MSE: 30904908.507579286
Modelo: Elastic Net, MSE: 86852369.23268108
Modelo: Árbol de Decisión, MSE: 49207689.08274054
Modelo: Random Forest, MSE: 21628574.23489682
Modelo: Gradient Boosting, MSE: 18596425.50279368
Modelo: Support Vector Regression (SVR), MSE: 165395208.74979186
Modelo: AdaBoost Regressor, MSE: 25517201.00836306
Modelo: Extra Trees Regressor, MSE: 24510919.97685335
Modelo: XGBoost, MSE: 23947023.0114679


In [41]:
for nombre, info in modelos_regresion.items():
    print(f"Modelo: {nombre}")
    if 'entrenado' in info and info['entrenado'] is not None:
        print("  Estado: Entrenado")
    else:
        print("  Estado: No entrenado")

    if 'MSE' in info:
        print(f"  MSE: {info['MSE']:.4f}")
    else:
        print("  MSE: No calculado")

    print("\n")  # Imprime una línea en blanco para separar cada modelo



Modelo: Regresión Lineal
  Estado: Entrenado
  MSE: 30901806.3960


Modelo: Regresión Ridge
  Estado: Entrenado
  MSE: 30918132.4592


Modelo: Regresión Lasso
  Estado: Entrenado
  MSE: 30904908.5076


Modelo: Elastic Net
  Estado: Entrenado
  MSE: 86852369.2327


Modelo: Árbol de Decisión
  Estado: Entrenado
  MSE: 49207689.0827


Modelo: Random Forest
  Estado: Entrenado
  MSE: 21628574.2349


Modelo: Gradient Boosting
  Estado: Entrenado
  MSE: 18596425.5028


Modelo: Support Vector Regression (SVR)
  Estado: Entrenado
  MSE: 165395208.7498


Modelo: AdaBoost Regressor
  Estado: Entrenado
  MSE: 25517201.0084


Modelo: Extra Trees Regressor
  Estado: Entrenado
  MSE: 24510919.9769


Modelo: XGBoost
  Estado: Entrenado
  MSE: 23947023.0115




In [42]:
# Ordenar el diccionario por MSE usando sorted() y una función lambda
modelos_ordenados = sorted(modelos_regresion.items(), key=lambda x: x[1]['MSE'])

# Imprimir la información de cada modelo en orden de MSE
for nombre, info in modelos_ordenados:
    print(f"Modelo: {nombre}")
    print("  Estado: Entrenado" if 'entrenado' in info and info['entrenado'] is not None else "  Estado: No entrenado")
    print(f"  MSE: {info['MSE']:.4f}\n")


Modelo: Gradient Boosting
  Estado: Entrenado
  MSE: 18596425.5028

Modelo: Random Forest
  Estado: Entrenado
  MSE: 21628574.2349

Modelo: XGBoost
  Estado: Entrenado
  MSE: 23947023.0115

Modelo: Extra Trees Regressor
  Estado: Entrenado
  MSE: 24510919.9769

Modelo: AdaBoost Regressor
  Estado: Entrenado
  MSE: 25517201.0084

Modelo: Regresión Lineal
  Estado: Entrenado
  MSE: 30901806.3960

Modelo: Regresión Lasso
  Estado: Entrenado
  MSE: 30904908.5076

Modelo: Regresión Ridge
  Estado: Entrenado
  MSE: 30918132.4592

Modelo: Árbol de Decisión
  Estado: Entrenado
  MSE: 49207689.0827

Modelo: Elastic Net
  Estado: Entrenado
  MSE: 86852369.2327

Modelo: Support Vector Regression (SVR)
  Estado: Entrenado
  MSE: 165395208.7498



# Conclusiones

Incrementar la complejidad del modelo, con un ensemble, no nos proporciona una mejora en las predicciones. Optaremos en esta ocasión por un solo algoritmo.