# Reto: Predicción del Costo del Seguro Médico

En este ejercicio, utilizarás un modelo de **regresión lineal** para predecir el costo del seguro médico de diferentes individuos basado en sus características personales. El conjunto de datos que usarás se encuentra disponible en Kaggle y ya está limpio, lo que te permitirá enfocarte en el análisis y el desarrollo del modelo.

---

## Descripción del conjunto de datos

El conjunto de datos incluye las siguientes columnas:

- **age**: Edad del individuo (en años).
- **sex**: Género del individuo (`male` o `female`).
- **bmi**: Índice de Masa Corporal (IMC).
- **children**: Número de hijos cubiertos por el seguro.
- **smoker**: Si el individuo es fumador (`yes` o `no`).
- **region**: Región donde vive el individuo (`northeast`, `northwest`, `southeast`, `southwest`).
- **charges**: Costo del seguro médico (variable objetivo a predecir).

---

## Objetivo

Entrenar un modelo de regresión lineal que prediga el costo del seguro médico (**`charges`**) utilizando las características proporcionadas en el conjunto de datos.

---

¡Buena suerte! 🚀

In [None]:
import statsmodels.api as sm
import numpy as np
import pandas as pd
# from sklearn.model_selection import train_test_split
# from sklearn.dataseats import load_diabetes


## Tareas

### 1. Cargar y explorar el conjunto de datos
1. Descarga el conjunto de datos desde [este enlace](https://www.kaggle.com/datasets/mirichoi0218/insurance) y cárgalo en un marco de datos Pandas.
2. Inspecciona las primeras filas del conjunto de datos.
3. Verifica que no haya valores faltantes ni inconsistencias.

In [5]:
insurance = pd.read_csv('/Users/gabrielrogetdeaysa/Library/CloudStorage/GoogleDrive-rogetaysa@gmail.com/La meva unitat/IronhackGD/Repoironhack/Entregas/43/insurance.csv')
insurance.head()


Unnamed: 0,age,sex,bmi,children,smoker,region,charges
0,19,female,27.9,0,yes,southwest,16884.924
1,18,male,33.77,1,no,southeast,1725.5523
2,28,male,33.0,3,no,southeast,4449.462
3,33,male,22.705,0,no,northwest,21984.47061
4,32,male,28.88,0,no,northwest,3866.8552


In [6]:
insurance.sample(10)

Unnamed: 0,age,sex,bmi,children,smoker,region,charges
203,27,female,36.08,0,yes,southeast,37133.8982
543,54,female,47.41,0,yes,southeast,63770.42801
471,18,female,30.115,0,no,northeast,2203.47185
1072,21,male,31.255,0,no,northwest,1909.52745
667,40,female,32.775,2,yes,northwest,40003.33225
826,56,male,31.79,2,yes,southeast,43813.8661
896,43,female,20.045,2,yes,northeast,19798.05455
455,59,male,37.4,0,no,southwest,21797.0004
794,39,female,31.92,2,no,northwest,7209.4918
124,47,female,33.915,3,no,northwest,10115.00885


In [7]:
insurance.dtypes

age           int64
sex          object
bmi         float64
children      int64
smoker       object
region       object
charges     float64
dtype: object

In [11]:
valors_nuls = insurance.isnull().sum()
print(valors_nuls)

age         0
sex         0
bmi         0
children    0
smoker      0
region      0
charges     0
dtype: int64


In [14]:
regions = insurance['region'].unique()
num_regions = len(regions)

smokers = insurance['smoker'].unique()
num_smokers = len(smokers)

sex = insurance['sex'].unique()
num_sex = len(sex)

print(regions)
print(num_regions)

print(smokers)
print(num_smokers)

print(sex)
print(num_sex)

['southwest' 'southeast' 'northwest' 'northeast']
4
['yes' 'no']
2
['female' 'male']
2


### 2. Dividir los datos
1. Separa las columnas en:
   - **Variables predictoras** (`age`, `sex`, `bmi`, `children`, `smoker`, `region`).
   - **Variable objetivo** (`charges`).
2. Realiza una codificación adecuada de las variables categóricas (`sex`, `smoker`, `region`) utilizando técnicas como `pd.get_dummies()` o `OneHotEncoder`.
3. Divide los datos en conjuntos de entrenamiento (80%) y prueba (20%) utilizando `train_test_split` de Scikit-learn.

In [81]:
from sklearn.model_selection import train_test_split
#2
insurance_encoded = pd.get_dummies(insurance, columns=['sex','smoker'],drop_first=True)
insurance_encoded['region']= pd.Categorical(insurance_encoded['region']).codes
print(insurance_encoded.head())
#1
X = insurance_encoded.drop(columns=['charges'])
y = insurance_encoded['charges']
#3
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=48117)
print("Tamaño del conjunto de entrenamiento (X_train, y_train):", X_train.shape, y_train.shape)
print("Tamaño del conjunto de prueba (X_test, y_test):", X_test.shape, y_test.shape)

   age     bmi  children  region      charges  sex_male  smoker_yes
0   19  27.900         0       3  16884.92400     False        True
1   18  33.770         1       2   1725.55230      True       False
2   28  33.000         3       2   4449.46200      True       False
3   33  22.705         0       1  21984.47061      True       False
4   32  28.880         0       1   3866.85520      True       False
Tamaño del conjunto de entrenamiento (X_train, y_train): (1070, 6) (1070,)
Tamaño del conjunto de prueba (X_test, y_test): (268, 6) (268,)


### 3. Entrenar el modelo
1. Importa la clase `LinearRegression` de Scikit-learn.
2. Ajusta el modelo a los datos de entrenamiento.
3. Imprime el intercepto y los coeficientes del modelo.

In [82]:
from sklearn.linear_model import LinearRegression

model_regressio = LinearRegression()

print(model_regressio)

LinearRegression()


In [83]:
model_regressio.fit(X_train,y_train)

### 4. Evaluar el modelo
1. Calcula la puntuación R² en el conjunto de entrenamiento y prueba.
2. Genera una lista de las características más influyentes basándote en los coeficientes del modelo.


In [84]:
model_regressio.fit(X_train,y_train)
y_pred = model_regressio.predict(X_test)

r2 = model_regressio.score(X_test,y_test)
print(r2)

0.8361668972289615


### 5. Interpretar los resultados
1. Discute qué variables parecen tener un mayor impacto en el costo del seguro.
2. ¿Qué tan bien se desempeña el modelo en general?

In [80]:
from sklearn.linear_model import LinearRegression


rmax = []
a = 10000
llista = list(range(0, a+1))

for i in llista:
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=i)
    model_regressio = LinearRegression()
    model_regressio.fit(X_train, y_train)
    rmax.append(model_regressio.score(X_test, y_test))

max_value = max(rmax)
max_index = rmax.index(max_value)

print("Máximo valor de R^2:", max_value)
print("Posición de max(rmax):", max_index)


Máximo valor de R^2: 0.8361668972289615
Posición de max(rmax): 6317


In [86]:
from sklearn.linear_model import LinearRegression


rmax = []
a = 400000
llista = list(range(100000, a+1))

for i in llista:
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=i)
    model_regressio = LinearRegression()
    model_regressio.fit(X_train, y_train)
    rmax.append(model_regressio.score(X_test, y_test))

max_value = max(rmax)
max_index = rmax.index(max_value)

print("Máximo valor de R^2:", max_value)
print("Posición de max(rmax):", max_index)


Máximo valor de R^2: 0.8576081856949233
Posición de max(rmax): 259540
