# Taller. Regresión Lineal

## Caso. Estimación de gastos médicos

**Contexto**

Para que una compañía de seguros gane dinero, necesita recaudar más en primas anuales de lo que gasta en atención médica para sus beneficiarios. Como resultado, las aseguradoras invierten una gran cantidad de tiempo y dinero para desarrollar modelos que pronostiquen con precisión los costos por servicios de salud.

En algunos casos los costos son difíciles de estimar porque las condiciones más costosas son raras y aparentemente aleatorias. Aun así, algunas condiciones son más frecuentes para ciertos segmentos de la población. Por ejemplo, el cáncer de pulmón es más probable entre los fumadores que los no fumadores, y la enfermedad cardíaca puede ser más probable entre los obesos.

**Objetivo del Caso**

Utilizar datos de pacientes para estimar los costos de atención médica para dichos segmentos de población. Estas estimaciones podrían usarse para crear tablas actuariales que fijen el precio de las primas anuales más o menos según los costos de tratamiento esperados.

**Datos**

El archivo gastos_medicos.xlsx incluye 1338 casos de beneficiarios actualmente inscritos en el plan de seguro, con variables que indican las características del paciente, así como los gastos médicos totales cargados al plan para el año calendario. La información que se tiene disponible para cada asegurado es:

* **sexo:** este es el género del titular de la póliza, ya sea hombre o mujer.
* **edad:** es un número entero que indica la edad del beneficiario primario (excluyendo a los mayores de 64 años, ya que generalmente están cubiertos por el gobierno).
* **hijos:** este es un número entero que indica el número de hijos / dependientes cubiertos por el plan de seguro.
* **región:** este es el lugar de residencia del beneficiario en los EE. UU., Dividido en cuatro regiones geográficas: noreste, sureste, suroeste o noroeste.
* **imc:** este es el índice de masa corporal (body mass index - bmi), que proporciona una idea de cómo una persona con sobrepeso o bajo peso es relativa a su altura. El IMC es igual al peso (en kilogramos) dividido por la altura (en metros) al cuadrado. Un IMC ideal está dentro del rango de 18.5 a 24.9.
* **fumador:** Esto es sí o no, dependiendo de si el asegurado fuma regularmente.
* **gastos:** gastos médicos cargados al asegurado en el año calendario. Esta es la variable a predecir.

## Modelos de Regresión

In [1]:
# Cargar modulos para ciencia de datos
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
from sklearn.metrics import mean_squared_error
from sklearn.metrics import mean_absolute_percentage_error
pd.set_option('display.max_columns', None)

# Cargar modulos para modelo de regresión
import statsmodels.api as sm

In [3]:
# Para conectarse con google drive
from google.colab import drive
drive.mount('/gdrive')

Mounted at /gdrive


In [4]:
# Configurar directorio de trabajo
os.chdir('/gdrive/MyDrive/Colab Notebooks/Analitica de Datos UJaveriana')

# Verificar los archivos de las carpetas
!ls

'1. Analisis Exploratorio.ipynb'   predicciones.xlsx
'2. Modelo de Regresion.ipynb'	   publicidad.csv
 bank_marketing.csv		   Taller_Regresion_Lineal.ipynb
 gastos_medicos.xlsx


In [28]:
datos = pd.read_excel("gastos_medicos.xlsx")
datos.head(10)

Unnamed: 0,sexo,edad,hijos,region,imc,fumador,gastos
0,mujer,19,0,suroccidente,27.9,si,16884.92
1,hombre,18,1,suroriente,33.77,no,1725.55
2,hombre,28,3,suroriente,33.0,no,4449.46
3,hombre,33,0,noroccidente,22.705,no,21984.47
4,hombre,32,0,noroccidente,28.88,no,3866.86
5,mujer,31,0,suroriente,25.74,no,3756.62
6,mujer,46,1,suroriente,33.44,no,8240.59
7,mujer,37,3,noroccidente,27.74,no,7281.51
8,hombre,37,2,nororiente,29.83,no,6406.41
9,mujer,60,0,noroccidente,25.84,no,28923.14


### Análisis Exploratorio de Variables Numéricas

In [None]:
# Resumen estadístico de las variables numéricas


In [None]:
# Gráfico de dispersión edad vs gastos médicos


In [None]:
# Gráfico de dispersión imc vs gastos médicos


In [None]:
# Gráfico de caja que compare los gastos médicos según el número de hijos


In [9]:
# Matriz de correlación datos.corr()


**¿Qué variables tienen una alta correlación con los gastos médicos? Justifique su respuesta.**

### Modelo solo con variables numéricas


In [13]:
# Seleccione las variables x y y


In [20]:
# Agregar la constante al modelo

# Crear el modelo y ajustarlo

# Generar un resumen del modelo


**Interpretación**

**Coeficientes:**

**R-squared:**

**Prob (F-statistic):**

In [16]:
# Se crea una tabla para guardar las ventas reales y las predicciones
prediccion = pd.DataFrame()

# Se crea una nueva columna para guardar las ventas


# Ahora se crea una nueva columna para guardar las predicciones


In [17]:
# Crea la gráfica de dispersión de las predicciones vs el valor real

# Crear la linea de predicción perfectas


In [None]:
# Calcular el MSE


In [19]:
# Calcular el RMSE


In [None]:
# Calcular el MAPE


**Interpretación**

**RMSE:**

**MAPE:**


### Análisis exploratorio de variables categóricas

In [None]:
# Gastos vs Sexo (Gráfico de caja)


In [22]:
# Gastos vs Fumador (Gráfico de caja)


In [24]:
# Gráfico de dispersion edad vs gastos (Color = Fumador). sns.scatterplot(data=datos, x='edad', y='gastos', hue='fumador')


In [None]:
# Gastos vs Region (Gráfico de caja)


**¿Qué variable categórica parece tener una mayor relación con los gastos?**

### Modelo solo con variables dummies e interacciones

In [None]:
# Seleccione las variables x y y


In [None]:
# Transforme las variables categoricas a dummies del conjunto X


In [None]:
# Cree la interacción entre la variable fumador y edad en el conjunto X


In [21]:
# Agregar la constante al modelo

# Crear el modelo y ajustarlo

# Generar un resumen del modelo


**Interpretación**

**Coeficientes:**

**R-squared:**

**Prob (F-statistic):**

In [None]:
# Se crea una tabla para guardar las ventas reales y las predicciones
prediccion = pd.DataFrame()

# Se crea una nueva columna para guardar las ventas


# Ahora se crea una nueva columna para guardar las predicciones


In [None]:
# Crea la gráfica de dispersión de las predicciones vs el valor real

# Crear la linea de predicción perfectas


In [None]:
# Calcular el MSE


In [None]:
# Calcular el RMSE


In [None]:
# Calcular el MAPE


**Interpretación**

**RMSE:**

**MAPE:**


### Compare los modelos y genere conclusiones