<a href="https://colab.research.google.com/github/jdvelasq/datalabs/blob/master/labs/transformacion_optima_de_la_variable_dependiente_en_modelos_de_regresion.ipynb" target="_parent"> <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

LAB --- Transformación optima de la variable dependiente en modelos de regresión
===

En el desarrollo de modelos de regresión siempre se debería verificar si la precisión del pronóstico puede mejorar mediante una transformación no lineal de la variable dependiente. El objetivo de este laboratorio es determinar si una transformación de Box-Cox permite mejorar la precisión del modelo para un conjunto de datos. 

## Descripción del conjunto de datos

Una compañía de seguros desea pronósticar los gastos médicos de la población asegurada con el fin de recolectar un valor superior en ingresos, tal que le permita obtener utilidades. Los costos son difíciles de pronósticar ya que las condiciones más costosas son más raras y parecen aleatorias; y que ciertas condiciones son más probables para ciertos segmentos de la población (infarto en personas obesas y cáncer en fumadores).

El objetivo es usar una base de datos con 1338 registros de gastos médicos hipotéticos para pacientes de EU con el fin de estimar los costos para determinados segmentos de la población, la cual se encuentra disponible en

https://raw.githubusercontent.com/jdvelasq/datalabs/master/datasets/insurance.csv

La información registrada es la siguiente:

* Age: entero hasta 64.

* Sex: male, female.

* bmi: Body mass index.

* children: entero indicando la cantidad de hijos/dependientes cubiertos por el plan de salud.

* smoker: yes, no.

* region: northest, southeast, southwest, northwest.

* charges: costos.


In [None]:
import warnings

warnings.filterwarnings("ignore")

In [None]:
#
# Realice la lectura de datos e imprima la cantidad de registros leidos
#
# Rta/
# 1338
#


In [None]:
#
# Las columnas sex, smoker, region son strings.
# Se convierten a variables categoricas usando
# LabelEncoder de scikit-learn. Imprima los tipos
# de las columnas como resultado
#
# Rta/
# age                int64
# sex               object
# bmi              float64
# children           int64
# smoker            object
# region            object
# charges          float64
# sex_factor         int64
# smoker_factor      int64
# region_factor      int64
# dtype: object
#


In [None]:
#
# Para aplicar la transformación de Box-Cox la escala 
# de los datos puede generar problemas. Divida la columna
# charges por 10000 y luego sumele 2.0. 
# Imprima los primeros cinco valores de la columna
#
# Rta/
# 0    3.688492
# 1    2.172555
# 2    2.444946
# 3    4.198447
# 4    2.386686
# Name: charges, dtype: float64
#        


In [None]:
#
# Use los primeros 1000 datos para estimación de parámetros
# y los 338 restantes para validación
#


## Pronóstico usando un modelo de regresión lineal

In [None]:
#
# Estime un modelo lineal que use todas las variables
# explicativas (numéricas) y reporte el MSE para la 
# muestra de entrenamiento
#
# Rta/
# 0.3492548046438354
#


In [None]:
#
# Reporte el MSE para la muestra de prueba
#
# Rta/
# 0.4150890835383797
#


In [None]:
#
# Use la siguiente implementación de la
# transformación de Box-Cox
#
import numpy as np


def boxcox(z, Lambda):
    if Lambda == 0:
        return np.log(z)
    return (np.power(z, Lambda) - 1.0) / Lambda


def boxcox_inv(z, Lambda):
    if Lambda == 0:
        return np.exp(z)
    return np.power(Lambda * z + 1.0, 1.0 / Lambda)

In [None]:
#
# Evalue lambdas entre 0.00 y 1.00 con incrementos de 0.01.
# Busque el lambda que genera el mejor pronóstico para la
# muestra de prueba.
# Reporte el lambda y los MSE de entrenamiento y prueba
# cada vez que se obtenga un MSE de prueba mejor
#
# Rta/
# 0.00  0.3404  0.4145
# 0.01  0.3401  0.4141
# 0.02  0.3399  0.4137
# 0.03  0.3397  0.4133
# 0.04  0.3395  0.4130
# 0.05  0.3393  0.4126
# 0.06  0.3391  0.4123
# 0.07  0.3389  0.4120
# 0.08  0.3387  0.4117
# 0.09  0.3386  0.4113
# 0.10  0.3384  0.4110
# 0.11  0.3382  0.4107
# 0.12  0.3381  0.4104
# 0.13  0.3379  0.4102
# 0.14  0.3378  0.4099
# 0.15  0.3377  0.4096
# 0.16  0.3376  0.4094
# 0.17  0.3374  0.4091
# 0.18  0.3373  0.4089
# 0.19  0.3372  0.4087
# 0.20  0.3371  0.4084
# 0.21  0.3371  0.4082
# 0.22  0.3370  0.4080
# 0.23  0.3369  0.4078
# 0.24  0.3368  0.4076
# 0.25  0.3368  0.4074
# 0.26  0.3367  0.4072
# 0.27  0.3367  0.4071
# 0.28  0.3366  0.4069
# 0.29  0.3366  0.4068
# 0.30  0.3366  0.4066
# 0.31  0.3365  0.4065
# 0.32  0.3365  0.4063
# 0.33  0.3365  0.4062
# 0.34  0.3365  0.4061
# 0.35  0.3365  0.4060
# 0.36  0.3365  0.4059
# 0.37  0.3365  0.4058
# 0.38  0.3365  0.4057
# 0.39  0.3366  0.4056
# 0.40  0.3366  0.4056
# 0.41  0.3366  0.4055
# 0.42  0.3367  0.4054
# 0.43  0.3367  0.4054
# 0.44  0.3368  0.4053
# 0.45  0.3368  0.4053
# 0.46  0.3369  0.4053
# 0.47  0.3370  0.4053
# 0.48  0.3370  0.4052
# 0.49  0.3371  0.4052
#



In [None]:
# 
# Realice un gráfico de scatter que compare los 
# charges reales vs los pronósticos para las muestras
# de entrenamiento y prueba
#
