# PARTE 28: VALIDACIÓN MODEL REGRESIÓN NO LINEAL

* Paso 1: Dividir el DATASET en entrenamiento y prueba (generalmente 80% - 20%)
* Paso 2: Implementar el modelo que tuvo buenos indicadores con solo el DATASET de entrenamiento
* Paso 3: Verificar que aún tenga buenos indicadores
* Paso 4: Aplicar el modelo sobre el DATASET de pruebas
* Paso 5: Verificar que aún tenga buenos indicadores

## PARTE 28.1: VALIDAR MODELO STATSMODELS (SALES)

In [2]:
#IMPORTAR DATASET
import pandas as pd
RUTA = "DATASETS - CERTIFICACIÓN/23_1_CORRELACION_VENTAS.csv"
DATASET = pd.read_csv(RUTA)

#GENERAR VARIABLES NO LINEALES
LISTA_NO_LINEALES = ["TV","Radio","Newspaper"]

for VAR in LISTA_NO_LINEALES:
    ETIQUETA_2 = VAR + "_2"
    DATASET[ETIQUETA_2] = DATASET[VAR] ** 2
    
    ETIQUETA_3 = VAR + "_3"
    DATASET[ETIQUETA_3] = DATASET[VAR] ** 3
    
    ETIQUETA_SQRT = VAR + "_SQRT"
    DATASET[ETIQUETA_SQRT] = DATASET[VAR] ** (1/2)

#DIVIDIR DATASET EN ENTRENAMIENTO Y PRUEBAS
from sklearn.model_selection import train_test_split
DATASET_ENTRENAMIENTO , DATASET_PRUEBAS = train_test_split(DATASET ,test_size = 0.2)

DATASET_ENTRENAMIENTO = DATASET_ENTRENAMIENTO.reset_index()
DATASET_ENTRENAMIENTO = DATASET_ENTRENAMIENTO.drop(["index"],axis = 1)

DATASET_PRUEBAS = DATASET_PRUEBAS.reset_index()
DATASET_PRUEBAS = DATASET_PRUEBAS.drop(["index"],axis = 1)

#### VERIFICACIÓN QUE TIENE BUENOS INDICADORES SOBRE DATASET TOTAL

In [3]:
#VARIABLES PREDICHAS Y PREDICTORAS
VY = "Sales"
VX = ['TV_SQRT', 'Radio_SQRT', 'Radio_3']

#OBTENER INDICADORES DEL MODELO
import numpy as np
import statsmodels.formula.api as sfa

COMANDO = VY + "~" + "+".join(VX)
MODELO_STATS = sfa.ols(formula = COMANDO , data = DATASET).fit()
DATASET["PRED"] = MODELO_STATS.predict(DATASET[VX])

SMC =  sum((DATASET["PRED"]-np.mean(DATASET[VY]))**2)
SRC =  sum((DATASET[VY]-DATASET["PRED"])**2)
STC =  sum((DATASET[VY]-np.mean(DATASET[VY]))**2)    

print("VARIABLES PREDICTORAS UTILIZADAS")
print(VX)

#CÁLCULO DE R2
R2 = MODELO_STATS.rsquared
print("R2 --> {}".format(R2))

#CÁLCULO DE ESR
ESR = np.sqrt((SRC)/(DATASET.shape[0]-len(VX)-1))
print("ESR --> {}".format(ESR))

#CÁLCULO DE ESR_PORCENT
ESR_PORCENT = (ESR / np.mean(DATASET[VY])) * 100
print("ESR_PORCENT --> {}%".format(round(ESR_PORCENT)))
    
#CÁLCULO DE AIC
AIC = MODELO_STATS.aic
print("AIC --> {}".format(round(AIC)))
    
#CÁLCULO DE BIC
BIC = MODELO_STATS.bic
print("BIC --> {}".format(round(BIC)))
    
#CÁLCULO DE PVALUES
for INDICE,VALOR in enumerate(MODELO_STATS.pvalues):
    if VALOR > 0.05:
        print("----PVALUES CRÍTICOS----")
        print("{} --> {}".format(MODELO_STATS.pvalues.index[INDICE],VALOR))

VARIABLES PREDICTORAS UTILIZADAS
['TV_SQRT', 'Radio_SQRT', 'Radio_3']
R2 --> 0.9319592259828449
ESR --> 1.3887915911310753
ESR_PORCENT --> 9%
AIC --> 703
BIC --> 716
----PVALUES CRÍTICOS----
Intercept --> 0.2855891502355121


#### VERIFICACIÓN QUE TIENE BUENOS INDICADORES SOBRE DATASET ENTRENAMIENTO

In [5]:
#VARIABLES PREDICHAS Y PREDICTORAS
VY = "Sales"
VX = ['TV_SQRT', 'Radio_SQRT', 'Radio_3']

#OBTENER INDICADORES DEL MODELO
import numpy as np
import statsmodels.formula.api as sfa

COMANDO = VY + "~" + "+".join(VX)
MODELO_STATS_E = sfa.ols(formula = COMANDO , data = DATASET_ENTRENAMIENTO).fit()
DATASET_ENTRENAMIENTO["PRED"] = MODELO_STATS_E.predict(DATASET_ENTRENAMIENTO[VX])

SMC =  sum((DATASET_ENTRENAMIENTO["PRED"]-np.mean(DATASET_ENTRENAMIENTO[VY]))**2)
SRC =  sum((DATASET_ENTRENAMIENTO[VY]-DATASET_ENTRENAMIENTO["PRED"])**2)
STC =  sum((DATASET_ENTRENAMIENTO[VY]-np.mean(DATASET_ENTRENAMIENTO[VY]))**2)    

print("VARIABLES PREDICTORAS UTILIZADAS")
print(VX)

#CÁLCULO DE R2
R2 = MODELO_STATS_E.rsquared
print("R2 --> {}".format(R2))

#CÁLCULO DE ESR
ESR = np.sqrt((SRC)/(DATASET_ENTRENAMIENTO.shape[0]-len(VX)-1))
print("ESR --> {}".format(ESR))

#CÁLCULO DE ESR_PORCENT
ESR_PORCENT = (ESR / np.mean(DATASET_ENTRENAMIENTO[VY])) * 100
print("ESR_PORCENT --> {}%".format(round(ESR_PORCENT)))
    
#CÁLCULO DE AIC
AIC = MODELO_STATS_E.aic
print("AIC --> {}".format(round(AIC)))
    
#CÁLCULO DE BIC
BIC = MODELO_STATS_E.bic
print("BIC --> {}".format(round(BIC)))
    
#CÁLCULO DE PVALUES
for INDICE,VALOR in enumerate(MODELO_STATS_E.pvalues):
    if VALOR > 0.05:
        print("----PVALUES CRÍTICOS----")
        print("{} --> {}".format(MODELO_STATS_E.pvalues.index[INDICE],VALOR))

VARIABLES PREDICTORAS UTILIZADAS
['TV_SQRT', 'Radio_SQRT', 'Radio_3']
R2 --> 0.9308611385793341
ESR --> 1.3907524345055329
ESR_PORCENT --> 9%
AIC --> 564
BIC --> 576
----PVALUES CRÍTICOS----
Intercept --> 0.4260869451333543


#### VERIFICACIÓN QUE TIENE BUENOS INDICADORES SOBRE DATASET PRUEBAS

In [8]:
#VARIABLES PREDICHAS Y PREDICTORAS
VY = "Sales"
VX = ['TV_SQRT', 'Radio_SQRT', 'Radio_3']

#OBTENER INDICADORES DEL MODELO
import numpy as np
import statsmodels.formula.api as sfa

COMANDO = VY + "~" + "+".join(VX)
DATASET_PRUEBAS["PRED"] = MODELO_STATS_E.predict(DATASET_PRUEBAS[VX])

SMC =  sum((DATASET_PRUEBAS["PRED"]-np.mean(DATASET_PRUEBAS[VY]))**2)
SRC =  sum((DATASET_PRUEBAS[VY]-DATASET_PRUEBAS["PRED"])**2)
STC =  sum((DATASET_PRUEBAS[VY]-np.mean(DATASET_PRUEBAS[VY]))**2)    

print("VARIABLES PREDICTORAS UTILIZADAS")
print(VX)

#CÁLCULO DE R2
R2 = MODELO_STATS_E.rsquared
print("R2 --> {}".format(R2))

#CÁLCULO DE ESR
ESR = np.sqrt((SRC)/(DATASET_PRUEBAS.shape[0]-len(VX)-1))
print("ESR --> {}".format(ESR))

#CÁLCULO DE ESR_PORCENT
ESR_PORCENT = (ESR / np.mean(DATASET_PRUEBAS[VY])) * 100
print("ESR_PORCENT --> {}%".format(round(ESR_PORCENT)))
    
#CÁLCULO DE AIC
AIC = MODELO_STATS_E.aic
print("AIC --> {}".format(round(AIC)))
    
#CÁLCULO DE BIC
BIC = MODELO_STATS_E.bic
print("BIC --> {}".format(round(BIC)))
    
#CÁLCULO DE PVALUES
for INDICE,VALOR in enumerate(MODELO_STATS_E.pvalues):
    if VALOR > 0.05:
        print("----PVALUES CRÍTICOS----")
        print("{} --> {}".format(MODELO_STATS_E.pvalues.index[INDICE],VALOR))

VARIABLES PREDICTORAS UTILIZADAS
['TV_SQRT', 'Radio_SQRT', 'Radio_3']
R2 --> 0.9308611385793341
ESR --> 1.457362959032139
ESR_PORCENT --> 10%
AIC --> 564
BIC --> 576
----PVALUES CRÍTICOS----
Intercept --> 0.4260869451333543


In [None]:
# INDICADORES SOBRE DATASET TOTAL
VARIABLES PREDICTORAS UTILIZADAS
['TV_SQRT', 'Radio_SQRT', 'Radio_3']
R2 --> 0.9319592259828449
ESR --> 1.3887915911310753
ESR_PORCENT --> 9%
AIC --> 703
BIC --> 716

# INDICADORES SOBRE DATASET ENTRENAMIENTO
VARIABLES PREDICTORAS UTILIZADAS
['TV_SQRT', 'Radio_SQRT', 'Radio_3']
R2 --> 0.9308611385793341
ESR --> 1.3907524345055329
ESR_PORCENT --> 9%
AIC --> 564
BIC --> 576

# INDICADORES SOBRE DATASET PRUEBAS
VARIABLES PREDICTORAS UTILIZADAS
['TV_SQRT', 'Radio_SQRT', 'Radio_3']
R2 --> 0.9308611385793341
ESR --> 1.457362959032139
ESR_PORCENT --> 10%
AIC --> 564
BIC --> 576

## PARTE 28.2: VALIDAR MODELO SKLEARN (PRICE)

In [9]:
#IMPORTAR DATASET
import pandas as pd
RUTA = "DATASETS - CERTIFICACIÓN/25_1_CORRELACION_CARROS.csv"
DATASET = pd.read_csv(RUTA)

#PREPARACIÓN DE DATASET
DATASET = DATASET.drop(["CarName","car_ID"],axis = 1)

#ANÁLISIS DE VARIABLES CATEGÓRICAS
VARIABLES_CAT = list(DATASET.select_dtypes(include = ["object"]))

#GENERACIÓN DE VARIABLES DUMMY
def GENERAR_DUMMIES(DATASET,VARIABLE):
    DUMMY = pd.get_dummies(DATASET[VARIABLE], prefix = VARIABLE)
    DATASET = pd.concat([DATASET,DUMMY] , axis = 1)
    DATASET = DATASET.drop([VARIABLE] , axis = 1)
    return DATASET

for X in VARIABLES_CAT:
    DATASET = GENERAR_DUMMIES(DATASET,X)

#GENERAR VARIABLES NO LINEALES
LISTA_NO_LINEALES = ['enginesize', 'horsepower', 'carwidth', 'stroke']

for VAR in LISTA_NO_LINEALES:
    ETIQUETA_2 = VAR + "_2"
    DATASET[ETIQUETA_2] = DATASET[VAR] ** 2
    
    ETIQUETA_3 = VAR + "_3"
    DATASET[ETIQUETA_3] = DATASET[VAR] ** 3
    
    ETIQUETA_SQRT = VAR + "_SQRT"
    DATASET[ETIQUETA_SQRT] = DATASET[VAR] ** (1/2)   
    
#DIVIDIR DATASET EN ENTRENAMIENTO Y PRUEBAS
from sklearn.model_selection import train_test_split
DATASET_ENTRENAMIENTO , DATASET_PRUEBAS = train_test_split(DATASET ,test_size = 0.2)

DATASET_ENTRENAMIENTO = DATASET_ENTRENAMIENTO.reset_index()
DATASET_ENTRENAMIENTO = DATASET_ENTRENAMIENTO.drop(["index"],axis = 1)

DATASET_PRUEBAS = DATASET_PRUEBAS.reset_index()
DATASET_PRUEBAS = DATASET_PRUEBAS.drop(["index"],axis = 1)

#### VERIFICACIÓN QUE TIENE BUENOS INDICADORES SOBRE DATASET TOTAL

In [10]:
#VARIABLES PREDICHAS Y PREDICTORAS
VY = "price"
VX = ['enginesize', 'horsepower', 'carwidth_2', 'horsepower_2', 'carwidth_3', 'enginesize_SQRT', 'drivewheel_fwd', 'carbody_hatchback', 'cylindernumber_four', 'fueltype_gas', 'stroke', 'enginetype_ohc']

#OBTENER INDICADORES DEL MODELO
import numpy as np
import statsmodels.formula.api as sfa

COMANDO = VY + "~" + "+".join(VX)
MODELO_STATS = sfa.ols(formula = COMANDO , data = DATASET).fit()
DATASET["PRED"] = MODELO_STATS.predict(DATASET[VX])

SMC =  sum((DATASET["PRED"]-np.mean(DATASET[VY]))**2)
SRC =  sum((DATASET[VY]-DATASET["PRED"])**2)
STC =  sum((DATASET[VY]-np.mean(DATASET[VY]))**2)    

print("VARIABLES PREDICTORAS UTILIZADAS")
print(VX)

#CÁLCULO DE R2
R2 = MODELO_STATS.rsquared
print("R2 --> {}".format(R2))

#CÁLCULO DE ESR
ESR = np.sqrt((SRC)/(DATASET.shape[0]-len(VX)-1))
print("ESR --> {}".format(ESR))

#CÁLCULO DE ESR_PORCENT
ESR_PORCENT = (ESR / np.mean(DATASET[VY])) * 100
print("ESR_PORCENT --> {}%".format(round(ESR_PORCENT)))
    
#CÁLCULO DE AIC
AIC = MODELO_STATS.aic
print("AIC --> {}".format(round(AIC)))
    
#CÁLCULO DE BIC
BIC = MODELO_STATS.bic
print("BIC --> {}".format(round(BIC)))
    
#CÁLCULO DE PVALUES
for INDICE,VALOR in enumerate(MODELO_STATS.pvalues):
    if VALOR > 0.05:
        print("----PVALUES CRÍTICOS----")
        print("{} --> {}".format(MODELO_STATS.pvalues.index[INDICE],VALOR))

VARIABLES PREDICTORAS UTILIZADAS
['enginesize', 'horsepower', 'carwidth_2', 'horsepower_2', 'carwidth_3', 'enginesize_SQRT', 'drivewheel_fwd', 'carbody_hatchback', 'cylindernumber_four', 'fueltype_gas', 'stroke', 'enginetype_ohc']
R2 --> 0.8922021657795439
ESR --> 2703.6712362875155
ESR_PORCENT --> 20%
AIC --> 3834
BIC --> 3878


#### VERIFICACIÓN QUE TIENE BUENOS INDICADORES SOBRE DATASET ENTRENAMIENTO

In [11]:
#VARIABLES PREDICHAS Y PREDICTORAS
VY = "price"
VX = ['enginesize', 'horsepower', 'carwidth_2', 'horsepower_2', 'carwidth_3', 'enginesize_SQRT', 'drivewheel_fwd', 'carbody_hatchback', 'cylindernumber_four', 'fueltype_gas', 'stroke', 'enginetype_ohc']

#OBTENER INDICADORES DEL MODELO
import numpy as np
import statsmodels.formula.api as sfa

COMANDO = VY + "~" + "+".join(VX)
MODELO_STATS_E = sfa.ols(formula = COMANDO , data = DATASET_ENTRENAMIENTO).fit()
DATASET_ENTRENAMIENTO["PRED"] = MODELO_STATS_E.predict(DATASET_ENTRENAMIENTO[VX])

SMC =  sum((DATASET_ENTRENAMIENTO["PRED"]-np.mean(DATASET_ENTRENAMIENTO[VY]))**2)
SRC =  sum((DATASET_ENTRENAMIENTO[VY]-DATASET_ENTRENAMIENTO["PRED"])**2)
STC =  sum((DATASET_ENTRENAMIENTO[VY]-np.mean(DATASET_ENTRENAMIENTO[VY]))**2)    

print("VARIABLES PREDICTORAS UTILIZADAS")
print(VX)

#CÁLCULO DE R2
R2 = MODELO_STATS_E.rsquared
print("R2 --> {}".format(R2))

#CÁLCULO DE ESR
ESR = np.sqrt((SRC)/(DATASET_ENTRENAMIENTO.shape[0]-len(VX)-1))
print("ESR --> {}".format(ESR))

#CÁLCULO DE ESR_PORCENT
ESR_PORCENT = (ESR / np.mean(DATASET_ENTRENAMIENTO[VY])) * 100
print("ESR_PORCENT --> {}%".format(round(ESR_PORCENT)))
    
#CÁLCULO DE AIC
AIC = MODELO_STATS_E.aic
print("AIC --> {}".format(round(AIC)))
    
#CÁLCULO DE BIC
BIC = MODELO_STATS_E.bic
print("BIC --> {}".format(round(BIC)))
    
#CÁLCULO DE PVALUES
for INDICE,VALOR in enumerate(MODELO_STATS_E.pvalues):
    if VALOR > 0.05:
        print("----PVALUES CRÍTICOS----")
        print("{} --> {}".format(MODELO_STATS_E.pvalues.index[INDICE],VALOR))

VARIABLES PREDICTORAS UTILIZADAS
['enginesize', 'horsepower', 'carwidth_2', 'horsepower_2', 'carwidth_3', 'enginesize_SQRT', 'drivewheel_fwd', 'carbody_hatchback', 'cylindernumber_four', 'fueltype_gas', 'stroke', 'enginetype_ohc']
R2 --> 0.8912472696230118
ESR --> 2845.9064974271632
ESR_PORCENT --> 21%
AIC --> 3087
BIC --> 3127


#### VERIFICACIÓN QUE TIENE BUENOS INDICADORES SOBRE DATASET PRUEBAS

In [12]:
#VARIABLES PREDICHAS Y PREDICTORAS
VY = "price"
VX = ['enginesize', 'horsepower', 'carwidth_2', 'horsepower_2', 'carwidth_3', 'enginesize_SQRT', 'drivewheel_fwd', 'carbody_hatchback', 'cylindernumber_four', 'fueltype_gas', 'stroke', 'enginetype_ohc']

#OBTENER INDICADORES DEL MODELO
import numpy as np
import statsmodels.formula.api as sfa

COMANDO = VY + "~" + "+".join(VX)
DATASET_PRUEBAS["PRED"] = MODELO_STATS_E.predict(DATASET_PRUEBAS[VX])

SMC =  sum((DATASET_PRUEBAS["PRED"]-np.mean(DATASET_PRUEBAS[VY]))**2)
SRC =  sum((DATASET_PRUEBAS[VY]-DATASET_PRUEBAS["PRED"])**2)
STC =  sum((DATASET_PRUEBAS[VY]-np.mean(DATASET_PRUEBAS[VY]))**2)    

print("VARIABLES PREDICTORAS UTILIZADAS")
print(VX)

#CÁLCULO DE R2
R2 = MODELO_STATS_E.rsquared
print("R2 --> {}".format(R2))

#CÁLCULO DE ESR
ESR = np.sqrt((SRC)/(DATASET_PRUEBAS.shape[0]-len(VX)-1))
print("ESR --> {}".format(ESR))

#CÁLCULO DE ESR_PORCENT
ESR_PORCENT = (ESR / np.mean(DATASET_PRUEBAS[VY])) * 100
print("ESR_PORCENT --> {}%".format(round(ESR_PORCENT)))
    
#CÁLCULO DE AIC
AIC = MODELO_STATS_E.aic
print("AIC --> {}".format(round(AIC)))
    
#CÁLCULO DE BIC
BIC = MODELO_STATS_E.bic
print("BIC --> {}".format(round(BIC)))
    
#CÁLCULO DE PVALUES
for INDICE,VALOR in enumerate(MODELO_STATS_E.pvalues):
    if VALOR > 0.05:
        print("----PVALUES CRÍTICOS----")
        print("{} --> {}".format(MODELO_STATS_E.pvalues.index[INDICE],VALOR))

VARIABLES PREDICTORAS UTILIZADAS
['enginesize', 'horsepower', 'carwidth_2', 'horsepower_2', 'carwidth_3', 'enginesize_SQRT', 'drivewheel_fwd', 'carbody_hatchback', 'cylindernumber_four', 'fueltype_gas', 'stroke', 'enginetype_ohc']
R2 --> 0.8912472696230118
ESR --> 2636.0166563868906
ESR_PORCENT --> 22%
AIC --> 3087
BIC --> 3127


In [None]:
# INDICADORES SOBRE DATASET TOTAL
VARIABLES PREDICTORAS UTILIZADAS
['enginesize', 'horsepower', 'carwidth_2', 'horsepower_2', 'carwidth_3', 'enginesize_SQRT', 'drivewheel_fwd', 'carbody_hatchback', 'cylindernumber_four', 'fueltype_gas', 'stroke', 'enginetype_ohc']
R2 --> 0.8922021657795439
ESR --> 2703.6712362875155
ESR_PORCENT --> 20%
AIC --> 3834
BIC --> 3878

# INDICADORES SOBRE DATASET ENTRENAMIENTO
VARIABLES PREDICTORAS UTILIZADAS
['enginesize', 'horsepower', 'carwidth_2', 'horsepower_2', 'carwidth_3', 'enginesize_SQRT', 'drivewheel_fwd', 'carbody_hatchback', 'cylindernumber_four', 'fueltype_gas', 'stroke', 'enginetype_ohc']
R2 --> 0.8912472696230118
ESR --> 2845.9064974271632
ESR_PORCENT --> 21%
AIC --> 3087
BIC --> 3127

# INDICADORES SOBRE DATASET PRUEBAS
VARIABLES PREDICTORAS UTILIZADAS
['enginesize', 'horsepower', 'carwidth_2', 'horsepower_2', 'carwidth_3', 'enginesize_SQRT', 'drivewheel_fwd', 'carbody_hatchback', 'cylindernumber_four', 'fueltype_gas', 'stroke', 'enginetype_ohc']
R2 --> 0.8912472696230118
ESR --> 2636.0166563868906
ESR_PORCENT --> 22%
AIC --> 3087
BIC --> 3127