# Desarrollo del Modelo

## Objetivos

Después de completar este laboratorio será capas de:

- Desarrollar modelos de predicción


## Tabla de Contenidos

1.  [Importar los Datos de Análisis](#0)
2.  [Regresión Lineal y Regresión Lineal Múltiple](#2)
3.  [Evaluación de Modelos Mediante Visualización](#4)
4.  [Regresión Polinomial y Pipelines](#6)
5.  [Medidas para la Evaluación Dentro de la Muestra](#8)
6.  [Predicción y Toma de Decisiones](#10)

En este laboratorio se desarrollarán algunos modelos para predecir el precio del automóvil usando las variables o características presentes en el conjunto de datos de entrada. Esto es solo una estimación, pero debería dar una idea objetiva de cuánto debería costar el automóvil.

Algunas de las preguntas que se intentaran resolver son:

- ¿El distribuidor está ofreciendo un valor justo por mi vehículo?</li>
- ¿Puse un valor justo en mi automóvil?</li>

En el análisis de datos se **desarrollan modelos** para ayudar a predecir futuras observaciones a partir de los datos que ya se tienen.

Un modelo ayuda a comprender la relación exacta entre diferentes variables y cómo se utilizan estas variables para predecir el resultado.

# 1. Importar los Datos de Análisis <a id="0"></a>

## Carga y Preparación de Datos


Instalar e importar Bibliotecas:


In [None]:
# Instalar bibliotecas específicas para trabajar en el laboratorio

#!pip install numpy
#!pip install pandas
#!pip install matplotlib
#!pip install seaborn
#!pip install sklearn

Importar los paquetes de procesamiento y visualización de datos **pandas**, **numpy**, **matplotlib** y **seaborn**. No olvidar de poner `% matplotlib inline` para que las gráficas puedan aparecer en *Jupyter Notebook*.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline 

Cargar los datos y guárdarlos en el dataframe `df`:

In [None]:
# ruta de datos

path='datos/automobileEDA.csv'
df = pd.read_csv(path)
df.head()

# 2. Regresión Lineal y Regresión Lineal Múltiple <a id="2"></a>

## Regresión Lineal

Un tipo de un modelo de datos que es ampliamente utilizados es la **Regresión Lineal Simple**.

La **Regresión Lineal Simple** es un método que ayuda a comprender la relación entre dos variables:

- El predictor o la variable independiente ($X$).
- La respuesta o la variable dependiente (que queremos predecir)(Y).

El resultado de la regresión lineal es una **función lineal** que predice la variable de respuesta Y (dependiente) en función de la variable predictora X (independiente).

$$
Y: Variable \ de \ respuesta \\
X: Variable \ predictora 
$$

**Función Lineal**

$$
\hat{Y} = a + b  X
$$


- $a$ se refiere a la **intersección** de la línea de regresión, en otras palabras: el valor de $Y$ cuando $X$ es $0$.

- $b$ se refiere a la **pendiente** de la línea de regresión, en otras palabras: el valor con el que cambia $Y$ cuando $X$ aumenta en $1$ unidad.

Antes de empezar a trabajar se debe cargar el módulo para la regresión lineal.


In [None]:
from sklearn.linear_model import LinearRegression

Una vez cargado se procede a crear un objeto del tipo regresión lineal,  `LinearRegression()`.

In [None]:
lm = LinearRegression()
lm

### ¿Cómo podría el consumo en millas por galón en carretera ayudar a predecir el precio de un automóvil?

En este ejemplo, se quiere ver cómo el consumo en millas por galón en carretera puede ayudar a predecir el precio de un automóvil.

Utilizando una regresión lineal simple, se creará una función lineal con `highway-mpg` como la variable predictora y `price` como la variable de respuesta.

In [None]:
X = df[['highway-mpg']]
Y = df['price']

Para ajustar el modelo lineal se utilizarán los datos de la variable `highway-mpg`.

In [None]:
lm.fit(X,Y)

Ahora, se podría generar una predicción.

In [None]:
Y_hat=lm.predict(X)
Y_hat[0:5]  

¿Cuál es el valor de intersección $a$?

In [None]:
lm.intercept_

¿Cuál es el valor de la pendiente $b$?

In [None]:
lm.coef_

¿Cuál es el modelo lineal estimado final que se obtiene?

Reemplazando los valores obtenidos en el modelo lineal con la estructura: $ \hat{Y} = a + b  X $, se obtiene la siguiente fórmula: $\hat{price} = 38423.31 - 821.73 \times highway{\text -}mpg$.

---

**$\bigstar$ Pregunta:** 

Cree un objeto de regresión lineal llamado `lm1`.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo




Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

lm1 = LinearRegression()
lm1

-->

---

**$\bigstar$ Pregunta:** 

Entrenar el modelo utilizando el atributo `engine-size` como variable independiente y el atributo `price` como variable dependiente.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo




Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

lm1.fit(df[['engine-size']], df[['price']])
lm1

-->

---

**$\bigstar$ Pregunta:** 

Encuentra la pendiente y la intersección del modelo.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo




Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

# pendiente 
print(lm1.coef_)

# intersección
print(lm1.intercept_)

-->

---

**$\bigstar$ Pregunta:** 

¿Cuál es la ecuación de la línea de predicción? Puede usar `X` e `Y_hat` o `engine-size` y `price`.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo





Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

Y_hat=-7963.34 + 166.86*X

# o

price=-7963.34 + 166.86*engine-size

-->

---

## Regresión Lineal Múltiple

¿Qué pasa si se quiere predecir el precio del automóvil usando más de una variable?

Si se quiere usar más variables en el modelo para predecir el precio del automóvil, se puede usar una **Regresión Lineal Múltiple**.

La **Regresión Lineal Múltiple** es muy similar a la **Regresión Lineal Simple**, pero este método se utiliza para explicar la relación entre una variable de respuesta continua (dependiente) y **dos o más** variables predictoras (independientes).

La mayoría de los modelos de regresión del mundo real involucran múltiples predictores. Se ilustrará una estructura usando cuatro variables predictoras, pero estos resultados pueden generalizarse a cualquier número entero:
$$
Y: Variable \ de \ Respuesta\\\\
X_1: Variable \ Predictora \ 1\\\\
X_2: Variable \ Predictora \ 2\\\\
X_3: Variable \ Predictora \ 3\\\\
X_4: Variable \ Predictora \ 4\\\\
$$
$$
a: intersección\\\\
b_1 :coeficiente \ de \ Variable \ 1\\\\
b_2: coeficiente \ de \ Variable \ 2\\\\
b_3: coeficiente \ de \ Variable \ 3\\\\
b_4: coeficiente \ de \ Variable \ 4\\\\
$$
La ecuación está dada por:
$$
\hat{Y} = a + b_1 X_1 + b_2 X_2 + b_3 X_3 + b_4 X_4
$$


Tomando como base el trabajo anteriormente realizado se sabe que otros buenos predictores de precio podrían ser:

- Los caballos de fuerza.
- El peso en vacío.
- El tamaño del motor.
- Las millas por galón en autopista.

Así, se desarrollará un modelo usando estas variables como variables predictoras.

In [None]:
Z = df[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg']]

Entrenar/Ajustar el modelo lineal utilizando las cuatro variables mencionadas anteriormente.

In [None]:
lm.fit(Z, df['price'])

¿Cuál es el valor de intersección $a$?


In [None]:
lm.intercept_

¿Cuáles son los valores de los coeficientes ($b_1, b_2, b_3, b_4$)?


In [None]:
lm.coef_

¿Cuál es el modelo lineal estimado final que se obtiene?

Como se vio anteriormente, se debería obtener una función lineal final con la estructura:
$$
\hat{Y} = a + b_1 X_1 + b_2 X_2 + b_3 X_3 + b_4 X_4
$$
Así, para este caso en particular se obtiene la siguiente función lineal:
$$
\hat{price} = -15806.74 + 53.50 \times horsepower + 4.71  \times curb{\text -}weight + 81.53 \times engine{\text -}size + 36.06 \times highway{\text -}mpg
$$

---

**$\bigstar$ Pregunta:** 

Crear y entrenar un modelo de regresión lineal múltiple `lm2` en el que la variable de respuesta sea el precio (`price`) y las variables de predicción sean las pérdidas normalizadas (`normalized-losses`)  y las millas por galón en carretera (`highway-mpg`).

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo




Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

lm2 = LinearRegression()
lm2.fit(df[['normalized-losses' , 'highway-mpg']],df['price'])

-->

---

**$\bigstar$ Pregunta:** 

Encontrar los coeficientes del modelo

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo




Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

lm2.coef_

-->

# 3. Evaluación de Modelos Mediante Visualización <a id="4"></a>

Hasta el momento se han desarrollado algunos modelos. La pregunta que se viene es ¿cómo evaluamos nuestros modelos y elegimos el mejor? Una forma de hacerlo es usando una visualización.

## Gráfico de Regresión

Cuando se trata de regresión lineal simple, una excelente manera de visualizar el ajuste de nuestro modelo es mediante **gráficos de regresión**.

Este gráfico mostrará una combinación de puntos de datos dispersos (un **gráfico de dispersión**), así como la línea de **regresión lineal** ajustada que pasa por los datos. Esto nos dará una estimación razonable de la relación entre las dos variables, la fuerza de la correlación, así como la dirección (correlación positiva o negativa).

Visualizar las millas por galón en carretera (`highway-mpg`) como posible variable de predicción del precio:

In [None]:
ancho = 12
alto = 10
plt.figure(figsize=(ancho, alto))
sns.regplot(x="highway-mpg", y="price", data=df)
plt.ylim(0,)

De este gráfico se puede observar que el precio está negativamente correlacionado con el consumo de millas por galón en carretera, ya que la pendiente de la regresión es negativa.

Una cosa a tener en cuenta al mirar un gráfico de regresión es prestar atención a cuán dispersos están los puntos de datos alrededor de la línea de regresión. Esto le dará una buena indicación de la variación de los datos y si un modelo lineal sería el mejor ajuste o no. Si los datos están demasiado alejados de la línea, este modelo lineal podría no ser el mejor modelo para estos datos.

Para comprender mejor esto se comparará este gráfico con el gráfico de regresión de las revoluciones por minuto máximo (`peak-rpm`).

In [None]:
plt.figure(figsize=(ancho, alto))
sns.regplot(x="peak-rpm", y="price", data=df)
plt.ylim(0,)

Al comparar el gráfico de regresión de `peak-rpm` y `highway-mpg`, se puede observar que los puntos para `highway-mpg` están mucho más cerca de la línea generada y, en promedio, disminuyen. Los puntos de `peak-rpm` están más dispersos alrededor de la línea predicha y es mucho más difícil determinar si los puntos disminuyen o aumentan a medida que aumenta el valor de `peak-rpm`.

---

**$\bigstar$ Pregunta:** 

Dadas las gráficas de regresión anteriores, ¿Cuál de las variables `peak-rpm` o `highway-mpg` está más fuertemente correlacionada con el precio (`price`)? 

Usar el método `.corr()` para verificar la respuesta.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo




Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

df[["peak-rpm","highway-mpg","price"]].corr()

#La variable "highway-mpg" tiene una correlación más fuerte con "precio", es aproximadamente -0.704692 en comparación con "peak-rpm", que es aproximadamente -0.101616.

-->

---

## Gráfico de Residuos

Una buena manera de visualizar la varianza de los datos es usar un **gráfico de residuos**.

* ¿Qué es un **residuo**?

La diferencia entre el valor observado ($Y$) y el valor pronosticado ($\hat{Y}$) se llama residuo ($e$). Cuando observamos un gráfico de regresión, el residuo es la distancia desde el punto de datos hasta la línea de regresión ajustada.

* Entonces, ¿qué es un **gráfico de residuos**?

Un gráfico de residuos es un gráfico que muestra los residuos en el eje $y$ vertical y la variable independiente en el eje $x$ horizontal.

* ¿A qué se presta atención cuando se analiza un gráfico de residuos?

Hay que fijarse en la dispersión de los residuos: Si los puntos en un gráfico de residuos están **distribuidos aleatoriamente alrededor del eje $x$**, entonces un **modelo lineal es apropiado** para los datos.

* ¿Por qué es eso? 

La distribución aleatoria de residuos significa que la varianza es constante y, por lo tanto, el modelo lineal se ajusta bien a estos datos.

In [None]:
ancho = 12
alto = 10
plt.figure(figsize=(ancho, alto))
sns.residplot(x=df['highway-mpg'], y=df['price'])
plt.show()

* ¿Qué nos dice este gráfico?

Se puede ver en este gráfico de residuos que los residuos no se distribuyen aleatoriamente alrededor del eje x, lo que nos lleva a creer que tal vez un modelo no lineal sea más apropiado para estos datos.

## Regresión Lineal Múltiple

* ¿Cómo se puede visualizar un modelo de regresión lineal múltiple? 

Esto se vuelve un poco más complicado porque no se puede visualizar con un gráfico de regresión o de residuos. 

Una forma de ver el ajuste del modelo es mirar el **gráfico de distribución** utilizando el método `.kdeplot()` (kernel density estimation).

Se puede observar la distribución de los valores ajustados que resultan del modelo y compararla con la distribución de los valores reales.

Para ver esto, primero hay que realizar una predicción. Para ello, se reutilizará la variable Z que contiene los datos de cuatro atributos `horsepower`, `curb-weight`, `engine-size`, `highway-mpg`

```python
Z = df[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg']]
```

In [None]:
Y_hat = lm.predict(Z)

In [None]:
plt.figure(figsize=(ancho, alto))

ax1 = sns.kdeplot(df['price'], color="r", label="Valor Actual")
sns.kdeplot(Y_hat, color="b", label="Valores Ajustados" , ax=ax1)

plt.title('Valores Actuales vs Ajustados para el Precio')
plt.xlabel('Precio (en dólares)')
plt.ylabel('Proporción de Automóviles')

plt.legend(loc='upper right')

plt.show()
plt.close()

Del gráfico se puede observar que los valores ajustados para estas cuatro variables están razonablemente cerca de los valores reales, ya que las dos distribuciones se superponen un poco. Sin embargo, definitivamente hay algo de espacio para mejorar.

# 4. Regresión Polinomial y Pipelines <a id="6"></a>

La **regresión polinomial** es un caso particular del modelo de regresión lineal general o de los modelos de regresión lineal múltiple.

En este caso se obtienen relaciones no lineales elevando al cuadrado o estableciendo términos de orden superior de las variables predictoras.

Hay diferentes órdenes de regresión polinomial:

* De 2do Orden o Cuadrático: $\hat{Y}=a + b_1 X + b_2 X²$
* De 3er Orden o Cúbico: $\hat{Y}=a + b_1 X + b_2 X² + b_3 X³$
* De Orden Superior: $\hat{Y}=a + b_1 X + b_2 X² + b_3 X³ + \dots$

Anteriormente se hizo notar que un modelo lineal no proporcionaba el mejor ajuste al utilizar el atributo de millas por galón en carretera (`highway-mpg`) como variable de predicción. Por lo tanto, se debiera de intentar ajustar un modelo polinomial a los datos.

Se utilizará la siguiente función para graficar los datos.

In [None]:
def GraficaPolinomial(modelo, variable_independiente, variable_dependiente, Nombre):
    nuevo_x = np.linspace(15, 55, 100)
    nuevo_y = modelo(nuevo_x)

    plt.plot(variable_independiente, variable_dependiente, '.', nuevo_x, nuevo_y, '-')
    plt.title('Ajuste Polinomial con Matplotlib para Precio ~ ' + Nombre)
    ax = plt.gca()
    ax.set_facecolor((0.898, 0.898, 0.898))
    figura = plt.gcf()
    plt.xlabel(Nombre)
    plt.ylabel('Precio de los Automóviles')

    plt.show()
    plt.close()

Ahora hay que preparar las variables/parámetros de entrada.

In [None]:
x = df['highway-mpg']
y = df['price']

El siguiente paso es ajustar el polinomio usando la función `.polyfit()`, luego se usará la función `.poly1d()` para mostrar la función polinomial. Ambas funciones perteneces a la biblioteca de **numpy**.

In [None]:
# En este caso se usará un polinomio de tercer orden o cúbico 
f = np.polyfit(x, y, 3)
p = np.poly1d(f)
print(p)

Para visualizar los datos aplicados a la función polinomial generada se llamará a la función definida previamente, **GraficaPolinomial**.

In [None]:
GraficaPolinomial(p, x, y, 'highway-mpg')

In [None]:
np.polyfit(x, y, 3)

Finalmente, se puede observar en el gráfico que este modelo polinomial funciona mejor que el modelo lineal. Esto se debe a que la función polinomial generada **acierta** más puntos de datos.

---

**$\bigstar$ Pregunta:** 

Crear un modelo polinomial de orden 11 con las variables x e y de arriba.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo




Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

# Aquí se usará un polinomio de orden 11 
f_11 = np.polyfit(x, y, 11)
p_11 = np.poly1d(f_11)
print(p_11)
GraficaPolinomial(p_11, x, y, 'highway-mpg')

-->

---

La expresión analítica para una función **Polinomial Multivariable** se complica algo más. Por ejemplo, la expresión de un polinomio de segundo orden (grado=2) con dos variables viene dada por:
$$
\hat{Y} = a + b_1 X_1 +b_2 X_2 +b_3 X_1 X_2+b_4 X_1^2+b_5 X_2^2
$$

Se puede realizar una transformación polinomial sobre múltiples características. Para ello, primero hay que importar el módulo respectivo.

In [None]:
from sklearn.preprocessing import PolynomialFeatures

Se creará un objeto **PolynomialFeatures** de grado 2.

In [None]:
pr=PolynomialFeatures(degree=2)
pr

Para trabajar con más de una variable se reutilizará la variable Z que contiene los datos de cuatro atributos `horsepower`, `curb-weight`, `engine-size`, `highway-mpg`

```python
Z = df[['horsepower', 'curb-weight', 'engine-size', 'highway-mpg']]
```

La estandarización de datos es el proceso de cambiar la escala de los atributos para que tengan la media como 0 y la varianza como 1. El objetivo de esto es reducir todas las características a una escala común sin distorsionar las diferencias en el rango de los valores. 

El trabajar con más de un atributo/variable se recomienda escalar y estandarizar los datos de prueba y entrenamiento. Para ellos se llamará al método `.fit_transform()` para los datos de entrenamiento y al método `.transform()` para los datos de prueba. Esto permite que el modelo a desarrollar no esté sesgado hacia una característica particular del conjunto de datos entrenamiento y, al mismo tiempo, impida que el modelo aprenda las características/valores/tendencias de los datos de prueba.

`fit_transform()` se usa para escalar los datos de entrenamiento y también aprender los parámetros de escalado de esos datos. Aquí, el modelo aprenderá la media y la varianza de las características del conjunto de entrenamiento. Estos parámetros aprendidos se utilizan luego para escalar los datos de prueba.

`transform()` con este método se puede usar la misma media y varianza que se calcula a partir de los datos de entrenamiento para transformar los datos de prueba. Por lo tanto, los parámetros aprendidos por el modelo utilizando los datos de entrenamiento ayudarán a transformar nuestros datos de prueba.

El motivo de hacer esto es que si también se usa el método de ajuste en los datos de prueba, se calculará una nueva media y varianza con una nueva escala para cada característica y dejará que el modelo también conozca los datos de prueba. Por lo tanto, los datos de prueba no serán una sorpresa, ya que no serán desconocidos para el modelo y no se logrará una buena estimación del modelo en los datos de prueba (no vistos).

In [None]:
Z_pr=pr.fit_transform(Z)

En los datos originales en Z, hay 201 muestras y 4 características/atributos/variables.

In [None]:
Z.shape

Después de la transformación, hay 201 muestras y 15 características.

In [None]:
Z_pr.shape

## Pipeline

Las canalizaciones de datos simplifican los pasos para procesar los datos. Se usará el módulo `Pipeline` para crear una canalización. También se usará `StandardScaler` como un paso en el proceso de canalización.

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

Se creará un **canal** o pipeline generando una **lista de tuplas **incluyendo el nombre del modelo o estimador y su constructor correspondiente.

In [None]:
Entrada=[('normalizar',StandardScaler()), ('polinomio', PolynomialFeatures(include_bias=False)), ('modelo',LinearRegression())]

Se ingresará la lista `Entrada` como un argumento para el constructor del pipeline.

In [None]:
tuberia=Pipeline(Entrada)
tuberia

Primero, se convertirá el tipo de los datos almacenados en el dataframe `Z` al tipo flotante, esto para evitar las advertencias de conversión que pueden aparecer como resultado de que StandardScaler tome entradas que no sean flotantes.

Luego, se puede **normalizar los datos**, realizar una **transformación** y **ajustar el modelo** simultáneamente.

In [None]:
Z = Z.astype(float)
tuberia.fit(Z,y)

De manera similar, se puede normalizar los datos, realizar una transformación y ***producir una predicción*** simultáneamente.

In [None]:
y_tubo=tuberia.predict(Z)
y_tubo[0:4]

---

**$\bigstar$ Pregunta:** 

Crer una tubería/pipeline que estandarice/normalice los datos, luego produzca una predicción usando un modelo de regresión lineal usando las características Z y el objetivo y.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo




Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:  

Entrada2=[('normaliza',StandardScaler()),('modelo',LinearRegression())]

tubo2=Pipeline(Entrada2)

tubo2.fit(Z,y)

y_tubo2=tubo2.predict(Z)
y_tubo2[0:10]

-->

---

# 5. Medidas para la Evaluación Dentro de la Muestra <a id="8"></a>



Al evaluar los modelos, no solo se quiere visualizar los resultados, sino que también se quiere una medida cuantitativa para determinar qué tan preciso es el modelo.

Dos medidas muy importantes que se utilizan a menudo en Estadística para determinar la precisión de un modelo son:

- **$R^2$ / R-cuadrado**.
- **Error Cuadrático Medio (MSE, del inglés Mean Squared Error)**.

**R-cuadrado**

R-cuadrado, también conocido como coeficiente de determinación, es una medida para indicar qué tan cerca están los datos de la línea de regresión ajustada.

El valor de R-cuadrado es el porcentaje de variación de la variable de respuesta ($y$) que se explica mediante un modelo lineal.

**Error cuadrático medio (MSE)**

El error cuadrático medio mide el promedio del cuadrado de los errores. Es decir, la diferencia entre el valor real ($y$) y el valor estimado ($\hat{y}$).

## Modelo 1: Regresión Lineal Simple

Calcular el $R^2$ de la relación entre las millas por galón en carretera `highway-mpg` que ya se encuentra almacenado en la variable `X` y el precio `price` que ya se encuentra almacenado en la variable `Y` utilizando el modelo de regresión lineal definido en el objeto `lm`.

In [None]:
# ajustar el modelo
lm.fit(X, Y)
# encontrar el R^2
print('El valor de R-cuadrado es: ', lm.score(X, Y))

El valor entregado nos indica que el \~49.659% de la variación del precio se explica por el modelo lineal simple basado en `highway-mpg`.

Calcular el MSE utilizando las mismas variables de estudio.

Para realizar este cálculo, primero se debe predecir la salida, es decir, $\hat{y}$ usando el método de predicción, donde $X$ es la variable de entrada.

In [None]:
Y_hat=lm.predict(X)
print('La salida de los primeros cuatro valores de predicción es: ', Y_hat[0:4])

Además, se debe importar la función **mean_squared_error** del módulo **metrics**:

In [None]:
from sklearn.metrics import mean_squared_error

Ahora, se puede comparar los resultados previstos con los resultados reales. Recordar que un valor bajo de MSE indica que hay un mejor ajuste.

In [None]:
mse = mean_squared_error(df['price'], Y_hat)
print('El error cuadrático medio del precio y el precio pronosticado es: ', mse)

## Modelo 2: Regresión Lineal Multiple

Calcular el $R^2$ de la relación entre las millas por galón en carretera (`highway-mpg`), caballos de fuerza (`horsepower`), peso al vacio (`curb-weight`) y tamaño del motor (`engine-size`) que ya se encuentra almacenado en la variable `Z` y el precio `price` utilizando el modelo de regresión lineal definido en el objeto `lm`.

In [None]:
# ajustar el modelo 
lm.fit(Z, df['price'])
# encontrar el R^2
print('El valor de R-cuadrado es: ', lm.score(Z, df['price']))

El valor entregado nos indica que el \~80.935% de la variación del precio se explica por el modelo lineal multiple basado en las variables `highway-mpg`, `horsepower`, `curb-weight` y `engine-size`.

Calcular el MSE utilizando las mismas variables de estudio.

Para realizar este cálculo, primero se debe predecir la salida, es decir, $\hat{y}$ usando el método de predicción, donde $Z$ es la variable de entrada.


In [None]:
Y_hat_multi = lm.predict(Z)

Ahora, se puede proceder a comparar los resultados previstos con los resultados reales.

In [None]:
print('El error cuadrático medio del precio y el precio pronosticado usando un multi ajuste es: ', mean_squared_error(df['price'], Y_hat_multi))

## Modelo 3: Regresión Polinomial

Calcular el $R^2$ de la relación entre las millas por galón en carretera `highway-mpg` que ya se encuentra almacenado en la variable `x` y el precio `price` que ya se encuentra almacenado en la variable `y` utilizando la función de regresión polinomial definido en el objeto `p`.

Se importará la función **r2_score** del módulo **metrics** ya que se va a usar una función diferente.

In [None]:
from sklearn.metrics import r2_score

Ahora, se puede aplicar la función para obtener el valor de $R^2$:

In [None]:
r_cuadrado = r2_score(y, p(x))
print('El valor de R-cuadrado es: ', r_cuadrado)

El valor entregado nos indica que el \~67.419% de la variación del precio se explica por el modelo polinomial basado en `highway-mpg`.

Calcular el MSE utilizando las mismas variables de estudio.

Para realizar este cálculo, los valores de $\hat{y}$ van a estar dados por la función `p(x)` donde $x$ es la variable de entrada.

In [None]:
mean_squared_error(df['price'], p(x))

# 6. Predicción y Toma de Decisiones <a id="10"></a>

## Predicción

Mayoritariamente se ha entrenado el modelo usando el método `fit`. Ahora se enfatizará en usar el método `predict` para producir una predicción. También se hará uso de `pyplot` para graficar y algunas funciones de `numpy`.

Primero, se creará una nueva entrada de datos con números enteros del 1 al 99 como un arreglo de 99 filas y 1 columna.


In [None]:
entrada_nueva=np.arange(1, 100, 1).reshape(-1, 1)
entrada_nueva=pd.DataFrame(entrada_nueva)
entrada_nueva.rename(columns={0: 'highway-mpg'}, inplace=True)
entrada_nueva

Se entrenará/ajustará el modelo que tiene la relación entre las millas por galón en carretera `highway-mpg` que ya se encuentra almacenado en la variable `X` y el precio `price` que ya se encuentra almacenado en la variable `Y` utilizando el modelo de regresión lineal definido en el objeto `lm`.

In [None]:
lm.fit(X, Y)
lm

Ahora, que procederá a generar una predicción utilizando el modelo entrenado y la nueva entrada de datos como variable predictora/independiente.

In [None]:
y_hat=lm.predict(entrada_nueva)
y_hat[0:5]

Finalmente se procederá a graficar los datos predichos.

In [None]:
plt.plot(entrada_nueva, y_hat)
plt.show()

## Toma de Decisiones: determinar un buen ajuste del modelo

Ahora que ya se han visto los diferentes modelos y generado los valores R-cuadrado y MSE para los ajustes, la pregunta se viene es ¿cómo determinar un buen ajuste del modelo?

* *¿Cuál es un buen valor de R-cuadrado?*

Al comparar modelos, **el modelo con el valor R-cuadrado más alto es el que se ajusta mejor** a los datos.

* *¿Qué es un buen MSE?*

Al comparar modelos, **el modelo con el valor MSE más pequeño es el que se ajusta mejor** a los datos.

### Veamos los valores de los diferentes modelos generados en este laboratorio

**Regresión lineal simple**: uso de `highway-mpg` como variable predictiva del precio.

- R-cuadrado: $0.49659118843391759$
- MSE: $3.16\times10^7$

**Regresión lineal múltiple**: uso de `highway-mpg`, `horsepower`, `curb-weight` y `engine-size` como variables predictivas del precio.

- R-cuadrado: $0.80896354913783497$
- MSE: $1.2\times10^7$

**Regresión polinomial**: uso de `highway-mpg` como variable predictiva del precio.

- R-cuadrado: $0.6741946663906514$
- MSE: $2.05\times10^7$

## Regresión Lineal Simple versus Regresión Lineal Múltiple

Por lo general, cuantas más variables tenga, mejor será su modelo para predecir, pero esto no siempre es cierto. En ocasiones, es posible que no tenga suficientes datos, que se encuentre con problemas numéricos o que muchas de las variables no sean útiles e incluso actúen como ruido. Como resultado, siempre se debe verificar el $MSE$ y el $R^2$.

Así, para comparar los resultados de estos dos modelos, se debe observar una combinación de $R^2$ y $MSE$ para llegar a la mejor conclusión sobre el ajuste del modelo.

- $MSE$: El $MSE$ de la regresión lineal simple es $3.16x10^7$ mientras que para la regresión lineal múltiple tiene un $MSE$ de $1.2x10^7$. El $MSE$ del múltiple es mucho más pequeño.
- $R^2$: En este caso también se puede ver que hay una gran diferencia entre el $R^2$ de la regresión lineal simple y el $R^2$ de la regresión lineal múltiple. El $R^2$ de la regresión lineal simple (~0,497) es muy pequeño en comparación con el $R^2$ de la regresión lineal múltiple (~0,809).

Los valores obtenidos de $R^2$ en combinación con el $MSE$ muestra que la **regresión lineal múltiple** parece tener el mejor ajuste del modelo en este caso en comparación con la regresión lineal simple.

## Regresión Lineal Simple versus Regresión Polinomial

- $MSE$: Se puede ver que la regresión polinomial tuvo un mejor $MSE$, ya que este $MSE$ es más pequeño que el de la regresión lineal simple.
- $R^2$: El $R^2$ para la regresión polinomial es más grande que el $R^2$ para la regresión lineal simple, por lo que la regresión polinomial también aumentó bastante el $R^2$.

Dado que la regresión polinomial resultó en un $MSE$ más bajo y un $R^2$ más alto, se puede concluir que este fue un modelo de mejor ajuste que la regresión lineal simple para predecir el **precio** a partir de **highway-mpg** como variable de predicción.

## Regresión Lineal Múltiple versus Regresión Polinomial

- $MSE$: El $MSE$ para la regresión lineal múltiple es más pequeño que el $MSE$ para la regresión polinomial.
- $R^2$: El $R^2$ para la regresión lineal múltiple es más grande que el $R^2$ para la regresión polinomial.

## $\therefore$ Conclusión

Comparando estos tres modelos, se concluye que la **regresión lineal múltiple es el mejor modelo** para poder predecir el precio a partir de nuestro conjunto de datos. Este resultado tiene sentido, ya que tenemos 27 variables en total y sabemos que más de una de esas variables son predictores potenciales del precio final del automóvil.
