![](Logo3.png)

#  Evaluación de los errores de ajuste en la regresión lineal

## Tabla de Contenido

[1. Contexto de la práctica](#id1)<br>
[2. Evaluar dataset](#id2)<br>
[3. Calcular los errores del modelo](#id3)<br>


## Regresión lineal simple en Python

En estadística, la regresión lineal es una forma de modelar una relación entre variables dependientes **y**  y variables independientes **x** .

## 1. Contexto de la práctica    <a id='id1'> </a>

- En esta práctica de laboratorio, se familiarizará con los conceptos de **evaluar los errores de ajuste en la regresión lineal**.
- Utilizará el resultado de la regresión lineal para **evaluar la precisión del modelo**.
- Utilizará **sklearn**, una de las bibliotecas de Python más utilizadas para el **aprendizaje automático**.
- Implementa una amplia variedad de métodos, además de ofrecer funcionalidades de preprocesamiento, validación transversal, etc. 
- Puede encontrar documentación, instructivos y otros materiales aquí: http://scikit-learn.org/stable/documentation.html

## 2. Evaluar Dataset   <a id='id2'> </a>

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn import model_selection
from sklearn.linear_model import LinearRegression

In [2]:
ventas = pd.read_csv('stores-dist.csv')
ventas.head(5)

Unnamed: 0,district,sales,stores
0,1,231.0,12
1,2,156.0,13
2,3,10.0,16
3,4,519.0,2
4,5,437.0,6


In [3]:
ventas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   district  27 non-null     int64  
 1   sales     27 non-null     float64
 2   stores    27 non-null     int64  
dtypes: float64(1), int64(2)
memory usage: 776.0 bytes


In [4]:
# Variable Independiente o variables predictoras (Eje)  X 
x = ventas[["stores"]] 

# Variable dependiente o variable objetivo (Eje)  y 
y = ventas["sales"]

In [5]:
# from sklearn.linear_model import LinearRegression

# Creamos el objeto de regresion lineal
lm = LinearRegression()

# Entrenar el modelo de regresion lineal
lm.fit(x, y)

LinearRegression()

In [6]:
# 

Yhat = lm.predict(x)
Yhat[0:30] 

array([169.93468442, 134.14759895,  26.78634257, 527.80553905,
       384.65719719, 420.44428266, 205.72176988, 134.14759895,
        26.78634257, 277.29594081, 527.80553905, 313.08302627,
       456.23136812,  62.57342803, 169.93468442, 205.72176988,
       420.44428266,  98.36051349, 313.08302627, 527.80553905,
       563.59262451,  62.57342803, 134.14759895, 348.87011173,
       384.65719719, 563.59262451, 277.29594081])

In [7]:
# Valor de la intercepcion   (donde corta el eje)

lm.intercept_

599.3797099726612

In [8]:
# Coeficientes de las variables predictoras (peso de la variable )


lm.coef_

array([-35.78708546])

In [9]:
# Devuelve el coeficiente de determinación de la predicción.

lm.score(x, y)

0.83217523508888

In [10]:
ventas_new = ventas

In [11]:
ventas_new["prediction"] = lm.predict(pd.DataFrame(ventas_new["stores"]) )
ventas_new

Unnamed: 0,district,sales,stores,prediction
0,1,231.0,12,169.934684
1,2,156.0,13,134.147599
2,3,10.0,16,26.786343
3,4,519.0,2,527.805539
4,5,437.0,6,384.657197
5,6,487.0,5,420.444283
6,7,299.0,11,205.72177
7,8,195.0,13,134.147599
8,9,20.0,16,26.786343
9,10,68.0,9,277.295941


In [12]:
#  prediccion manual

# yhat =  w x + b
# w pendiente
# b intercepr

yhat = -35.78708546 * 12 + lm.intercept_
yhat

169.9346844526612

In [14]:
# proporcionar un valor directamente en  la funcion predict de scikit learn 
# Comparar con el valor de la practica anterior
# lista de valores a predecir

valores =[ [10],[4], [2] ]
lm.predict(valores)



array([241.50885534, 456.23136812, 527.80553905])

##  3. Calcular los errores  del modelo<a id='id3'> </a>

- En este paso, investigará la conexión de los datos antes del análisis de regresión. 
- También descartará cualquier columna sin relación según sea necesario.
- En esta parte, utilizará **numpy para generar una línea de regresión** para los datos analizados. 
- También **calculará el centroide** para este conjunto de datos. El centroide es la media del conjunto de datos. 
- La línea de regresión lineal simple generada también debe atravesar el centroide.
- También utilizará **sklearn.metrics para evaluar el modelo de regresión lineal**
- Calculará la puntuación  $R^2$   y el error medio cuadrático (MSE).

In [15]:
# Variable Independiente o variables predictoras (Eje)  X 
x = ventas["stores"] 

# Variable dependiente o variable objetivo (Eje)  y 
y = ventas["sales"]

## Calcular los valores de *y* en el modelo

- En la práctica de laboratorio anterior, calculó los componentes para el ajuste de la regresión lineal con un modelo polinomial mediante **np.polyfit** para calcular el vector de los coeficientes **p** que minimiza el error cuadrático. 
- Mediante **np.poly1d**, puede calcular el valor correspondiente para cada valor de x en el modelo polinomial estimado.
- Para recuperar la pendiente y la intersección y de la línea, utilice la variable p. 
- La matriz p muestra el coeficiente en un orden descendente. 
- Para un polinomio de primer orden, el primer coeficiente es la pendiente (m) y el segundo coeficiente es la intersección y (b).

In [16]:
order = 1
p = np.poly1d(np.polyfit(x, y ,order))

print('La matriz p(x) almacena el valor de y calculado del modelo polinomial para cada valor de x,\n\n{}.'.format(p(x)))
print('\n El vector de coeficientes p describe este modelo de regresión:\n{}'.format(p))
print('\n El término de orden cero (intersección y o b) se almacena en p[0]: {}.'.format(p[0]))
print('\n El término de primer orden (pendiente o w) se almacena en p[1]: {}.'.format(p[1]))

La matriz p(x) almacena el valor de y calculado del modelo polinomial para cada valor de x,

[169.93468442 134.14759895  26.78634257 527.80553905 384.65719719
 420.44428266 205.72176988 134.14759895  26.78634257 277.29594081
 527.80553905 313.08302627 456.23136812  62.57342803 169.93468442
 205.72176988 420.44428266  98.36051349 313.08302627 527.80553905
 563.59262451  62.57342803 134.14759895 348.87011173 384.65719719
 563.59262451 277.29594081].

 El vector de coeficientes p describe este modelo de regresión:
 
-35.79 x + 599.4

 El término de orden cero (intersección y o b) se almacena en p[0]: 599.3797099726614.

 El término de primer orden (pendiente o w) se almacena en p[1]: -35.787085462974005.


- En este paso, usará `sklearn` para evaluar modelos. 
- `Sklean` ofrece una gama de medidas. 
- Calcularás la puntuación $R^2$, el error cuadrático medio (MSE) y el error absoluto medio (MAE) usando las funciones en `sklearn`.

- Para calcular el valor de cada medida, proporcione los valores de `y`, que son los valores observados del archivo csv importado, `stores-dist.csv` como primer argumento. 
- Como segundo argumento, use los valores de `p(x)`, que se calcularon a partir de su modelo polinomial de primer orden en forma de:

$$y = w x + b$$

donde m es `p[1]` y b es `p[0]` en los resultados `poly1d`.

- La **función de puntuación de regresión  $R^2$  (coeficiente de determinación)** ofrece cierta información sobre la cantidad de ajuste del modelo. 
- La mejor puntuación para  $R^2$  es 1,0. 
- Esta puntuación **indica qué tan bien explica el modelo el resultado obtenido**.

In [17]:
from sklearn.metrics import r2_score
r2 = r2_score(y, p(x))
r2


0.83217523508888

- El **error medio cuadrático (MSE) es una medida de qué tan bien se puede usar el modelo para realizar una predicción**. 
- Este número siempre es no negativo. Los mejores valores se encuentran más cercanos a cero.

In [18]:
from sklearn.metrics import mean_squared_error

mse = mean_squared_error(y, p(x))
mse

5961.386465941158

- El **error medio absoluto (MAE)** es una medida de **cuánto se acercan las predicciones a los resultados eventuales**. 
- El MAE es un promedio de los errores absolutos entre la predicción y el verdadero valor.

In [19]:
from sklearn.metrics import mean_absolute_error

mae = mean_absolute_error(y, p(x))
mae

61.2232611786873

Todas estas medidas permiten que determine qué tan bien puede su modelo hacer la predicción.