![Title](cisco.png)

## Lab - Evaluating Fit Errors in Linear Regression 

### Part 1: Import the Libraries and Data

#### Step 1: Import the libraries.

In [1]:
# Esta práctica puede traer errores que pueden ser ignorados, que nos indicarian que muchas funciones dejaran de
#estan vigentes en próximas actualizaciones.
#import warnings
#warnings.filterwarnings('ignore')

import numpy as np
import pandas as pd
from sklearn.model_selection import cross_validate
from sklearn.linear_model import LinearRegression

#### Step 2: Import the data.

In [2]:
# Import the file stores-dist.txt
salesDist = pd.read_csv('./stores-dist.csv')

# Change the column headings
salesDist.columns = ['district','sales','stores']

# Verify the imported data
salesDist.head()

Unnamed: 0,district,sales,stores
0,1,231.0,12
1,2,156.0,13
2,3,10.0,16
3,4,519.0,2
4,5,437.0,6


La columna district no es necesaria para la evaluación del ajuste de la regresión lineal; por lo tanto, puede descartarse.

In [4]:
# Drop the district column.
sales = salesDist.drop('district',axis=1)

# Verify that the district column has been dropped.
sales.head()

Unnamed: 0,sales,stores
0,231.0,12
1,156.0,13
2,10.0,16
3,519.0,2
4,437.0,6


### Part 2: Calculating the Errors

Utilizaremos numpy para generar una línea de regresión para los datos analizados. También calculará el centroide (media del conjunto de datos) para este conjunto. La línea de regresión lineal simple generada también debe atravesar el centroide.

También utilizaremos sklearn.metrics para evaluar el modelo de regresión lineal. Calculará la puntuación  R2  y el error medio cuadrático (MSE).

#### Step 1: Assign the x and y variables.

In [7]:
#dependent variable for y axis
y = sales.sales 
#independent variable for x axis
x = sales.stores

### Step 2: Calculate the y values in the model
`np.poly1d`, puede calcular el valor correspondiente para cada valor de x en el modelo polinomial estimado.

Para recuperar la pendiente y la intersección y de la línea, utilice la variable `p`. La matriz p muestra el coeficiente en un orden descendente. Para un polinomio de primer orden, el primer coeficiente es la pendiente, slope (`m`) y el segundo coeficiente es la intersección y, y-intercept (`b`).

In [8]:
# compute the y values from the polynomial model for each x value
order = 1
p = np.poly1d(np.polyfit(x, y ,order))

print('The array p(x) stores the calculated y value from the polynomial model for each x value,\n\n{}.'.format(p(x)))
print('\nThe vector of coefficients p describes this regression model:\n{}'.format(p))
print('\nThe zeroth order term (y-intercept or b) is stored in p[0]: {}.'.format(p[0]))
print('\nThe first order term (slope or m) is stored in p[1]: {}.'.format(p[1]))

The array p(x) stores the calculated y value from the polynomial model for each x value,

[169.93468442 134.14759895  26.78634257 527.80553905 384.65719719
 420.44428266 205.72176988 134.14759895  26.78634257 277.29594081
 527.80553905 313.08302627 456.23136812  62.57342803 169.93468442
 205.72176988 420.44428266  98.36051349 313.08302627 527.80553905
 563.59262451  62.57342803 134.14759895 348.87011173 384.65719719
 563.59262451 277.29594081].

The vector of coefficients p describes this regression model:
 
-35.79 x + 599.4

The zeroth order term (y-intercept or b) is stored in p[0]: 599.3797099726613.

The first order term (slope or m) is stored in p[1]: -35.787085462974005.


#### Step 3: Use different measures to evaluate models.
Utilizaremos `sklearn` para evaluar los modelos, ya que ofrece una variedad de medidas. Calcularemos $R^2$, error medio cuadratico (MSE), y el error medio absoluto (MAE).

Para calcular el valor para cada medida, indique los valores de y, que son los valores obtenidos del archivo csv importado, `stores-dist.csv` como el primer argumento. Como segundo argumento, utilice los valores de `p(x)`, que se calcularon de su modelo polinomial de primer orden en la siguiente forma:

$$y = mx + b$$

Donde m es `p[1]` y b es `p[0]` en los resultados de `poly1d`.

The $R^2$ (coefficent of determination) regression score function gives some information about the amount of fit of the model. The best possible score for $R^2$ is 1.0. This score indicates how well the model is explaining the observed outcome.

In [9]:
# R2(coeficiente de determinación) ofrece información sobre la cantidad de ajuste del modelo. 
#La mejor puntuación para  R2  es 1,0, que indica qué tan bien explica el modelo el resultado obtenido.
from sklearn.metrics import r2_score
r2 = r2_score(y, p(x))
r2

0.83217523508888

In [10]:
# El error medio cuadrático(MSE) indica qué tan bien se puede usar el modelo para realizar una predicción. 
# Este número siempre es no negativo. Los mejores valores se encuentran más cercanos a cero.
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y, p(x))
mse

5961.386465941159

The mean absolute error (MAE) is a measure of how close predictions are to the eventual outcomes. The MAE is an average of the absolute errors between the prediction and the true value.

In [11]:
# El error medio absoluto (MAE),medida de cuánto se acercan las predicciones a los resultados eventuales. 
# El MAE es un promedio de los errores absolutos entre la predicción y el verdadero valor.
from sklearn.metrics import mean_absolute_error
mae = mean_absolute_error(y, p(x))
mae

61.2232611786873

<font size='0.5'>&copy; 2017 Cisco and/or its affiliates. All rights reserved. This document is Cisco Public.<font>