## Estadisticos proporcionados por Scikit-learn

Como en todo curso de machine learning tenemos que tener muy en cuenta los estadisticos necesarios que nos ayudaran a modelar la data correctamente y ajustarlo de la mejor manera.

### Examinando el rendimiento del modelo por suma del cuadrado de los residuos 

En español **SCE** (suma de los cuadrados residuales, aqui la E se pone en vez de R porque necesitamos invocar luego a SCR que es Suma de Cuadrados de la Regresión) y en ingles sería **RSS** ( Residual Sum Squares ).

Ahora para saber si nuestro modelo esta bien ajustado usaremos este estadístico llamado RSS en inglés.

In [1]:
import numpy as np

from sklearn.linear_model import LinearRegression

import matplotlib.pyplot as plt

In [2]:
heights = [[1.6], [1.65], [1.7], [1.73], [1.8]] # alturas en m

weights = [[60], [65], [72.3], [75], [80]] # esos en Kg

model = LinearRegression()
model.fit(X = heights, y = weights)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

#### El calculo de RSS 

Se hace de la siguiente manera: 
* restando los valores originales con los valores predecidos por el modelo y elevando al cuadrado.

![](RSSformula.png)

In [3]:
np.sum((weights - model.predict(heights))**2)

5.336432246998277

![](RSS.png)

Se ve claramente como un RSS de tamaño 0 nos indicaría un error minimo el cual reflejaría que el modelo pasa exactamente por los puntos dados en un principio, aunque esto es muy raro encontrarlo en la vida real.

### Evaluando el modelo usando un dataset de prueba

Podemos evaluar con otro estadistico que nos ayudara a verificar que tan bueno es nuestro modelo, este estadístico se llama coeficiente de determinación o también conocido como el método de R-cuadrado.

Este se calcula de la siguiente manera:
![](R-squared.png)

Siendo TSS: Total sum squared o suma total de cuadrados y que se calcula sumando la diferencia entre los valores y y su respectiva media todo esto al cuadrado.

In [4]:
# test data

heights_test = [[1.58], [1.62], [1.69], [1.76], [1.82]]
weights_test = [[58], [63], [72], [73], [85]]

In [5]:
#TSS
weights_test_mean = np.mean(np.ravel(weights_test))
TSS = np.sum((np.ravel(weights_test)-weights_test_mean)**2)
round(TSS,2)

#RSS (SCE)
RSS = np.sum((np.ravel(weights_test)-np.ravel(model.predict(heights_test)))**2)
round(RSS,2)

#R-squared (R-cuadrado)
R_squared = 1 - (RSS / TSS)
round(R_squared,2)


0.94

Nota : ravel convierte un array bidimensional en una unidimensional 

   * TSS = 430.80
   * RSS = 24.62
   * R-squared = 0.94
   
Afortunadamente podemos calcular R-squared sin hacer todo estos pasos y esto se logra con ayuda de la libreria Scikit-learn.

In [6]:
R_squared = model.score(heights_test, weights_test)
R_squared

0.9428592885995253

Este valor de R-squared representa la proporcion de la varianza para la variable dependiente que se explica por una variable independiente ( un y dependiendo de un x ).

Este valor esta descrito en porcentaje y recordando que una correlación explica la fuerza de relación entre una variable dependiente e independiente, R-cuadrado explica en que medida la varianza de una variable explica la varianza de una segunda variable, Por lo tanto un valor de 50% o 0.5 nos indica que la mitad de la variación observada puede explicarse por las entradas del modelo.

### Persistiendo el modelo

Una vez entrenado el modelo, podemos guardarlo para poder usarlo posteriormente. Es decir podemos tener nuevos datos y en vez de reentrenar nuestro modelo podemos cargar el modelo ya entrenado para ser usado inmediatamente que queramos.

Existen dos maneras de guardar nuestro modelo:
   * Usando el módulo estándar pickle para serializar o deserializar objetos.
   * Usando el módulo joblib en scikit-learn para guardar y cargar objetos que tratan con datos Numpy.

In [7]:
import pickle

In [8]:
filename = 'HeightsAndWeights_model.sav'

# Guardar (Write) en modo binario (Binary) -> wb
pickle.dump(model, open(filename, 'wb'))

In [9]:
# Cargamos el modelo 

# Leer (Read) en modo binario (Binary) -> rb
loaded_model = pickle.load(open(filename, 'rb'))

In [10]:
result = loaded_model.score(heights_test, weights_test)
result # R-squared

0.9428592885995253

In [11]:
from sklearn.externals import joblib

In [12]:
# guardando en el disco

filename = 'HeightsAndWeights_model2.sav'
joblib.dump(model, open(filename, 'wb'))

In [13]:
# Cargando

loaded_model = joblib.load(filename)
result = loaded_model.score(heights_test, weights_test)
result # R-cuadrado

0.9428592885995253