# Sesgo y varianza. 

*El sesgo es cuán alejada está la media de sus valores predichos de la respuesta "real". La varianza es cuán dispersos están sus valores predichos de la respuesta "real". Descriser el sesgo y la varianza de estos cuatro casos (suponiendo que el centro es el resultado correcto)*

**A menudo es necesario elegir entre sesgo y varianza. Todo se reduce a sobreajustar vs infrajustar sus datos**
*Pero lo que realmente te importa es el error. Tanto el sesgo como la varianza contribuyen al error. Error= (Sesgo*Sesgo) + Varianza. Pero es un error que desea minimizar, no un sesgo o varianza específicamente. Un modelo complejo tendrá varianza y bajo sesgo. Un modelo demasiado simple tendrá baja varianza y alto sesgo. Pero ambos pueden tener el mismo error: la complejidad óptima está en el medio.*
*Atándolo a lecciones anteriores. El aumento de K en K-Nearest-Neighboars disminuye la varianza y aumenta el sesgo (al promediar más vecinos). Un solo árbol de decisión es propenso a sobreajustarse: alta varianza. Pero un bosque aleatorio disminuye la varianza*

# Validación cruzada K-fold.

*Una forma de proteger aún más contra el sobreajuste es la validación cruzada K-fold. Suena complicado: Pero es una idea simple. Divida sus datos en K segmentos asignados aleatoriamente. Reserve un segmento como datos de prueba. Entrene en los segmentos K-1 restantes combinados y mida su rendimiento contra el conjunto de prueba. Repita para cada segmento. Tome el promedio de los puntajes K r cuadrado. Evitar que se sobreajuste a una sola división de tren/prueba*
*scikit-learn hace esto realmente fácil. Incluso más fácil que una sola división de triaína / prueba. En la práctica, debe probar diferentes variaciones de su modelo y medir la precisión media utilizando la validación K-fold Cross hasta que encuentre un punto óptimo. Juguemos. Utilice la validación cruzada k-fold con un modelo SVC de clasificación del iris. Veremos que sin K-fold, sobreajustamos el modelo en frío*

**Volvamos al conjunto de datos de Iris:**

In [1]:
import numpy as np
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn import datasets
from sklearn import svm

iris = datasets.load_iris()


*Una sola división de train/test se hace fácil con la función train_test_split en la biblioteca cross_validation:*

In [2]:
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.4, random_state=0)


clf = svm.SVC(kernel='linear', C=1).fit(X_train, y_train)


clf.score(X_test, y_test) 

0.9666666666666667

*La validación cruzada de K-Fold es igual de fácil; usemos una K de 5:*

In [4]:
scores = cross_val_score(clf, iris.data, iris.target, cv=5)


print('La precision segun pliegue es...',scores)


print('La media de la precision, de cada uno de los 5 pliegues es...',scores.mean())

La precision segun pliegue es... [0.96666667 1.         0.96666667 0.96666667 1.        ]
La media de la precision, de cada uno de los 5 pliegues es... 0.9800000000000001


*¡Nuestro modelo es incluso mejor de lo que pensábamos! ¿Podemos hacerlo mejor? Probemos un kernel diferente (poly):*

In [5]:
clf = svm.SVC(kernel='poly', C=1).fit(X_train, y_train)

scores = cross_val_score(clf, iris.data, iris.target, cv=5)
print('La precision segun pliegue es...',scores)


print('La media de la precision, de cada uno de los 5 pliegues es...',scores.mean())

La precision segun pliegue es... [0.96666667 1.         0.96666667 0.96666667 1.        ]
La media de la precision, de cada uno de los 5 pliegues es... 0.9800000000000001


*El núcleo polinómico más complejo produjo menor precisión que un núcleo lineal simple. El núcleo polinómico está sobreajustado. Pero no podríamos haber dicho eso con una sola división de train/test:*

In [6]:
clf = svm.SVC(kernel='poly', C=1).fit(X_train, y_train)

clf.score(X_test, y_test)   

0.9

*Esa es casi la misma puntuación que obtuvimos con una sola división de train/test en el kernel lineal.*