<h2><font color="#004D7F" size=6>Módulo 3. Preprocesamiento de datos</font></h2>



<h1><font color="#004D7F" size=5>3. Métodos de remuestreo</font></h1>

<br><br>
<div style="text-align: right">
<font color="#004D7F" size=3>Manuel Castillo-Cara</font><br>
<font color="#004D7F" size=3>Machine Learning con Python</font><br>

---

<h2><font color="#004D7F" size=5>Índice</font></h2>
<a id="indice"></a>

* [1. Introducción](#section1)
    * [1.1. Librerías y CSV](#section11)
* [2. Validación cruzada](#section2)
    * [2.1. _k_-fold Cross Validation](#section21)
    * [2.2. Validación cruzada repetida](#section22)
    * [2.3. Validación cruzada dejando uno fuera](#section23)
* [3. División en porcentaje](#section3)
    * [3.1. División en porcentaje train/test](#section31)
    * [3.2. División train/test repetidos aleatoriamente](#section32)
* [4. Qué técnica usar](#section4)

In [1]:
# Permite ajustar la anchura de la parte útil de la libreta (reduce los márgenes)
from IPython.core.display import display, HTML
display(HTML("<style>.container{ width:98% }</style>"))

---
<a id="section1"></a>
# <font color="#004D7F"> 1. Introducción</font>

La evaluación es una estimación que podemos usar para hablar sobre qué tan bien creemos que el algoritmo realmente puede funcionar en la práctica. No es una garantía de rendimiento. Una vez que estimamos el rendimiento de nuestro algoritmo, podemos volver a entrenar el algoritmo final en todo el conjunto de datos de entrenamiento y prepararlo para su uso operativo. A continuación, veremos cuatro técnicas diferentes que podemos usar para dividir nuestro conjunto de datos de entrenamiento y crear estimaciones útiles de rendimiento para nuestros algoritmos de Machine Learning:
* Cómo dividir un conjunto de datos en subconjuntos por porcentaje para entrenamiento/validación.
* Cómo evaluar la robustez del modelo utilizando la validación cruzada, k-fold, con y sin repeticiones.
* Cómo evaluar la robustez del modelo usando una validación cruzada dejando uno fuera (LOOCV).
* División en train/test repetidos aleatoriamente.

<a id="section11"></a>
## <font color="#004D7F"> 1.1. Librerías y CSV</font>

Como siempre cargamos el CSV que vamos a utilizar. Así mismo, vamos a cargar las librerías principales que utilizaremos en esta sección.

In [8]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
filename = "data/pima-indians-diabetes.csv"
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pd.read_csv(filename, names=names)
array = dataframe.values
# separate array into input and output components
X = array[:,0:8]
Y = array[:,8]

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section2"></a>
# <font color="#004D7F"> 2. Validación cruzada</font>

La validación cruzada es un proceso en la que se realizan $K$ particiones o **folds** de la base de datos y con ellos se realizan $K$ evaluaciones diferentes, de tal forma que todos los casos por lo menos una vez se encuentran en el conjunto de test. Básicamente en la evaluación $i$, la partición $i$ son los casos de test y el resto son los casos de entrenamiento. Finalmente, se realiza una media de los resultados obtenidos en las diferentes evaluaciones. En la siguiente imagen se ve un ejemplo de esto.

<img src="https://static.oschina.net/uploads/img/201609/26155106_OfXx.png" alt="cross-validation" width="500">

<a id="section21"></a>
## <font color="#004D7F"> 2.1. _k_-fold Cross Validation</font>

El método de validación cruzada de _k-fold_ implica dividir el conjunto de datos en _k_-particiones, también llamados _fold_. Cada subconjunto se mantiene mientras el modelo se entrena en todos los demás particiones. Este proceso se repite hasta que se determina la precisión para cada instancia en el conjunto de datos, y se proporciona una estimación de precisión general. Es un método robusto para estimar la precisión, y el tamaño de _k_ puede ajustar la cantidad de sesgo en la estimación, con valores populares establecidos en 5 y 10. 

Puede ver que informamos tanto la media como la desviación estándar de la medida de rendimiento. Al resumir las medidas de rendimiento, es una buena práctica resumir la distribución de las medidas, en este caso suponiendo una distribución gaussiana del rendimiento (un supuesto muy razonable) y registrando la desviación estándar y media.

In [6]:
# Evaluate using Cross Validation
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression


num_folds= 10
seed= 7
kfold = KFold(n_splits=num_folds, random_state=seed)
model = LogisticRegression(solver = 'lbfgs', max_iter=1000)
results = cross_val_score(model, X,Y, cv=kfold)
print(f"Acurracy: {results.mean()*100.0:,.2f}% ({results.std()*100.0:,.2f}%)")

Acurracy: 77.47% (5.54%)


<a id="section22"></a>
## <font color="#004D7F"> 2.2. Validación cruzada repetida</font>

Una extensión de esta técnica de entrenamiento/validación es el poder repetir varias veces el proceso de dividir los datos _k-fold_. En este caso, la precisión final del modelo se toma como la media del número de repeticiones.

Al igual que el caso anterior podemos observar que nos informa tanto la media como la desviación estándar de la medida de rendimiento.

In [7]:
# Evaluate using Leave One Out Cross Validation
from sklearn.model_selection import RepeatedKFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression


num_folds= 10
seed= 7
num_repeated=5
repeatedKFold = RepeatedKFold(n_splits=num_folds, random_state=seed, n_repeats=num_repeated)
model = LogisticRegression(solver = 'lbfgs', max_iter=1000)
results = cross_val_score(model, X,Y, cv=repeatedKFold)
print(f"Acurracy: {results.mean()*100.0:,.2f}% ({results.std()*100.0:,.2f}%)")

Acurracy: 77.32% (4.15%)


<a id="section22"></a>
## <font color="#004D7F"> 2.2. Validación cruzada estratificada</font>


#### Recordar que esta fue la que se vio en el video de codebasic


###### EXPLICACIONE ENTRE EL KFOLD Y EL STRATIFIEDFFOLD Y SUS PARAMETROS
##### COMO LO ES EL SHUFFLE



#### USAR EN MAYORIA DE LOS CASOS EL STRATIFIEDKKFOL CUANDO TENGAMOS PROBLEMAS DE  CLASIFICACION DONDE EL TARGET ESTE MUY DESBALAENCIADO OSEA MAS VALORES DE 1 QUE DE 0 ETC

##### DOCUMENTACION:
### https://towardsdatascience.com/how-to-train-test-split-kfold-vs-stratifiedkfold-281767b93869 

### https://www.quora.com/Is-it-better-using-training-test-split-or-k-fold-CV-when-we-are-working-with-large-datasets

In [15]:
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression


num_folds= 10
seed= 7
stratifiedKFold = StratifiedKFold(n_splits=num_folds, shuffle=True, random_state= seed)
model = LogisticRegression(solver = 'lbfgs', max_iter=1000)
results = cross_val_score(model, X,Y, cv=stratifiedKFold)
print(f"Acurracy: {results.mean()*100.0:,.2f}% ({results.std()*100.0:,.2f}%)")

Acurracy: 77.22% (2.46%)
