# Etapas Previas

En las sección se revisarán aspectos sobre la división entre datos para estimar el modelo y valorar su rendimiento.

## Etapas antes de estimar modelos

En la mayorías de los casos antes de pasar a implementar algún algoritmos de Aprendizaje Automático se realizarán ciertas etapas que pueden ser igual de importantes. No hay una lista precisa ya que siempre depende del proyecto, pero a grandes rasgos pueden considerarse las siguentes:

* Integración y limpieza de los datos.
* Exploración y visualización de los Datos.
* Tranformación, creación y selección de variables.
* Elección de algoritmos y medida de sus calidad para el problema.
* Presentación de resultados o integración a un sistema.

Puede haber más etapas  y pueden alternarse varias de ellas, como quizás al momento de elegir los algoritmos, decidir hacer ciertas transformaciones o crear nuevas variables, o eliminar algunas variables que aportan poco al modelo elegido, etc. Las primeras dos etapas son básicas y pueden consumir mucho tiempo. 

Focalizando la atención en la "elección de algoritmos y medida de calidad para el poblema", que es la etapa que principalmente hace uso de Aprendizaje Automático se busca satisfacer lo siguiete:

* Definir las muestras de entrenamiento y prueba.
* Entrenar varios modelos sobre una submuestra entrenamiento (train set).
* Hacer predicciones sobre otra submuestra de prueba (test set).
* Medir la calidad de los modelos y elegir modelos.

## Train - Test 

El tema de esta sección es sobre la definición o división de los datos en: entrenamiento y prueba. En la sección previa se hicieron algunos ejemplos con la regresión logística, árboles de decisión y regresión lineal. Se midió su precisión, pero en ningún momento se dividieron los datos entre muestras de entrenamiento y prueba.  

<img src="./Imagenes/train_test_split_matrix.svg" height="700" width="700">


La finalidad de hacer esta división en los datos tiene un doble sentido, el primero es evitar el [sobreajuste del modelo](https://en.wikipedia.org/wiki/Overfitting). En palabras llanas, se trata de evitar que el modelo sea bueno para estimarse para una muestra de datos, pero cuando le damos datos nuevos (Generalización del Modelo) sobre los cuales no se estimaron los parámetros tenga una pésima calidad de predicción.

&nbsp;
<img src="./Imagenes/Esquema_train_test.png" height="600" width="600">
&nbsp;

### No hay receta para dividir los datos

No hay una regla precisa, se puede tener en los datos dependencia del tiempo, se puede buscar cuidar que el comportamiento estadístico (la media, la varianza, el balance entre categorías) de las variables sea "bueno". También puede no importar mucho la división y basta elegir aleatoriamente datos, o se pueden tener muy pocos datos como para dividir la muestra.

En general [recomiendan](https://www.autonlab.org/_media/tutorials/overfit10.pdf tittle="Fig.1 Represetanción de la División de Datos") dividir entre un 70-80% para datos de entrenamiento y un 30-20% para datos de prueba o validación.

### Conjunto de Validación

Se planea la siguiente pregunta,*¿Qué hacer para saber si la elección de los parámetros de alguno de los algoritmos es "bueno" ante datos nuevos?*

Si bien se dividió entre los conjuntos de Entrenamiento/Prueba; quizás si la muestra de datos es muy pequeña o el modelo tienen muchos parámetros se sufrirá de sobreajuste. Entonces como estrategia se usa la ["validación-cruzada"( cross-validation)](https://es.wikipedia.org/wiki/Validaci%C3%B3n_cruzada). 

Una estrategia es subdividir al conjunto de entrenamiento dejando una parte como conjunto de validación. Hay otras estrategias, ya que si son pocos datos puede ser complicado esperar un buen modelo que se entrena en una submuestar pequeña o se puede presentar la situación donde los datos son tomados con ciertos periódos de tiempo, así que ese efecto debe de ser considerado.

## División entre train y test data.

Para el tutorial se hace uso de la función `train_test_split()`. Se hacen dos ejemplos el primero con datos de prueba que contienen scikit-learn y otro con datos del directorio DataSets.

In [3]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd

Cancer=load_breast_cancer()
print("El tamaño de la muestra es")
print(Cancer.data.shape)


El tamaño de la muestra es
(569, 30)


Se cargan los datos y se dividirán en 80% para entrenamiento (train) y 20% para prueba (test).

In [15]:
X_train, X_test, y_train, y_test = train_test_split(Cancer.data,Cancer.target,train_size=.8,random_state=123)

print("El tamaño de la muestra de entrenamiento es:")
print(X_train.shape)

El tamaño de la muestra de entrenamiento es:
(455, 30)


Se observa que el tamaño de la muestra de entrenamiento es del 80% del total de datos. En el código anterior se agregó la variable de "salida" de nombre `Cancer.target`. Se agrega ya que se divide la muestra de datos de las variables predictoras como la variable dependiente.

Para completar el ejemplo, estimamos una regresión lineal como modelo para estos datos y medimos el error absoluto medio como una medida de qué tan bueno es el modelo.

In [16]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
Modelo=LinearRegression()
Modelo.fit(X_train,y_train)
Pred=Modelo.predict(X_test)

print("El error absoluto medio es: %s"%(mean_absolute_error(y_test,Pred)))

El error absoluto medio es: 0.177623046678


El código anterior muestra el proceso que se sigue en general:

* Se dividen la muestra de datos.
* Se estima el modelo sobre los datos de entrenamiento.
* Se calcula una predicción del modelo con los datos de prueba.
* Se usa algún estadístico  o métrica para ver la calidad del modelo.

### Segundo ejemplo

Se usan datos desde el directorio *DataSets*, se utiliza el archivo `parkinson.csv`.


In [12]:
#No cargamos librerías ya que previamente lo realizamos

Datos=pd.read_csv("DataSets/parkinsons.csv")
print("E tamaño de la muestra es:")
Datos.shape

E tamaño de la muestra es:


(195, 24)

La diferencia con el ejemplo anterior es que los datos de scikit-learn, están preparados y separados entre los datos y las varible a predecir. 

Para este caso de hace una breve revisión y preparación de los datos.

In [13]:
#Se visualizan los primeros 5 registros del archivo

Datos.head()

Unnamed: 0,name,MDVP:Fo(Hz),MDVP:Fhi(Hz),MDVP:Flo(Hz),MDVP:Jitter(%),MDVP:Jitter(Abs),MDVP:RAP,MDVP:PPQ,Jitter:DDP,MDVP:Shimmer,...,Shimmer:DDA,NHR,HNR,status,RPDE,DFA,spread1,spread2,D2,PPE
0,phon_R01_S01_1,119.992,157.302,74.997,0.00784,7e-05,0.0037,0.00554,0.01109,0.04374,...,0.06545,0.02211,21.033,1,0.414783,0.815285,-4.813031,0.266482,2.301442,0.284654
1,phon_R01_S01_2,122.4,148.65,113.819,0.00968,8e-05,0.00465,0.00696,0.01394,0.06134,...,0.09403,0.01929,19.085,1,0.458359,0.819521,-4.075192,0.33559,2.486855,0.368674
2,phon_R01_S01_3,116.682,131.111,111.555,0.0105,9e-05,0.00544,0.00781,0.01633,0.05233,...,0.0827,0.01309,20.651,1,0.429895,0.825288,-4.443179,0.311173,2.342259,0.332634
3,phon_R01_S01_4,116.676,137.871,111.366,0.00997,9e-05,0.00502,0.00698,0.01505,0.05492,...,0.08771,0.01353,20.644,1,0.434969,0.819235,-4.117501,0.334147,2.405554,0.368975
4,phon_R01_S01_5,116.014,141.781,110.655,0.01284,0.00011,0.00655,0.00908,0.01966,0.06425,...,0.1047,0.01767,19.649,1,0.417356,0.823484,-3.747787,0.234513,2.33218,0.410335


La variable a predecir es categorica y tiene por nombre **status**, entonces necesitamos quitar esa variable de los datos y dejara como *target*.

In [14]:
#Se preparan los datos
Status=Datos.status.copy()
#Se elimna la variable status
del(Datos['status'])
#Visualizamos las variables
print("Las columnas que se tienen en los datos son:")
Datos.columns

Las columnas que se tienen en los datos son:


Index(['name', 'MDVP:Fo(Hz)', 'MDVP:Fhi(Hz)', 'MDVP:Flo(Hz)', 'MDVP:Jitter(%)',
       'MDVP:Jitter(Abs)', 'MDVP:RAP', 'MDVP:PPQ', 'Jitter:DDP',
       'MDVP:Shimmer', 'MDVP:Shimmer(dB)', 'Shimmer:APQ3', 'Shimmer:APQ5',
       'MDVP:APQ', 'Shimmer:DDA', 'NHR', 'HNR', 'RPDE', 'DFA', 'spread1',
       'spread2', 'D2', 'PPE'],
      dtype='object')

Dividimos la muestra de datos pero ahora tratamos de mantener el mismo "balance" entre las dos muestras. Con esto se trata de decir, que buscamos que la variable **status** sea divida de manera balanceada para los datos de entrenamiento y prueba.

Con la palabra **balanceada** se trata de indicar que la se busca que la división entre train/test se realice buscando respetar los porcentajes de cada categoría de la variable **status**.

In [19]:
X_train, X_test, y_train, y_test = train_test_split(Datos,Status,train_size=.8,random_state=123,stratify=Status)

print("El valance de la muestras es:")
print("Porcentaje de la variable Estatus para entrenamiento: %f"%(np.sum(y_train)/len(y_train)))
print("Porcentaje de la variable Estatus para prueba: %s"%(np.sum(y_test)/len(y_test)))

El valance de la muestras es:
Porcentaje de la variable Estatus para entrenamiento: 0.756410
Porcentaje de la variable Estatus para prueba: 0.7435897435897436


In [20]:
print("Tamaño de la muestra de entrenamiento")
print(X_train.shape)

Tamaño de la muestra de entrenamiento
(156, 23)


Aplicamos un modelo de regresión logística para clasificar a los pacientes y ver si están o no con Parkinson.

In [26]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

Clasificacion=LogisticRegression()
Clasificacion.fit(X_train.iloc[:,1:23],y_train)
Pred_Clasificacion=Clasificacion.predict(X_test.iloc[:,1:23])

print("La precisión de la clasificacion es: %f"%(accuracy_score(y_test,Pred_Clasificacion)))

La precisión de la clasificacion es: 0.820513


En el código anterios omitimos la variable **name** por eso agregamos la intrucción `X_train.iloc[:,1:23]`, esa variable funciona como la clave o nombre del paciente.

## Conclusion:

Es importante hacer una buena división de las muestras de datos, hacer una división aleatoria puede no ser la mejor opción ante muchos tipos de datos. No cuidar el balance de alguna variable predictora o no cuidar la distribución, puede ser un tema delicado, ya que se puede elegir el mejor modelo pero no ser bueno para pasarlo a la "generalización" ante nuevos datos.

### Ejercicios

En los siguientes ejercicios se hace uso de datos que se tienen por default en *scikit-learn*.

In [8]:
# 1.- Cargar los datos "load_diabetes" y visualiza el tamaño de la muestra.


In [9]:
# 2.- Explora el tipo de variable que es el "target", si es variable categórica revisa el balance de las 
#     categorías. En caso de ser continua, revisa la media y mediana usando las funciones de numpy


In [None]:
# 3.- Divide la muestra en el conjunto de entrenamiento y prueba, con los porcentajes 70/30 y 80/20.

In [None]:
# 4.- Elige algún estadístico( la media,la mediana o el porcentaje de las categorías) para revisar cuál es el valor en cada una de las submuestras del ejercicio anterior. 