<p><img alt="Colaboratory logo" height="140px" src="https://upload.wikimedia.org/wikipedia/commons/archive/f/fb/20161010213812%21Escudo-UdeA.svg" align="left" hspace="10px" vspace="0px"></p>

# **Diplomado de Análisis de datos y Machine Learning en Python**


El presente diplomado hace parte del centro de Big Data de la facultad de ciencias exactas y naturales (FCEN) de la Universidad de Antioquia.

## **Sesión 13**

## **Contenido**

- <a href="#con"> Conjuntos de entrenamiento y prueba</a><br>
- <a href="#met"> Métricas</a><br>
- <a href="#pre"> Preprocesado: Selección de características</a><br>

<p><a name="con"></a></p>

# **Conjuntos de entrenamiento y prueba**

* **Datos de entrenamiento**: Conjunto de datos que introducimos a nuestro algoritmo para entrenar nuestro modelo.
* **Datos de prueba**: Conjunto de datos que utilizamos para validar la precisión de nuestro modelo pero que no se utiliza para entrenarlo. Puede llamarse conjunto de datos de validación.




![picture](https://3qeqpr26caki16dnhd19sv6by6v-wpengine.netdna-ssl.com/wp-content/uploads/2013/12/Table-of-Data-Showing-an-Instance-Feature-and-Train-Test-Datasets.png)

Para dividir los datos en ambos conjuntos podemos usar el metodo `train_test_split` del submódulo `sklearn.model_selection`

Entrenemos el modelo con el conjunto de entrenamiento

<p><a name="met"></a></p>

# **Métricas**

Una vez nuestro modelo esta entrenado, necesitamos ver si este realiza buenas o malas predicciones. Para esto haremos uso de las llamadas [*métricas*](https://scikit-learn.org/stable/modules/model_evaluation.html) que nos permitirán cuantificar el rendimiento de nuestro modelo actuando sobre datos que nunca ha "visto".

* **Coeficiente de determinación**

\begin{equation}
R^2 = 1 - \frac{\sum_i  (y_i - \hat y_i)^2}{\sum_i  (y_i - \overline y)^2}
\end{equation}
Notemos que si $ y_0 = \hat{y}_0,  \,\,\, y_1 = \hat{y}_1\,\,\, ...\,\,\, y_n = \hat{y}_n$ entonces el numerador será  $0$




El estimador `LinearRegression` incorpora el método `score` que nos permite evaluar el modelo sin pasar por el proceso de predicción. Tenemos que pasar los datos de prueba directamente:

**Ejercicio 1:** Entre un modelo de regresión lineal utilizando todas las variables numéricas y obtenga el coeficiente de determinación $R^2$ 

***Ayuda:*** *Utilice el método* `select_dtypes` *de los DataFrames de Pandas*

Ahora que hemos visto cómo se da la evaluación de los modelos de ML, mediante los conceptos de conjuntos de entrenamiento y prueba, tenemos una visión más general de cómo es el proceso para la implementación de un sistema de ML.

<p><a name="pre"></a></p>

# **Preprocesado: Selección de características**

Las características y los modelos se ubican entre los datos sin procesar y la información deseada. En un flujo de trabajo de ML, elegimos no solo el modelo, sino también las características: la elección de una afecta a la otra. 




<p><img alt="Colaboratory logo" height="340px" src="https://i.imgur.com/Q5C8NGb.png" align="left" hspace="10px" vspace="0px"></p>

Unas buenas características facilitan el proceso subsequente de modelado y hacen que el modelo resultante sea más capaz de completar la tarea deseada. Malas características pueden requerir un modelo mucho más complicado para lograr el mismo nivel de rendimiento.

**Correlación**

La correlación es una medida de la relación entre variables que se mide en una escala de -1 a 1. Cuanto más cercano sea el valor de correlación a -1 o 1, más fuerte será la relación, y mientras más cerca de 0, más débil será la relación. Mide cómo el cambio en una variable está asociado con el cambio en otra variable.

Existen algunos tipos comunes de pruebas para medir la correlación, estos son: Pearson, Spearman y Kendall. Cada uno tiene sus propias suposiciones sobre los datos que deben cumplirse para que la prueba pueda medir con precisión el nivel de correlación. Veamos cómo están distribuidas nuestras variables:

* Para la correlación de Pearson, ambas variables deben estar normalmente distribuidas. Otras suposiciones incluyen linealidad y homogeneidad en la varianza.

* La correlación de Kendall es una prueba no paramétrica que no hace suposiciones sobre la distribución de los datos. Debe haber una relación monotónica entre las variables que se están probando y los datos deben medirse en una escala ordinal, de intervalo o de relación.

* Las correlación de Spearman es no paramétrica y no hace suposiciones sobre la distribución de los datos. Al igual que en el caso anterior, debe haber una relación monotónica entre las variables y es el análisis de correlación apropiado cuando las variables se miden en una escala que es al menos ordinal.

De nuevo, seleccionemos únicamente las variables numéricas y evaluemos qué tan correlacionadas están las variables

Podemos cuantificar la correlación utilizando el método `corr` de Pandas

Para el caso de la correlación de Pearson podemos transformar nuestros datos de manera que estos tengan una distribución más normal. 

Sklearn nos proporciona el transformador `FunctionTransformer`, a partir del cual podemos implementar un transformador a partir de una función arbitraria

Alternativamente, podemos transformar nuestros datos a través de una función universal

Una vez los datos están convertidos, veamos la correlación entre las variables:

Cuando tenemos varias características que están altamente correlacionadas, aparece el problema de la multicolinealidad, el cual hace que el modelo se vuelva inestable, por lo que pequeñas variaciones en los datos puede causar grandes cambios en el modelo, por lo que la interpretación del modelo se hace muy dificil.

**Ejercicio 2:** Construya una función `LR` que tenga como entrada la matriz de características $X$, la variable objetivo $y$ y la semilla para el kwarg `random_state` del método `train_test_split`. Esta debe separar los datos en los conjuntos de entrenamiento y prueba, entrenar un modelo de regresión lineal y mostrar como salida el coeficiente de determinación $R^2$ y los parámetros del modelo.

Con la función creada, entrenemos un modelo utilizando todas las características:

Seleccionemos ahora las características que están menos correlacionadas

Note que en este caso la estabilidad de los parámetros (hay poca variación utilizando diferentes datos para el entrenamiento i.e. diferentes semillas)