<p><img alt="Colaboratory logo" height="140px" src="https://upload.wikimedia.org/wikipedia/commons/archive/f/fb/20161010213812%21Escudo-UdeA.svg" align="left" hspace="10px" vspace="0px"></p>

# **Diplomado de Análisis de datos y Machine Learning en Python**


El presente diplomado hace parte del centro de Big Data de la facultad de ciencias exactas y naturales (FCEN) de la Universidad de Antioquia.

## **Sesión 14**

## **Contenido**

- <a href="#nan"> Valores nulos/faltantes</a><br>
- <a href="#nor"> Estandarización y normalización</a><br>
- <a href="#cat"> Variables categóricas</a><br>


<p><a name="nan"></a></p>

## **Valores nulos/faltantes**

El manejo de los valores nulos es una tarea de preprocesamiento esencial. Si tengo valores nulos en mi conjunto de datos ¿Cómo se expresan en los datos? ¿Debo mantener las instancias con valores nulos o debería reemplazarlos? En segundo caso, ¿con qué valores deberían reemplazarse?

Debemos tener en cuenta que eliminar una instancia completa porque tiene un único valor nulo puede ser una mala decisión y hacer que perdamos información que podría ser relevante. De igual manera, si mantenemos una instancia con muchos valores nulos, esto podría hacer que nuestro modelo no tenga el mejor rendimiento.





Para mirar si nuestro conjunto de datos tiene valores nulos, podemos utilizar el método `isna`:

Para examinar el número de valores nulos por característica aplicamos la función de agreagación `sum`

Más que el número de valores nulos, estamos interesados en saber qué porcentaje de los datos son valores nulos

La estrategia que utilicemos para tratar los valores nulos dependerá de:

* **Porcentaje de valores nulos:**  Si el porcentaje es muy elevado se debe buscar una forma de obtener dichos datos faltantes. Si esto no es posible lo mejor será eliminar la característica. Si el porcentaje es pequeño puede pensar en una estrategia para reemplazar los valores nulos.

* **Naturaleza de la variable y su distribución:** Si la variable es de tipo numérica y tiene una distribución normal, la mejor estrategia será reemplazar por la media de la variable. Si se tienen datos atípicos que afecten significativamente la media, lo mejor será reemplazar por la mediana.

  Si la variable es de tipo categórica, se puede pensar en reemplazar por el valor más frecuente en la variable.

Por ejemplo, en nuestro caso, la variable `stroke` es numérica, tiene un bajo porcentaje de valores nulos y tiene una distribución normal, por lo que la mejor estrategia será reemplazar los valores nulos por la media.

Para reemplazar los valores faltantes con estrategias comunes, `sklearn.impute` proporciona el transformador `SimpleImputer`

Inicialicemos el transformador

Note que por defecto utiliza la estrategia de llenado por la media

Esta tarea de llenado de valores nulos se puede realizar de forma similar utilizando el método `fillna` de Pandas. Esta implementación de Pandas proporciona opciones para rellenar hacia adelante (`ffill`) o rellenar hacia atrás (`bfill`), muy útil cuando los datos están ordenados.


Se pueden utilizar otras estrategias más complejas donde se agrupen los datos de acuerdo a algunas características particulares, y a partir de estas reemplazar los valores nulos.

# **Estandarización y normalización**

Los modelos que son funciones suaves de la entrada, como la regresión lineal, la regresión logística o cualquiera que involucre una matriz, se ven afectados por la escala de la entrada. Los modelos basados ​​en árboles, por otro lado, no les importa nada. Si el modelo es sensible a la escala de las características de entrada, el escalamiento de las características podría ayudar.

Antes de aplicar cualquier transformación de escala, es muy importante dividir los datos en los conjuntos de entrenamiento y prueba. Si escalamos los datos antes de este paso, los datos de entrenamiento (y de prueba) no estarán escalados ya sea con la media o con la norma de los datos de entrenamiento como tal.







**Estandarización**

La estandarización es una transformación que centra los datos eliminando el valor medio de cada característica y luego la escala dividiendo las características (no constantes) por su desviación estándar. Después de estandarizar los datos, la media será cero y la desviación estándar uno.

\begin{equation}
x' = \frac{x-\mu}{\sigma}
\end{equation}

La estandarización puede mejorar drásticamente el rendimiento de los modelos. Algunos modelos (por ejemplo SVM y Modelos lineales regularizados) asumen que todas las características se centran alrededor de cero y tienen una varianza del mismo orden. Si una característica tiene una varianza que es órdenes de magnitud mayor que otras, podría dominar la función objetivo y hacer que el estimador no pueda aprender de otras características correctamente como se esperaba.

Podemos estandarizar nuestros datos con el transformador `StandarScaler` de Sklearn. Antes de aplicarlo, entrenemos un modelo sin estandarizar los datos:



Ahora con las características estandarizadas:

Además de mejorar el desempeño del modelo, en términos computacionales, el proceso de estandarización nos permite tener una mejor interpretación del modelo.

**Normalización**

La normalización es el proceso de escalar muestras individuales para tener una norma unitaria. Escalar las entradas a las normas de la unidad es una operación común para la clasificación o agrupamiento de texto.

\begin{equation}
x' = \frac{x-\text{min}(x)}{\text{max}(x)-\text{min}(x)}
\end{equation}

Este escalador funciona mejor en casos en los que la distribución no es gaussiana o la desviación estándar es muy pequeña. Sin embargo, es sensible a valores atípicos, por lo que si hay valores atípicos en los datos, es mejor considerar otro escalador.

La escala de características es útil en situaciones en las que las características de entrada difieren enormemente en escala. Por ejemplo, el número de visitantes diarios a un sitio de comercio electrónico popular puede ser de cien mil, mientras que el número real de ventas puede ser de miles. Si ambas características se incluyen en un modelo, el modelo deberá equilibrar su escala. Escalas drásticamente variables en las características de entrada pueden generar problemas de estabilidad para el algoritmo de entrenamiento del modelo. En esas situaciones, es una buena idea estandarizar los datos.

Podemos normalizar los datos utilizando el transformador `MinMaxScaler` de sklearn.



# **Variables categóricas**

Algunos algoritmos solo reciben variables numéricas como entrada, por lo que necesitaremos transformar las variables categoricas a variables numericas para poder alimentar el algoritmo.

Antes de ver cómo realizar la conversión, es importante mencionar algo: Lo que vamos a querer hacer es convertir las variables categoricas ordinales con una codificación tal que preserve esa nocion de orden que tienen estas variables. y para Las variables categoricas nominales, vamos a tener otro tipo de codificación.

Ahora por qué esto es importante? Supongamos que vamos a alimentar un algoritmo que solo toma variables numericas. Supongamos además que transformamos una variable categorica nominal mediante una codificacion ordinal.

Puede pasar que el algoritmo le dé más peso a un valor particular de acuerdo al valor numerico que se le ha asignado con la codificacion ordinal, pero este valor en realidad no tiene nada que ver con ese ordenamiento con el cual se hizo la codificacion ordinal. Por lo que la mejor opción sería realizar una codificación nominal para evitar este tipo de comportamiento del algoritmo. O en el caso contrario, si realizamos una codificación nominal a una variable categorica ordinal, podríamos perder capacidad de predicción ya que el algoritmo no es capaz de acceder a esa información ordinal intrinseca de la variable.

Sin embargo, hay que dejar claro que esto que he mencionado no es la última palabra. Como vamos a ver, muchos aspectos del ML, no tienen un fundamento teórico claro, por lo que este tipo de cuestiones se resuelven experimentalmente.

Es decir, más allá de las buenas prácticas que podamos seguir, vamos a encontrar casos en el que estas prácticas o el sentido común no son garantía para obtener el mejor rendimiento posible.

Entonces, vamos a ver cómo realizar los diferentes tipos de codificación, pero la última palabra para saber qué tipo de codificiación utilizar la dará el rendimiento del algoritmo.

**Label Encoding**

Comencemos por la codificacion de las variables categoricas ordinales.

La codificación ordinal la podemos implementar mediante el método `OrdinalEncoder` de Sklearn

Noten que la codificación no se hace en el orden esperado. Esto se da debido a que no se ha hecho explícita la naturaleza de la variable

Podemos usar la función `Categorical` de Pandas para convertir la variable a una variable categórica:

Estas variables tienen un objeto `cat` que, al igual que `str` en el caso de las variables tipo `object`, permiten acceder a cierta información. Particularmente el atributo codes nos proporciona la codificación que buscamos:

Alternativamente podemos utilizar un mapeo directamente 

**One-Hot Encoding**

Ahora, para las variables categoricas nominales usaremos otro tipo de codificación, conocida como one-hot encoding. Esencialmente, cada característica categórica con $n$ categorías se transforma en $n$ características binarias.

Esto lo podemos implementar mediante el transformador `OneHotEncoder` de Sklearn:

Ahora, si la variable solo toma dos valores, mantener dos columnas sería redundante

Esta codificación también la podemos implementar con Pandas mediante el método `get_dummies`: