<h1 style="text-align: center;"> Preprocesamiento </h1>
<h1 style="text-align: right; font-size: 24px; margin-right: 10px;">Guillermo Díaz Aguado</h1>

## Introducción
Uno de los factores más importantes a la hora de crear nuestro modelo de aprendizaje es que nuestros datos tengan información de calidad y una buena cantidad. Es por ello que vamos a indicar una serie de pasos que se deberían hacer *SIEMPRE* antes de empezar a crear nuestro modelo. 

## Gestión de valores perdidos
A la hora de recopilar datos pueden ocurrir muchos fallos (o no tienen por qué ser fallos) que hagan que nuestro dataset tengan valores perdidos, nulos. Estos datos se pueden deber a decenas de factores como: 
| Tipo de dato faltante | Descripción |
|------------------------|-------------|
| Simplemente se han perdido aleatoriamente al llegar a nuestra mano | Generalmente debido a la aleatoriedad, con lo que no afectan en gran medida |
| Se han dejado sin contestar | En casos como estos nos pueden dar información extra, ya que es posible que se hayan dejado sin contestar debido a factores que influyen sobre la variable dependiente. Una buena solución a estos elementos es crear una nueva variable dicotómica que nos indique si han dejado sin contestar o no dicho espacio |

Desafortunadamente, estos valores son casi imposibles de manejar para la mayoria de las herramientas computacionales, es por ello que debemos tratarlas antes. Los valores perdidos se pueden mostrar de infinitas formas, lo optimo sería que nos diesen alguna pista al recibir el datset, pero sabemos que eso muchas veces es imposible, por lo que muestro algunos ejemplos:
* Valor NaN
* Valor null
* Celda vacía
* Celda con caracteres en una columna con valores numericos
* Caracteres como "?"
* Valores excesivamente altos como 9999 o valores extraños como 0 o -1


## Escalado de las variables independientes.
El escalado de los datos es un punto tan importante, que para algunos modelos estadisticos es NECESARIO aplicar una transformación de escalado para que este algoritmo funcione.

Prácticamente siempre habrá que usar un escalado, que de manera general, no empeora el modelo. Pero, ¿Para que sirve?
    Pongamonos en el caso que queremos hacer un modelo con estos rangos de variables independientes: $X_1:[0-100]$ y $X_2:[1.000-1.000.000]$.
    Seguramente la variable $X_2$ tendrá un mayor peso en el modelo, debido únicamente a la escala de esta variable y no debido a la posible correlación de la variable predictora $X_2$ con la variable dependiente Y.





<p style="color: lightblue;">El método usado para todas las posibles tranformaciones de escalado en Sklearn sigue los mismos pasos</p>


| Acción                                                         | Código                                   |
|---------------------------------------------------------------|------------------------------------------|
| Generas el objeto del escalador | `X_new = StandardScaler()`               |
| Transformas las variables con el método<span style="color:salmon;">  .fit_transform</span> | `X_new.fit_transform(X)`                |

<span style="color:lightblue;">En caso de tener *train* y *test*</span>
|                                                         |                                  |
|---------------------------------------------------------------|------------------------------------------|
| Generas el objeto  | `mms = MinMaxScaler()`               |
| Usamos los datos de test para calcular los parametros del escalado (<span style="color:salmon;">  .fit</span>) y transformamos esos datos (<span style="color:salmon;">  transform</span>)-><span style="color:salmon;">  .fit_transform</span> | `X_train_scaled = mms.fit_transform(X_train)`                |
| Transformamos los datos de test pero con los parametros del training | `X_test_scaled = mms.transform(X_train)`|

### Tipos de escalado
| Técnica | Descripción | Fórmula |
|--------|-------------|---------|
| <span style="color:lightblue;">Normalización</span> (MinMaxScaler) | Se reescalan los datos en un rango de 0 a 1. Donde 0 es el mínimo y 1 es el máximo. | $x_{\text{norm}}^{(i)} = \frac{x^{(i)} - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}}$ |
| <span style="color:lightblue;">Estandarización </span> (StandardScaler) | <p style="text-align:center;">Hace que los datos se queden con media=0 y std.desv=1 </p> <div style="text-align: center;font-size:24px;">↓</div>  <p style="color:lightblue;text-align: center;">Mantiene la forma original de los datos, tan solo los "centra" y "estira" </p><div style="text-align: center;font-size:24px;">↓</div>  <p style="color:salmon; text-align: center;"> Los outliers influyen mucho </p>| $x_{\text{std}}^{(i)} = \frac{x^{(i)} - \mu_{\text{x}}}{\sigma_{\text{x}}}$ |
| <span style="color:lightblue;">QuantileTransformer </span> (QuantileTransformer) | <p style="text-align:center;">Asigna cauntiles a cada valor y crea una distribución normal(por defecto media=0, std.desv=1) </p> <div style="text-align: center;font-size:24px;">↓</div>  <p style="color:lightblue;text-align: center;"> Cambia la distribución </p><div style="text-align: center;font-size:24px;">↓</div>  <p style="color:salmon; text-align: center;"> Los outliers se comprimen </p> <div style="text-align: center;font-size:24px;">↓</div>  <p style="color:salmon; text-align: center;"> Se elimina el sesgo por distribución o distorsión </p> | ![Imagen Quantile Transformer](Imagenes_Preprocesamiento/Representacion_QuantileTransformer.png") |



![Imagen Quantile Transformer](Imagenes_Preprocesamiento/Representacion_QuantileTransformer.png")

<table>
  <tr>
    <th>Técnica</th>
    <th>Descripción</th>
    <th>Fórmula</th>
  </tr>
  <tr>
    <td><span style="color:lightblue;">Normalización</span> (MinMaxScaler)</td>
    <td>Se reescalan los datos en un rango de 0 a 1. Donde 0 es el mínimo y 1 es el máximo.</td>
    <td>$x_{\text{norm}}^{(i)} = \frac{x^{(i)} - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}}$</td>
  </tr>
  <tr>
    <td><span style="color:lightblue;">Estandarización</span> (StandardScaler)</td>
    <td>Hace que los datos se queden con media = 0 y desviación estándar = 1.</td>
    <td>$x_{\text{std}}^{(i)} = \frac{x^{(i)} - \mu_{\text{x}}}{\sigma_{\text{x}}}$</td>
  </tr>
  <tr>
    <td colspan="3">
      <span style="color:lightblue;">Mantiene la forma original de los datos, tan solo los "centra" y "estira"</span><br>
      <span style="color:salmon;">Los outliers influyen mucho</span>
    </td>
  </tr>
</table>
