#  Preparación de los datos

Al final, un algoritmo simple puede superar a uno complejo solo porque recibió datos suficientes y de alta calidad.

Los datos incorrectos o inconsistentes conducen a conclusiones falsas. Así que antes de empezar a trabajar con ellos debemos asegurarnos que xxxx y los entendemos.


# Calidad de los datos

Vamos a revisar que criterios de calidad debemos exigir a nuestros datos:

* **Validez:** El grado en que los datos se ajustan a ciertas reglas o restricciones definidas.

* **Exactitud:** El grado en que los datos están cerca de los valores verdaderos. Si bien la definición de todos los valores válidos posibles permite detectar fácilmente valores no válidos, no significa que sean precisos.

* **Completitud:** El grado en que se conocen todos los datos requeridos. La falta de datos va a suceder por varias razones. 

* **Uniformidad:** El grado en que se especifican los datos utilizando la misma unidad de medida.


# Análisis de los datos


Podemos dividir el análisis de nuestro conjunto de datos en tres pasos destinados a producir datos de *calidad* con los criterios anteriormente mencionados.

* **Inspección**: detecta datos inesperados, incorrectos e inconsistentes.
* **Limpieza**: corrige o elimina las anomalías descubiertas.
* **Verificación**: después de la limpieza, los resultados se inspeccionan para verificar la corrección.

## Inspección

La inspección de los datos puede llevar mucho tiempo y requiere el uso de diversos métodos para explorar los datos de los que disponemos. Éstos son algunos de ellos:

### Realizar perfiles de los datos

Un resumen estadístico sobre los datos, llamado perfil de datos, es una herramienta útil para obtener una idea general sobre estos.

Por ejemplo, se debe verificar si una columna en particular se ajusta a estándares o patrones particulares. ¿La columna de datos se registra como una cadena o un número?

¿Cuántos valores faltan? ¿Cuántos valores únicos hay en una columna y su distribución? ¿Este conjunto de datos está vinculado o tiene una relación con otro?

### Visualizaciones sobre estos

Al analizar y visualizar los datos utilizando métodos estadísticos como la media, la desviación estándar, el rango o los cuantiles, se pueden encontrar valores inesperados y, por lo tanto, erróneos.

Vale la pena investigar esos valores atípicos y descubrir que no siempre son necesariamente datos incorrectos.


### Software

La combinación de uno o más paquetes de software nos puede ser de gran ayuda para realizar este análisis. Nosotros en contreto usaremos la combinación de: pandas + matplotlib + seaborn para realizarlos.

Además, no solo pueden generar un informe de qué reglas se infringieron y cuántas veces, sino que también pueden crear un gráfico de qué columnas están asociadas con qué reglas.

In [3]:
# Importamos las librerias básicas necesarias

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd


## Limpieza

La limpieza de datos involucra diferentes técnicas según el problema a solucionar y el tipo de datos que se esta tratando. 

En general, los datos incorrectos se eliminan, se corrigen o se marcan.

### Datos irrelevantes

Los datos irrelevantes son aquellos que realmente no se necesitan y no se ajustan al contexto del problema que estamos tratando de resolver.

Por ejemplo, si estuviéramos analizando datos sobre la salud general de la población, el número de teléfono no sería necesario. **Solamente debemos descartar** aquellos datos de los que estamos seguros que son irrelevantes.


### Datos duplicados

Los duplicados son aquellas observaciones que se repiten en su conjunto de datos.

A menudo sucede cuando, por ejemplo:

   * Los datos se combinan de diferentes fuentes.
   * Errores del propio usuario.
     

Estos, simplemente deben eliminarse.



### Errores de tipo

En general cada tipo de datos tiene sus propios errores, vamos a describir los más comunes.

Es necesario asegurarse que los **números** estén almacenados como datos numéricos con el tipo adecuado.

Las **fechas** deben almacenarse como un objeto de tipo fecha y tener un formato único para todo el conjunto de datos.


También debemos tener en cuenta todos los errores que pueden derivarse del uso de ***strings* o texto en general**. La información en formato texto será una gran fuente de problemas, debemos pensar que la introducción de esta información no es *cerrada* y esto genera muchos errores.

* Información adicional antes, despues o entre palabras. Por ejemplo: espacios en blanco.
* Categorias con múltiples nombres que deben ser normalizadas. Por ejemplo: *Hombre, H, hombre, hmbre*. 
* Palabras que aportan información muy similar.

Muchas veces una visualización gráfica o un conteo de valores únicos por columna nos ayudará como se esta formada nuestra columna y detectar errores relacionados con el texto. Varias soluciones posibles pasan por *mapear* manualmente los diferentes valores a uno común, crear expresiones regulares para normalizarlos (p.ej pasar todas las letras a minúsculas) o crear funciones distancia para saber a cual de las categorias petenecen los distintos términos.


**Advertencia:** los valores que no se pueden convertir al tipo especificado deben convertirse al valor de *NA/NAN*. Esto indica que el valor es incorrecto y debe ser reparado.


Una de las dudas recurrentes es como tratamos los datos categóricos.**Los valores categóricos se pueden convertir en y desde números si es necesario.** MEHHHHHHHHHH


### Estandarizado

Nuestro deber es no solo reconocer los errores tipográficos, sino también poner cada valor en el mismo formato estandarizado.

Para los *strings*, debemos asegurarnos que todos los valores estan en minúsculas o mayúsculas.

Para valores numéricos, debemos asegurarnos que todos los valores tengan una determinada unidad de medida. La altura, por ejemplo, puede ser en metros y centímetros. La diferencia de 1 metro se considera igual que la diferencia de 1 centímetro.

### Escalado

Escalar significa transformar los datos para que se ajusten a una escala específica, como 0–100 o 0–1.

También puede ayudar a hacer que ciertos tipos de datos sean más fáciles de dibujar. Por ejemplo, podríamos querer reducir la asimetría para ayudar a dibujar (cuando se tienen tantos valores atípicos). Las funciones más utilizadas son log, raíz cuadrada e inversa.

El escalado también puede tener lugar en datos que tienen diferentes unidades de medida. Al escalar comparar diferentes puntajes de una manera más senzilla




### Normalización

Si bien la normalización también reescala los valores en un rango de 0-1, la intención aquí es transformar los datos para que se distribuyan normalmente. ¿Por qué?

En la mayoría de los casos, normalizamos los datos si vamos a utilizar métodos estadísticos que se basan en datos distribuidos normalmente. [Enlace](https://en.wikipedia.org/wiki/Normalization_(statistics)#Examples)



### Valores faltantes

Dado que los valores faltantes son inevitables, nos deja con la pregunta de qué hacer cuando los encontremos. Vamos a describir tres maneras de trabajar con ellos:

#### Uno: eliminar

Si los valores faltantes en una columna rara vez ocurren y ocurren al azar, entonces la solución más fácil y más directa es eliminar las observaciones (filas) que tienen valores faltantes.

Si faltan la mayoría de los valores de la columna y se producen al azar, entonces una decisión típica es descartar la columna completa.

Esto es particularmente útil al hacer análisis estadísticos, ya que completar los valores faltantes puede producir resultados inesperados o sesgados.

#### Dos. Imputar

Significa calcular el valor faltante basado en otras observaciones. Hay muchos métodos para hacer eso.

El **primero** es usar valores estadísticos como media, mediana. Sin embargo, ninguno de estos garantiza datos imparciales, especialmente si faltan muchos valores.

La media es más útil cuando los datos originales no están sesgados, mientras que la mediana es más robusta, no sensible a los valores atípicos y, por lo tanto, se usa cuando pensamos que los datos están sesgados.

En un dato distribuido normalmente, uno puede obtener todos los valores que están dentro de 2 desviaciones estándar de la media. Luego, podemos completar los valores faltantes generando números aleatorios entre XXXXXXXXX

Una **segunda** opción seria usando una regresión lineal. Con las base en los datos existentes, se puede calcular la mejor línea de ajuste entre dos variables muy correlacionadas, por ejemplo, precio de la vivienda versus tamaño m².

Vale la pena mencionar que los modelos de regresión lineal son sensibles a los valores atípicos.

[Documentación sklearn: Imputation](https://scikit-learn.org/stable/modules/impute.html)


En **tercer** lugar podemos copiar valores de otros registros similares. Esta aproximación solo es útil si tenemos suficientes datos disponibles, se puede aplicar tanto a datos numéricos y categóricos.

En la imputación secuencial,  la columna que contiene los valores faltantes se ordena de acuerdo con alguna de las otras variables para que los registros que tienen valores similares ocurran secuencialmente. A continuación, cada valor faltante se completa con el valor del siguiente registro disponible.

Lo que es más interesante es que también se puede utilizar la imputación del vecino más cercano, que se beneficia de la utilización de algoritmos de clustering para completar el valor faltante con el vecino más cercano al registro.


#### Tres. Etiquetar

Algunos argumentan que completar los valores faltantes conduce a una pérdida de información, sin importar el método de imputación que usemos.

Esto se debe a que decir que faltan los datos es informativo en sí mismo, y el algoritmo debería saberlo. De lo contrario, solo estamos reforzando el patrón que ya existe por otras características.

Esto es particularmente importante cuando los datos que faltan no ocurren al azar. Tomemos, por ejemplo, una encuesta realizada donde la mayoría de las personas de una raza específica se niegan a responder una determinada pregunta.

Los datos numéricos que faltan se pueden completar con, 0, pero estos ceros deben ignorarse al calcular cualquier valor estadístico o al trazar la distribución.

Si bien los datos categóricos se pueden completar con por ejemplo el valor "falta": una nueva categoría que indica que falta este dato.

**Debemos tomar en consideración**

Los valores faltantes no son los mismos que los valores predeterminados. Por ejemplo,el valor cero puede interpretarse como perdido o predeterminado, pero no como ambos.

Los valores faltantes no son "desconocidos". Una investigación realizada en la que algunas personas no recordaban si habían sido intimidadas o no en la escuela, debe tratarse y etiquetarse como desconocida y no faltante.

Cada vez que eliminamos o imputamos valores estamos perdiendo información. Entonces, la señalización podría venir al rescate.


### Valores atípicos: *outliers*

Son valores que son significativamente diferentes de todas las demás observaciones. Cualquier valor de datos que se encuentre a más de (1.5 * IQR) de los cuartiles Q1 y Q3 se considera un valor atípico.

Los valores atípicos son inocentes hasta que se demuestre lo contrario. Dicho esto, no deben eliminarse a menos que haya una buena razón para ello.

Por ejemplo, uno puede notar algunos valores extraños y sospechosos que es poco probable que ocurran, por lo que decide eliminarlos. Sin embargo, vale la pena investigar antes de eliminar.

También vale la pena mencionar que algunos modelos, como la regresión lineal, son muy sensibles a los valores atípicos. En otras palabras, los valores atípicos podrían arrojar el modelo desde donde se encuentra la mayoría de los datos.

# Verificación

Cuando hayamos terminado,  debemos verificar la corrección volviendo a inspeccionar los datos y asegurándonos que las reglas y restricciones se cumplan.

Por ejemplo, después de completar los datos que faltan, pueden violar cualquiera de las reglas y restricciones.

Podría implicar realizar alguna corrección manual si no es posible de lo contrario

# Selecció de features

