## Procesamiento de Datos

**La limpieza y preparación de datos es el primer paso en cualquier proyecto de Inteligencia Artificial y Machine Learning.**

La limpieza de datos es el proceso de detectar y corregir o eliminar registros corruptos o inexactos de un conjunto de registros, tabla o base de datos y se refiere a la identificación de partes incompletas, incorrectas, inexactas o irrelevantes de los datos, para su posterior sustitución, modificación o eliminación de los datos sucios o poco precisos.

### 1. Valores perdidos (NaN's)

Se presentan cuando el valor para al menos un rasgo o un patrón en el conjunto de datos no se encuentra presente. Generalmente se representan con:

1. **Valor fuera de rango**: -1 en un campo numérico que solo es positivo.


2. **Caracteres especiales**: -, ? o espacio en blanco.


3. **Valores perdidos identificados**: NaN's

**Causas**: mal funcionamiento de equipos de medición, cambio en el diseño durante la captura de datos, imposibilidad de recolectar los datos, entre otras.

### Tratamiento de NaN's

- Eliminar los patrones cuyos atributos contienen valores perdidos.


- Si el atributo que tiene valores perdidos es numérico se rellenan los valores con el valor promedio del atributo o por la mediana.


- Si el atributo que tiene valores perdidos es categórico se rellenan los valores con la moda del atributo.

### 2. Valores Atípicos (Outliers)

Los valores atípicos son datos que presentan una diferencia significativa del resto de elementos en un conjunto de datos o en una clase en particular.

**Causas:**
- **Malas mediciones al capturar los datos.**


- **Mal etiquetado del patrón al asignarle una clase.**


- **Características propias del atributo.**

### Tratamiento de Outliers

- Eliminar patrones atípicos que presentan valores evidentemente imposibles, un ejemplo sería edades negativas.


- Normalizar los datos.


- Calcular la desviación estándar y seleccionar datos que se alejen un determinado número de desviaciones estándar de la media del atributo que se analiza.


- Considerar atípicos los valores inferiores a Q1–1.5·RIC o superiores a Q3+1.5·RIC. (bigotes del boxplot). RIC = Q3 – Q1.


- Métodos de clustering que identifican los valores atípicos

### 3. Normalización de Datos

Ajustar los valores medidos en diferentes escalas con respecto a una escala común. Uno de los métodos más sencillos es dividir cada atributo por el máximo valor del conjunto. 

```python
x1 = ( 2,  120)    x1 = (0.11, 0.11)  
x2 = ( 8,  533)    x2 = (0.44, 0.48)
x3 = ( 1,  987)    x3 = (0.06, 0.88)
x4 = (15, 1121)    x4 = (0.83,    1)
x5 = (18, 1023)    x5 = (   1, 0.91)               
```

Al dividir cada rasgo por el valor mayor que toman, 18 y 1121 respectivamente, todos los valores estarán en un rango entre 0 y 1.

### 4. Desbalance de Clases

Este fenómeno se presenta cuando **el número total de instancias en una clase (clase mayoritaria) es significativamente mayor que el número de instancias de otra clase (clase minoritaria)**.

Este es un problema que se presenta a menudo en situaciones comunes de la vida real. Por ejemplo imaginemos un sistema de detección de intrusos o de fraudes en tarjetas de crédito

**Desventajas:**
1. **Pobre desempeño de los modelos de predicción.**


2. **Proceso de aprendizaje guiado por métricas globales presenta una inclinación hacia la clase mayoritaria.**


3. **Instancias de la clase minoritaria pueden ser tratados como ruido.**


**Soluciones:**
1. **Undersampling**: remover algunos patrones de la clase mayoritaria.


2. **Oversampling**: crear patrones sintéticos que se agregan a la clase minoritaria.


3. **Híbrido**: combinar undersampling y oversampling.

### 5. Alta Dimensionalidad de los Atributos (Feature Selection)

En ocasiones nos encontramos con conjuntos de datos con gran cantidad de atributos (columnas). No necesariamente toda la información representada por los rasgos resulta relevante para hacer predicciones. Para atacar este problema se podría recurrir a:

- **Asistencia de un experto en el tema.**


- **Métodos automáticos para la selección de características.**
 
En general los métodos de selección de características consisten en realizar una búsqueda a través de diferentes sub-conjuntos de atributos.
- **Métodos óptimos**: búsqueda exhaustiva, branch and bound Search.


- **Métodos sub-óptimos**: sequential selection, stochastic search techniques (algoritmos genéticos).

In [None]:
################################################################################################################################