# Reconocimiento de patrones: Preparación de datos
### Ramón Soto C. [(rsotoc@moviquest.com)](mailto:rsotoc@moviquest.com/)
![ ](images/blank.png)
![agents](images/binary_data_under_a_magnifying.jpg)
[ver en nbviewer](http://nbviewer.ipython.org/github/rsotoc/pattern-recognition/blob/master/Datos%201.%20Intro.ipynb)

## Definición

Los datos son la base de la nueva economía de la información. Cada día se generan 2.5 x 10<sup>18</sup> bytes de datos ([aquí](http://www.vcloudnews.com/every-day-big-data-statistics-2-5-quintillion-bytes-of-data-created-daily/) un interesante *infographic* al respecto), provenientes de sensores, GPSs, redes sociales, mensajes electrónicos, transacciones comerciales, publicaciones regulares, etc. Esos datos permiten generar una gran cantidad de información para atender virtualmente cualquier problema. Sin embargo, antes de poder explotar la información contenida en ellos y antes de poder generar conocimiento de utilidad para la toma de decisiones, es necesario garantizar que los datos se encuentren en 'buenas condiciones'. 

Es una estimación bien conocida en tre los científicos de datos que el 80% del tiempo dedicado a la solución de un problema se invierte en la preparación de los datos: 

![](images/time.jpg)
![ ](images/blank.png)

El proceso de mejoramiento de los datos es lo que se denomina **preparación de los datos**. 
![](images/DataPreparation.png)
![ ](images/blank.png)
* La *limpieza de datos* consiste en rellenar valores faltantes, suavizar datos con ruido, identificar y remover valor atípicos y resolver inconsistencias. 
* La *integración de datos* es la integración de diversas fuentes de datos: bases de datos, cubos de datos o archivos. 
* La *selección de datos* consiste en seleccionar el conjunto de datos adecuado para analizar el sistema, incluyendo el muestreo. 
* La *selección de características* es un proceso mediante el cual se analizan las variables determinantes para describir los datos. 
* La *transformación de datos* incluye operaciones como normalización, agregación, codificación. 



## Limpieza de los datos 

### Datos faltantes 

El problema de valores faltantes es un problema muy frecuente al tratar de realizar cualquier tarea de análisis de datos y puede deberse a diversas razones: 
* Fallas en los mecanismos de medición (sensores defectuosos, por ejemplo) 
* Integración de conjuntos de datos no bien coordinados (mediciones con diferentes ciclos, por ejemplo) 
* Variables nuevas no consideradas o no disponibles originalmente 
* Respuestas omitidas intencionalmente por la fuente 

![](images/missingData.png)
![ ](images/blank.png)

La omisión de valores en el conjunto de datos puede tener diversos efectos y diferentes grados de impacto. En términos generales, se suelen considerar los siguientes grados de impacto, dependiendo del porcentaje de valores faltantes (*dumb rules*):
La omisión de valores en el conjunto de datos puede tener diversos efectos y diferentes grados de impacto. En términos generales, se suelen considerar los siguientes grados de impacto, dependiendo del porcentaje de valores faltantes (*dumb rules*):
* Menos de 1%: Trivial (no relevante)
* 1-5%: Manejable
* 5-15%: Manejable mediante métodos sofisticados
* Más de 15%: Crítico, con impacto severo en cualquier tipo de interpretación

Considérese el siguiente conjunto de datos tomados del conjunto de datos de diabetes:


In [1]:
"""
Reconocimiento de patrones: Limpieza de datos
"""

import numpy as np
import pandas as pd
import os

os.chdir('Data sets/Pima Indian Data Set') 
df = pd.read_csv("pima-indians-diabetes.data-small", 
                 names = ['emb', 'gl2h', 'pad', 'ept', 'is2h', 'imc', 'fpd', 'edad', 'class'])

print(df.describe(), '\n')

print(df)

            emb        gl2h        pad        ept        is2h        imc  \
count  20.00000   20.000000  18.000000  11.000000    9.000000  19.000000   
mean    4.50000  129.400000  68.555556  32.363636  258.111111  32.578947   
std     3.56149   35.354446  16.346333   8.891262  263.487877   6.509103   
min     0.00000   78.000000  30.000000  19.000000   83.000000  23.300000   
25%     1.00000  106.000000  64.500000  26.000000   94.000000  27.600000   
50%     4.50000  117.000000  71.000000  32.000000  168.000000  30.500000   
75%     7.25000  152.500000  74.000000  36.500000  230.000000  36.450000   
max    10.00000  197.000000  96.000000  47.000000  846.000000  45.800000   

             fpd       edad     class  
count  20.000000  20.000000  20.00000  
mean    0.511650  37.450000   0.65000  
std     0.513691  11.591626   0.48936  
min     0.134000  21.000000   0.00000  
25%     0.198500  30.750000   0.00000  
50%     0.374500  32.000000   1.00000  
75%     0.560000  50.250000   1.000

Como puede observarse, la variable *count* no es la misma para todas las columnas. Comparando con el despliegue de los datos, las diferencias en el valor de esta variable corresponde a los valores faltantes. Una mayor exploración podemos obtenerla de la siguiente manera:

In [2]:
print ('Tabla de valores nulos')
print (df.isnull(), '\n')

print ('Contabilidad de valores nulos por columna')
print (df.isnull().sum(), '\n')

print ('Porcentaje de datos nulos en la columna *ept*')
eptNullPje = df['ept'].isnull().sum() / df.shape[0] * 100
print (eptNullPje)

Tabla de valores nulos
      emb   gl2h    pad    ept   is2h    imc    fpd   edad  class
0   False  False  False  False   True  False  False  False  False
1   False  False  False  False   True  False  False  False  False
2   False  False  False   True   True  False  False  False  False
3   False  False  False  False  False  False  False  False  False
4   False  False  False  False  False  False  False  False  False
5   False  False  False   True   True  False  False  False  False
6   False  False  False  False  False  False  False  False  False
7   False  False   True   True   True  False  False  False  False
8   False  False  False  False  False  False  False  False  False
9   False  False  False   True   True   True  False  False  False
10  False  False  False   True   True  False  False  False  False
11  False  False  False   True   True  False  False  False  False
12  False  False  False   True   True  False  False  False  False
13  False  False  False  False  False  False  False  

Como puede apreciarse, el porcentaje de valores faltantes en este segmento de datos (45% de valores faltantes) está muy por encima de lo que puede tratarse de manera directa, según las reglas anteriores. 

En muchos casos, incluso detectar los valores faltantes es un problema. En nuestros datos originales, lo valores faltantes vienen enmascarados como 0, no como un espacio vacío. En este caso, el procedimiento anterior fallaría pues no existen datos 'no disponibles'. Debemos primero analizar los datos y detectar cómo se manifiestan los valores faltantes. En nuestro ejemplo, asumimos que *ept*, esto es, el 'Espesor de la piel del tríceps' no puede tener un valor de 0 y, por lo tanto, ese valor representa un valor faltante. Para resolver el problema, debemos preparar los datos asignando una etiqueta *NaN* a los valores que consideramos como valores'faltantes': 


In [3]:
df = pd.read_csv("pima-indians-diabetes.data-small-orig", 
                 names = ['emb', 'gl2h', 'pad', 'ept', 'is2h', 'imc', 'fpd', 'edad', 'class'])

print(df, '\n')

df.loc[df['ept'] == 0,'ept'] = np.nan

print(df)

    emb  gl2h  pad  ept  is2h   imc    fpd  edad  class
0     6   148   72   35     0  33.6  0.627    50      1
1     1    85   66   29     0  26.6  0.351    31      0
2     8   183   64    0     0  23.3  0.672    32      1
3     1    89   66   23    94  28.1  0.167    21      0
4     0   137   40   35   168  43.1  2.288    33      1
5     5   116   74    0     0  25.6  0.201    30      0
6     3    78   50   32    88  31.0  0.248    26      1
7    10   115    0    0     0  35.3  0.134    29      0
8     2   197   70   45   543  30.5  0.158    53      1
9     8   125   96    0     0   0.0  0.232    54      1
10    4   110   92    0     0  37.6  0.191    30      0
11   10   168   74    0     0  38.0  0.537    34      1
12   10   139   80    0     0  27.1  1.441    57      0
13    1   189   60   23   846  30.1  0.398    59      1
14    5   166   72   19   175  25.8  0.587    51      1
15    7   100    0    0     0  30.0  0.484    32      1
16    0   118   84   47   230  45.8  0.551    31

En plataformas para *data science*, como R y Pandas, los valores marcados como 'NaN' suelen ser ignorados en las operaciones: 


In [4]:
print(df.info(), '\n')

print(df.describe(), '\n')

print('Suma y promedio de ept: ({}, {})'.format(df['ept'].sum(), df['ept'].mean()), '\n')

print('Promedio tomando en cuenta los 0s:', df['ept'].sum()/20)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 9 columns):
emb      20 non-null int64
gl2h     20 non-null int64
pad      20 non-null int64
ept      11 non-null float64
is2h     20 non-null int64
imc      20 non-null float64
fpd      20 non-null float64
edad     20 non-null int64
class    20 non-null int64
dtypes: float64(3), int64(6)
memory usage: 1.5 KB
None 

            emb        gl2h        pad        ept        is2h        imc  \
count  20.00000   20.000000  20.000000  11.000000   20.000000  20.000000   
mean    4.50000  129.400000  61.700000  32.363636  116.150000  30.950000   
std     3.56149   35.354446  26.159631   8.891262  215.843821   9.654424   
min     0.00000   78.000000   0.000000  19.000000    0.000000   0.000000   
25%     1.00000  106.000000  57.500000  26.000000    0.000000  26.975000   
50%     4.50000  117.000000  70.000000  32.000000    0.000000  30.300000   
75%     7.25000  152.500000  74.000000  36.500000  114.00000

### Tarea 2

Analice los problemas de valores faltantes en el conjunto de datos *Pima Indians Diabetes* completo. 

**Fecha de entrega**: Martes 29 de agosto.