# Limpieza de Datos

En la presente sección se procede a limpiar los datos brutos de la lectora óptica. Para poder visualizar mejor el trabajo a
continuación se presentan el formato *limpio* de los datos y se compara con una muestra de los datos brutos.

## Aspecto de los datos

Idealmente para un proceso adecuado, los datos deberían tener el siguiente aspecto

![](https://github.com/kamecon/TFM_Kschool/raw/master/data1.jpg)

En este caso, se podrían cargar los datos en un data frame o incluso una hoja de cálculo sin problemas. No obstante los datos
brutos suelen tener este aspecto

![](https://github.com/kamecon/TFM_Kschool/raw/master/data2.jpg)

La anterior es una muestra sesgada de los datos para precisamente mostrar los elementos a limpiar, pero no es una muestra
exhaustiva de los errores que nos podemos encontrar. Dichos errores son una combinación de errores humanos y de lectura de la lectora óptica. A continuación se enumeran algunos:

* Los usuarios dejan casillas en blanco
* Colocan mal alguno de los códigos
* No rellenan bien la casilla
* La lectora desplaza algunos campos
* La lectora interpreta mal algún código y lanza un símbolo en lugar del número
* etc 

Dado que parte de estos errores se corregían de forma manual, afortunadamente tenemos una amplia compresión de su orígen y
solución


## Pre-procesado

Antes de comenzar con el proceso de limpieza de datos que posteriormente sea parte del flujo de trabajo automático, es necesario manipular este archivo debido a características particulares que en principio no estarán presentes en futuras salidas de la lectora

Debido a que los impresos de las encuestas solo poseen opciones de grupos de la _A_ a la _C_, hay dos grupos que al no poseer estas siglas han dejado esa casilla en blanco y no es posible determinar su pertenencia.

En el proceso manual esto se resolvía al momento de pasar las encuestas por la lectora, dado que la muestra que se posee no ha sido pasada en el mismo orden que en el procesado original, no es posible determinar el grupo correspondiente a estos registros.

Se opta por elimnarlos de la muestra con esto se perderían 1pico registros.

El siguiente problema guarda relación con los postgrados. Al ser grupos únicos tienen en blanco la casilla correspondiente al grupo. No obstante son solo dos grupos y se encuentran identificados por el código de división y curso, así que en este caso solo habría que rellenar el grupo en dichos registros.

En las próximas encuestas esto dos problemas ya estarán resueltos, por lo que se podría proceder directamente a la limpieza

## Proceso

Se importan las librerías necesarias (de momento)

In [1]:
import pandas as pd

In [2]:
import numpy as np

Se cargan los datos

In [10]:
encu_1 = pd.read_csv('Data/encuesta.txt', sep=';', skiprows=1, header=None)
encu_1.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,2,1,A,0 2,0 6,5,6,4,8,7,3,5,7.0,7,9,,,,,
1,2,1,A,00,006,7,7,6,6,6,8,7,,8,8,,,,,
2,2,1,A,002,006,10,10,10,10,10,10,10,10.0,10,10,,,,,
3,2,1,A,002,,8,7,7,6,7,8,7,,7,8,,,,,
4,2,1,A,002,006,9,8,8,8,9,9,8,9.0,8,8,,,,,


In [14]:
encu_1.tail()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
3724,,,,250,223,8,8,7,8,8,8,9,7,8,8.0,,,,,
3725,,,,250,223,5,5,4,5,4,5,5,5,5,5.0,,,,,
3726,,,,250,223,4,4,4,5,4,7,5,3,3,4.0,,,,,
3727,1.0,,,250,223,5,4,4,5,6,6,7,9,8,7.0,,,,,
3728,,,,250,223,7,7,6,9,4,9,8,9,7,,,,,,


### Pre - procesado

Este es el trozo a elminar, se muestra tanto el registro anterior (1º fila) como el posterior (última fila) para mostrar que la columna 2 correspondiente al grupo se encuentra en blanco en todos los casos.

Nótese asimismo como la columna 3 correspondiente a la asignatura cambia en el 1º y último registro

In [11]:
encu_1.iloc[3394:3509, :]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
3394,4,4,C,422,431,09,10,09,08,09,10,10,10,10,10,,,,,
3395,4,4,,420,430,09,09,09,10,09,08,09,10,09,09,,,,,
3396,4,4,,420,430,09,09,09,09,07,06,09,09,09,09,,,,,
3397,4,,,420,430,10,10,10,10,10,09,10,09,09,10,,,,,
3398,4,4,,420,430,07,07,08,08,03,06,09,09,09,07,,,,,
3399,4,4,,420,430,07,08,07,07,06,06,08,07,08,08,,,,,
3400,4,4,,420,430,07,08,07,08,09,07,08,07,07,07,,,,,
3401,4,4,,,,08,07,10,10,09,10,10,10,08,09,,,,,
3402,4,,,419,446,08,04,06,08,07,09,08,,05,05,,,,,
3403,4,4,,419,446,08,09,07,09,05,08,09,05,09,08,,,,,


Primero procederemos a rellenar el grupo de los registros correspondientes a postgrados, ya que los tenemos localizados, son justamente los registros debajo del curso sin grupo hasta el final del data frame

Estos son los registros a partir de la fila 3508

In [15]:
encu_1.iloc[3508:,2] = 'A'

In [18]:
encu_1.iloc[3508:,:]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
3508,4,5,A,448,445,06,02,04,05,07,10,01,05,03,04,,,,,
3509,4,5,A,448,445,05,05,05,07,06,10,05,10,06,06,,,,,
3510,4,5,A,448,445,04,02,02,05,03,09,03,08,02,04,,,,,
3511,,5,A,448,445,06,06,06,06,07,09,03,09,05,05,,,,,
3512,4,5,A,448,445,06,06,06,07,05,09,07,08,06,06,,,,,
3513,4,5,A,448,445,05,01,02,01,01,10,01,05,01,02,,,,,
3514,4,5,A,448,445,10,06,05,05,06,10,05,10,05,06,,,,,
3515,4,5,A,448,445,06,02,01,01,01,09,01,09,01,02,,,,,
3516,4,5,A,448,445,09,06,06,06,07,10,05,08,06,06,,,,,
3517,4,5,A,448,445,06,06,06,05,08,08,,04,03,04,,,,,


Ahora se eliminan los registros

In [19]:
encu_11 = encu_1.drop(encu_1.index[3395:3508])

In [20]:
encu_1.shape, encu_11.shape, encu_1.shape[0] - encu_11.shape[0]

((3729, 20), (3616, 20), 113)

Se han eliminado 113 filas

### Empieza el procesado!!

Se Cogen los items de respuesta (columnas de la 5 hasta el final) y con una expresión regular se sustituyen los espacios en blanco por NaN y luego se eliminan las columnas donde todos los valores son NaN's

In [21]:
encu_2 = encu_11.iloc[:,5:].replace(r'\s+', np.nan, regex=True).dropna(axis=1, how='all')
encu_2.head()

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
0,5,6,4,8,7,3,5,7.0,7,9,,
1,7,7,6,6,6,8,7,,8,8,,
2,10,10,10,10,10,10,10,10.0,10,10,,
3,8,7,7,6,7,8,7,,7,8,,
4,9,8,8,8,9,9,8,9.0,8,8,,


Obtenemos la primera versión reducida del proceso de limpieza. Nótese que estamos trabajando solo con los items de respuesta.

En este paso se deben realizar varias operaciones:

* Solo hay 10 items de respuesta (columnas 5 a 9), pero una vez eliminadas las columnas con todos los valores iguales a NaN aun
  quedan 2 columnas adicionales. Esto es debido a que la lectora ha desplazado algunas calificaciones hacia la derecha. Asi que 
  lo primero que haremos es corregir ese desplazamiento.
  
* Existen items sin calificar, a estos se le imputa el valor mediano del resto de items

Comenzamos con la primera operación, corregir el desplazamiento realizado por la lectora.

Se localizan los NaN's de la penúltima columna

In [22]:
i_nulos_p = encu_2.iloc[:,-2].isnull()

Lo anterior nos da un vector booleano de unos y ceros, los unos (TRUE) nos dan los elementos nulos.

En la próxima celda localizamos los valores no nulos buscando (con where) aquellas celdas iguales a cero

In [23]:
i_nonulos_p = np.where(i_nulos_p == 0)[0].tolist()
i_nonulos_p

[87,
 175,
 204,
 206,
 246,
 392,
 548,
 990,
 1269,
 1493,
 2000,
 2193,
 2480,
 2484,
 2563,
 2753,
 3035,
 3125,
 3231,
 3259,
 3596]

Repetimos lo anterior con la última columna

In [24]:
i_nulos_u = encu_2.iloc[:,-1].isnull()
i_nonulos_u = np.where(i_nulos_u == 0)[0].tolist()
i_nonulos_u

[175, 183, 302]

Se construye una lista que contenga los no nulos de la última y penúltima fila, usando la unión (``|``)

In [25]:
i_nonulos_temp = set(i_nonulos_p) | set(i_nonulos_u)
i_nonulos = sorted(list(i_nonulos_temp))
i_nonulos

[87,
 175,
 183,
 204,
 206,
 246,
 302,
 392,
 548,
 990,
 1269,
 1493,
 2000,
 2193,
 2480,
 2484,
 2563,
 2753,
 3035,
 3125,
 3231,
 3259,
 3596]

Se comprueba que la longitud es distinta a los nonulos de las dos últimas columnas

In [26]:
len(i_nonulos_p), len(i_nonulos_u), len(i_nonulos)

(21, 3, 23)

In [27]:
encu_2.iloc[i_nonulos,:]

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
87,10,8,6,7,9,5,10.0,4.0,,7.0,7.0,
175,8,4,6,7,7,6,5.0,4.0,6.0,5.0,4.0,4.0
183,5,3,5,8,8,10,10.0,9.0,9.0,6.0,,6.0
204,7,6,5,7,8,10,8.0,6.0,,6.0,7.0,
206,4,6,4,6,8,9,7.0,,6.0,4.0,7.0,
246,7,3,5,8,4,8,7.0,8.0,5.0,,7.0,
302,10,9,10,7,10,10,10.0,7.0,5.0,,,8.0
392,7,6,8,6,7,1,,7.0,6.0,7.0,8.0,
548,9,6,9,8,8,7,9.0,5.0,,9.0,7.0,
990,8,10,10,8,6,4,8.0,8.0,10.0,9.0,9.0,


Se define una función que realiza lo siguiente:

- Verfifica si la fila tiene NaN's

- En caso afirmativo localiza los indices donde se encuentran los NaN's

- Si tiene un solo NaN (``if len (ii) < 2``) hace un loop que recorre la fila a partir de 
  dicho indice hasta la penultima posición, y sustituye cada *celda* por el valor de la siguiente
  
- En caso que tenga más de un NaN (``else``) hace lo mismo, pero sustituyendo la celda por el valor de
  de la celda + (número de nan's)

In [28]:
def llenar(x):
    if any(l == True for l in x[:-2].isnull()):
        ii = x[:-2].isnull()
        ii = np.where(ii == 1)[0].tolist()
        if len (ii) < 2:
            for indice in range(ii[0],(len(x)-1)):
                x.iloc[indice] = x.iloc[indice+1]
        else:
            for indice in range(ii[0],(len(x)-len(ii))):
                x.iloc[indice] = x.iloc[indice+len(ii)]
    return x

Se crea un data frame que contega solo los elementos arriba filtrados

In [29]:
prueba = encu_2.iloc[i_nonulos,:]
prueba

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
87,10,8,6,7,9,5,10.0,4.0,,7.0,7.0,
175,8,4,6,7,7,6,5.0,4.0,6.0,5.0,4.0,4.0
183,5,3,5,8,8,10,10.0,9.0,9.0,6.0,,6.0
204,7,6,5,7,8,10,8.0,6.0,,6.0,7.0,
206,4,6,4,6,8,9,7.0,,6.0,4.0,7.0,
246,7,3,5,8,4,8,7.0,8.0,5.0,,7.0,
302,10,9,10,7,10,10,10.0,7.0,5.0,,,8.0
392,7,6,8,6,7,1,,7.0,6.0,7.0,8.0,
548,9,6,9,8,8,7,9.0,5.0,,9.0,7.0,
990,8,10,10,8,6,4,8.0,8.0,10.0,9.0,9.0,


Se aplica la función anterior a ``prueba``

In [30]:
prueba.apply(llenar, axis =1)

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
87,10,8,6,7,9,5,10,4,7,7.0,,
175,8,4,6,7,7,6,5,4,6,5.0,4.0,4.0
183,5,3,5,8,8,10,10,9,9,6.0,,6.0
204,7,6,5,7,8,10,8,6,6,7.0,,
206,4,6,4,6,8,9,7,6,4,7.0,,
246,7,3,5,8,4,8,7,8,5,7.0,,
302,10,9,10,7,10,10,10,7,5,,8.0,8.0
392,7,6,8,6,7,1,7,6,7,8.0,,
548,9,6,9,8,8,7,9,5,9,7.0,,
990,8,10,10,8,6,4,8,8,10,9.0,9.0,


In [31]:
prueba

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
87,10,8,6,7,9,5,10,4,7,7.0,,
175,8,4,6,7,7,6,5,4,6,5.0,4.0,4.0
183,5,3,5,8,8,10,10,9,9,6.0,,6.0
204,7,6,5,7,8,10,8,6,6,7.0,,
206,4,6,4,6,8,9,7,6,4,7.0,,
246,7,3,5,8,4,8,7,8,5,7.0,,
302,10,9,10,7,10,10,10,7,5,,8.0,8.0
392,7,6,8,6,7,1,7,6,7,8.0,,
548,9,6,9,8,8,7,9,5,9,7.0,,
990,8,10,10,8,6,4,8,8,10,9.0,9.0,


Sustituimos en el data frame original los valores modificados en el proceso anterior

In [32]:
encu_2.iloc[i_nonulos_p,:] = prueba
encu_2

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
0,05,06,04,08,07,03,05,07,07,09,,
1,07,07,06,06,06,08,07,,08,08,,
2,10,10,10,10,10,10,10,10,10,10,,
3,08,07,07,06,07,08,07,,07,08,,
4,09,08,08,08,09,09,08,09,08,08,,
5,07,08,08,06,09,09,05,06,07,09,,
6,06,07,10,10,08,09,10,10,10,09,,
7,08,09,07,09,04,07,09,10,10,09,,
8,07,02,07,08,08,06,09,08,02,07,,
9,09,08,08,07,08,07,09,08,09,09,,


Eliminamos las dos últimas columnas

In [33]:
encu_2.drop(encu_2.columns[-2:],inplace=True,axis=1)

In [34]:
encu_2

Unnamed: 0,5,6,7,8,9,10,11,12,13,14
0,05,06,04,08,07,03,05,07,07,09
1,07,07,06,06,06,08,07,,08,08
2,10,10,10,10,10,10,10,10,10,10
3,08,07,07,06,07,08,07,,07,08
4,09,08,08,08,09,09,08,09,08,08
5,07,08,08,06,09,09,05,06,07,09
6,06,07,10,10,08,09,10,10,10,09
7,08,09,07,09,04,07,09,10,10,09
8,07,02,07,08,08,06,09,08,02,07
9,09,08,08,07,08,07,09,08,09,09


Ahora procedemos a la siguiente operación, imputar los items vacios por el valor mediano del resto de las valoraciones (fila)

Primero sustituimos los '??' por NAN

In [35]:
encu_3 = encu_2.replace(['??'], np.nan)

In [36]:
encu_3

Unnamed: 0,5,6,7,8,9,10,11,12,13,14
0,05,06,04,08,07,03,05,07,07,09
1,07,07,06,06,06,08,07,,08,08
2,10,10,10,10,10,10,10,10,10,10
3,08,07,07,06,07,08,07,,07,08
4,09,08,08,08,09,09,08,09,08,08
5,07,08,08,06,09,09,05,06,07,09
6,06,07,10,10,08,09,10,10,10,09
7,08,09,07,09,04,07,09,10,10,09
8,07,02,07,08,08,06,09,08,02,07
9,09,08,08,07,08,07,09,08,09,09


Se define una función que calcula la mediana de cada fila y porteriormente sustituye los nan's por dicho valor

In [37]:
def reemplazo_mediana(x):
    mediana = x.median()
    return x.fillna(mediana)

Se aplica la función anterior a las filas del data frame

In [38]:
encu_3.apply(reemplazo_mediana, axis = 1)

Unnamed: 0,5,6,7,8,9,10,11,12,13,14
0,05,06,04,08,07,03,05,07,07,09
1,07,07,06,06,06,08,07,7,08,08
2,10,10,10,10,10,10,10,10,10,10
3,08,07,07,06,07,08,07,7,07,08
4,09,08,08,08,09,09,08,09,08,08
5,07,08,08,06,09,09,05,06,07,09
6,06,07,10,10,08,09,10,10,10,09
7,08,09,07,09,04,07,09,10,10,09
8,07,02,07,08,08,06,09,08,02,07
9,09,08,08,07,08,07,09,08,09,09


Ya tenemos los valores correspondientes a los items de valoración *limpios*