# Limpieza de Datos

En la presente sección se procede a limpiar los datos brutos de la lectora óptica. Para poder visualizar mejor el trabajo a
continuación se presentan el formato *limpio* de los datos y se compara con una muestra de los datos brutos.

## Aspecto de los datos

Idealmente para un proceso adecuado, los datos deberían tener el siguiente aspecto

![](https://github.com/kamecon/TFM_Kschool/raw/master/data1.jpg)

En este caso, se podrían cargar los datos en un data frame o incluso una hoja de cálculo sin problemas. No obstante los datos
brutos suelen tener este aspecto

![](https://github.com/kamecon/TFM_Kschool/raw/master/data2.jpg)

La anterior es una muestra sesgada de los datos para precisamente mostrar los elementos a limpiar, pero no es una muestra
exhaustiva de los errores que nos podemos encontrar. Dichos errores son una combinación de errores humanos y de lectura de la lectora óptica. A continuación se enumeran algunos:

* Los usuarios dejan casillas en blanco
* Colocan mal alguno de los códigos
* No rellenan bien la casilla
* La lectora desplaza algunos campos
* La lectora interpreta mal algún código y lanza un símbolo en lugar del número
* etc 

Dado que parte de estos errores se corregían de forma manual, afortunadamente tenemos una amplia compresión de su orígen y
solución


## Pre-procesado

Antes de comenzar con el proceso de limpieza de datos que posteriormente sea parte del flujo de trabajo automático, es necesario manipular este archivo debido a características particulares que en principio no estarán presentes en futuras salidas de la lectora

Debido a que los impresos de las encuestas solo poseen opciones de grupos de la _A_ a la _C_, hay dos grupos que al no poseer estas siglas han dejado esa casilla en blanco y no es posible determinar su pertenencia.

En el proceso manual esto se resolvía al momento de pasar las encuestas por la lectora, dado que la muestra que se posee no ha sido pasada en el mismo orden que en el procesado original, no es posible determinar el grupo correspondiente a estos registros.

Se opta por elimnarlos de la muestra con esto se perderían 1pico registros.

El siguiente problema guarda relación con los postgrados. Al ser grupos únicos tienen en blanco la casilla correspondiente al grupo. No obstante son solo dos grupos y se encuentran identificados por el código de división y curso, así que en este caso solo habría que rellenar el grupo en dichos registros.

En las próximas encuestas esto dos problemas ya estarán resueltos, por lo que se podría proceder directamente a la limpieza

## Proceso

Se importan las librerías necesarias (de momento)

In [135]:
import pandas as pd
import numpy as np
import time

In [136]:
t1=time.time()

Se cargan los datos

In [137]:
encu_1 = pd.read_csv('Data/encuesta.txt', sep=';', skiprows=1, header=None)
encu_1.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,2,1,A,0 2,0 6,5,6,4,8,7,3,5,7.0,7,9,,,,,
1,2,1,A,00,006,7,7,6,6,6,8,7,,8,8,,,,,
2,2,1,A,002,006,10,10,10,10,10,10,10,10.0,10,10,,,,,
3,2,1,A,002,,8,7,7,6,7,8,7,,7,8,,,,,
4,2,1,A,002,006,9,8,8,8,9,9,8,9.0,8,8,,,,,


In [138]:
encu_1.tail()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
3724,,,,250,223,8,8,7,8,8,8,9,7,8,8.0,,,,,
3725,,,,250,223,5,5,4,5,4,5,5,5,5,5.0,,,,,
3726,,,,250,223,4,4,4,5,4,7,5,3,3,4.0,,,,,
3727,1.0,,,250,223,5,4,4,5,6,6,7,9,8,7.0,,,,,
3728,,,,250,223,7,7,6,9,4,9,8,9,7,,,,,,


### Pre - procesado

Este es el trozo a elminar, se muestra tanto el registro anterior (1º fila) como el posterior (última fila) para mostrar que la columna 2 correspondiente al grupo se encuentra en blanco en todos los casos.

Nótese asimismo como la columna 3 correspondiente a la asignatura cambia en el 1º y último registro

In [139]:
encu_1.iloc[3394:3509, :]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
3394,4,4,C,422,431,09,10,09,08,09,10,10,10,10,10,,,,,
3395,4,4,,420,430,09,09,09,10,09,08,09,10,09,09,,,,,
3396,4,4,,420,430,09,09,09,09,07,06,09,09,09,09,,,,,
3397,4,,,420,430,10,10,10,10,10,09,10,09,09,10,,,,,
3398,4,4,,420,430,07,07,08,08,03,06,09,09,09,07,,,,,
3399,4,4,,420,430,07,08,07,07,06,06,08,07,08,08,,,,,
3400,4,4,,420,430,07,08,07,08,09,07,08,07,07,07,,,,,
3401,4,4,,,,08,07,10,10,09,10,10,10,08,09,,,,,
3402,4,,,419,446,08,04,06,08,07,09,08,,05,05,,,,,
3403,4,4,,419,446,08,09,07,09,05,08,09,05,09,08,,,,,


Primero procederemos a rellenar el grupo de los registros correspondientes a postgrados, ya que los tenemos localizados, son justamente los registros debajo del curso sin grupo hasta el final del data frame

Estos son los registros a partir de la fila 3508

In [140]:
encu_1.iloc[3508:,2] = 'A'

In [141]:
encu_1.iloc[3508:,:]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
3508,4,5,A,448,445,06,02,04,05,07,10,01,05,03,04,,,,,
3509,4,5,A,448,445,05,05,05,07,06,10,05,10,06,06,,,,,
3510,4,5,A,448,445,04,02,02,05,03,09,03,08,02,04,,,,,
3511,,5,A,448,445,06,06,06,06,07,09,03,09,05,05,,,,,
3512,4,5,A,448,445,06,06,06,07,05,09,07,08,06,06,,,,,
3513,4,5,A,448,445,05,01,02,01,01,10,01,05,01,02,,,,,
3514,4,5,A,448,445,10,06,05,05,06,10,05,10,05,06,,,,,
3515,4,5,A,448,445,06,02,01,01,01,09,01,09,01,02,,,,,
3516,4,5,A,448,445,09,06,06,06,07,10,05,08,06,06,,,,,
3517,4,5,A,448,445,06,06,06,05,08,08,,04,03,04,,,,,


Asimismo debemos colocar el año al postgrado (5) a la división 1, la cual mostramos abajo. Los registros son a partir de la fila 3640

In [142]:
encu_1.iloc[3639:,:]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
3639,4,5,A,444,441,10,09,10,10,09,10,10,10,09,09,,,,,
3640,1,,A,251,233,06,06,06,06,06,06,06,06,06,06,,,,,
3641,1,,A,251,233,08,10,09,08,09,09,09,09,10,10,,,,,
3642,1,,A,251,233,08,07,05,10,07,10,10,05,09,07,,,,,
3643,,,A,251,233,08,08,08,08,08,08,08,08,08,08,,,,,
3644,1,,A,251,233,04,01,02,03,03,07,07,01,04,02,,,,,
3645,,,A,251,233,05,05,05,05,05,05,,05,05,05,,,,,
3646,1,,A,251,233,08,08,08,08,07,06,07,08,07,07,,,,,
3647,,,A,251,233,01,01,01,01,01,01,01,01,01,01,,,,,
3648,1,,A,251,233,06,06,05,06,05,04,04,04,04,04,,,,,


In [143]:
encu_1.iloc[3640:,1] = 5

In [144]:
encu_1.iloc[3640:,:]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
3640,1,5,A,251,233,06,06,06,06,06,06,06,06,06,06,,,,,
3641,1,5,A,251,233,08,10,09,08,09,09,09,09,10,10,,,,,
3642,1,5,A,251,233,08,07,05,10,07,10,10,05,09,07,,,,,
3643,,5,A,251,233,08,08,08,08,08,08,08,08,08,08,,,,,
3644,1,5,A,251,233,04,01,02,03,03,07,07,01,04,02,,,,,
3645,,5,A,251,233,05,05,05,05,05,05,,05,05,05,,,,,
3646,1,5,A,251,233,08,08,08,08,07,06,07,08,07,07,,,,,
3647,,5,A,251,233,01,01,01,01,01,01,01,01,01,01,,,,,
3648,1,5,A,251,233,06,06,05,06,05,04,04,04,04,04,,,,,
3649,1,5,A,251,233,10,09,09,09,10,10,10,10,10,10,,,,,


Y finalmente, hay un grupo que debido a un error al momento de pasar la encuesta no rellenaron su grupo correspondiente (D). Los registros son los correspondientes a las filas 2721 a la 2776 asociados a la asignatura 430, las cuales se presentan a continuación

In [145]:
encu_1.iloc[2720:2778,:]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
2720,4.0,2.0,,27.0,410,7,3,3,5,6,10.0,9,7,3.0,5,,,,,
2721,4.0,2.0,,430.0,448,10,10,10,10,10,10.0,10,10,10.0,10,,,,,
2722,4.0,2.0,,430.0,448,8,9,10,7,9,10.0,8,8,9.0,10,,,,,
2723,4.0,2.0,,430.0,448,10,10,10,10,4,10.0,10,10,10.0,10,,,,,
2724,4.0,2.0,,430.0,448,10,10,10,10,10,10.0,10,10,10.0,10,,,,,
2725,4.0,2.0,,430.0,448,10,10,10,10,10,10.0,10,10,10.0,10,,,,,
2726,4.0,2.0,,430.0,448,8,8,8,8,7,8.0,8,8,8.0,8,,,,,
2727,4.0,2.0,,430.0,448,8,8,8,8,6,8.0,8,8,8.0,8,,,,,
2728,4.0,2.0,,430.0,448,9,9,9,9,9,9.0,9,9,9.0,10,,,,,
2729,4.0,2.0,,430.0,448,6,7,5,9,7,9.0,9,6,8.0,9,,,,,


In [146]:
encu_1.iloc[2721:2777,2] = 'D'

In [147]:
encu_1.iloc[2720:2778,:]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
2720,4.0,2.0,,27.0,410,7,3,3,5,6,10.0,9,7,3.0,5,,,,,
2721,4.0,2.0,D,430.0,448,10,10,10,10,10,10.0,10,10,10.0,10,,,,,
2722,4.0,2.0,D,430.0,448,8,9,10,7,9,10.0,8,8,9.0,10,,,,,
2723,4.0,2.0,D,430.0,448,10,10,10,10,4,10.0,10,10,10.0,10,,,,,
2724,4.0,2.0,D,430.0,448,10,10,10,10,10,10.0,10,10,10.0,10,,,,,
2725,4.0,2.0,D,430.0,448,10,10,10,10,10,10.0,10,10,10.0,10,,,,,
2726,4.0,2.0,D,430.0,448,8,8,8,8,7,8.0,8,8,8.0,8,,,,,
2727,4.0,2.0,D,430.0,448,8,8,8,8,6,8.0,8,8,8.0,8,,,,,
2728,4.0,2.0,D,430.0,448,9,9,9,9,9,9.0,9,9,9.0,10,,,,,
2729,4.0,2.0,D,430.0,448,6,7,5,9,7,9.0,9,6,8.0,9,,,,,


Ahora se eliminan los registros

In [148]:
encu_10 = encu_1.drop(encu_1.index[3395:3508])

En estas filas pasa lo mismo

In [149]:
encu_10.iloc[3192:3266,:]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
3192,4,3,C,414,422,10,09,08,08,08,10,10,08,10,09,,,,,
3193,4,4,,418,428,07,06,09,10,07,10,10,,06,07,,,,,
3194,4,4,,418,428,08,09,08,08,09,08,09,08,08,08,,,,,
3195,4,4,,418,428,07,07,06,06,05,08,07,07,06,07,,,,,
3196,4,4,,418,428,06,07,05,09,08,10,09,09,06,06,,,,,
3197,4,4,,418,428,07,09,06,10,03,10,08,09,07,07,,,,,
3198,4,4,,418,428,04,03,04,07,05,09,04,05,02,05,,,,,
3199,4,4,,418,428,08,08,08,06,03,09,06,07,06,07,,,,,
3200,,,,418,428,09,10,07,10,10,10,10,10,10,10,,,,,
3201,4,4,,418,428,10,10,10,10,10,10,10,10,10,10,,,,,


In [150]:
encu_11 = encu_10.drop(encu_1.index[3191:3265])

In [151]:
encu_1.shape, encu_11.shape, encu_1.shape[0] - encu_11.shape[0]

((3729, 20), (3542, 20), 187)

In [152]:
dif_fil = encu_1.shape[0] - encu_11.shape[0]
print('Se han eliminado %d filas' %dif_fil)

Se han eliminado 187 filas


### Empieza el procesado!!

Se Cogen los items de respuesta (columnas de la 5 hasta el final) y con una expresión regular se sustituyen los espacios en blanco por NaN y luego se eliminan las columnas donde todos los valores son NaN's

In [153]:
encu_2 = encu_11.iloc[:,5:].replace(r'\s+', np.nan, regex=True).dropna(axis=1, how='all')
encu_2.head()

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
0,5,6,4,8,7,3,5,7.0,7,9,,
1,7,7,6,6,6,8,7,,8,8,,
2,10,10,10,10,10,10,10,10.0,10,10,,
3,8,7,7,6,7,8,7,,7,8,,
4,9,8,8,8,9,9,8,9.0,8,8,,


Obtenemos la primera versión reducida del proceso de limpieza. Nótese que estamos trabajando solo con los items de respuesta.

En este paso se deben realizar varias operaciones:

* Solo hay 10 items de respuesta (columnas 5 a 9), pero una vez eliminadas las columnas con todos los valores iguales a NaN aun
  quedan 2 columnas adicionales. Esto es debido a que la lectora ha desplazado algunas calificaciones hacia la derecha. Asi que 
  lo primero que haremos es corregir ese desplazamiento.
  
* Existen items sin calificar, a estos se le imputa el valor mediano del resto de items

Comenzamos con la primera operación, corregir el desplazamiento realizado por la lectora.

Se localizan los NaN's de la penúltima columna

In [154]:
i_nulos_p = encu_2.iloc[:,-2].isnull()

Lo anterior nos da un vector booleano de unos y ceros, los unos (TRUE) nos dan los elementos nulos.

En la próxima celda localizamos los valores no nulos buscando (con where) aquellas celdas iguales a cero

In [155]:
i_nonulos_p = np.where(i_nulos_p == 0)[0].tolist()
i_nonulos_p

[87,
 175,
 204,
 206,
 246,
 392,
 548,
 990,
 1269,
 1493,
 2000,
 2193,
 2480,
 2484,
 2563,
 2753,
 3035,
 3125,
 3522]

Repetimos lo anterior con la última columna

In [156]:
i_nulos_u = encu_2.iloc[:,-1].isnull()
i_nonulos_u = np.where(i_nulos_u == 0)[0].tolist()
i_nonulos_u

[175, 183, 302]

Se construye una lista que contenga los no nulos de la última y penúltima fila, usando la unión (``|``)

In [157]:
i_nonulos_temp = set(i_nonulos_p) | set(i_nonulos_u)
i_nonulos = sorted(list(i_nonulos_temp))
i_nonulos

[87,
 175,
 183,
 204,
 206,
 246,
 302,
 392,
 548,
 990,
 1269,
 1493,
 2000,
 2193,
 2480,
 2484,
 2563,
 2753,
 3035,
 3125,
 3522]

Se comprueba que la longitud es distinta a los nonulos de las dos últimas columnas

In [158]:
len(i_nonulos_p), len(i_nonulos_u), len(i_nonulos)

(19, 3, 21)

In [159]:
encu_2.iloc[i_nonulos,:]

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
87,10,8,6,7,9,5,10.0,4.0,,7.0,7.0,
175,8,4,6,7,7,6,5.0,4.0,6.0,5.0,4.0,4.0
183,5,3,5,8,8,10,10.0,9.0,9.0,6.0,,6.0
204,7,6,5,7,8,10,8.0,6.0,,6.0,7.0,
206,4,6,4,6,8,9,7.0,,6.0,4.0,7.0,
246,7,3,5,8,4,8,7.0,8.0,5.0,,7.0,
302,10,9,10,7,10,10,10.0,7.0,5.0,,,8.0
392,7,6,8,6,7,1,,7.0,6.0,7.0,8.0,
548,9,6,9,8,8,7,9.0,5.0,,9.0,7.0,
990,8,10,10,8,6,4,8.0,8.0,10.0,9.0,9.0,


Se define una función que realiza lo siguiente:

- Verfifica si la fila tiene NaN's

- En caso afirmativo localiza los indices donde se encuentran los NaN's

- Si tiene un solo NaN (``if len (ii) < 2``) hace un loop que recorre la fila a partir de 
  dicho indice hasta la penultima posición, y sustituye cada *celda* por el valor de la siguiente
  
- En caso que tenga más de un NaN (``else``) hace lo mismo, pero sustituyendo la celda por el valor de
  de la celda + (número de nan's)

In [160]:
def llenar(x):
    if any(l == True for l in x[:-2].isnull()):
        ii = x[:-2].isnull()
        ii = np.where(ii == 1)[0].tolist()
        if len (ii) < 2:
            for indice in range(ii[0],(len(x)-1)):
                x.iloc[indice] = x.iloc[indice+1]
        else:
            for indice in range(ii[0],(len(x)-len(ii))):
                x.iloc[indice] = x.iloc[indice+len(ii)]
    return x

Se crea un data frame que contega solo los elementos arriba filtrados

In [161]:
prueba = encu_2.iloc[i_nonulos,:]
prueba

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
87,10,8,6,7,9,5,10.0,4.0,,7.0,7.0,
175,8,4,6,7,7,6,5.0,4.0,6.0,5.0,4.0,4.0
183,5,3,5,8,8,10,10.0,9.0,9.0,6.0,,6.0
204,7,6,5,7,8,10,8.0,6.0,,6.0,7.0,
206,4,6,4,6,8,9,7.0,,6.0,4.0,7.0,
246,7,3,5,8,4,8,7.0,8.0,5.0,,7.0,
302,10,9,10,7,10,10,10.0,7.0,5.0,,,8.0
392,7,6,8,6,7,1,,7.0,6.0,7.0,8.0,
548,9,6,9,8,8,7,9.0,5.0,,9.0,7.0,
990,8,10,10,8,6,4,8.0,8.0,10.0,9.0,9.0,


Se aplica la función anterior a ``prueba``

In [162]:
prueba.apply(llenar, axis =1)

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
87,10,8,6,7,9,5,10,4,7,7.0,,
175,8,4,6,7,7,6,5,4,6,5.0,4.0,4.0
183,5,3,5,8,8,10,10,9,9,6.0,,6.0
204,7,6,5,7,8,10,8,6,6,7.0,,
206,4,6,4,6,8,9,7,6,4,7.0,,
246,7,3,5,8,4,8,7,8,5,7.0,,
302,10,9,10,7,10,10,10,7,5,,8.0,8.0
392,7,6,8,6,7,1,7,6,7,8.0,,
548,9,6,9,8,8,7,9,5,9,7.0,,
990,8,10,10,8,6,4,8,8,10,9.0,9.0,


In [163]:
prueba

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
87,10,8,6,7,9,5,10,4,7,7.0,,
175,8,4,6,7,7,6,5,4,6,5.0,4.0,4.0
183,5,3,5,8,8,10,10,9,9,6.0,,6.0
204,7,6,5,7,8,10,8,6,6,7.0,,
206,4,6,4,6,8,9,7,6,4,7.0,,
246,7,3,5,8,4,8,7,8,5,7.0,,
302,10,9,10,7,10,10,10,7,5,,8.0,8.0
392,7,6,8,6,7,1,7,6,7,8.0,,
548,9,6,9,8,8,7,9,5,9,7.0,,
990,8,10,10,8,6,4,8,8,10,9.0,9.0,


Sustituimos en el data frame original los valores modificados en el proceso anterior

In [164]:
encu_2.iloc[i_nonulos_p,:] = prueba
encu_2

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
0,05,06,04,08,07,03,05,07,07,09,,
1,07,07,06,06,06,08,07,,08,08,,
2,10,10,10,10,10,10,10,10,10,10,,
3,08,07,07,06,07,08,07,,07,08,,
4,09,08,08,08,09,09,08,09,08,08,,
5,07,08,08,06,09,09,05,06,07,09,,
6,06,07,10,10,08,09,10,10,10,09,,
7,08,09,07,09,04,07,09,10,10,09,,
8,07,02,07,08,08,06,09,08,02,07,,
9,09,08,08,07,08,07,09,08,09,09,,


Eliminamos las dos últimas columnas

In [165]:
encu_2.drop(encu_2.columns[-2:],inplace=True,axis=1)

In [166]:
encu_2

Unnamed: 0,5,6,7,8,9,10,11,12,13,14
0,05,06,04,08,07,03,05,07,07,09
1,07,07,06,06,06,08,07,,08,08
2,10,10,10,10,10,10,10,10,10,10
3,08,07,07,06,07,08,07,,07,08
4,09,08,08,08,09,09,08,09,08,08
5,07,08,08,06,09,09,05,06,07,09
6,06,07,10,10,08,09,10,10,10,09
7,08,09,07,09,04,07,09,10,10,09
8,07,02,07,08,08,06,09,08,02,07
9,09,08,08,07,08,07,09,08,09,09


Ahora procedemos a la siguiente operación, imputar los items vacios por el valor mediano del resto de las valoraciones (fila)

Primero sustituimos los '??' por NAN

In [167]:
encu_3 = encu_2.replace(['??'], np.nan)

In [168]:
encu_3

Unnamed: 0,5,6,7,8,9,10,11,12,13,14
0,05,06,04,08,07,03,05,07,07,09
1,07,07,06,06,06,08,07,,08,08
2,10,10,10,10,10,10,10,10,10,10
3,08,07,07,06,07,08,07,,07,08
4,09,08,08,08,09,09,08,09,08,08
5,07,08,08,06,09,09,05,06,07,09
6,06,07,10,10,08,09,10,10,10,09
7,08,09,07,09,04,07,09,10,10,09
8,07,02,07,08,08,06,09,08,02,07
9,09,08,08,07,08,07,09,08,09,09


Se define una función que calcula la mediana de cada fila y porteriormente sustituye los nan's por dicho valor

In [169]:
def reemplazo_mediana(x):
    mediana = x.median()
    return x.fillna(mediana)

Se aplica la función anterior a las filas del data frame

In [170]:
encu_4 = encu_3.apply(reemplazo_mediana, axis = 1)
encu_4

Unnamed: 0,5,6,7,8,9,10,11,12,13,14
0,05,06,04,08,07,03,05,07,07,09
1,07,07,06,06,06,08,07,7,08,08
2,10,10,10,10,10,10,10,10,10,10
3,08,07,07,06,07,08,07,7,07,08
4,09,08,08,08,09,09,08,09,08,08
5,07,08,08,06,09,09,05,06,07,09
6,06,07,10,10,08,09,10,10,10,09
7,08,09,07,09,04,07,09,10,10,09
8,07,02,07,08,08,06,09,08,02,07
9,09,08,08,07,08,07,09,08,09,09


**Ya tenemos los valores correspondientes a los items de valoración *limpios* **

### Bloque de Códigos (división ,curso, etc)

Creamos un data frame con los códigos de división, grupo, etc. a partir del data frame pre-procesado

In [171]:
encu_codigos = encu_11.iloc[:,:5]
encu_codigos.head()

Unnamed: 0,0,1,2,3,4
0,2,1,A,0 2,0 6
1,2,1,A,00,006
2,2,1,A,002,006
3,2,1,A,002,
4,2,1,A,002,006


Sustituir solo los espacios en blanco al final

Esto se hace porque hay códigos de 3 cifras (``006``) que en ocasiones tienen la cifra de medio en blanco (``0 6``), si no colocamos la condición de espacio al final, también convierte en nan los casos anteriores.

De este modo solo sustituye las *celdas* en blanco

In [172]:
encu_codigos2 = encu_codigos.replace(r'\s$', np.nan, regex=True)
encu_codigos2

Unnamed: 0,0,1,2,3,4
0,2,1,A,0 2,0 6
1,2,1,A,,006
2,2,1,A,002,006
3,2,1,A,002,
4,2,1,A,002,006
5,2,1,A,002,006
6,2,1,,002,006
7,2,1,A,002,006
8,2,1,A,002,006
9,2,1,A,,


Reemplazamos los signos de interrogación por NAN's

In [173]:
encu_codigos21 = encu_codigos2.replace(r'\?', np.nan, regex=True)
encu_codigos21

Unnamed: 0,0,1,2,3,4
0,2,1,A,0 2,0 6
1,2,1,A,,006
2,2,1,A,002,006
3,2,1,A,002,
4,2,1,A,002,006
5,2,1,A,002,006
6,2,1,,002,006
7,2,1,A,002,006
8,2,1,A,002,006
9,2,1,A,,


Reemplazamos los ceros al principio por espacios en blanco

In [174]:
encu_codigos211 = encu_codigos21.replace(r'^0+', ' ', regex=True)
encu_codigos211

Unnamed: 0,0,1,2,3,4
0,2,1,A,2,6
1,2,1,A,,6
2,2,1,A,2,6
3,2,1,A,2,
4,2,1,A,2,6
5,2,1,A,2,6
6,2,1,,2,6
7,2,1,A,2,6
8,2,1,A,2,6
9,2,1,A,,


Eliminamos los espacios creados en el paso anterior

In [175]:
encu_codigos222 = encu_codigos211.replace(r'^\s+', ' ', regex=True)
encu_codigos222

Unnamed: 0,0,1,2,3,4
0,2,1,A,2,6
1,2,1,A,,6
2,2,1,A,2,6
3,2,1,A,2,
4,2,1,A,2,6
5,2,1,A,2,6
6,2,1,,2,6
7,2,1,A,2,6
8,2,1,A,2,6
9,2,1,A,,


In [176]:
encu_codigos22 = encu_codigos222.replace(' ', np.nan)
encu_codigos22

Unnamed: 0,0,1,2,3,4
0,2,1,A,2,6
1,2,1,A,,6
2,2,1,A,2,6
3,2,1,A,2,
4,2,1,A,2,6
5,2,1,A,2,6
6,2,1,,2,6
7,2,1,A,2,6
8,2,1,A,2,6
9,2,1,A,,


Creamos una lista de listas que contengan los índices correspondientes a los registros nulos de cada columna

Localizamos los índices que contienen NAN's y lo transformamos en una lista. Emplearemos esta lista para iterar sobre el data frame y de ese modo rellenar solo los espacios de esos registros sin necesidad de buscar sobre toda la columna

Distinguimos entre registros nulos consecutivos y no consecutivos, ya que para cada uno hay que realizar un procedimiento  distinto a la hora de rellenarlos.

Una vez obtenidos los registros nulos se verifica si el índice del registro posterior es igual al del anterior más uno, de ese modo identificamos los registros nulos consecutivos.

Una vez identificados estos, puede darse el caso que existan más de dos registros NAN consecutivos, en este caso habría números repetidos debido a como se ha hecho el bucle. Para evitar esto nos quedamos con los valores únicos.

Finalmente se obtienen los no consecutivos como aquellos índices que están en la lista de nulos pero no en la lista de consecutivos (el list comprehension dentro del bucle)

In [177]:
nulos_columnas = []
nulos_consec_columnas = []
for columna in range(len(encu_codigos22.columns)):
    cod_nul_asig = encu_codigos22.iloc[:, columna].isnull()
    ind_nul_asig = np.where(cod_nul_asig == 1)[0].tolist()
    lista_consec_asig = []
    for i in range((len(ind_nul_asig)-1)):
        if ind_nul_asig[i] == ind_nul_asig[i+1]-1:
            lista_consec_asig.append(ind_nul_asig[i])
            lista_consec_asig.append(ind_nul_asig[i+1])
            unique_asig = np.unique(lista_consec_asig)
            unique_asig = unique_asig.tolist()
    lista_noconsec_asig = [x for x in ind_nul_asig if x not in unique_asig]
    nulos_columnas.append(lista_noconsec_asig)
    nulos_consec_columnas.append(unique_asig)

In [178]:
for columna in range(len(encu_codigos22.columns)):
    num_nulos = len(nulos_columnas[columna])
    print('En la columna %d hay %d registros nulos no consecutvos' % (columna, num_nulos))

En la columna 0 hay 249 registros nulos no consecutvos
En la columna 1 hay 165 registros nulos no consecutvos
En la columna 2 hay 162 registros nulos no consecutvos
En la columna 3 hay 135 registros nulos no consecutvos
En la columna 4 hay 116 registros nulos no consecutvos


In [179]:
for columna in range(len(encu_codigos22.columns)):
    num_nulos = len(nulos_consec_columnas[columna])
    print('En la columna %d hay %d registros nulos consecutvos' % (columna, num_nulos))

En la columna 0 hay 155 registros nulos consecutvos
En la columna 1 hay 68 registros nulos consecutvos
En la columna 2 hay 677 registros nulos consecutvos
En la columna 3 hay 16 registros nulos consecutvos
En la columna 4 hay 4 registros nulos consecutvos


In [180]:
null_columnas = []
for columna in range(len(encu_codigos22.columns)):
    cod_nul_asig = encu_codigos22.iloc[:, columna].isnull()
    ind_nul_asig = np.where(cod_nul_asig == 1)[0].tolist()
    null_columnas.append(ind_nul_asig)
for columna in range(len(encu_codigos22.columns)):
    num_nulos = len(null_columnas[columna])
    print('En la columna %d hay %d registros nulos' % (columna, num_nulos))

En la columna 0 hay 404 registros nulos
En la columna 1 hay 233 registros nulos
En la columna 2 hay 839 registros nulos
En la columna 3 hay 151 registros nulos
En la columna 4 hay 120 registros nulos


### Descripición del proceso de sustitución de registros nulos

Como se ha descrito arriba, el proceso de rellenado se realizará basado en las guías aportadas por las personas que realizaba esta labor manualmente.

El primer criterio se basa en el valor de los registros anteriores y posteriores, si estos son iguales se emplea dicho valor para rellenar el valor en blanco. No obstante esto no ocurre siempre, y en este caso hay que recurrir a información aportada por columnas contiguas.

En el caso de la asignatura (profesor), si los registros posterior y anterior no coinciden se observa la columna correspondiente al profesor (asignatura). Si el profesor (asignatura) coincide con el registro anterior o no, nos señala si debemos emplear el valor anterior o posterior. Algo similar ocurre con el resto de las columnas.

Con esto en mente, atacamos el problema con un bucle que inspecciones las columnas contiguas cuando ocurra dicha situación.

Dado que el proceso es el mismo en todas las columnas, salvo que columna contigua (derecha o izquierda) emplear, definimos una función que realice el proceso.

Se definen las funciones y posteriormente cuando se aplique a cada columna se describe con detalle lo que hace.

Para los registros nulos no consecutivos empleamos la función *sustitucion* y para los no consecutivos la función *sustitucion2*

La función *sustitucion* posee 4 argumentos:

* **datos**: Se refiere al data frame en el cual se deben realizar las sustituciones

* **nulos** Una lista que contiene los índices de las filas en las que se encuentran los datos nulos

* **columna** En que columna se quieren realizar las sustituciones

* **direccion** Indica si se debe usar la columna de la izquierda o derecha en el caso de que el resgistro anterior y posterior no coincidan. El valor debe ser **1** en el caso de la colummna derecha y **-1** en el caso de la izquierda

In [181]:
def sustitucion(datos, nulos, columna, direccion):
    datos2 = datos.copy()
    nombre ='columna_'+str(columna)+'.txt'
    file = open(nombre,'w')
    for i in nulos[columna]:
        if  i == datos2.shape[0]-1:
            file.write('Sustituyendo fila %d por el valor anterior (ultimo dato) \n' %i)
            datos2.iloc[i,columna] = datos2.iloc[i-1,columna]
        elif datos2.iloc[i-1,columna] == datos2.iloc[i+1,columna]:
            file.write('Sustituyendo fila %d por el valor anterior condicion 1 \n' %i)
            datos2.iloc[i,columna] = datos2.iloc[i-1,columna]
        else:
            if datos2.iloc[i-1,(columna + direccion)] == datos2.iloc[i,(columna + direccion)]:
                file.write('Sustituyendo fila %d por el valor anterior, condicion 2 \n' %i)
                datos2.iloc[i,columna] = datos2.iloc[i-1,columna]
            else:
                if pd.isnull(datos2.iloc[i,(columna + direccion)]) == True:
                    file.write('Sustituyendo fila %d por Nan \n' %i)
                    datos2.iloc[i,columna] = pd.np.nan
                else:
                    file.write('Sustituyendo fila %d por el valor posterior, condicion 3 \n' %i)
                    datos2.iloc[i,columna] = datos.iloc[i+1,columna]
    file.close()
    return datos2

La función *sustitucion2* posee 5 argumentos:

* **datos**: Se refiere al data frame en el cual se deben realizar las sustituciones

* **nulos** Una lista que contiene los índices de las filas en las que se encuentran los datos nulos a partir del cual comienza la secuencia de nulos negativos

* **nulos2** Una lista que contiene los índices de las filas en las que se encuentran los datos nulos en el cual acaba la secuencia de nulos negativos

* **columna** En que columna se quieren realizar las sustituciones

* **direccion** Indica si se debe usar la columna de la izquierda o derecha en el caso de que el resgistro anterior y posterior no coincidan. El valor debe ser **1** en el caso de la colummna derecha y **-1** en el caso de la izquierda

In [182]:
def sustitucion2(datos, nulos, nulos2, columna, direccion):
    datos2 = datos.copy()
    for j,i in enumerate(nulos[columna]):
        if datos2.iloc[i-1,columna] == datos2.iloc[nulos2[columna][j]+1,columna]:
            datos2.iloc[i:(nulos2[columna][j]+1),columna] = datos2.iloc[i-1,columna] 
        else:
            for l in range(i,(nulos2[columna][j]+1)):
                if datos2.iloc[l,(columna + direccion)] == datos2.iloc[i-1,(columna + direccion)]:
                    datos2.iloc[l,columna] = datos2.iloc[i-1,columna]
                elif pd.isnull(datos2.iloc[l,(columna + direccion)]) == True:
                    datos2.iloc[l,columna] = pd.np.nan
                elif datos2.iloc[l,(columna + direccion)] == datos2.iloc[nulos2[columna][j]+1,(columna + direccion)]:
                    datos2.iloc[l,columna] = datos2.iloc[nulos2[columna][j]+1,columna]
    return datos2

#### Asignaturas

En este caso el bucle sustituye la asignatura en blanco por el anterior registro si se cumple lo siguiente:

* El registro anterior y posterior es el mismo
* El registro anterior y posterior no es el mismo, pero el código de profesor es el mismo del registro actual y el anterior es el mismo

Si el registro anterior y posterior no es el mismo, y tampoco el código de profesor coincide, se sustituye por el registro siguiente

En caso que no coinciden el registro anterior y posterior y el código de profesor sea un NAN también, no se rellena el registro.
En este caso habría que hacer una comprobación adicional con el año y grupo en un paso posterior.

In [183]:
encu_codigos23 = sustitucion(encu_codigos22, nulos_columnas, 3, 1)

In [184]:
encu_codigos23.iloc[lista_noconsec_asig,:]

Unnamed: 0,0,1,2,3,4
3,2,1,A,2,
9,2,1,A,2,
41,2,1,A,5,
44,,,A,5,
75,2,1,A,4,
80,2,1,A,4,
189,2,,,5,
191,,,,2,
226,2,1,C,5,
263,2,2,A,6,


Se procede a rellenar los registros con NAN's consecutivos. En este caso las reglas son las siguientes:

* Si el registro anterior y posterior es el mismo se sustituye por el **registro anterior**

Si no se cumple lo anterior, se hace un bucle que recorra ese tramo de la columna y realice lo siguiente:

* Si el código de profesor en esa celda es igual al del último registro no NAN, se sustituye por el **registro anterior**

* Si el código de profesor en esa celda es igual al del próximo registro no NAN, se sustituye por el **registro posterior**

* Si el código de profesor en esa celda es NAN, se sustituye por un **NAN**

Como se observa en este caso, una diferencia con respecto al caso anterior es el bucle, para el cual necesitamos el inicio y fin del mismo.

La lista de los índices de resgistros de NAN's consecutivos no nos sirve para iterar sobre el mismo si queremos realizar las sustituciones, así que tenemos que crear primero un lista sobre la cual iterar que corresponde al índice del primero de los registros consecutivos que se repite.

Por ejemplo si los registros son ``[12,13,14,25,26,38,39,40]`` nos gustaría tener una lista del tipo ``[12,25,38]``

Realizamos esto con un list comprehension

In [185]:
consec_col = []
for columna in range(len(nulos_consec_columnas)):
    consec_temp = [ j for i, j in enumerate(nulos_consec_columnas[columna]) if j!= nulos_consec_columnas[columna][i-1]+1 \
                    or j == nulos_consec_columnas[columna][0]]
    consec_col.append(consec_temp)

Asimismo para el bucle interno de la función en caso que los registros anteriores y posteriores no sean iguales, que abarca los registros consecutivos, necesitamos el índice donde acaba la secuencia de dichos registros.

En el ejemplo anterior sería pasar de ``[12,13,14,25,26,38,39,40]`` a ``[14,26,40]``

De manera que la función rellene los registros desde 12 a 14 por ejemplo.

Obtenemos dicha lista siguiendo un procedimiento similar al paso anterior.

Como es posible observar, se realiza un paso adicional donde se incluye el valor terminal, ya que si se intenta hacer desde el list comprehension el índice sale fuera del rango

In [186]:
consec2_col = []
for columna in range(len(nulos_consec_columnas)):
    consec2_temp = [ j for i, j in enumerate(nulos_consec_columnas[columna][0:(len(nulos_consec_columnas[columna])-1)])\
                     if j!= nulos_consec_columnas[columna][i+1]-1 ]
    consec2_temp.append(nulos_consec_columnas[columna][(len(nulos_consec_columnas[columna])-1)])
    consec2_col.append(consec2_temp)

Procedemos a realizar las sustituciones consecutivas en la columna de asignaturas

In [187]:
encu_codigos24 = sustitucion2(datos=encu_codigos23, columna=3, nulos=consec_col, nulos2=consec2_col, direccion=1)

In [188]:
encu_codigos24.iloc[nulos_consec_columnas[3],:]

Unnamed: 0,0,1,2,3,4
133,2.0,1.0,C,4.0,3.0
134,2.0,1.0,,4.0,3.0
493,2.0,3.0,A,16.0,13.0
494,2.0,3.0,A,16.0,13.0
776,1.0,1.0,A,,
777,1.0,1.0,A,205.0,205.0
997,1.0,2.0,A,209.0,209.0
998,1.0,,,209.0,
1802,4.0,1.0,C,,
1803,4.0,1.0,C,405.0,412.0


Una vez rellenados los valores nulos persisten errores en los registros debido a errores humanos, es decir, se deben realizar sustituciones posteriores para poder corregir los mismos.

Sueles ser errores en los cuales el alumno rellena mal un código. Son relativamente fáciles de identificar por el modo en que se pasan las encuestas por la lectora. La encuestas se pasan de manera ordenada por división, curso, grupo y asignatura; de modo que deberíamos tener muchos registros similares con cambios discontinuos.

Por ejemplo, secuencias seguidas de códigos iguales hasta que se cambie de asignatura, grupo, etc. Dentro de estas secuencias, si el número cambia, es debido a un error de la persona que ha hecho la encuesta.

Para resolver esto se sigue una estrategia idéntica a la anterior, se localizan los índices en los cuales hay un cambio, nos quedamos con los valores no consecutivos (ver abajo la justificación), y definimos una función que itere sobre esos registros de la columna y realice las sustituciones. 

Dichas función son algo más sencillas que las definidas anteriormente, ya que solo inspeccionan el registro anterior o posterior de la columna contigua que se escoja.

> La razón por la cual nos quedamos con valores no consecutivos de los cambios es la siguiente, imaginemos que
> tenemos la siguiente secuencia  ``[12 12 8 12 12]`` si localizamos los índices en los cuales ocurre un cambio
> obtendremos ``[2 3]`` Es cierto que en la posición 2 pasamos de 12 a 8, es la posición que nos interesa, mientras
> que el 3 indica que se ha vuelto a la secuencia original. Esa es la razón por la cual debemos conservar solo el 
> índice 2

In [189]:
def localiza(datos, columna):
    indice_post = [indice for indice in np.arange(1,datos.shape[0])  if \
                   datos.iloc[indice,columna] != datos.iloc[indice-1,columna] ]
    indice_post_uniq = [ x for i,x in enumerate(indice_post[0:len(indice_post)-1]) if \
                         indice_post[i] == indice_post[i+1]-1 ] 
    return indice_post_uniq

In [190]:
indice_post3 = localiza(datos= encu_codigos24, columna= 3)

In [191]:
indice_post3

[29,
 189,
 290,
 656,
 776,
 856,
 1034,
 1035,
 1042,
 1074,
 1265,
 1333,
 1371,
 1504,
 1540,
 1802,
 1897,
 1919,
 2044,
 2498,
 2660,
 2720,
 3024,
 3031,
 3036,
 3043,
 3044,
 3047,
 3130,
 3289,
 3473,
 3474]

Una vez localizados los índices en los cuales debemos realizar las sustituciones producto de errores humanos, definimos una función que realice los reemplazos.

Como se ha mencionado arriba, la función es muy similar a las anteriores. Los criterios son los siguientes:

-  Si el valor de la columna de referencia en esa celda es igual al registro anterior, el registro se sustituye por el anterior

-  Si el valor de la columna de referencia en esa celda es igual al registro posterior, el registro se sustituye por el posterior

- Si el valor de la columna de referencia con los dos pasos anteriores no es suficiente para detectar el error, se emplea la columna contraria

- En caso contrario se sustiyuye por un NAN

In [192]:
def sustitucion3(datos, nulos, columna, direccion):
    datos2 = datos.copy()
    otracol = -1*columna
    for i in nulos:
        if datos2.iloc[i-1,columna] == datos2.iloc[i+1,columna]:
            datos2.iloc[i,columna] = datos2.iloc[i-1,columna]
        else:
            if datos2.iloc[i-1,(columna + direccion)] == datos2.iloc[i,  (columna + direccion)]:
                datos2.iloc[i,columna] = datos2.iloc[i-1,columna]
            elif datos2.iloc[i+1,(columna + direccion)] == datos2.iloc[i,(columna + direccion)]:
                datos2.iloc[i,columna] = datos2.iloc[i+1,columna]
            elif  pd.isnull(datos2.iloc[i,(columna + direccion)]) == False and \
            datos2.iloc[i-1,(columna + otracol)] == datos2.iloc[i,  (columna + otracol)]:
                datos2.iloc[i,columna] = datos2.iloc[i-1,columna]
            elif  pd.isnull(datos2.iloc[i,(columna + direccion)]) == False and \
            datos2.iloc[i+1,(columna + otracol)] == datos2.iloc[i,  (columna + otracol)]:
                datos2.iloc[i,columna] = datos2.iloc[i+1,columna]
            else:
                datos2.iloc[i,columna] = pd.np.nan
    return datos2

Debido a la forma como se ha definido la función ``localiza`` persisten los errores humanos _consecutivos_, es decir, si se existen dos registros consecutivos con un código erroneo

Para arreglar lo anterior se define otra función de localización que en lugar de guardar solo los resgistros únicos, identifique los errores consecutivos hasta 3 registros.

El 3 es fijado de forma arbitraria y surje de la inspección visual de los datos por quienes realizaban la labor manualmente. En el futuro esta cifra se fijaría en función del menor grupo de alumnos al que se le haya pasado la encuesta. Por ejemplo, si el grupo más pequeño es de 5 $(n)$ alumnos, la cifra anterior sería 4 $(n-1)$

La siguiente función (``localiza2``) es igual a ``localiza`` salvo que en lugar de quedarnos con los valores únicos, nos quedamos con valores que se repiten hasta 3 veces.

Adicionalmente el output son listas de tuplas, con el primer elemento de la tupla indicando el índice donde comienza la secuencia y el segundo elemento el índice en el cual acaba.

In [193]:
def localiza2(datos, columna):
    indice_bound1 = []
    indice_bound2 = []
    indice_post = [indice for indice in np.arange(1,datos.shape[0])  if \
                   datos.iloc[indice,columna] != datos.iloc[indice-1,columna] ]
    indice_post2 = [ (x,i) for i,x in enumerate(indice_post[0:len(indice_post)-3]) if \
                         indice_post[i] == indice_post[i+1]-2 or \
                         indice_post[i] == indice_post[i+1]-3 ]
    for i,x in enumerate(indice_post2[0:len(indice_post2)]):
        indice1 = indice_post2[i][0]
        indice_temp = indice_post2[i][1] + 1
        indice2 = indice_post[indice_temp]
        indice_bound1.append(indice1)
        indice_bound2.append(indice2)
    return indice_bound1, indice_bound2

Y definimos otra función de sustitución similar a las anteriores, guarda mayor similitud con ``sustitucion2``

Para los rangos definido por ``localiza2``, si el registro de la columna de referencia es igual al de la misma columna antes del inicio del rango, se sustituye el resgistro **por el valor anterior**.

En caso que el registro de la columna de referencia es igual al de la misma columna al final del rango, se sustituye por **por el valor posterior**

In [194]:
def sustitucion4(datos, nulos, columna, direccion):
    datos2 = datos.copy()
    for i,x in enumerate(nulos[0]):
        for l in range(x, nulos[1][i]):
            if datos2.iloc[l, columna + direccion] == datos2.iloc[x-1, columna + direccion]:
                datos2.iloc[l, columna] = datos2.iloc[x-1,columna]
            elif datos2.iloc[l, columna + direccion] == datos2.iloc[nulos[1][i], columna + direccion]:
                datos2.iloc[l, columna] = datos2.iloc[nulos[1][i], columna]
    return datos2

Estas sustituciones la haremos al final del proceso. Se aplican solo a las columnas grupo y profesor que han sido en las cuales se han detectado problemas post-limpieza

#### Profesores

Empezamos con el caso de registros nulos no consecutivos

En esta columna solo se emplean los siguientes criterios para rellenar los NAN's:

Sustituimos el código de profesor en blanco por el anterior registro si se cumple lo siguiente:

* Si el registro anterior y posterior es el mismo, se sustituye por el registro anterior

* Si el registro anterior y posterior no coinciden, pero el código de asignatura del registro actual y el anterior es el mismo

Si el registro anterior y posterior no es el mismo, y tampoco el código de asignatura coincide, se sustituye por el registro siguiente

Si el registro anterior y posterior no coinciden y la columna de asignatura es NAN, se mantiene NAN

En este último caso no existe información adicional (asignatura) que permita determinar el código de profesor. Estos registros se eliminarán al final del proceso

In [195]:
encu_codigos25 = sustitucion(datos=encu_codigos24, columna=4, nulos=nulos_columnas, direccion=-1)

In [196]:
encu_codigos25.iloc[nulos_columnas[4],:]

Unnamed: 0,0,1,2,3,4
3,2,1,A,2,6
9,2,1,A,2,6
41,2,1,A,5,4
44,,,A,5,4
75,2,1,A,4,3
80,2,1,A,4,3
189,2,,,5,30
191,,,,2,30
226,2,1,C,5,4
263,2,2,A,6,4


Se procede a rellenar los registros con NAN's consecutivos. En este caso las reglas son las siguientes:

* Si el registro anterior y posterior es el mismo se sustituye por el **registro anterior**

Si no se cumple lo anterior, se hace un bucle que recorra ese tramo de la columna y realice lo siguiente:

* Si el código de asignatura en esa fila es igual al del último registro no NAN, se sustituye por el **registro anterior**

* Si el código de asignatura en esa fila es igual al del próximo registro no NAN, se sustituye por el **registro posterior**

* Si el código de asignatura en esa fila es NAN, se sustituye por un **NAN**

In [197]:
encu_codigos26 = sustitucion2(datos=encu_codigos25, columna=4, nulos=consec_col, nulos2=consec2_col, direccion=-1)

In [198]:
encu_codigos26.iloc[nulos_consec_columnas[4], :]

Unnamed: 0,0,1,2,3,4
30,2,1.0,A,1,4
31,2,1.0,A,1,4
256,2,2.0,A,6,4
257,2,,,6,4


In [199]:
indice_post4 = localiza(datos= encu_codigos26, columna= 4)

In [200]:
indice_post4 

[443,
 444,
 445,
 656,
 660,
 776,
 830,
 838,
 1033,
 1069,
 1074,
 1109,
 1140,
 1151,
 1265,
 1333,
 1371,
 1504,
 1626,
 1802,
 1919,
 2058,
 2183,
 2225,
 2426,
 2449,
 2487,
 2568,
 2569,
 2573,
 2602,
 2624,
 2787,
 2818,
 2836,
 2845,
 2904,
 3024,
 3123,
 3154,
 3259,
 3420,
 3504]

In [201]:
encu_codigos262 = sustitucion3(datos=encu_codigos26,columna=3,direccion=1,nulos=indice_post3)

In [202]:
encu_codigos262.iloc[indice_post3,:]

Unnamed: 0,0,1,2,3,4
29,2.0,1.0,A,1.0,4.0
189,2.0,,,2.0,30.0
290,2.0,2.0,A,8.0,1.0
656,2.0,,,,
776,1.0,1.0,A,,
856,1.0,1.0,C,205.0,205.0
1034,1.0,2.0,,208.0,207.0
1035,1.0,2.0,A,208.0,207.0
1042,1.0,2.0,C,208.0,208.0
1074,1.0,2.0,C,209.0,230.0


Ahora debemos repetir la misma operación sobre la columna de **asignaturas**, ya que esta usa como referencia la columna de profesores que hemos acabado de modificar

In [203]:
encu_codigos263 = sustitucion3(datos=encu_codigos262, columna=4, direccion=-1,nulos=indice_post4)

In [204]:
encu_codigos263.iloc[indice_post4,:]

Unnamed: 0,0,1,2,3,4
443,2.0,2.0,A,9.0,6.0
444,2.0,2.0,A,9.0,6.0
445,2.0,2.0,A,9.0,6.0
656,2.0,,,,
660,2.0,4.0,A,22.0,18.0
776,1.0,1.0,A,,
830,1.0,1.0,A,204.0,204.0
838,1.0,1.0,,204.0,204.0
1033,1.0,2.0,A,208.0,207.0
1069,1.0,2.0,C,209.0,210.0


#### Grupo

Empezamos con el caso de registros nulos no consecutivos

En esta columna solo se emplean los siguientes criterios para rellenar los NAN's:

Sustituimos el código de profesor en blanco por el anterior registro si se cumple lo siguiente:

* Si el registro anterior y posterior es el mismo, se sustituye por el registro anterior

* Si el registro anterior y posterior no coinciden, pero el código de asignatura del registro actual y el anterior es el mismo

Si el registro anterior y posterior no es el mismo, y tampoco el código de asignatura coincide, se sustituye por el registro siguiente

Si el registro anterior y posterior no coinciden y la columna de asignatura es NAN, se mantiene NAN

En este último caso no existe información adicional (asignatura) que permita determinar el código de profesor. Estos registros se eliminarán al final del proceso

In [205]:
encu_codigos27 = sustitucion(datos=encu_codigos263, columna=2, nulos=nulos_columnas, direccion=1)

In [206]:
encu_codigos27.iloc[nulos_columnas[2], :]

Unnamed: 0,0,1,2,3,4
6,2,1,A,2,6
16,,,A,2,6
40,2,,A,5,4
43,2,,A,5,4
90,2,,A,4,3
95,2,1,A,4,3
114,2,1,A,1,31
117,,,C,4,3
134,2,1,C,4,3
137,,,C,1,31


In [207]:
encu_codigos271 = sustitucion2(datos=encu_codigos27, columna=2, nulos=consec_col, nulos2=consec2_col, direccion=1)

In [208]:
encu_codigos271.iloc[nulos_consec_columnas[2], :]

Unnamed: 0,0,1,2,3,4
12,2,,A,2,6
13,2,,A,2,6
14,2,1,A,2,6
25,,,A,2,6
26,2,1,A,2,6
27,2,1,A,2,6
33,2,,A,5,4
34,,,A,5,4
45,,,A,5,4
46,2,,A,5,4


In [209]:
indice_post2 = localiza(datos=encu_codigos271,columna=2)

In [210]:
encu_codigos272 = sustitucion3(datos=encu_codigos271,columna=2,direccion=1, nulos=indice_post2)

In [211]:
encu_codigos272.iloc[indice_post2,:]

Unnamed: 0,0,1,2,3,4
867,,,C,205,205
1063,1.0,2.0,C,209,210
1559,4.0,1.0,B,402,403
2306,4.0,2.0,B,406,410
2491,,2.0,C,430,411
2511,4.0,2.0,C,430,448
2517,4.0,2.0,C,430,448
2558,4.0,2.0,D,408,409
3060,4.0,3.0,B,415,424


#### Curso

El criterio de sustituciones consecutivas y no consecutivas es igual a los casos anteriores. En caso de que los registros posterior e inferior difieran, se usa la columna *Division* para determinar el curso

In [212]:
encu_codigos28 = sustitucion(datos=encu_codigos272, columna=1, nulos=nulos_columnas, direccion=-1)

In [213]:
encu_codigos28.iloc[nulos_columnas[1],:]

Unnamed: 0,0,1,2,3,4
16,,1,A,2,6
23,2,1,A,2,6
25,,1,A,2,6
40,2,1,A,5,4
76,2,1,A,4,3
90,2,1,A,4,3
102,2,1,A,1,31
105,2,1,A,1,31
111,,1,A,1,31
117,,1,C,4,3


In [214]:
encu_codigos29 = sustitucion2(datos=encu_codigos28, columna=1, nulos=consec_col, nulos2=consec2_col, direccion=-1)

In [215]:
encu_codigos29.iloc[nulos_consec_columnas[1],:]

Unnamed: 0,0,1,2,3,4
12,2,1,A,2,6
13,2,1,A,2,6
33,2,1,A,5,4
34,,1,A,5,4
43,2,1,A,5,4
44,,1,A,5,4
45,,1,A,5,4
46,2,1,A,5,4
47,2,1,A,5,4
563,,4,A,21,17


In [216]:
indice_post1 = localiza(datos=encu_codigos29, columna=1)

In [217]:
encu_codigos291 = sustitucion3(datos=encu_codigos29, columna=1,nulos=indice_post1,direccion=-1)

In [218]:
encu_codigos291.iloc[indice_post1,:]

Unnamed: 0,0,1,2,3,4
440,2.0,2,A,9,6
2069,4.0,2,A,406,410
2128,4.0,2,A,410,414
2173,,2,A,409,413
2418,4.0,2,B,413,414
2442,4.0,2,B,413,414
2443,,2,B,413,414
2600,4.0,2,C,409,413
2677,4.0,2,D,409,413
2747,4.0,2,D,430,448


#### Division

El criterio de sustituciones consecutivas y no consecutivas es igual a los casos anteriores. En caso de que los registros posterior e inferior difieran, se usa la columna *Curso* para determinar el curso

In [219]:
encu_codigos30 = sustitucion(datos=encu_codigos291, columna=0, nulos=nulos_columnas, direccion=1)

In [220]:
encu_codigos30.iloc[nulos_columnas[0],:]

Unnamed: 0,0,1,2,3,4
16,2,1,A,2,6
25,2,1,A,2,6
34,2,1,A,5,4
38,2,1,A,5,4
99,2,1,A,4,3
111,2,1,A,1,31
117,2,1,C,4,3
137,2,1,C,1,31
156,2,1,C,3,2
159,2,1,C,3,2


In [221]:
encu_codigos31 = sustitucion2(datos=encu_codigos30, columna=0, nulos=consec_col, nulos2=consec2_col, direccion=1)

In [222]:
encu_codigos31.iloc[nulos_consec_columnas[0],:]

Unnamed: 0,0,1,2,3,4
44,2,1,A,5,4
45,2,1,A,5,4
140,2,1,C,1,31
141,2,1,C,1,31
489,2,3,A,12,8
490,2,3,A,12,8
938,1,1,C,201,201
939,1,1,C,201,201
1132,1,3,A,214,204
1133,1,3,A,214,204


In [223]:
indice_post0 = localiza(datos=encu_codigos31,columna=0)

In [224]:
encu_codigos32 = sustitucion3(datos=encu_codigos31,columna=0,nulos=indice_post0,direccion=1)

In [225]:
encu_codigos32.iloc[indice_post0,:]

Unnamed: 0,0,1,2,3,4
545,2,4,A,19,15
705,3,1,A,201,201


In [226]:
indice_f3 = localiza2(datos= encu_codigos32, columna=3)
indice_f3

([29, 354, 711, 1146, 1149, 1157, 1509, 1511, 1513, 1948, 3045],
 [32, 356, 713, 1149, 1152, 1159, 1511, 1513, 1515, 1950, 3048])

In [227]:
encu_codigos33 = sustitucion4(datos=encu_codigos32, columna=3, nulos=indice_f3, direccion=1)

In [228]:
indice_f2 = localiza2(datos= encu_codigos32, columna=2)
indice_f2

([825, 1933], [827, 1935])

In [229]:
encu_codigos34 = sustitucion4(datos=encu_codigos33, columna=2, nulos=indice_f2, direccion=1)

Con esto, **acabamos la limpieza del bloque de códigos**

Verificamos que ambos bloques tengan el mismo número de filas

In [230]:
encu_codigos34.shape

(3542, 5)

In [231]:
encu_4.shape

(3542, 10)

Convertimos a valores numéricos los registros del bloque de valoraciones

In [232]:
encu_5 = encu_4.apply(pd.to_numeric, axis = 1)

Unimos ambos bloques

In [233]:
encu_6 = encu_codigos34.join(encu_5)

In [234]:
encu_6.shape

(3542, 15)

Eliminamos los NAN's

Una vez hechas todas las substituciones posibles, los valores vacios hacen imposible determinar las asignatura o los valores de la encuesta

In [235]:
encu_def = encu_6.dropna()

In [236]:
encu_def.shape

(3532, 15)

In [237]:
dif_fil = encu_6.shape[0] - encu_def.shape[0]
print('Se han eliminado %d filas' %dif_fil)

Se han eliminado 10 filas


Colocamos nombres a las columnas

In [238]:
nombre_columnas = ['División', 'Curso', 'Grupo', 'Asignatura', 'Profesor', 'Item 1', 'Item 2', 'Item 3', 'Item 4', \
                  'Item 5', 'Item 6', 'Item 7', 'Item 8', 'Item 9', 'Item 10']

In [239]:
encu_def.columns = nombre_columnas

In [240]:
encu_def.head()

Unnamed: 0,División,Curso,Grupo,Asignatura,Profesor,Item 1,Item 2,Item 3,Item 4,Item 5,Item 6,Item 7,Item 8,Item 9,Item 10
0,2,1,A,2,6,5.0,6.0,4.0,8.0,7.0,3.0,5.0,7.0,7.0,9.0
1,2,1,A,2,6,7.0,7.0,6.0,6.0,6.0,8.0,7.0,7.0,8.0,8.0
2,2,1,A,2,6,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0,10.0
3,2,1,A,2,6,8.0,7.0,7.0,6.0,7.0,8.0,7.0,7.0,7.0,8.0
4,2,1,A,2,6,9.0,8.0,8.0,8.0,9.0,9.0,8.0,9.0,8.0,8.0


In [243]:
encu_def.to_excel('encuesta.xlsx', index=False)

In [242]:
t2 = time.time()

print("Tiempo de ejecución ", t2-t1)

Tiempo de ejecución  23.352457523345947
