# Limpieza de Datos

En la presente sección se procede a limpiar los datos brutos de la lectora óptica. Para poder visualizar mejor el trabajo a
continuación se presentan el formato *limpio* de los datos y se compara con una muestra de los datos brutos.

## Aspecto de los datos

Idealmente para un proceso adecuado, los datos deberían tener el siguiente aspecto

![](https://github.com/kamecon/TFM_Kschool/raw/master/data1.jpg)

En este caso, se podrían cargar los datos en un data frame o incluso una hoja de cálculo sin problemas. No obstante los datos
brutos suelen tener este aspecto

![](https://github.com/kamecon/TFM_Kschool/raw/master/data2.jpg)

La anterior es una muestra sesgada de los datos para precisamente mostrar los elementos a limpiar, pero no es una muestra
exhaustiva de los errores que nos podemos encontrar. Dichos errores son una combinación de errores humanos y de lectura de la lectora óptica. A continuación se enumeran algunos:

* Los usuarios dejan casillas en blanco
* Colocan mal alguno de los códigos
* No rellenan bien la casilla
* La lectora desplaza algunos campos
* La lectora interpreta mal algún código y lanza un símbolo en lugar del número
* etc 

Dado que parte de estos errores se corregían de forma manual, afortunadamente tenemos una amplia compresión de su orígen y
solución


## Pre-procesado

Antes de comenzar con el proceso de limpieza de datos que posteriormente sea parte del flujo de trabajo automático, es necesario manipular este archivo debido a características particulares que en principio no estarán presentes en futuras salidas de la lectora

Debido a que los impresos de las encuestas solo poseen opciones de grupos de la _A_ a la _C_, hay dos grupos que al no poseer estas siglas han dejado esa casilla en blanco y no es posible determinar su pertenencia.

En el proceso manual esto se resolvía al momento de pasar las encuestas por la lectora, dado que la muestra que se posee no ha sido pasada en el mismo orden que en el procesado original, no es posible determinar el grupo correspondiente a estos registros.

Se opta por elimnarlos de la muestra con esto se perderían 1pico registros.

El siguiente problema guarda relación con los postgrados. Al ser grupos únicos tienen en blanco la casilla correspondiente al grupo. No obstante son solo dos grupos y se encuentran identificados por el código de división y curso, así que en este caso solo habría que rellenar el grupo en dichos registros.

En las próximas encuestas esto dos problemas ya estarán resueltos, por lo que se podría proceder directamente a la limpieza

## Proceso

Se importan las librerías necesarias (de momento)

In [1]:
import pandas as pd

In [2]:
import numpy as np

Se cargan los datos

In [3]:
encu_1 = pd.read_csv('Data/encuesta.txt', sep=';', skiprows=1, header=None)
encu_1.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,2,1,A,0 2,0 6,5,6,4,8,7,3,5,7.0,7,9,,,,,
1,2,1,A,00,006,7,7,6,6,6,8,7,,8,8,,,,,
2,2,1,A,002,006,10,10,10,10,10,10,10,10.0,10,10,,,,,
3,2,1,A,002,,8,7,7,6,7,8,7,,7,8,,,,,
4,2,1,A,002,006,9,8,8,8,9,9,8,9.0,8,8,,,,,


In [4]:
encu_1.tail()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
3724,,,,250,223,8,8,7,8,8,8,9,7,8,8.0,,,,,
3725,,,,250,223,5,5,4,5,4,5,5,5,5,5.0,,,,,
3726,,,,250,223,4,4,4,5,4,7,5,3,3,4.0,,,,,
3727,1.0,,,250,223,5,4,4,5,6,6,7,9,8,7.0,,,,,
3728,,,,250,223,7,7,6,9,4,9,8,9,7,,,,,,


### Pre - procesado

Este es el trozo a elminar, se muestra tanto el registro anterior (1º fila) como el posterior (última fila) para mostrar que la columna 2 correspondiente al grupo se encuentra en blanco en todos los casos.

Nótese asimismo como la columna 3 correspondiente a la asignatura cambia en el 1º y último registro

In [5]:
encu_1.iloc[3394:3509, :]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
3394,4,4,C,422,431,09,10,09,08,09,10,10,10,10,10,,,,,
3395,4,4,,420,430,09,09,09,10,09,08,09,10,09,09,,,,,
3396,4,4,,420,430,09,09,09,09,07,06,09,09,09,09,,,,,
3397,4,,,420,430,10,10,10,10,10,09,10,09,09,10,,,,,
3398,4,4,,420,430,07,07,08,08,03,06,09,09,09,07,,,,,
3399,4,4,,420,430,07,08,07,07,06,06,08,07,08,08,,,,,
3400,4,4,,420,430,07,08,07,08,09,07,08,07,07,07,,,,,
3401,4,4,,,,08,07,10,10,09,10,10,10,08,09,,,,,
3402,4,,,419,446,08,04,06,08,07,09,08,,05,05,,,,,
3403,4,4,,419,446,08,09,07,09,05,08,09,05,09,08,,,,,


Primero procederemos a rellenar el grupo de los registros correspondientes a postgrados, ya que los tenemos localizados, son justamente los registros debajo del curso sin grupo hasta el final del data frame

Estos son los registros a partir de la fila 3508

In [6]:
encu_1.iloc[3508:,2] = 'A'

In [7]:
encu_1.iloc[3508:,:]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
3508,4,5,A,448,445,06,02,04,05,07,10,01,05,03,04,,,,,
3509,4,5,A,448,445,05,05,05,07,06,10,05,10,06,06,,,,,
3510,4,5,A,448,445,04,02,02,05,03,09,03,08,02,04,,,,,
3511,,5,A,448,445,06,06,06,06,07,09,03,09,05,05,,,,,
3512,4,5,A,448,445,06,06,06,07,05,09,07,08,06,06,,,,,
3513,4,5,A,448,445,05,01,02,01,01,10,01,05,01,02,,,,,
3514,4,5,A,448,445,10,06,05,05,06,10,05,10,05,06,,,,,
3515,4,5,A,448,445,06,02,01,01,01,09,01,09,01,02,,,,,
3516,4,5,A,448,445,09,06,06,06,07,10,05,08,06,06,,,,,
3517,4,5,A,448,445,06,06,06,05,08,08,,04,03,04,,,,,


Ahora se eliminan los registros

In [8]:
encu_11 = encu_1.drop(encu_1.index[3395:3508])

In [9]:
encu_1.shape, encu_11.shape, encu_1.shape[0] - encu_11.shape[0]

((3729, 20), (3616, 20), 113)

Se han eliminado 113 filas

### Empieza el procesado!!

Se Cogen los items de respuesta (columnas de la 5 hasta el final) y con una expresión regular se sustituyen los espacios en blanco por NaN y luego se eliminan las columnas donde todos los valores son NaN's

In [10]:
encu_2 = encu_11.iloc[:,5:].replace(r'\s+', np.nan, regex=True).dropna(axis=1, how='all')
encu_2.head()

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
0,5,6,4,8,7,3,5,7.0,7,9,,
1,7,7,6,6,6,8,7,,8,8,,
2,10,10,10,10,10,10,10,10.0,10,10,,
3,8,7,7,6,7,8,7,,7,8,,
4,9,8,8,8,9,9,8,9.0,8,8,,


Obtenemos la primera versión reducida del proceso de limpieza. Nótese que estamos trabajando solo con los items de respuesta.

En este paso se deben realizar varias operaciones:

* Solo hay 10 items de respuesta (columnas 5 a 9), pero una vez eliminadas las columnas con todos los valores iguales a NaN aun
  quedan 2 columnas adicionales. Esto es debido a que la lectora ha desplazado algunas calificaciones hacia la derecha. Asi que 
  lo primero que haremos es corregir ese desplazamiento.
  
* Existen items sin calificar, a estos se le imputa el valor mediano del resto de items

Comenzamos con la primera operación, corregir el desplazamiento realizado por la lectora.

Se localizan los NaN's de la penúltima columna

In [11]:
i_nulos_p = encu_2.iloc[:,-2].isnull()

Lo anterior nos da un vector booleano de unos y ceros, los unos (TRUE) nos dan los elementos nulos.

En la próxima celda localizamos los valores no nulos buscando (con where) aquellas celdas iguales a cero

In [12]:
i_nonulos_p = np.where(i_nulos_p == 0)[0].tolist()
i_nonulos_p

[87,
 175,
 204,
 206,
 246,
 392,
 548,
 990,
 1269,
 1493,
 2000,
 2193,
 2480,
 2484,
 2563,
 2753,
 3035,
 3125,
 3231,
 3259,
 3596]

Repetimos lo anterior con la última columna

In [13]:
i_nulos_u = encu_2.iloc[:,-1].isnull()
i_nonulos_u = np.where(i_nulos_u == 0)[0].tolist()
i_nonulos_u

[175, 183, 302]

Se construye una lista que contenga los no nulos de la última y penúltima fila, usando la unión (``|``)

In [14]:
i_nonulos_temp = set(i_nonulos_p) | set(i_nonulos_u)
i_nonulos = sorted(list(i_nonulos_temp))
i_nonulos

[87,
 175,
 183,
 204,
 206,
 246,
 302,
 392,
 548,
 990,
 1269,
 1493,
 2000,
 2193,
 2480,
 2484,
 2563,
 2753,
 3035,
 3125,
 3231,
 3259,
 3596]

Se comprueba que la longitud es distinta a los nonulos de las dos últimas columnas

In [15]:
len(i_nonulos_p), len(i_nonulos_u), len(i_nonulos)

(21, 3, 23)

In [16]:
encu_2.iloc[i_nonulos,:]

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
87,10,8,6,7,9,5,10.0,4.0,,7.0,7.0,
175,8,4,6,7,7,6,5.0,4.0,6.0,5.0,4.0,4.0
183,5,3,5,8,8,10,10.0,9.0,9.0,6.0,,6.0
204,7,6,5,7,8,10,8.0,6.0,,6.0,7.0,
206,4,6,4,6,8,9,7.0,,6.0,4.0,7.0,
246,7,3,5,8,4,8,7.0,8.0,5.0,,7.0,
302,10,9,10,7,10,10,10.0,7.0,5.0,,,8.0
392,7,6,8,6,7,1,,7.0,6.0,7.0,8.0,
548,9,6,9,8,8,7,9.0,5.0,,9.0,7.0,
990,8,10,10,8,6,4,8.0,8.0,10.0,9.0,9.0,


Se define una función que realiza lo siguiente:

- Verfifica si la fila tiene NaN's

- En caso afirmativo localiza los indices donde se encuentran los NaN's

- Si tiene un solo NaN (``if len (ii) < 2``) hace un loop que recorre la fila a partir de 
  dicho indice hasta la penultima posición, y sustituye cada *celda* por el valor de la siguiente
  
- En caso que tenga más de un NaN (``else``) hace lo mismo, pero sustituyendo la celda por el valor de
  de la celda + (número de nan's)

In [17]:
def llenar(x):
    if any(l == True for l in x[:-2].isnull()):
        ii = x[:-2].isnull()
        ii = np.where(ii == 1)[0].tolist()
        if len (ii) < 2:
            for indice in range(ii[0],(len(x)-1)):
                x.iloc[indice] = x.iloc[indice+1]
        else:
            for indice in range(ii[0],(len(x)-len(ii))):
                x.iloc[indice] = x.iloc[indice+len(ii)]
    return x

Se crea un data frame que contega solo los elementos arriba filtrados

In [18]:
prueba = encu_2.iloc[i_nonulos,:]
prueba

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
87,10,8,6,7,9,5,10.0,4.0,,7.0,7.0,
175,8,4,6,7,7,6,5.0,4.0,6.0,5.0,4.0,4.0
183,5,3,5,8,8,10,10.0,9.0,9.0,6.0,,6.0
204,7,6,5,7,8,10,8.0,6.0,,6.0,7.0,
206,4,6,4,6,8,9,7.0,,6.0,4.0,7.0,
246,7,3,5,8,4,8,7.0,8.0,5.0,,7.0,
302,10,9,10,7,10,10,10.0,7.0,5.0,,,8.0
392,7,6,8,6,7,1,,7.0,6.0,7.0,8.0,
548,9,6,9,8,8,7,9.0,5.0,,9.0,7.0,
990,8,10,10,8,6,4,8.0,8.0,10.0,9.0,9.0,


Se aplica la función anterior a ``prueba``

In [19]:
prueba.apply(llenar, axis =1)

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
87,10,8,6,7,9,5,10,4,7,7.0,,
175,8,4,6,7,7,6,5,4,6,5.0,4.0,4.0
183,5,3,5,8,8,10,10,9,9,6.0,,6.0
204,7,6,5,7,8,10,8,6,6,7.0,,
206,4,6,4,6,8,9,7,6,4,7.0,,
246,7,3,5,8,4,8,7,8,5,7.0,,
302,10,9,10,7,10,10,10,7,5,,8.0,8.0
392,7,6,8,6,7,1,7,6,7,8.0,,
548,9,6,9,8,8,7,9,5,9,7.0,,
990,8,10,10,8,6,4,8,8,10,9.0,9.0,


In [20]:
prueba

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
87,10,8,6,7,9,5,10,4,7,7.0,,
175,8,4,6,7,7,6,5,4,6,5.0,4.0,4.0
183,5,3,5,8,8,10,10,9,9,6.0,,6.0
204,7,6,5,7,8,10,8,6,6,7.0,,
206,4,6,4,6,8,9,7,6,4,7.0,,
246,7,3,5,8,4,8,7,8,5,7.0,,
302,10,9,10,7,10,10,10,7,5,,8.0,8.0
392,7,6,8,6,7,1,7,6,7,8.0,,
548,9,6,9,8,8,7,9,5,9,7.0,,
990,8,10,10,8,6,4,8,8,10,9.0,9.0,


Sustituimos en el data frame original los valores modificados en el proceso anterior

In [21]:
encu_2.iloc[i_nonulos_p,:] = prueba
encu_2

Unnamed: 0,5,6,7,8,9,10,11,12,13,14,15,16
0,05,06,04,08,07,03,05,07,07,09,,
1,07,07,06,06,06,08,07,,08,08,,
2,10,10,10,10,10,10,10,10,10,10,,
3,08,07,07,06,07,08,07,,07,08,,
4,09,08,08,08,09,09,08,09,08,08,,
5,07,08,08,06,09,09,05,06,07,09,,
6,06,07,10,10,08,09,10,10,10,09,,
7,08,09,07,09,04,07,09,10,10,09,,
8,07,02,07,08,08,06,09,08,02,07,,
9,09,08,08,07,08,07,09,08,09,09,,


Eliminamos las dos últimas columnas

In [22]:
encu_2.drop(encu_2.columns[-2:],inplace=True,axis=1)

In [23]:
encu_2

Unnamed: 0,5,6,7,8,9,10,11,12,13,14
0,05,06,04,08,07,03,05,07,07,09
1,07,07,06,06,06,08,07,,08,08
2,10,10,10,10,10,10,10,10,10,10
3,08,07,07,06,07,08,07,,07,08
4,09,08,08,08,09,09,08,09,08,08
5,07,08,08,06,09,09,05,06,07,09
6,06,07,10,10,08,09,10,10,10,09
7,08,09,07,09,04,07,09,10,10,09
8,07,02,07,08,08,06,09,08,02,07
9,09,08,08,07,08,07,09,08,09,09


Ahora procedemos a la siguiente operación, imputar los items vacios por el valor mediano del resto de las valoraciones (fila)

Primero sustituimos los '??' por NAN

In [24]:
encu_3 = encu_2.replace(['??'], np.nan)

In [25]:
encu_3

Unnamed: 0,5,6,7,8,9,10,11,12,13,14
0,05,06,04,08,07,03,05,07,07,09
1,07,07,06,06,06,08,07,,08,08
2,10,10,10,10,10,10,10,10,10,10
3,08,07,07,06,07,08,07,,07,08
4,09,08,08,08,09,09,08,09,08,08
5,07,08,08,06,09,09,05,06,07,09
6,06,07,10,10,08,09,10,10,10,09
7,08,09,07,09,04,07,09,10,10,09
8,07,02,07,08,08,06,09,08,02,07
9,09,08,08,07,08,07,09,08,09,09


Se define una función que calcula la mediana de cada fila y porteriormente sustituye los nan's por dicho valor

In [26]:
def reemplazo_mediana(x):
    mediana = x.median()
    return x.fillna(mediana)

Se aplica la función anterior a las filas del data frame

In [27]:
encu_3.apply(reemplazo_mediana, axis = 1)

Unnamed: 0,5,6,7,8,9,10,11,12,13,14
0,05,06,04,08,07,03,05,07,07,09
1,07,07,06,06,06,08,07,7,08,08
2,10,10,10,10,10,10,10,10,10,10
3,08,07,07,06,07,08,07,7,07,08
4,09,08,08,08,09,09,08,09,08,08
5,07,08,08,06,09,09,05,06,07,09
6,06,07,10,10,08,09,10,10,10,09
7,08,09,07,09,04,07,09,10,10,09
8,07,02,07,08,08,06,09,08,02,07
9,09,08,08,07,08,07,09,08,09,09


**Ya tenemos los valores correspondientes a los items de valoración *limpios* **

### Bloque de Códigos (división ,curso, etc)

Creamos un data frame con los códigos de división, grupo, etc. a partir del data frame pre-procesado

In [28]:
encu_codigos = encu_11.iloc[:,:5]
encu_codigos.head()

Unnamed: 0,0,1,2,3,4
0,2,1,A,0 2,0 6
1,2,1,A,00,006
2,2,1,A,002,006
3,2,1,A,002,
4,2,1,A,002,006


Sustituir solo los espacios en blanco al final

Esto se hace porque hay códigos de 3 cifras (``006``) que en ocasiones tienen la cifra de medio en blanco (``0 6``), si no colocamos la condición de espacio al final, también convierte en nan los casos anteriores.

De este modo solo sustituye las *celdas* en blanco

In [29]:
encu_codigos2 = encu_codigos.replace(r'\s$', np.nan, regex=True)
encu_codigos2

Unnamed: 0,0,1,2,3,4
0,2,1,A,0 2,0 6
1,2,1,A,,006
2,2,1,A,002,006
3,2,1,A,002,
4,2,1,A,002,006
5,2,1,A,002,006
6,2,1,,002,006
7,2,1,A,002,006
8,2,1,A,002,006
9,2,1,A,,


Reemplazamos los signos de interrogación por NAN's

In [30]:
encu_codigos21 = encu_codigos2.replace(r'\?', np.nan, regex=True)
encu_codigos21

Unnamed: 0,0,1,2,3,4
0,2,1,A,0 2,0 6
1,2,1,A,,006
2,2,1,A,002,006
3,2,1,A,002,
4,2,1,A,002,006
5,2,1,A,002,006
6,2,1,,002,006
7,2,1,A,002,006
8,2,1,A,002,006
9,2,1,A,,


Reemplazamos los ceros al principio por espacios en blanco

In [31]:
encu_codigos22 = encu_codigos21.replace(r'^0+', ' ', regex=True)
encu_codigos22

Unnamed: 0,0,1,2,3,4
0,2,1,A,2,6
1,2,1,A,,6
2,2,1,A,2,6
3,2,1,A,2,
4,2,1,A,2,6
5,2,1,A,2,6
6,2,1,,2,6
7,2,1,A,2,6
8,2,1,A,2,6
9,2,1,A,,


Comenzamos operando con la penultima columna (asignatura)

Localizamos los índices que contienen NAN's y lo transformamos en una lista. Emplearemos esta lista para iterar sobre el data frame y de ese modo rellenar solo los espacios de esos registros sin necesidad de buscar sobre toda la columna

In [32]:
cod_nul_asig = encu_codigos22.iloc[:,-2].isnull()
ind_nul_asig = np.where(cod_nul_asig == 1)[0].tolist()
ind_nul_asig

[1,
 9,
 44,
 76,
 92,
 134,
 170,
 191,
 257,
 386,
 426,
 458,
 462,
 479,
 493,
 494,
 502,
 507,
 511,
 537,
 602,
 653,
 656,
 692,
 697,
 706,
 718,
 776,
 777,
 800,
 833,
 841,
 876,
 886,
 889,
 902,
 930,
 934,
 966,
 968,
 980,
 997,
 998,
 1022,
 1104,
 1112,
 1149,
 1186,
 1205,
 1242,
 1253,
 1261,
 1265,
 1272,
 1289,
 1296,
 1299,
 1324,
 1333,
 1371,
 1417,
 1437,
 1469,
 1708,
 1758,
 1763,
 1777,
 1787,
 1796,
 1802,
 1803,
 1812,
 1823,
 1827,
 1861,
 1872,
 1884,
 1919,
 1960,
 2049,
 2121,
 2207,
 2217,
 2233,
 2238,
 2251,
 2255,
 2292,
 2298,
 2312,
 2320,
 2334,
 2345,
 2359,
 2419,
 2444,
 2462,
 2491,
 2505,
 2547,
 2553,
 2554,
 2560,
 2569,
 2643,
 2667,
 2698,
 2710,
 2758,
 2873,
 2925,
 2940,
 2963,
 2966,
 2995,
 3001,
 3021,
 3024,
 3028,
 3029,
 3033,
 3041,
 3047,
 3057,
 3060,
 3082,
 3085,
 3087,
 3125,
 3133,
 3157,
 3186,
 3203,
 3205,
 3223,
 3232,
 3321,
 3328,
 3333,
 3336,
 3356,
 3366,
 3368,
 3414,
 3418,
 3442,
 3444,
 3445,
 3470,
 3477,


Determinamos que resgistros poseen NAN consecutivos, ya que para esos hay que realizar un tratamiento distinto.

Empezaremos por *rellenar* los registros que no posean NAN consecutivos


In [33]:
lista_consec_asig = []
for i in range((len(ind_nul_asig)-1)):
    if ind_nul_asig[i] == ind_nul_asig[i+1]-1:
        lista_consec_asig.append(ind_nul_asig[i])
        lista_consec_asig.append(ind_nul_asig[i+1])
lista_consec_asig

[493, 494, 776, 777, 997, 998, 1802, 1803, 2553, 2554, 3028, 3029, 3444, 3445]

Puede darse el caso que existan más de dos registros NAN consecutivos, en este caso habría números repetidos debido a como se ha hecho el bucle.

Para evitar esto nos quedamos con los valores únicos

In [34]:
unique_asig = np.unique(lista_consec_asig)
unique_asig = unique_asig.tolist()
unique_asig

[493, 494, 776, 777, 997, 998, 1802, 1803, 2553, 2554, 3028, 3029, 3444, 3445]

Sobre los indices **no consecutivos** realizamos el primer proceso de sustitución

In [35]:
lista_noconsec_asig = [x for x in ind_nul_asig if x not in unique_asig]
lista_noconsec_asig

[1,
 9,
 44,
 76,
 92,
 134,
 170,
 191,
 257,
 386,
 426,
 458,
 462,
 479,
 502,
 507,
 511,
 537,
 602,
 653,
 656,
 692,
 697,
 706,
 718,
 800,
 833,
 841,
 876,
 886,
 889,
 902,
 930,
 934,
 966,
 968,
 980,
 1022,
 1104,
 1112,
 1149,
 1186,
 1205,
 1242,
 1253,
 1261,
 1265,
 1272,
 1289,
 1296,
 1299,
 1324,
 1333,
 1371,
 1417,
 1437,
 1469,
 1708,
 1758,
 1763,
 1777,
 1787,
 1796,
 1812,
 1823,
 1827,
 1861,
 1872,
 1884,
 1919,
 1960,
 2049,
 2121,
 2207,
 2217,
 2233,
 2238,
 2251,
 2255,
 2292,
 2298,
 2312,
 2320,
 2334,
 2345,
 2359,
 2419,
 2444,
 2462,
 2491,
 2505,
 2547,
 2560,
 2569,
 2643,
 2667,
 2698,
 2710,
 2758,
 2873,
 2925,
 2940,
 2963,
 2966,
 2995,
 3001,
 3021,
 3024,
 3033,
 3041,
 3047,
 3057,
 3060,
 3082,
 3085,
 3087,
 3125,
 3133,
 3157,
 3186,
 3203,
 3205,
 3223,
 3232,
 3321,
 3328,
 3333,
 3336,
 3356,
 3366,
 3368,
 3414,
 3418,
 3442,
 3470,
 3477,
 3554,
 3577,
 3599,
 3603]

Se verifica que está bien hecha la operación anterior mirando las diferencias entre las dos listas y comprobando si es igual a la dimensión de la nueva lista

In [36]:
len(ind_nul_asig), len(unique_asig), len(ind_nul_asig) - len(unique_asig)

(154, 14, 140)

In [37]:
len(lista_noconsec_asig)

140

Hacemos una copia del bloque de códigos

In [38]:
encu_codigos23 = encu_codigos22.copy()

En el siguiente bucle sustituimos la asignatura en blanco por el anterior registro si se cumple lo siguiente:

* El registro anterior y posterior es el mismo
* El registro anterior y posterior no es el mismo, pero el código de profesor del registro actual y el anterior es el mismo

Si el registro anterior y posterior no es el mismo, y tampoco el código de profesor coincide, se sustituye por el registro siguiente

En caso que no coinciden el registro anterior y posterior y el código de profesor sea un NAN también, no se rellena el registro.
En este caso habría que hacer una comprobación adicional con el año y grupo en un paso posterior

In [39]:
file = open('pruebaText.txt','w')
file.write('******************************************************************************** \n')
file.write('Condición 1: El registro anterior y posterior es el mismo \n')
file.write('Condición 2: El registro anterior y posterior no es el mismo, pero el código de profesor del registro actual y el anterior es el mismo \n')
file.write('Condición 3: el registro anterior y posterior no es el mismo, y tampoco el código de profesor coincide \n')
file.write('******************************************************************************** \n')
for i in lista_noconsec_asig:
    if encu_codigos23.iloc[i-1,-2] == encu_codigos23.iloc[i+1,-2]:
        file.write('Sustituyendo fila %d por el valor anterior condicion 1 \n' %i)
        encu_codigos23.iloc[i,-2] = encu_codigos23.iloc[i-1,-2]
    else:
        if encu_codigos23.iloc[i-1,-1] == encu_codigos23.iloc[i,-1]:
            file.write('Sustituyendo fila %d por el valor anterior, condicion 2 \n' %i)
            encu_codigos23.iloc[i,-2] = encu_codigos23.iloc[i-1,-2]
        else:
            if pd.isnull(encu_codigos23.iloc[i,-1]) == True:
                file.write('Sustituyendo fila %d por Nan \n' %i)
                encu_codigos23.iloc[i,-2] = pd.np.nan
            else:
                file.write('Sustituyendo fila %d por el valor posterior, condicion 3 \n' %i)
                encu_codigos23.iloc[i,-2] = encu_codigos23.iloc[i+1,-2]
file.close() 

Se crea un archivo de texto (pruebaText.txt) para llevar un registro de los cambios realizados en este paso

In [40]:
encu_codigos23

Unnamed: 0,0,1,2,3,4
0,2,1,A,2,6
1,2,1,A,2,6
2,2,1,A,2,6
3,2,1,A,2,
4,2,1,A,2,6
5,2,1,A,2,6
6,2,1,,2,6
7,2,1,A,2,6
8,2,1,A,2,6
9,2,1,A,2,


Se procede a rellenar los registros con NAN's consecutivos. En este caso las reglas son las siguientes:

* Si el registro anterior y posterior es el mismo se sustituye por el **registro anterior**

Si no se cumple lo anterior, se hace un bucle que recorra ese tramo de la columna y realice lo siguiente:

* Si el código de profesor en esa celda es igual al del último registro no NAN, se sustituye por el **registro anterior**

* Si el código de profesor en esa celda es igual al del próximo registro no NAN, se sustituye por el **registro posterior**

* Si el código de profesor en esa celda es NAN, se sustituye por un **NAN**

In [41]:
encu_codigos24 = encu_codigos23.copy()

In [42]:
for i in lista_consec_asig[::2]:
    if encu_codigos24.iloc[i-1,-2] == encu_codigos24.iloc[(i+1)+1,-2]:
        encu_codigos24.iloc[i:(i+1)+1,-2] = encu_codigos24.iloc[i-1,-2]
    else:
        for l in range(i,((i+1)+1)):
            if encu_codigos24.iloc[l,-1] == encu_codigos24.iloc[i-1,-1]:
                encu_codigos24.iloc[l,-2] = encu_codigos24.iloc[i-1,-2]
            elif pd.isnull(encu_codigos24.iloc[l,-1]) == True:
                encu_codigos24.iloc[l,-2] = pd.np.nan
            elif encu_codigos24.iloc[l,-1] == encu_codigos24.iloc[i+1,-1]:
                encu_codigos24.iloc[l,-2] = encu_codigos24.iloc[(i+1)+1,-2]

In [43]:
encu_codigos24.iloc[lista_consec_asig,:]

Unnamed: 0,0,1,2,3,4
493,2.0,3.0,A,16.0,13.0
494,2.0,3.0,A,16.0,13.0
776,1.0,1.0,A,,
777,1.0,1.0,A,205.0,205.0
997,1.0,2.0,A,209.0,209.0
998,1.0,,,209.0,
1802,4.0,1.0,C,,
1803,4.0,1.0,C,405.0,412.0
2553,4.0,2.0,,408.0,409.0
2554,,2.0,D,408.0,


Repetimos el procedimiento anterior de localización de columnas nulas consecutivas y no consecutivas para el resto de las columnas.

En el código final se hará esto desde el principio, en este notebook se ha explicado paso a paso con anterioridad para explicar la lógica del procedimientp

In [44]:
nulos_columnas = []
nulos_consec_columnas = []
for columna in range(len(encu_codigos22.columns)):
    cod_nul_asig = encu_codigos22.iloc[:, columna].isnull()
    ind_nul_asig = np.where(cod_nul_asig == 1)[0].tolist()
    lista_consec_asig = []
    for i in range((len(ind_nul_asig)-1)):
        if ind_nul_asig[i] == ind_nul_asig[i+1]-1:
            lista_consec_asig.append(ind_nul_asig[i])
            lista_consec_asig.append(ind_nul_asig[i+1])
            unique_asig = np.unique(lista_consec_asig)
            unique_asig = unique_asig.tolist()
            lista_noconsec_asig = [x for x in ind_nul_asig if x not in unique_asig]
    nulos_columnas.append(lista_noconsec_asig)
    nulos_consec_columnas.append(unique_asig)  

Observamos el número de registros nulos (consecutivos y no) de cada columna

In [45]:
for columna in range(len(encu_codigos24.columns)):
    num_nulos = len(nulos_columnas[columna])
    print('En la columna %d hay %d registros nulos no consecutvos' % (columna, num_nulos))

En la columna 0 hay 252 registros nulos no consecutvos
En la columna 1 hay 170 registros nulos no consecutvos
En la columna 2 hay 162 registros nulos no consecutvos
En la columna 3 hay 140 registros nulos no consecutvos
En la columna 4 hay 119 registros nulos no consecutvos


In [46]:
for columna in range(len(encu_codigos24.columns)):
    num_nulos = len(nulos_consec_columnas[columna])
    print('En la columna %d hay %d registros nulos consecutvos' % (columna, num_nulos))

En la columna 0 hay 157 registros nulos consecutvos
En la columna 1 hay 160 registros nulos consecutvos
En la columna 2 hay 805 registros nulos consecutvos
En la columna 3 hay 14 registros nulos consecutvos
En la columna 4 hay 2 registros nulos consecutvos


Verficamos que ambas cifras corresponden al total de registros nulos

In [47]:
nulos_columnas = []
for columna in range(len(encu_codigos24.columns)):
    cod_nul_asig = encu_codigos22.iloc[:, columna].isnull()
    ind_nul_asig = np.where(cod_nul_asig == 1)[0].tolist()
    nulos_columnas.append(ind_nul_asig)
for columna in range(len(encu_codigos24.columns)):
    num_nulos = len(nulos_columnas[columna])
    print('En la columna %d hay %d registros nulos' % (columna, num_nulos))

En la columna 0 hay 409 registros nulos
En la columna 1 hay 330 registros nulos
En la columna 2 hay 967 registros nulos
En la columna 3 hay 154 registros nulos
En la columna 4 hay 121 registros nulos


Continuamos operando con la última columna (profesores). Empezamos con el caso de registros nulos no consecutivos

En esta columna solo se emplean los siguientes criterios para rellenar los NAN's:

Sustituimos el código de profesor en blanco por el anterior registro si se cumple lo siguiente:

* Si el registro anterior y posterior es el mismo, se sustituye por el registro anterior

* Si el registro anterior y posterior no coinciden, pero el código de asignatura del registro actual y el anterior es el mismo

Si el registro anterior y posterior no es el mismo, y tampoco el código de asignatura coincide, se sustituye por el registro siguiente

Si el registro anterior y posterior no coinciden y la columna de asignatura es NAN, se mantiene NAN

En este último caso no existe información adicional (asignatura) que permita determinar el código de profesor. Estos registros se eliminarán al final del proceso

Hacemos una copia del data frame

In [48]:
encu_codigos25 = encu_codigos24.copy()

In [49]:
file = open('Col_Prof.txt','w')
file.write('******************************************************************************** \n')
file.write('Condición 1: El registro anterior y posterior es el mismo \n')
file.write('Condición 2: El registro anterior y posterior no es el mismo, pero la asignatura anterior y actual es la misma \n')
file.write('Condición 3: El registro anterior y posterior es el mismo, y tampoco el código de profesor coincide \n')
file.write('Condición 4: el registro anterior y posterior no es el mismo, y el código de asignatura es NAN \n')
file.write('******************************************************************************** \n')
for i in nulos_columnas[4]:
    if encu_codigos25.iloc[i-1,-1] == encu_codigos25.iloc[i+1,-1]:
        file.write('Sustituyendo fila %d por el valor anterior condicion 1 \n' %i)
        encu_codigos25.iloc[i,-1] = encu_codigos25.iloc[i-1,-1]
    else:
        if encu_codigos25.iloc[i-1,-2] == encu_codigos23.iloc[i,-2]:
            file.write('Sustituyendo fila %d por el valor anterior, condicion 2 \n' %i)
            encu_codigos25.iloc[i,-1] = encu_codigos25.iloc[i-1,-1]
        else:
            if pd.isnull(encu_codigos25.iloc[i,-2]) == True:
                file.write('Sustituyendo fila %d por Nan (condición 4) \n' %i)
                encu_codigos25.iloc[i,-1] = pd.np.nan
            else:
                file.write('Sustituyendo fila %d por el valor posterior, condicion 3 \n' %i)
                encu_codigos25.iloc[i,-1] = encu_codigos25.iloc[i+1,-1]
file.close()

Se procede a rellenar los registros con NAN's consecutivos. En este caso las reglas son las siguientes:

* Si el registro anterior y posterior es el mismo se sustituye por el **registro anterior**

Si no se cumple lo anterior, se hace un bucle que recorra ese tramo de la columna y realice lo siguiente:

* Si el código de asignatura en esa fila es igual al del último registro no NAN, se sustituye por el **registro anterior**

* Si el código de asignatura en esa fila es igual al del próximo registro no NAN, se sustituye por el **registro posterior**

* Si el código de asignatura en esa fila es NAN, se sustituye por un **NAN**

Se copia el data frame

In [50]:
encu_codigos26 = encu_codigos25.copy()

In [51]:
for i in nulos_consec_columnas[4][::2]:
    if encu_codigos26.iloc[i-1,-2] == encu_codigos26.iloc[(i+1)+1,-2]:
        encu_codigos26.iloc[i:(i+1)+1,-2] = encu_codigos26.iloc[i-1,-2]
    else:
        for l in range(i,((i+1)+1)):
            if encu_codigos26.iloc[l,-1] == encu_codigos26.iloc[i-1,-1]:
                encu_codigos26.iloc[l,-2] = encu_codigos26.iloc[i-1,-2]
            elif pd.isnull(encu_codigos26.iloc[l,-1]) == True:
                encu_codigos26.iloc[l,-2] = pd.np.nan
            elif encu_codigos26.iloc[l,-1] == encu_codigos26.iloc[i+1,-1]:
                encu_codigos26.iloc[l,-2] = encu_codigos26.iloc[(i+1)+1,-2]

In [52]:
encu_codigos26.iloc[nulos_consec_columnas[4], :]

Unnamed: 0,0,1,2,3,4
256,2,2.0,A,6,4
257,2,,,6,4
