# Limpieza y preparación de los datos

30 may 2023

**Este código no se puede ejecutar porque los datos originales no se comparten en este
repositorio público, para no revelar los números de documento de los estudiantes.**

Resultado guardado en:  ``../datos/dataset_01.csv``

En ``../datos/codigos_carreras.csv`` está la referencia del nombre de carrera para cada código.

Limpieza y correcciones
1. Eliminados Nombre y Apellido.
1. Se corrigieron los nombres de Facultades y Carreras. (Caracteres extraños, diferentes denominaciones para una misma carrera, etc)
1. Códigos de carrera: se completaron los registros con valores faltantes, usando los códigos de otros registros con la misma carrera. En algunos casos se buscó el código informado en la página del CBC.
1. Códigos de carrera 99 y 999 no tienen ninguna carrera asociada. En los casos de alumnos recursantes con algún registro con código 99 o 999, se modificó este valor con el código de alguna de las carreras en las que estaba anotado.
1. Se eliminaron los registros con códigos de carreras inexistentes o sin código ni información sobre carrera o facultad (~80 registros)
1. Calificaciones: se corrigieron valores extraños
1. Remamentes: los estudiantes en condición de rendir final tienen 3 oportunidades consecutivas. Se tiene una tabla con las notas de los remanentes (2da y 3ra oportunidad) para cada examen final. Se incorporó esta información en las columnas rem1 y rem2.
1. Remanentes: la nota 99 se usa para ausentes, pero también hay valores NaN. Se cambiaron los 99 por NaN.
1. Corregidas Comisiones NaN.
1. Corregidas Aulas NaN.

    
    
TODO:
1. Alrededor de un 12% de los registros tiene un código de carrera (99 o 999) que no está asociado a ninguna carrera ni facultad. Luego de un análisis exploratorio se decidirá si imputar o no esos valores y cómo hacerlo.


In [53]:
import pandas as pd
import numpy as np

In [54]:
df = pd.read_csv("../datos/dataset_ori.csv")
df = df.drop(['Apellido', 'NOMBRE'], axis=1)
# Hay una observación repetida tres veces, elimino dos ocurrencias:
df = df.drop(20782)
df = df.drop(20783)
print("Cantidad de registros:",len(df))

Cantidad de registros: 233695


In [55]:
################################################
#
# Limpieza de los nombres de las facultades.
#
################################################

facultades = df['facultad'].unique()
print(facultades)

[nan 'CS EXACTAS Y NATURALES' 'CIENCIAS ECONOMICAS' 'INGENIERIA'
 'ARQUITECTURA Y URBANISMO' 'FARMACIA Y BIOQUIMICA' 'CIENCIAS SOCIALES'
 'DERECHO' 'AGRONOMIA' 'FILOSOFIA Y LETRAS' 'MEDICINA'
 'CIENCIAS VETERINARIAS' 'Medicina' 'PSICOLOGIA' 'ODONTOLOGIA'
 'no definida' 'inscripci�n diferida']


In [56]:
df.loc[df["facultad"] == "Medicina", "facultad"] = "MEDICINA"
df.loc[df["facultad"] == 'no definida', "facultad"] = np.nan
df.loc[df["facultad"] == facultades[-1], "facultad"] = np.nan
print(df['facultad'].unique())

[nan 'CS EXACTAS Y NATURALES' 'CIENCIAS ECONOMICAS' 'INGENIERIA'
 'ARQUITECTURA Y URBANISMO' 'FARMACIA Y BIOQUIMICA' 'CIENCIAS SOCIALES'
 'DERECHO' 'AGRONOMIA' 'FILOSOFIA Y LETRAS' 'MEDICINA'
 'CIENCIAS VETERINARIAS' 'PSICOLOGIA' 'ODONTOLOGIA']


In [57]:
################################################
#
# Limpieza de los nombres de carreras.
#
################################################

carreras = df['Carrera'].unique()
print(carreras)

['INGENIERIA CIVIL' 'CIENCIAS BIOLOGICAS' 'INGENIERIA MECANICA'
 'INGENIERIA ELECTRONICA' 'MEDICINA' 'CIENCIAS FISICAS'
 'INGENIERIA INFORMATICA' 'ADMINISTRACION' 'CONTADOR PUBLICO'
 'INGENIERIA NAVAL Y MECAN.' 'INGENIERIA INDUSTRIAL'
 'CIENCIAS MATEMATICAS' 'INGENIERIA QUIMICA' 'ANALISTA DE SISTEMAS'
 'ARQUITECTURA' 'INGENIERIA ELECTRICISTA' 'CIENCIAS GEOLOGICAS'
 'BIOQUIMICA' 'LETRAS' 'PROF.E.M.S EN BIOLOGIA' 'NUTRICIONISTA DIETISTA'
 'CS DE LA COMPUTACION' 'CIENCIAS QUIMICAS' 'INGENIERIA EN AGRIMENSURA'
 'LIC. EN OCEANOGRAFIA' 'CS DE LA ATMOSFERA' 'FLORICULTURA'
 'CS DE LA COMUNICACION' 'OBSTETRICIA' 'ECONOMIA' 'FILOSOFIA'
 'PALEONTOLOGIA' 'FARMACIA' 'PROF.E.M.S.EN MATEMATICA' 'CIENCIA POLITICA'
 'PSICOLOGIA' 'HISTORIA' 'ABOGACIA' 'DISE�O GRAFICO' 'AGRONOMIA'
 'OPTICO TECNICO' 'VETERINARIA' 'B.U.EN CS DE LA ATMOSFERA'
 'DIS. DE IND. Y TEXTIL' 'PROF.E.M.S.EN COMPUTACION' 'KINESIOLOGIA'
 'FONOAUDIOLOGIA' 'ODONTOLOGIA' 'LIC.EN CS. AMBIENTALES'
 'TECNICO RADIOLOGO UNIVERS' 'ENFERMERIA' 

In [58]:
# Para los registros con símbolos extraños uso el contenido del array carreras
# En los demás busco por string para que quede más claro el reemplazo.

df.loc[df["Carrera"] == 'INGENIERIA NAVAL Y MECAN.', "Carrera"] = 'INGENIERIA NAVAL'
df.loc[df["Carrera"] == 'PROF.E.M.S EN BIOLOGIA', "Carrera"] = 'PROF. E. M. y S. EN BIOLOGIA'
df.loc[df["Carrera"] == 'CS DE LA COMPUTACION', "Carrera"] = 'CIENCIAS DE LA COMPUTACION'
df.loc[df["Carrera"] == 'LIC. EN OCEANOGRAFIA', "Carrera"] = 'OCEANOGRAFIA'
df.loc[df["Carrera"] == 'CS DE LA ATMOSFERA', "Carrera"] = 'CIENCIAS DE LA ATMOSFERA'
df.loc[df["Carrera"] == 'CS DE LA COMUNICACION', "Carrera"] = 'CIENCIAS DE LA COMUNICACION'
df.loc[df["Carrera"] == 'PROF.E.M.S.EN MATEMATICA', "Carrera"] = 'PROF. E. M. y S. EN MATEMATICA'
df.loc[df["Carrera"] == carreras[38], "Carrera"] = "DISEÑO GRAFICO"
df.loc[df["Carrera"] == 'B.U.EN CS DE LA ATMOSFERA', "Carrera"] = 'CIENCIAS DE LA ATMOSFERA'
df.loc[df["Carrera"] == 'PROF.E.M.S.EN COMPUTACION', "Carrera"] = 'PROF. E. M. y S. EN COMPUTACION'
df.loc[df["Carrera"] == 'LIC.EN CS. AMBIENTALES', "Carrera"] = 'CIENCIAS AMBIENTALES'
df.loc[df["Carrera"] == carreras[54], "Carrera"] = "DISEÑO INDUSTRIAL"
df.loc[df["Carrera"] == 'PROF.E.M.S.EN FISICA', "Carrera"] = 'PROF. E. M. y S. EN FISICA'
df.loc[df["Carrera"] == 'PROF.E.M.S.EN QUIMICA', "Carrera"] = 'PROF. E. M. y S. EN QUIMICA'
df.loc[df["Carrera"] == 'ACTURIO EN ECONOMIA', "Carrera"] = 'ACTUARIO'
df.loc[df["Carrera"] == 'PROF.E.M.S.EN GEOLOGIA', "Carrera"] = 'PROF. E. M. y S. EN GEOLOGIA'
df.loc[df["Carrera"] == 'sin definir', "Carrera"] = np.nan
df.loc[df["Carrera"] == 'Medicina', "Carrera"] = 'MEDICINA'
df.loc[df["Carrera"] == carreras[76], "Carrera"] = 'PROF. E. M. y S. EN MATEMATICA'
df.loc[df["Carrera"] == carreras[77], "Carrera"] = 'CIENCIAS AMBIENTALES'
df.loc[df["Carrera"] == 'Musicoterapia', "Carrera"] = 'MUSICOTERAPIA'
df.loc[df["Carrera"] == carreras[79], "Carrera"] = 'TECNICO RADIOLOGO UNIVERS'
df.loc[df["Carrera"] == 'TEC.PROD.VEGETAL ORGANICA', "Carrera"] = 'PROD.VEGETAL ORGANICA'
df.loc[df["Carrera"] == carreras[81], "Carrera"] = 'PROF. E. M. y S. EN BIOLOGIA'
df.loc[df["Carrera"] == carreras[84], "Carrera"] = 'PROF. E. M. y S. EN COMPUTACION'
df.loc[df["Carrera"] == 'LIC. EN ENFERMERIA', "Carrera"] = 'ENFERMERIA'
df.loc[df["Carrera"] == carreras[86], "Carrera"] = 'PRODUCCION DE BIOIMAGENES'
df.loc[df["Carrera"] == carreras[87], "Carrera"] = 'TEC.UNIV.EN MED. NUCLEAR'
df.loc[df["Carrera"] == carreras[90], "Carrera"] = 'PROF. E. M. y S. EN FISICA'
df.loc[df["Carrera"] == 'ciencias ambientales', "Carrera"] = 'CIENCIAS AMBIENTALES'
df.loc[df["Carrera"] == carreras[93], "Carrera"] = 'PROF. E. M. y S. EN QUIMICA'
df.loc[df["Carrera"] == carreras[95], "Carrera"] = 'DISEÑO DEL PAISAJE'
df.loc[df["Carrera"] == carreras[96], "Carrera"] = 'PROF. E. M. y S. EN GEOLOGIA'
df.loc[df["Carrera"] == 'no definida', "Carrera"] = np.nan
df.loc[df["Carrera"] == 'no determinada', "Carrera"] = np.nan
df.loc[df["Carrera"] == carreras[101], "Carrera"] = 'TEC. EN TURISMO RURAL'
df.loc[df["Carrera"] == 'TECNICO EN EDICION', "Carrera"] = 'EDICION'
df.loc[df["Carrera"] == carreras[103], "Carrera"] = 'PROF. E. M. y S. EN BIOLOGIA'
df.loc[df["Carrera"] == carreras[104], "Carrera"] = 'TEC. EN INSTRUMENTACION QUIRURGICA'
df.loc[df["Carrera"] == carreras[105], "Carrera"] = 'TEC. EN PRACTICAS CARDIOLOGICAS'
df.loc[df["Carrera"] == carreras[106], "Carrera"] = 'TEC. EN HEMOTERAPIA'
df.loc[df["Carrera"] == carreras[107], "Carrera"] = 'TEC. EN PODOLOGIA'
df.loc[df["Carrera"] == carreras[108], "Carrera"] = np.nan
df.loc[df["Carrera"] == 'indefinida', "Carrera"] = np.nan
df.loc[df["Carrera"] == carreras[110], "Carrera"] = 'TEC. EN COSMETOLOGIA'
df.loc[df["Carrera"] == 'Matillero', "Carrera"] = 'MARTILLERO'
df.loc[df["Carrera"] == carreras[112], "Carrera"] = 'TEC. EN ANESTESIA'
df.loc[df["Carrera"] == 'nueva', "Carrera"] = np.nan
carreras = df['Carrera'].unique()
print(carreras)

['INGENIERIA CIVIL' 'CIENCIAS BIOLOGICAS' 'INGENIERIA MECANICA'
 'INGENIERIA ELECTRONICA' 'MEDICINA' 'CIENCIAS FISICAS'
 'INGENIERIA INFORMATICA' 'ADMINISTRACION' 'CONTADOR PUBLICO'
 'INGENIERIA NAVAL' 'INGENIERIA INDUSTRIAL' 'CIENCIAS MATEMATICAS'
 'INGENIERIA QUIMICA' 'ANALISTA DE SISTEMAS' 'ARQUITECTURA'
 'INGENIERIA ELECTRICISTA' 'CIENCIAS GEOLOGICAS' 'BIOQUIMICA' 'LETRAS'
 'PROF. E. M. y S. EN BIOLOGIA' 'NUTRICIONISTA DIETISTA'
 'CIENCIAS DE LA COMPUTACION' 'CIENCIAS QUIMICAS'
 'INGENIERIA EN AGRIMENSURA' 'OCEANOGRAFIA' 'CIENCIAS DE LA ATMOSFERA'
 'FLORICULTURA' 'CIENCIAS DE LA COMUNICACION' 'OBSTETRICIA' 'ECONOMIA'
 'FILOSOFIA' 'PALEONTOLOGIA' 'FARMACIA' 'PROF. E. M. y S. EN MATEMATICA'
 'CIENCIA POLITICA' 'PSICOLOGIA' 'HISTORIA' 'ABOGACIA' 'DISEÑO GRAFICO'
 'AGRONOMIA' 'OPTICO TECNICO' 'VETERINARIA' 'DIS. DE IND. Y TEXTIL'
 'PROF. E. M. y S. EN COMPUTACION' 'KINESIOLOGIA' 'FONOAUDIOLOGIA'
 'ODONTOLOGIA' 'CIENCIAS AMBIENTALES' 'TECNICO RADIOLOGO UNIVERS'
 'ENFERMERIA' 'RELACIONES

In [59]:
###############################################
#
# Arreglar códigos de carrera.
#
###############################################

codigos = df[['codCarrera', 'Carrera']].value_counts().reset_index(name='count')
codigos.head()

Unnamed: 0,codCarrera,Carrera,count
0,39.0,MEDICINA,58000
1,45.0,VETERINARIA,11248
2,40.0,NUTRICIONISTA DIETISTA,8817
3,33.0,KINESIOLOGIA,7595
4,90.0,INGENIERIA INFORMATICA,7133


In [60]:
# Reviso si se repite algún código.
codigos_ = codigos['codCarrera'].value_counts().reset_index(name='count')
codigos_[codigos_['count'] > 1]

Unnamed: 0,index,count


In [61]:
# Reviso si se repite alguna carrera.
codigos_ = codigos['Carrera'].value_counts().reset_index(name='count')
codigos_[codigos_['count'] > 1]

Unnamed: 0,index,count
0,CIENCIAS DE LA ATMOSFERA,2
1,ACTUARIO,2
2,PROF. E. M. y S. EN BIOLOGIA,2
3,ENFERMERIA,2
4,MUSICOTERAPIA,2


In [62]:
# Modifico esos códigos para que cada carrera tenga un solo código.

df.loc[df["Carrera"] == 'CIENCIAS DE LA ATMOSFERA', "codCarrera"] = 17
df.loc[df["Carrera"] == 'ACTUARIO', "codCarrera"] = 2
df.loc[df["Carrera"] == 'PROF. E. M. y S. EN BIOLOGIA', "codCarrera"] = 124
df.loc[df["Carrera"] == 'ENFERMERIA', "codCarrera"] = 47
df.loc[df["Carrera"] == 'MUSICOTERAPIA', "codCarrera"] = 98

In [63]:
# Aparece el código 0, seguro es un error
df.loc[df["codCarrera"] == 0, ['anio', 'cuat', 'codCarrera', 'Carrera', 'facultad']]

Unnamed: 0,anio,cuat,codCarrera,Carrera,facultad
33800,2012,2,0.0,,


In [64]:
# Hay un solo registro con codigo 0, no hay información de carrera ni facultad, lo elimino.
df = df.loc[df["codCarrera"] != 0]

In [65]:
# Reviso si hay registros sin información alguna sobre la carrera o facultad:
mask = df["codCarrera"].isna() & df["Carrera"].isna() & df["facultad"].isna()
df_ = df[mask]
print(df_[['anio', 'cuat', 'codCarrera', 'Carrera', 'facultad']].head())
print('Total:',len(df_))

      anio  cuat  codCarrera Carrera facultad
1130  2011     1         NaN     NaN      NaN
1220  2011     1         NaN     NaN      NaN
1281  2011     1         NaN     NaN      NaN
3548  2011     1         NaN     NaN      NaN
7450  2011     1         NaN     NaN      NaN
Total: 73


In [66]:
# Hay solo 73 registros sin información sobre la carrera ni la facultad, los elimino.
df = df[~mask]

In [67]:
# Creo nuevamente la lista de códigos:
codigos = df[['codCarrera', 'Carrera']].value_counts().reset_index(name='count')

In [68]:
###############################################
#
# Completar carreras y facultades faltantes.
#
###############################################

# Veamos el código de los que no tienen carrera.
mask = df["Carrera"].isna()
print(len(df[mask]['codCarrera']), 'registros con código pero sin carrera')
corregir = df[mask]['codCarrera'].unique()
print(np.sort(corregir))

49089 registros con código pero sin carrera
[ 48.  70.  99. 135. 136. 137. 138. 140. 999.]


In [69]:
# ¿Alguno de esos códigos no tiene una carrera asignada?
for corre in corregir:
    if len(codigos[codigos['codCarrera'] == corre]) == 0:
        print('codCarrera = ', corre, 'Cantidad = ', len(df[df['codCarrera'] == corre]),
              'facultad = ', df[df['codCarrera'] == corre]['facultad'].unique(),
              'Carrera = ', df[df['codCarrera'] == corre]['Carrera'].unique())

codCarrera =  99.0 Cantidad =  16190 facultad =  [nan] Carrera =  [nan]
codCarrera =  135.0 Cantidad =  230 facultad =  [nan] Carrera =  [nan]
codCarrera =  999.0 Cantidad =  32579 facultad =  [nan] Carrera =  [nan]
codCarrera =  140.0 Cantidad =  70 facultad =  [nan] Carrera =  [nan]
codCarrera =  137.0 Cantidad =  14 facultad =  [nan] Carrera =  [nan]
codCarrera =  138.0 Cantidad =  3 facultad =  [nan] Carrera =  [nan]
codCarrera =  48.0 Cantidad =  1 facultad =  [nan] Carrera =  [nan]
codCarrera =  136.0 Cantidad =  1 facultad =  [nan] Carrera =  [nan]


Ya existían registros con una carrera asociada:  
70  : Tec. Univ. en Hemoterapia e Inmunohematología  , Medicina 

No tenían carrera ni facultad asociada, de la página del CBC:  
135 : Ingeniería en Petróleo , Ingeniería  
136 : Prof. E. M. y S. en Filosofía , Filosofía y Letras  
137 : Lic. en Gestion de Agroalimentos , Ciencias Veterinarias  
138 : Diseño de indumentaria , Arquitectura Diseño y Urbanismo  
140 : Lic. en Ciencia y Tecnología de Alimentos , Ciencias Exactas y Naturales  
  
Códigos que no existen:  
48  : un solo registro, se elimina.  
99  : hay que imputar  
999 : hay que imputar  

In [70]:
# codCarrera 48 no existe y hay un solo registro, lo elimino
df = df.loc[df["codCarrera"] != 48]

# Corrijo carrera y facultad de algunos códigos
df.loc[df["codCarrera"] == 70, "Carrera"] = 'TEC. EN HEMOTERAPIA'
df.loc[df["codCarrera"] == 70, "facultad"] = 'MEDICINA'
df.loc[df["codCarrera"] == 135, "Carrera"] = 'INGENIERIA EN PETROLEO'
df.loc[df["codCarrera"] == 135, "facultad"] = 'INGENIERIA'
df.loc[df["codCarrera"] == 136, "Carrera"] = 'PROF. E. M. Y S. EN FILOSOFIA'
df.loc[df["codCarrera"] == 136, "facultad"] = 'FILOSOFIA Y LETRAS'
df.loc[df["codCarrera"] == 137, "Carrera"] = 'LIC. EN GESTION DE AGROALIMENTOS'
df.loc[df["codCarrera"] == 137, "facultad"] = 'CIENCIAS VETERINARIAS'
df.loc[df["codCarrera"] == 138, "Carrera"] = 'DISEÑO DE INDUMENTARIA'
df.loc[df["codCarrera"] == 138, "facultad"] = 'ARQUITECTURA Y URBANISMO'
df.loc[df["codCarrera"] == 140, "Carrera"] = 'TECNOLOGIA DE ALIMENTOS'
df.loc[df["codCarrera"] == 140, "facultad"] = 'CS EXACTAS Y NATURALES'

In [71]:
# Creo nuevamente la lista de códigos (de los que tienen alguna carrera asociada):
codigos = df[['codCarrera', 'Carrera']].value_counts().reset_index(name='count')

In [72]:
# Reviso si hay alguna carrera sin código.
for carrera in carreras:
    if len(codigos.loc[codigos['Carrera'] == carrera, 'codCarrera']) == 0:
        print(carrera, len(df.loc[df["Carrera"] == carrera]))

nan 0
TECNICO PARA BIOTERIOS 4


In [73]:
# Corrijo los registros de esa carrera sin código.
df.loc[df["Carrera"] == 'TECNICO PARA BIOTERIOS', "Carrera"] = 'TECNICO EN BIOTERIO'
df.loc[df["Carrera"] == 'TECNICO EN BIOTERIO', "codCarrera"] = 78
df.loc[df["Carrera"] == 'TECNICO EN BIOTERIO', "facultad"] = 'CIENCIAS VETERINARIAS'

In [74]:
# Todavía hay registros sin código pero con carrera.
corregir = df.loc[df['codCarrera'].isna()]['Carrera']
len(corregir)

15729

In [75]:
corregir = corregir.unique()
for carrera in corregir:
    df.loc[df["Carrera"] == carrera, "codCarrera"] = codigos.loc[codigos['Carrera'] == carrera]['codCarrera'].values[0]

In [76]:
# En este punto, todos los registros tienen un código de carrera.
len(df.loc[df['codCarrera'].isna()]['Carrera'])

0

In [77]:
# Los únicos que no tienen carrera son los códigos 99 y 999.
df.loc[df['Carrera'].isna()]['codCarrera'].unique()

array([ 99., 999.])

In [78]:
# Registros con código pero sin facultad.
corregir = df.loc[df['facultad'].isna()]['codCarrera'].unique()
print(corregir)

[ 26.  29.  28.  39.  90.  31.  30.  32.  27.  34. 124.  40.  67.  87.
  79.  46.  36.  21.  95.  20. 129.  42.  24.  50.  56.  45. 126.  33.
  22.  41.  97.  65.  47.  37.  61.  51. 127.  44. 130.  58.  88.  91.
  23.  43.  96. 128.  82.  98.  66.  80.  38.  99.  69. 131.  64. 134.
 999.]


In [79]:
# Creo nuevamente la lista de códigos (de los que tienen alguna carrera asociada):
codigos_facultad = df[['codCarrera', 'Carrera', 'facultad']].value_counts().reset_index(name='count')

In [80]:
# ¿Cuáles de esos códigos no tienen una facultad asociada?
for corre in corregir:
    if len(codigos_facultad[codigos_facultad['codCarrera'] == corre]) == 0:
        print(codigos[codigos['codCarrera'] == corre])

Empty DataFrame
Columns: [codCarrera, Carrera, count]
Index: []
    codCarrera                   Carrera  count
87        69.0  TEC.ADMIN.Y GESTION UNIV      4
    codCarrera               Carrera  count
70       131.0  TEC. EN COSMETOLOGIA     29
    codCarrera     Carrera  count
91        64.0  MARTILLERO      1
    codCarrera            Carrera  count
61       134.0  TEC. EN ANESTESIA     46
Empty DataFrame
Columns: [codCarrera, Carrera, count]
Index: []


In [81]:
# Códigos 64 y 69 no existen, hay solo 5 registros, los elimino
df = df.loc[df['codCarrera'] != 64]
df = df.loc[df['codCarrera'] != 69]

# Agrego las otras facultades.
df.loc[df["codCarrera"] == 131, "facultad"] = 'MEDICINA'
df.loc[df["codCarrera"] == 134, "facultad"] = 'MEDICINA'

In [82]:
# Creo nuevamente la lista de códigos (de los que tienen alguna carrera asociada):
codigos_facultad = df[['codCarrera', 'Carrera', 'facultad']].value_counts().reset_index(name='count')

In [83]:
# Completo facultad para todos los registros, excepto códigos 99 y 999
for codigo, facultad in zip(codigos_facultad['codCarrera'], codigos_facultad['facultad']):
    df.loc[df["codCarrera"] == codigo, "facultad"] = facultad

In [84]:
# Reviso estado del dataframe
print(df.loc[df['Carrera'].isna()]['codCarrera'].unique())
print(df.loc[df['facultad'].isna()]['codCarrera'].unique())
print(len(df.loc[df['codCarrera'].isna()]['Carrera']))

[ 99. 999.]
[ 99. 999.]
0


In [85]:
# Veamos algún estudiante que se repita varios cuatrimestres
df_ = df['dni'].value_counts().reset_index(name='count')
df_.columns = ['dni', 'count']
df_ = df_[df_['count'] > 4]
print(df.loc[df['dni'] == df_.iloc[100]['dni']][['anio', 'cuat', 'codCarrera', 'Carrera', 'facultad']])
print("(Los registros mostrados corresponden a un mismo dni,\n y es un ejemplo de un estudiante que cursó varios cuatrimestres.)")

        anio  cuat  codCarrera      Carrera               facultad
37822   2012     2        45.0  VETERINARIA  CIENCIAS VETERINARIAS
41177   2013     1        45.0  VETERINARIA  CIENCIAS VETERINARIAS
55245   2013     2        45.0  VETERINARIA  CIENCIAS VETERINARIAS
65801   2014     1        45.0  VETERINARIA  CIENCIAS VETERINARIAS
76986   2014     2        45.0  VETERINARIA  CIENCIAS VETERINARIAS
101905  2015     2        45.0  VETERINARIA  CIENCIAS VETERINARIAS
116139  2016     1        45.0  VETERINARIA  CIENCIAS VETERINARIAS
(Los registros mostrados corresponden a un mismo dni,
 y es un ejemplo de un estudiante que cursó varios cuatrimestres.)


In [86]:
print(df['Carrera'].unique())

['INGENIERIA CIVIL' 'CIENCIAS BIOLOGICAS' 'INGENIERIA MECANICA'
 'INGENIERIA ELECTRONICA' 'MEDICINA' 'CIENCIAS FISICAS'
 'INGENIERIA INFORMATICA' 'ADMINISTRACION' 'CONTADOR PUBLICO'
 'INGENIERIA NAVAL' 'INGENIERIA INDUSTRIAL' 'CIENCIAS MATEMATICAS'
 'INGENIERIA QUIMICA' 'ANALISTA DE SISTEMAS' 'ARQUITECTURA'
 'INGENIERIA ELECTRICISTA' 'CIENCIAS GEOLOGICAS' 'BIOQUIMICA' 'LETRAS'
 'PROF. E. M. y S. EN BIOLOGIA' 'NUTRICIONISTA DIETISTA'
 'CIENCIAS DE LA COMPUTACION' 'CIENCIAS QUIMICAS'
 'INGENIERIA EN AGRIMENSURA' 'OCEANOGRAFIA' 'CIENCIAS DE LA ATMOSFERA'
 'FLORICULTURA' 'CIENCIAS DE LA COMUNICACION' 'OBSTETRICIA' 'ECONOMIA'
 'FILOSOFIA' 'PALEONTOLOGIA' 'FARMACIA' 'PROF. E. M. y S. EN MATEMATICA'
 'CIENCIA POLITICA' 'PSICOLOGIA' 'HISTORIA' 'ABOGACIA' 'DISEÑO GRAFICO'
 'AGRONOMIA' 'OPTICO TECNICO' 'VETERINARIA' 'DIS. DE IND. Y TEXTIL'
 'PROF. E. M. y S. EN COMPUTACION' 'KINESIOLOGIA' 'FONOAUDIOLOGIA'
 'ODONTOLOGIA' 'CIENCIAS AMBIENTALES' 'TECNICO RADIOLOGO UNIVERS'
 'ENFERMERIA' 'RELACIONES

In [87]:
# Con este resultado descubro una forma de corregir algunos códigos faltantes: 
# repetir el código anterior o posterior de un estudiante que cursó más de una vez.

dnis = df.loc[(df['codCarrera'] == 99) | (df['codCarrera'] == 999)]['dni'].unique()
print("Cantidad de estudiantes con códigos 99 o 999: ", len(dnis))
for dni in dnis:
    codigo = df.loc[(df['dni'] == dni) & (df['codCarrera'] != 99) & (df['codCarrera'] != 999),'codCarrera'].values
    if len(codigo)>0:
        values = df.loc[(df['dni'] == dni) & (df['codCarrera'] == codigo[0]), ['codCarrera', 'Carrera', 'facultad']].values[0]
        df.loc[(df['dni'] == dni) & ((df['codCarrera'] == 99) | (df['codCarrera'] == 999)),
               ['codCarrera', 'Carrera', 'facultad']] = values
    

Cantidad de estudiantes con códigos 99 o 999:  45103


In [88]:
# Cuántos estudiantes quedan aún con código 99 o 999:
dnis = df.loc[(df['codCarrera'] == 99) | (df['codCarrera'] == 999)]['dni'].unique()
print("Cantidad de estudiantes con códigos 99 o 999:", len(dnis))

Cantidad de estudiantes con códigos 99 o 999: 26709


In [89]:
# Aun hay registros con valores faltantes en facultad.
print("facultad isna():", len(df.loc[df['facultad'].isna()]))
print("Valores de codCarrera en esos registros:", df.loc[df['facultad'].isna(), 'codCarrera'].unique())

facultad isna(): 27761
Valores de codCarrera en esos registros: [ 99. 999.]


In [90]:
df.loc[df['facultad'].isna(), 'facultad'] = df.loc[df['facultad'].isna(), 'codCarrera']
df['facultad'] = df['facultad'].astype('str')

In [91]:
############################################
#
# Corregir notas
#
# Hay números extraños
#
############################################

# En las notas, el código 99 se usa para los ausentes, los cambio por NaN.
df.loc[df['pa1'] == 99, 'pa1'] = np.nan
df.loc[df['pa2'] == 99, 'pa2'] = np.nan
df.loc[df['Final'] == 99, 'Final'] = np.nan

notas1 = np.sort(df['pa1'].unique())
notas2 = np.sort(df['pa2'].unique())
notasfinal = np.sort(df['Final'].unique())

print("Notas de parcial 1: ", notas1)
print("Notas de parcial 2: ", notas2)
print("Notas de final: ", notasfinal)

Notas de parcial 1:  [ 0.   0.5  1.   1.5  2.   2.5  3.   3.5  4.   4.5  5.   5.5  6.   6.5
  7.   7.5  8.   8.5  9.   9.5 10.  11.  25.  26.  30.  33.  34.  35.
 88.  98.   nan]
Notas de parcial 2:  [ 0.   0.5  1.   1.5  2.   2.5  3.   3.5  4.   4.5  5.   5.5  6.   6.5
  7.   7.5  7.8  8.   8.5  9.   9.5 10.  25.  26.  27.  30.  35.  40.
 56.  88.  98.   nan]
Notas de final:  [  0.   1.   2.   3.   4.   5.   6.   7.   8.   9.  10. 100.  nan]


In [92]:
print("Cantidad de notas extrañas parcial 1:", len(df.loc[df['pa1'] > 10]))
print("Cantidad de notas extrañas parcial 2:", len(df.loc[df['pa2'] > 10]))
print("Cantidad de notas extrañas Final    :", len(df.loc[df['Final'] > 10]))

Cantidad de notas extrañas parcial 1: 73
Cantidad de notas extrañas parcial 2: 156
Cantidad de notas extrañas Final    : 2


In [93]:
# Son pocos registros.
# Cambio las notas extrañas según criterio arbitrario por ahora.
df.loc[df['pa1'] == 11, 'pa1'] = 1
df.loc[df['pa1'] == 25, 'pa1'] = 2.5
df.loc[df['pa1'] == 26, 'pa1'] = 2
df.loc[df['pa1'] == 30, 'pa1'] = 3
df.loc[df['pa1'] == 33, 'pa1'] = 3
df.loc[df['pa1'] == 34, 'pa1'] = 3
df.loc[df['pa1'] == 35, 'pa1'] = 3.5
df.loc[df['pa1'] == 88, 'pa1'] = 8
df.loc[df['pa1'] == 98, 'pa1'] = 9

df.loc[df['pa2'] == 25, 'pa2'] = 2.5
df.loc[df['pa2'] == 26, 'pa2'] = 2
df.loc[df['pa2'] == 27, 'pa2'] = 2
df.loc[df['pa2'] == 30, 'pa2'] = 3
df.loc[df['pa2'] == 35, 'pa2'] = 3.5
df.loc[df['pa2'] == 40, 'pa2'] = 4
df.loc[df['pa2'] == 56, 'pa2'] = 5
df.loc[df['pa2'] == 88, 'pa2'] = 8
df.loc[df['pa2'] == 98, 'pa2'] = 9

# Los siguientes están ausentes en pa2
df.loc[df['Final'] == 100, 'Final'] = np.nan

In [94]:
################################################
#
# Remanentes
#
# Notas de finales en 2da y 3ra instancia.
#
################################################

dfrem = pd.read_csv("../datos/rems/11dic.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2011) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.Final

dfrem = pd.read_csv("../datos/rems/12mar.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2011) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.final
    df.loc[(df['anio']==2011) & (df['cuat']==2) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.final

dfrem = pd.read_csv("../datos/rems/12jul.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2011) & (df['cuat']==2) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.Final    

dfrem = pd.read_csv("../datos/rems/12dic.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2012) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.Final    

dfrem = pd.read_csv("../datos/rems/13mar.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2012) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.final
    df.loc[(df['anio']==2012) & (df['cuat']==2) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.final

dfrem = pd.read_csv("../datos/rems/13jul.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2012) & (df['cuat']==2) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.final

dfrem = pd.read_csv("../datos/rems/13dic.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2013) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.Final

dfrem = pd.read_csv("../datos/rems/14mar.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2013) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.final
    df.loc[(df['anio']==2013) & (df['cuat']==2) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.final

dfrem = pd.read_csv("../datos/rems/14jul.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2013) & (df['cuat']==2) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.final

dfrem = pd.read_csv("../datos/rems/14dic.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2014) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.Final

dfrem = pd.read_csv("../datos/rems/15mar.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2014) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.Final
    df.loc[(df['anio']==2014) & (df['cuat']==2) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.Final

dfrem = pd.read_csv("../datos/rems/15jul.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2014) & (df['cuat']==2) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.final

dfrem = pd.read_csv("../datos/rems/15dic.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2015) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.final

dfrem = pd.read_csv("../datos/rems/16mar.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2015) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.final
    df.loc[(df['anio']==2015) & (df['cuat']==2) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.final

dfrem = pd.read_csv("../datos/rems/16jul.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2015) & (df['cuat']==2) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.final

dfrem = pd.read_csv("../datos/rems/16dic.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2016) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.final

dfrem = pd.read_csv("../datos/rems/17mar.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2016) & (df['cuat']==1) & (df['dni']==stud.dni) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.final
    df.loc[(df['anio']==2016) & (df['cuat']==2) & (df['dni']==stud.dni) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.final

dfrem = pd.read_csv("../datos/rems/17jul.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2016) & (df['cuat']==2) & (df['dni']==stud.dni) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.final

dfrem = pd.read_csv("../datos/rems/17dic.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2017) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.final

dfrem = pd.read_csv("../datos/rems/18mar.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2017) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.final
    df.loc[(df['anio']==2017) & (df['cuat']==2) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.final

dfrem = pd.read_csv("../datos/rems/18jul.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2017) & (df['cuat']==2) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.final

dfrem = pd.read_csv("../datos/rems/18dic.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2018) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.final

dfrem = pd.read_csv("../datos/rems/19mar.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2018) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.final
    df.loc[(df['anio']==2018) & (df['cuat']==2) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.final

dfrem = pd.read_csv("../datos/rems/19jul.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2018) & (df['cuat']==2) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.Final

dfrem = pd.read_csv("../datos/rems/19dic.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2019) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.final

dfrem = pd.read_csv("../datos/rems/20mar.csv", encoding = "ISO-8859-15")
for stud in dfrem.itertuples():
    df.loc[(df['anio']==2019) & (df['cuat']==1) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem2'] = stud.final
    df.loc[(df['anio']==2019) & (df['cuat']==2) & (df['dni']==stud.DNI) & (df['pa1']+df['pa2']>=8) & (df['pa1']+df['pa2']<13), 'rem1'] = stud.final

In [95]:
# Reviso notas extrañas en remanentes
df.loc[df['rem1'] == 99, 'rem1'] = np.nan
df.loc[df['rem2'] == 99, 'rem2'] = np.nan

notas1 = np.sort(df['rem1'].unique())
notas2 = np.sort(df['rem2'].unique())

print("Notas rem 1: ", notas1)
print("Notas rem 2: ", notas2)

Notas rem 1:  [ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. nan]
Notas rem 2:  [ 0.  1.  2.  3.  4.  5.  6.  7.  8.  9. 10. nan]


In [96]:
############################################
#
# Corregir comisiones NaN
#
# Hay 4 registros sin comision, corrijo el valor 
# o imputo con el de una de las comisiones de ese horario y sede.
#
############################################
df = df.reset_index(drop=True)
df.loc[np.isnan(df['COMISION'])].drop(['dni'], axis=1)

Unnamed: 0,anio,cuat,COMISION,HORARIO,AULA,SEDE,MATERIA,pa1,pa2,Final,codCarrera,Carrera,facultad,rem1,rem2
40119,2013,1,,651.0,201.0,2,53,4.0,4.0,,99.0,,99.0,,
85050,2015,1,,656.0,,2,3,,,,11.0,CIENCIAS BIOLOGICAS,CS EXACTAS Y NATURALES,,
89577,2015,1,,656.0,,2,53,,,,39.0,MEDICINA,MEDICINA,,
90859,2015,1,,656.0,,2,3,,,,90.0,INGENIERIA INFORMATICA,INGENIERIA,,


In [97]:
df.loc[(df['anio'] == 2013) & (df['cuat'] == 1) & (df['HORARIO'] == 651) & (df['SEDE'] == 2) & (df['AULA'] == 201), 'COMISION'].unique()

array([   nan, 25301.])

In [98]:
df.loc[(df['anio'] == 2015) & (df['cuat'] == 1) & (df['HORARIO'] == 656) & (df['SEDE'] == 2), 'COMISION'].unique()


array([25309., 25308., 25307., 20303., 20304.,    nan])

In [99]:
df.loc[40119, 'COMISION'] = 25301
df.loc[85050, 'COMISION'] = 20304
df.loc[89577, 'COMISION'] = 25308
df.loc[90859, 'COMISION'] = 20304

In [100]:
############################################
#
# Corregir Aulas NaN
#
############################################

df['AULA'].unique()

array([ 45.,  47.,  31.,  32.,  33.,  21.,  24.,  37., 214., 215., 211.,
       212., 210., 213., 201., 203.,   2.,   3.,  11.,  10.,   4.,   7.,
        25.,   1.,  38.,  40.,   9.,  15.,  26.,  12.,  20.,  23.,  13.,
        14.,  16.,   5.,  29.,   8.,   6.,  28.,  nan,  35.,  22.,  39.,
        19., 102., 101., 202., 209.,  18., 208.,  30.,  36.,  44., 207.,
       206.,  27., 110., 106., 109., 112.,  43., 111., 103., 205., 108.,
        99.,  46.,  17.])

In [101]:
df_ = df.loc[df['AULA'].isna(), ['anio', 'cuat', 'COMISION']]
print("Cantidad con Aula = NaN : ",len(df_))
df_.groupby(by=['anio', 'cuat', 'COMISION']).size()


Cantidad con Aula = NaN :  119


anio  cuat  COMISION
2011  1     215301.0    33
2012  2     25300.0      1
            25318.0      1
2013  2     380301.0    15
            385301.0    66
2015  1     20304.0      2
            25308.0      1
dtype: int64

In [102]:
# Verifico si hay registros del mismo curso con número de AULA
print("1 - ", df.loc[(df['anio'] == 2011) & (df['cuat'] == 1) & (df['COMISION'] == 215301), 'AULA'].unique())
print("2 - ", df.loc[(df['anio'] == 2012) & (df['cuat'] == 2) & (df['COMISION'] == 25300), 'AULA'].unique())
print("3 - ", df.loc[(df['anio'] == 2012) & (df['cuat'] == 2) & (df['COMISION'] == 25318), 'AULA'].unique())
print("4 - ", df.loc[(df['anio'] == 2013) & (df['cuat'] == 2) & (df['COMISION'] == 380301), 'AULA'].unique())
print("5 - ", df.loc[(df['anio'] == 2013) & (df['cuat'] == 2) & (df['COMISION'] == 385301), 'AULA'].unique())
print("6 - ", df.loc[(df['anio'] == 2015) & (df['cuat'] == 1) & (df['COMISION'] == 20304), 'AULA'].unique())
print("7 - ", df.loc[(df['anio'] == 2015) & (df['cuat'] == 1) & (df['COMISION'] == 25308), 'AULA'].unique())

# Corrijo los que se tiene información:
df.loc[(df['anio'] == 2012) & (df['cuat'] == 2) & (df['COMISION'] == 25318), 'AULA'] = 212
df.loc[(df['anio'] == 2015) & (df['cuat'] == 1) & (df['COMISION'] == 20304), 'AULA'] = 211
df.loc[(df['anio'] == 2015) & (df['cuat'] == 1) & (df['COMISION'] == 25308), 'AULA'] = 209


1 -  [nan]
2 -  [nan]
3 -  [212.  nan]
4 -  [nan]
5 -  [nan]
6 -  [211.  nan]
7 -  [209.  nan]


In [103]:
# Busco otras aulas en la misma sede
print("1 - Otras aulas mismo cuatrimestre: ", df.loc[(df['anio'] == 2011) & (df['cuat'] == 1) & (df['SEDE'] == 21), 'AULA'].unique())
print("2 - Otras aulas mismo cuatrimestre: ", df.loc[(df['anio'] == 2012) & (df['cuat'] == 2) & (df['SEDE'] == 2), 'AULA'].unique())
print("4 - Otras aulas mismo cuatrimestre: ", df.loc[(df['anio'] == 2013) & (df['cuat'] == 2) & (df['SEDE'] == 38), 'AULA'].unique())
print("5 - Otras aulas mismo cuatrimestre: ", df.loc[(df['anio'] == 2013) & (df['cuat'] == 2) & (df['SEDE'] == 38), 'AULA'].unique())

# Corrijo caso 2:
df.loc[(df['anio'] == 2012) & (df['cuat'] == 2) & (df['COMISION'] == 25300), 'AULA'] = 212

# Busco aulas en esa sede en otros cuatrimestres:
print("1 - Otras aulas otros cuatrimestres: ", df.loc[df['SEDE'] == 21, 'AULA'].unique())
print("4,5 - Otras aulas otros cuatrimestres: ", df.loc[df['SEDE'] == 38, 'AULA'].unique())

df.loc[(df['anio'] == 2011) & (df['cuat'] == 1) & (df['COMISION'] == 215301), 'AULA'] = 1
df.loc[(df['anio'] == 2013) & (df['cuat'] == 2) & (df['COMISION'] == 380301), 'AULA'] = 4
df.loc[(df['anio'] == 2013) & (df['cuat'] == 2) & (df['COMISION'] == 385301), 'AULA'] = 1

1 - Otras aulas mismo cuatrimestre:  [nan]
2 - Otras aulas mismo cuatrimestre:  [212. 214. 201.  nan 208. 211. 213. 209.]
4 - Otras aulas mismo cuatrimestre:  [nan]
5 - Otras aulas mismo cuatrimestre:  [nan]
1 - Otras aulas otros cuatrimestres:  [ nan   1.   3. 211. 210.   2.   5.   4.   6.]
4,5 - Otras aulas otros cuatrimestres:  [ nan   4.   1.   2.   7. 103. 101. 102.]


In [104]:
# Confirmo que no quedan aulas NaN:
len(df.loc[df['AULA'].isna()])

0

In [105]:
df['codCarrera'] = df['codCarrera'].values.astype(int)
df = df.drop(['Carrera'], axis=1)
codigos_facultad.to_csv('../datos/codigos_carreras.csv', index=False)
df.to_csv('../datos/dataset_01.csv', index=False)