## Carga de librerías necesarias para el procesamiento del dataset

In [1]:
#Se importan las librerias a utilizar

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## Análisisdel dataset

### Lectura del archivo de datos

In [2]:
#Lectura del dataset

academicos = pd.read_csv('../datasets/datos_academicos.csv', ',', index_col='Unnamed: 0')
academicos.head(5)

Unnamed: 0,unidad_academica,carrera,nro_inscripcion,regular,cnt_readmisiones,calidad,anio_plan_estudios,fecha_ingreso_alumno
0,FCEQN,170,FCEQN-3342,S,0.0,A,2005.0,02/28/2011
1,FCEQN,102,FCEQN-5396,S,0.0,A,2005.0,12/12/2010
2,FCEQN,143,FCEQN-3162,S,0.0,A,2008.0,07/03/2011
3,FCEQN,106,FCEQN-5739,S,0.0,A,2008.0,12/03/2011
4,FCEQN,172,4683,S,0.0,A,2005.0,03/15/2011


### Registro de meta-datos del dataset

Se van a registrar:
* Los tipos de datos por atributo
* El rango de valores que presenta
* Algunas características de los valores

#### Se usa el método .info() para obtener datos crudos sobre los atributos del dataset y su contenido

In [3]:
#Vista de los tipos de datos y datos básicos

academicos.info()

print("-------------------------------------")
print(f"Cantidad de filas: {academicos.shape[0]}")
print(f"Cantidad de columnas: {academicos.shape[1]}")

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2316 entries, 0 to 2315
Data columns (total 8 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   unidad_academica      2316 non-null   object 
 1   carrera               2314 non-null   object 
 2   nro_inscripcion       2316 non-null   object 
 3   regular               2305 non-null   object 
 4   cnt_readmisiones      2305 non-null   float64
 5   calidad               2306 non-null   object 
 6   anio_plan_estudios    2310 non-null   float64
 7   fecha_ingreso_alumno  2311 non-null   object 
dtypes: float64(2), object(6)
memory usage: 162.8+ KB
-------------------------------------
Cantidad de filas: 2316
Cantidad de columnas: 8


#### Para conocer los valores únicos por atributo y su distribución se usan los métodos .unique() y .value_counts()

**.unique()**: lista las ocurrencias de valores únicos en el atributo  
**.value_counts()**: por cada valor del atributo muestra la cantidad de filas que registran tal valor

**Tipos nominales (string)**

In [4]:
#Vista de los valores únicos en los atributos de tipo string

print(f"Valores presentes en el atributo: {academicos['unidad_academica'].unique()} \n")

#Vista de la cantidad de ocurrencias de cada valor

print(f"Conteo de ocurrencias por valor: {academicos['unidad_academica'].value_counts()}")

Valores presentes en el atributo: ['FCEQN'] 

Conteo de ocurrencias por valor: FCEQN    2316
Name: unidad_academica, dtype: int64


In [5]:
#Vista de los valores únicos en los atributos de tipo string

print(f"Valores presentes en el atributo: {academicos['carrera'].unique()} \n")

#Vista de la cantidad de ocurrencias de cada valor

print(f"Conteo de ocurrencias por valor: {academicos['carrera'].value_counts()}")

Valores presentes en el atributo: ['170' '102' '143' '106' '172' 'SAC' '114' '147' '101' '104' '103' '105'
 nan '601' '314' '600' '108' '111'] 

Conteo de ocurrencias por valor: 147    412
172    404
104    332
102    328
101    251
106    180
143    128
SAC    107
170     86
114     29
111     27
105     18
108      6
103      3
601      1
600      1
314      1
Name: carrera, dtype: int64


In [6]:
#Vista de los valores únicos en los atributos de tipo string

print(f"Valores presentes en el atributo: {academicos['regular'].unique()} \n")

#Vista de la cantidad de ocurrencias de cada valor

print(f"Conteo de ocurrencias por valor: {academicos['regular'].value_counts()}")

Valores presentes en el atributo: ['S' 'N' nan 'X' 'T' 'SI' 'D'] 

Conteo de ocurrencias por valor: S     1908
N      388
D        4
X        3
SI       1
T        1
Name: regular, dtype: int64


**TO DO:** Completar para el resto de los atributos del mismo tipo

---

**Tipos numéricos**

In [7]:
#Vista de los valores únicos en los atributos de tipo numérico y obtención de estadísticas

print(f"Valores presentes en el atributo: {academicos['cnt_readmisiones'].unique()} \n")

#Vista de estadísticas del atributo

print(f"Estadísticas del atributo: \n{academicos['cnt_readmisiones'].agg(['min', 'max', 'mean', 'std', 'median'])}")

Valores presentes en el atributo: [ 0. nan  1.  2.  9. -2.  5. -1.] 

Estadísticas del atributo: 
min      -2.000000
max       9.000000
mean      0.028200
std       0.307012
median    0.000000
Name: cnt_readmisiones, dtype: float64


In [8]:
#Vista de los valores únicos en los atributos de tipo numérico y obtención de estadísticas

print(f"Valores presentes en el atributo: {academicos['anio_plan_estudios'].unique()} \n")

#Vista de estadísticas del atributo

print(f"Estadísticas del atributo: \n{academicos['anio_plan_estudios'].agg(['min', 'max', 'mean', 'std', 'median'])}")

Valores presentes en el atributo: [2005. 2008. 2009. 2000. 2007. 2004. 2012. 2011.   nan 2010. 2006. 2003.
 1980. 2014. 1999. 2099.] 

Estadísticas del atributo: 
min       1980.000000
max       2099.000000
mean      2006.703896
std          4.487675
median    2007.000000
Name: anio_plan_estudios, dtype: float64


**TO DO:** Completar para el resto de los atributos del mismo tipo

---

### Registro del análisis

1. Evaluación de valores nulos (filas y columnas)
2. Evaluación de formato válido
3. Valores ajustados en rangos (ver anexos)
4. Claves únicas
5. Integridad referencial
6. Cumplimiento de reglas en valores

**(1) Valores nulos por filas**

In [6]:
#Se comienza por obtener la cantidad de filas por atributo en las que existen valores nulos

filas_nulas = academicos.isnull().sum().sum()

print(f"Cantidad de filas que tienen valores nulos: {filas_nulas}")

Cantidad de filas que tienen valores nulos: 45


In [20]:
#Se obtiene la cantidad de valores nulos por fila para calcular el indicador

cantidad_columnas = academicos.shape[1]

def nulos_x_fila(fila):
    nulos = cantidad_columnas - fila.count() #Se calcula la cantidad de valores nulos en la fila
    umbral = 0.2 
    #Se evalua si se supera el umbral definido
    if (nulos > (cantidad_columnas * umbral)):
        return 'err'
    else:
        return 'ok'

academicos['completitudF'] = academicos.apply(lambda row: nulos_x_fila(row), axis=1)

# Se obtiene la cantidad de errores detectados

#academicos['completitudF'].value_counts()

# Se visualizan las tuplas con errores

#academicos[academicos.completitudF == 'err']
filas_err = academicos[academicos.completitudF == 'err'].shape[0]

print(f"Cantidad de filas que tienen valores nulos más allá del umbral definido: {filas_err}")

Cantidad de filas que tienen valores nulos más allá del umbral definido: 5


**(1) Valores nulos por columnas**

In [14]:
#Como segundo paso se pasa a obtener la cantidad de nulos por cada columna

nulos_x_columna = academicos.isna().sum()

print(f"Cantidad de filas que tienen valores nulos por atributo: {nulos_x_columna}")

Cantidad de filas que tienen valores nulos por atributo: unidad_academica         0
carrera                  2
nro_inscripcion          0
regular                 11
cnt_readmisiones        11
calidad                 10
anio_plan_estudios       6
fecha_ingreso_alumno     5
completitudF             0
dtype: int64


In [19]:
#Para poder observar el detalle por filas de las columnas con datos nulos

academicos[academicos['carrera'].isnull()]

Unnamed: 0,unidad_academica,carrera,nro_inscripcion,regular,cnt_readmisiones,calidad,anio_plan_estudios,fecha_ingreso_alumno,completitudF
853,FCEQN,,FCEQN-7254,S,,,2007.0,06/04/2013,err
854,FCEQN,,FCEQN-6932,S,,,2011.0,12/12/2012,err


**(2) Formato válido en atributo nro_inscripcion**

In [24]:
#Verificar formato válido - atributo:nro_inscripcion -
#El formato debería ser FCEQN-#### (el número de matrícula del alumno)
#Se puede usar una evaluación de correspondencia con una expresión regular

academicos['nueva'] = academicos['nro_inscripcion'].astype(str).str.match("\D{5}.\d{1,4}$")

#A partir de esto se podría verificar a través de una nueva columna auxiliar

academicos[academicos.nueva == False]

# Se filtran las filas con estos valores erróneos

conteo = academicos[academicos.nueva == False]

#Y se cuenta la cantidad de errores de formateo

errores_formato = conteo.shape[0]
print(f"Cantidad de filas con errores de formato en atributos: {errores_formato}")

Cantidad de filas con errores de formato en atributos: 71


**(3) Valores en rangos predefinidos**

In [34]:
#Verificar que los valores de cada atributo se encuentren dentro de los listados anexos

#Atributo: regular

valores = pd.value_counts(academicos['regular']) #Conteo de ocurrencias por valor (not-null)
#valores

#academicos[academicos.regular.isna()] #Para visualizar las tuplas con valores nulos
#cantidad_nulos = len(academicos.regular) - academicos.regular.count() #Conteo de nulos

#cantidad_nulos #Impresión de la cantidad de nulos

valores_validos = ['S', 'N'] #Se definen los valores validos según el anexo

#Se identifica y cuenta a los valores que no cumplen esa condición (incluye los nulos)

#resultado = academicos[academicos.regular.isin(valores_validos) == False] 
#resultado

#regular_valores_fuera_rango = resultado.shape[0]
#print(f"Cantidad de filas con valores fuera de rango en atributo regular: {regular_valores_fuera_rango}")

In [40]:
#Verificar que los valores de cada atributo se encuentren dentro de los listados anexos

#Atributo: carrera

valores = pd.value_counts(academicos['carrera']) #Conteo de ocurrencias por valor (not-null)
#valores

#academicos[academicos.carrera.isna()] #Para visualizar las tuplas con valores nulos
#cantidad_nulos = len(academicos.carrera) - academicos.carrera.count() #Conteo de nulos

valores_validos = ['147',
'172',
'104',
'102',
'101',
'106',
'143',
'SAC',
'170',
'114',
'111',
'105',
'108'] #Se definen los valores validos según el anexo

#cantidad_nulos #Impresión de la cantidad de nulos

#Se identifica y cuenta a los valores que no cumplen esa condición (incluye los nulos)

#resultado = academicos[academicos.carrera.isin(valores_validos) == False] 
#resultado

#carrera_valores_fuera_rango = resultado.shape[0]
#print(f"Cantidad de filas con valores fuera de rango en atributo carrera: {carrera_valores_fuera_rango}")

In [49]:
#Atributo: cnt_readmisiones
valores = pd.value_counts(academicos['cnt_readmisiones']) #Conteo de ocurrencias por valor (not-null)

#academicos[academicos.cnt_readmisiones.isna()] #Para visualizar las tuplas con valores nulos
#cantidad_nulos = len(academicos.cnt_readmisiones) - academicos.cnt_readmisiones.count() #Conteo de nulos

#cantidad_nulos #Impresión de la cantidad de nulos

#Se identifica y cuenta a los valores que no cumplen las condiciones vistas
#menores = academicos[academicos.cnt_readmisiones < 0] 
#menor_cero = menores.shape[0]

#mayores = academicos[academicos.cnt_readmisiones > 5] 
#mayor_cero = mayores.shape[0]

#readmisiones_valores_fuera_rango = cantidad_nulos + menor_cero + mayor_cero
#print(f"Cantidad de filas con valores fuera de rango en atributo cnt_readmisiones: {readmisiones_valores_fuera_rango}")

#menores
#mayores

In [62]:
#Atributo: anio_plan_estudios
valores = pd.value_counts(academicos['anio_plan_estudios']) #Conteo de ocurrencias por valor (not-null)

#academicos[academicos.anio_plan_estudios.isna()] #Para visualizar las tuplas con valores nulos
#cantidad_nulos = len(academicos.anio_plan_estudios) - academicos.anio_plan_estudios.count() #Conteo de nulos

#cantidad_nulos #Impresión de la cantidad de nulos

#Se identifica y cuenta a los valores que no cumplen las condiciones vistas
#menores = academicos[academicos.anio_plan_estudios < 2000] 
#menor_2k = menores.shape[0]
#menor_2k

#mayores = academicos[academicos.anio_plan_estudios > 2020] 
#mayor_hoy = mayores.shape[0]
#mayor_hoy

#plan_valores_fuera_rango = cantidad_nulos + menor_2k + mayor_hoy
#print(f"Cantidad de filas con valores fuera de rango en atributo anio_plan_estudios: {plan_valores_fuera_rango}")

#menores 
#mayores

**(4) Claves únicas**

In [68]:
#Para revisar problemas de claves duplicadas

#Se obtiene el valor de la cantidad de filas actual

#cant_antes = len(academicos) 
#cant_antes

#Se ordena el dataset según el atributo que se desee evaluar (requerido para el paso siguiente)

#academicos.sort_values("nro_inscripcion", inplace=True)


#Se detectan y eliminan los duplicados en un atributo dejando la última ocurrencia

#academicos.drop_duplicates(subset ="nro_inscripcion", keep = 'last', inplace = True)


#Se obtiene el valor posterior a la operación
#cant_despues = len(academicos)


#Se imprimen ambos valores
#print(f"Antes del análisis de duplicados: {cant_antes} - Despues del filtrado de duplicados: {cant_despues}")

In [143]:
#Para verificar integridad referencial se tienen que importar los otros datasets

#Lectura del dataset de datos_censales

censales = pd.read_csv('../datasets/datos_censales.csv', ',', index_col='Unnamed: 0')
censales.head(5)

Unnamed: 0,ua,insc,estado_civil,sit_lab_alumno,tipo_res_alumno,sit_lab_padres,estudios_padres
0,FCEQN,FCEQN-3342,1.0,NC,-1.0,-1,-1.0
1,FCEQN,FCEQN-5396,1.0,NC,-1.0,-1,-1.0
2,FCEQN,FCEQN-3162,1.0,No,1.0,3,3.0
3,FCEQN,FCEQN-5739,3.0,NC,-1.0,-1,-1.0
4,FCEQN,4683,1.0,NC,-1.0,-1,-1.0


In [144]:
#Lectura del dataset de datos_persona

persona = pd.read_csv('../datasets/datos_personas.csv', ',', index_col='Unnamed: 0')
persona.head(5)

Unnamed: 0,unidad_academica,nro_inscripcion,sexo,nacionalidad,fecha_nac_alumno,fecha_egr_sec
0,FCEQN,FCEQN-3342,2,1.0,1992,2004
1,FCEQN,FCEQN-5396,2,1.0,1993,2010
2,FCEQN,FCEQN-3162,1,1.0,1993,2011
3,FCEQN,FCEQN-5739,2,1.0,1993,2011
4,FCEQN,4683,2,1.0,1992,2011


In [82]:
#Antes de probar la integración se debe verificar la unicidad de las claves en los otros datasets 
#Se obtiene el valor de la cantidad de filas actual

cant_antes = len(censales) 

#Se ordena el dataset según el atributo que se desee evaluar (requerido para el paso siguiente)

censales.sort_values("insc", inplace=True)

#Se detectan y eliminan los duplicados en un atributo dejando la última ocurrencia

censales.drop_duplicates(subset ="insc", keep = 'last', inplace = True)

#Se obtiene el valor posterior a la operación

cant_despues = len(censales)

#Se imprimen ambos valores

#print(f"Antes del análisis de duplicados: {cant_antes} - Despues del filtrado de duplicados: {cant_despues}")

In [81]:
#Antes de probar la integración se debe verificar la unicidad de las claves en los otros datasets 
#Se obtiene el valor de la cantidad de filas actual

cant_antes = len(persona) 

#Se ordena el dataset según el atributo que se desee evaluar (requerido para el paso siguiente)

persona.sort_values("nro_inscripcion", inplace=True)

#Se detectan y eliminan los duplicados en un atributo dejando la última ocurrencia

persona.drop_duplicates(subset ="nro_inscripcion", keep = 'last', inplace = True)

#Se obtiene el valor posterior a la operación

cant_despues = len(persona)

#Se imprimen ambos valores

#print(f"Antes del análisis de duplicados: {cant_antes} - Despues del filtrado de duplicados: {cant_despues}")

**(5) Integridad referencial**

In [131]:
#Las uniones se hacen de a pares - revisar nombres de atributos
semi_completo = pd.merge(persona, academicos, on='nro_inscripcion', how='inner')
semi_completo.shape[0]

#Para verificar se puede ejecutar
#semi_completo.head(5)

2312

In [132]:
cambios = {'insc' : 'nro_inscripcion'}
censales.rename(columns=cambios, inplace=True)
censales.head(1)

Unnamed: 0,ua,nro_inscripcion,estado_civil,sit_lab_alumno,tipo_res_alumno,sit_lab_padres,estudios_padres
0,FCEQN,FCEQN-3342,1.0,NC,-1.0,-1,-1.0


In [133]:
#Las uniones se hacen de a pares - revisar nombres de atributos
completo = pd.merge(censales, semi_completo, on='nro_inscripcion', how='inner')
completo.shape[0]

#Para verificar se puede ejecutar

#completo.head(5)

#Se obtiene el valor para el indicador

#cant_problemas = academicos.shape[0] - completo.shape[0]
#print(f"Casos de problemas de integridad referencial: {cant_problemas}")

2312

**(6) Reglas en valores**

In [134]:
#Finalmente (última verificación) se revisan cuestiones de aplicación de reglas en los valores del nuevo dataset

#Regla: año egreso secundario no puede ser mayor a año de ingreso a la carrera

#Muestra

nro_fila = 957
completo.iloc[nro_fila]

#fecha_i = completo.fecha_ingreso_alumno.iloc[nro_fila]
#fecha_i
#ingreso = int(fecha_i[-4:])
#ingreso
#egreso = int(completo.fecha_egr_sec.iloc[nro_fila])
#egreso

#diferencia = ingreso - egreso

#print(f" Ingreso a carrera: {ingreso} \n Egreso nivel medio: {egreso}\n Diferencia: {diferencia}")

ua                           FCEQN
nro_inscripcion         FCEQN-6992
estado_civil                     1
sit_lab_alumno                  NC
tipo_res_alumno                 -1
sit_lab_padres                  -1
estudios_padres                 -1
unidad_academica_x           FCEQN
sexo                             1
nacionalidad                     1
fecha_nac_alumno              1994
fecha_egr_sec                 2011
unidad_academica_y           FCEQN
carrera                        143
regular                          S
cnt_readmisiones                 0
calidad                          A
anio_plan_estudios            2008
fecha_ingreso_alumno           NaN
completitudF                    ok
nueva                         True
Name: 957, dtype: object

In [141]:
#Se puede definir una función para aplicar los cálculos
def reglaAnioSecundario(row):
    #fecha_ingreso_alumno es tipo date
    anio_ingreso = int(row['fecha_ingreso_alumno'][-4:]) #Se aisla el año
    
    anio_egreso_secundaria = int(row['fecha_egr_sec'])
    diferencia = anio_ingreso - anio_egreso_secundaria
    if (diferencia < 0):
        #Es un error ya que no podría entrar al nivel superior sin haber finalizado en el nivel medio
        return 'err'
    else:
        return 'ok'

#Se verifican los valores presentes

#completo.fecha_ingreso_alumno.value_counts()
#completo.fecha_egr_sec.value_counts()


#Se revisan los valores nulos en cada atributo

#completo[completo['fecha_ingreso_alumno'].isnull()]
#completo[completo['fecha_egr_sec'].isnull()]

#Si fuera necesario completar los nulos, se podría hacer con el valor con más ocurrencias (habiendo otras opciones)
#completo['fecha_ingreso_alumno'].fillna('12/12/2010',inplace=True)

#Se aplica la función para todos los elementos del dataset
#completo['diferencia_nivel'] = completo.apply(lambda row: reglaAnioSecundario(row), axis=1)

#Se verifica la cantidad de elementos
#aux = completo[completo.diferencia_nivel == 'err']
#aux

#cant_problemas = aux.shape[0]
#print(f"Casos de problemas de valores por reglas: {cant_problemas}")