# Limpieza de datos de asistencia escolar

En este cuaderno de Jupyter, se limpiará los datos ligados a la asistencia escolar en Chile.

El conjunto de datos utilizado en este análisis se encuentra en el archivo "Asistencia.csv", el cual contiene información sobre la asistencia de los estudiantes en diferentes escuelas de Chile. El conjunto de datos incluye información sobre el mes escolar, el RBD de la escuela, el RUN del alumno, el género del alumno, la fecha de nacimiento del alumno, la comuna del alumno, los días asistidos, los días trabajados y la asistencia promedio.

## 1. Importación de librerías
A continuación se importarán las librerías que se utilizarán en este cuaderno de Jupyter.

In [14]:
import pandas as pd

## 2. Carga de datos
A continuación se cargará el conjunto de datos que se utilizará en este cuaderno de Jupyter.

In [15]:
data_path = 'data/Asistencia.csv'
df = pd.read_csv(data_path, sep=';')

### 2.1 Columnas a utilizar
Las columnas que utilizaremos en este cuaderno de Jupyter son las siguientes:
- 'MES_ESCOLAR': Mes escolar
- 'MRUN': RUN del alumno
- 'GEN_ALU': Género del alumno
- 'FEC_NAC_ALU': Fecha de nacimiento del alumno
- 'NOM_COM_ALU': Nombre de la comuna del alumno
- 'COD_ENSE2': Código de enseñanza agrupados
- 'DIA_ASISISTIDOS': Días asistidos
- 'DIA_TRABAJADOS': Días trabajados
- 'ASIS_PROMEDIO': Asistencia promedio

In [16]:
# Mantiene las columnas que se encuentran en la lista
columns = ['MES_ESCOLAR','COD_PRO_RBD', 'COD_COM_RBD', 'MRUN', 'GEN_ALU', 'FEC_NAC_ALU', 'NOM_COM_ALU', 'COD_ENSE2', 'DIAS_ASISTIDOS', 'ASIS_PROMEDIO']
df = df[columns]

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3561476 entries, 0 to 3561475
Data columns (total 10 columns):
 #   Column          Dtype 
---  ------          ----- 
 0   MES_ESCOLAR     int64 
 1   COD_PRO_RBD     int64 
 2   COD_COM_RBD     int64 
 3   MRUN            int64 
 4   GEN_ALU         int64 
 5   FEC_NAC_ALU     int64 
 6   NOM_COM_ALU     object
 7   COD_ENSE2       int64 
 8   DIAS_ASISTIDOS  int64 
 9   ASIS_PROMEDIO   object
dtypes: int64(8), object(2)
memory usage: 271.7+ MB


In [18]:
df.tail()

Unnamed: 0,MES_ESCOLAR,COD_PRO_RBD,COD_COM_RBD,MRUN,GEN_ALU,FEC_NAC_ALU,NOM_COM_ALU,COD_ENSE2,DIAS_ASISTIDOS,ASIS_PROMEDIO
3561471,8,41,4101,24104089,2,199006,LA SERENA,6,21,1
3561472,8,41,4101,26588056,1,202001,LA SERENA,4,21,",954545454545455"
3561473,8,41,4101,26849597,1,201904,LA SERENA,4,19,",863636363636364"
3561474,8,41,4101,27042761,1,201907,LA SERENA,4,22,1
3561475,8,41,4101,27224514,1,202002,LA SERENA,4,19,",863636363636364"


## 3. Limpieza de datos
A continuación se limpiará el conjunto de datos que se utilizará en este cuaderno de Jupyter.

### 3.1 Filtro de comunas
Primero que todo, aseguraremos que los datos se encuentren solo en las comunas de 'Copiapo' o 'Santiago'.

In [19]:
# Asegura que 'COD_PRO_RBD', la provincia  sea igual a COPIAPÓ o SANTIAGO
df = df[(df['COD_PRO_RBD'] == 31) | (df['COD_PRO_RBD'] == 131)]

In [20]:
df

Unnamed: 0,MES_ESCOLAR,COD_PRO_RBD,COD_COM_RBD,MRUN,GEN_ALU,FEC_NAC_ALU,NOM_COM_ALU,COD_ENSE2,DIAS_ASISTIDOS,ASIS_PROMEDIO
136669,8,31,3101,2112520,2,200901,COPIAPÓ,7,14,",7"
136670,8,31,3101,2732660,1,200707,COPIAPÓ,7,0,0
136671,8,31,3101,3962434,1,200901,COPIAPÓ,7,12,",6"
136672,8,31,3101,4199164,1,200707,COPIAPÓ,7,10,",5"
136673,8,31,3101,4218504,2,200812,COPIAPÓ,7,15,",75"
...,...,...,...,...,...,...,...,...,...,...
3560678,8,131,13103,26800541,2,201805,PUDAHUEL,4,21,",954545454545455"
3560679,8,131,13103,26831453,1,201903,PUDAHUEL,4,20,",909090909090909"
3560680,8,131,13103,26837754,2,201901,PUDAHUEL,4,21,",954545454545455"
3560681,8,131,13103,26864016,1,201807,PUDAHUEL,4,22,1


### 3.2 Filtro de tipo de enseñanza
A continuación, aseguraremos que los datos se encuentren solo en los tipos de enseñanza 'Educación Media Humanistíco Científica Jóvenes' o 'Educación Media Técnico Profesional y Artística, Jóvenes'.

In [21]:
# Asegura que 'COD_ENSE2' sea igual a 5 (Humanista Cientifico) o 7 (Técnico Profesional)
# 2; educación básica
df  = df[df['COD_ENSE2'].isin([5, 7, 2])]

In [22]:
df

Unnamed: 0,MES_ESCOLAR,COD_PRO_RBD,COD_COM_RBD,MRUN,GEN_ALU,FEC_NAC_ALU,NOM_COM_ALU,COD_ENSE2,DIAS_ASISTIDOS,ASIS_PROMEDIO
136669,8,31,3101,2112520,2,200901,COPIAPÓ,7,14,",7"
136670,8,31,3101,2732660,1,200707,COPIAPÓ,7,0,0
136671,8,31,3101,3962434,1,200901,COPIAPÓ,7,12,",6"
136672,8,31,3101,4199164,1,200707,COPIAPÓ,7,10,",5"
136673,8,31,3101,4218504,2,200812,COPIAPÓ,7,15,",75"
...,...,...,...,...,...,...,...,...,...,...
3556465,8,131,13130,26254392,1,201106,SAN MIGUEL,2,19,",904761904761905"
3556466,8,131,13130,26305268,2,201112,SAN MIGUEL,2,21,1
3556467,8,131,13130,26498431,1,201108,SANTIAGO,2,21,1
3556468,8,131,13130,27095804,1,201112,SAN MIGUEL,2,20,",952380952380952"


### 3.3 Filtro de errores en los datos
Ahora se eliminarán las filas que contengan errores o no posean sentido.

In [23]:
# Asegura que 'GEN_ALU' no sea igual a 0 (Sin información)
df = df[df['GEN_ALU'] != 0]

In [24]:
# Asegura que 'FEC_NAC_ALU' no sea igual a 190001 o 180001 (Sin información)
df = df[(df['FEC_NAC_ALU'] != 190001) & (df['FEC_NAC_ALU'] != 180001)]

In [25]:
# Asegura que 'DIAS_ASISTIDOS' sea distinto a 0 (Retirado del colegio)
df = df[df['DIAS_ASISTIDOS'] != 0]

In [26]:
# Asegura que 'COD_COM_ALU' sea distinto a 0 (Sin información)
df = df[df['NOM_COM_ALU'] != 0]

In [27]:
# Elimina del dataframe las filas que contienen valores nulos o duplicados
df = df.dropna()
df = df.drop_duplicates()

In [28]:
df

Unnamed: 0,MES_ESCOLAR,COD_PRO_RBD,COD_COM_RBD,MRUN,GEN_ALU,FEC_NAC_ALU,NOM_COM_ALU,COD_ENSE2,DIAS_ASISTIDOS,ASIS_PROMEDIO
136669,8,31,3101,2112520,2,200901,COPIAPÓ,7,14,",7"
136671,8,31,3101,3962434,1,200901,COPIAPÓ,7,12,",6"
136672,8,31,3101,4199164,1,200707,COPIAPÓ,7,10,",5"
136673,8,31,3101,4218504,2,200812,COPIAPÓ,7,15,",75"
136674,8,31,3101,6990009,2,200903,COPIAPÓ,7,15,",75"
...,...,...,...,...,...,...,...,...,...,...
3556465,8,131,13130,26254392,1,201106,SAN MIGUEL,2,19,",904761904761905"
3556466,8,131,13130,26305268,2,201112,SAN MIGUEL,2,21,1
3556467,8,131,13130,26498431,1,201108,SANTIAGO,2,21,1
3556468,8,131,13130,27095804,1,201112,SAN MIGUEL,2,20,",952380952380952"


### 3.4 Asegurando el correcto tipo de datos
Ahora aseguraremos que los datos se encuentren en el tipo de datos correcto

In [29]:
# Aseguramos que el tipo de datos correcto para todas las columnas
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 696513 entries, 136669 to 3556469
Data columns (total 10 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   MES_ESCOLAR     696513 non-null  int64 
 1   COD_PRO_RBD     696513 non-null  int64 
 2   COD_COM_RBD     696513 non-null  int64 
 3   MRUN            696513 non-null  int64 
 4   GEN_ALU         696513 non-null  int64 
 5   FEC_NAC_ALU     696513 non-null  int64 
 6   NOM_COM_ALU     696513 non-null  object
 7   COD_ENSE2       696513 non-null  int64 
 8   DIAS_ASISTIDOS  696513 non-null  int64 
 9   ASIS_PROMEDIO   696513 non-null  object
dtypes: int64(8), object(2)
memory usage: 58.5+ MB


In [30]:
# Cambiand el tipo de dato de 'ASIS_PROMEDIO' a float
# Por ejemplo ",0" pasará a ser 0.0
df['ASIS_PROMEDIO'] = df['ASIS_PROMEDIO'].apply(lambda x: x.replace(',', '.')).astype(float)

## 4. Cambio de nombre de columnas
A continuación se cambiará el nombre de las columnas del conjunto de datos.

In [31]:
# Renombra las columnas del dataframe
df.rename(columns={'MES_ESCOLAR': 'MES', 'MRUN': 'RUN_ALUMNO', 'GEN_ALU': 'GENERO_ALUMNO', 'FEC_NAC_ALU': 'FECHA_NACIMIENTO_ALUMNO', 'COD_COM_ALU': 'CODIGO_COMUNA_ALUMNO', 'NOM_COM_ALU': 'NOMBRE_COMUNA_ALUMNO', 'DIAS_ASISTIDOS': 'DIAS_ASISTIDOS', 'ASIS_PROMEDIO': 'ASISTENCIA_PROMEDIO'}, inplace=True)


## 5. Exportación de datos
Finalmente, se exportará el conjunto de datos limpio a un archivo csv.

In [32]:
# Export data
df.to_csv('output_data/asistencia.csv', index=False)