# Limpieza de datos de asistencia escolar

En este cuaderno de Jupyter, se limpiará los datos ligados a la asistencia escolar en Chile.

El conjunto de datos utilizado en este análisis se encuentra en el archivo "Asistencia.csv", el cual contiene información sobre la asistencia de los estudiantes en diferentes escuelas de Chile. El conjunto de datos incluye información sobre el mes escolar, el RBD de la escuela, el RUN del alumno, el género del alumno, la fecha de nacimiento del alumno, la comuna del alumno, los días asistidos, los días trabajados y la asistencia promedio.

## 1. Importación de librerías
A continuación se importarán las librerías que se utilizarán en este cuaderno de Jupyter.

In [23]:
import pandas as pd

## 2. Carga de datos
A continuación se cargará el conjunto de datos que se utilizará en este cuaderno de Jupyter.

In [44]:
df = pd.read_csv('data/Asistencia.csv', sep=';')

### 2.1 Columnas a utilizar
Las columnas que utilizaremos en este cuaderno de Jupyter son las siguientes:
- `MES_ESCOLAR`: Mes escolar
- `COD_PRO_RBD`: Código de la provincia del RBD
- `RBD`: RBD de la escuela
- `MRUN`: RUN del alumno
- `GEN_ALU`: Sexo del alumno
- `FEC_NAC_ALU`: Fecha de nacimiento del alumno
- `COD_COM_ALU`: Número de la comuna del alumno
- `COD_ENSE2`: Código de enseñanza agrupados
- `DIA_ASISISTIDOS`: Días asistidos
- `DIA_TRABAJADOS`: Días trabajados
- `ASIS_PROMEDIO`: Asistencia promedio

In [25]:
# Mantiene las columnas que se encuentran en la lista
columns = ['MES_ESCOLAR', 'COD_PRO_RBD', 'RBD', 'MRUN', 'GEN_ALU', 'FEC_NAC_ALU', 'COD_COM_ALU', 'COD_ENSE2', 'DIAS_ASISTIDOS', 'ASIS_PROMEDIO','COD_REG_RBD']
df = df[columns]

In [26]:
df.head(10)

Unnamed: 0,MES_ESCOLAR,COD_PRO_RBD,RBD,MRUN,GEN_ALU,FEC_NAC_ALU,COD_COM_ALU,COD_ENSE2,DIAS_ASISTIDOS,ASIS_PROMEDIO,COD_REG_RBD
0,8,151,1,2090398,1,198303,15101,8,0,0,15
1,8,151,1,4360702,2,198207,15101,8,21,1,15
2,8,151,1,8284609,2,200410,15101,8,0,0,15
3,8,151,1,8481824,2,198509,15101,8,21,1,15
4,8,151,1,14639657,2,200401,15101,8,0,0,15
5,8,151,1,23339704,2,196711,15101,8,21,1,15
6,8,151,1,26921481,2,198303,15101,8,21,1,15
7,8,151,1,27208038,2,200409,15101,8,0,0,15
8,8,151,1,116270,1,200405,15101,8,0,0,15
9,8,151,1,459781,1,198107,15101,8,21,1,15


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3617236 entries, 0 to 3617235
Data columns (total 11 columns):
 #   Column           Dtype 
---  ------           ----- 
 0   MES_ESCOLAR      int64 
 1   COD_PRO_RBD      int64 
 2   RBD              int64 
 3   MRUN             int64 
 4   GEN_ALU          int64 
 5   FEC_NAC_ALU      int64 
 6   COD_COM_ALU      int64 
 7   COD_ENSE2        int64 
 8   DIAS_ASISTIDOS   int64 
 9   DIAS_TRABAJADOS  int64 
 10  ASIS_PROMEDIO    object
dtypes: int64(10), object(1)
memory usage: 303.6+ MB


## 3. Limpieza de datos
A continuación se limpiará el conjunto de datos que se utilizará en este cuaderno de Jupyter.

### 3.1 Filtro de comunas
Primero que todo, aseguraremos que los datos se encuentren solo en las comunas de 'Copiapo' o 'Santiago'.

In [31]:
# Asegura que 'COD_PRO_RBD', la provincia  sea igual a COPIAPÓ o que COD_REG_RBD, corresponda
# a la región SANTIAGO
df = df[(df['COD_PRO_RBD'] == 31) | (df['COD_REG_RBD'] == 13)]

In [32]:
df

Unnamed: 0,MES_ESCOLAR,COD_PRO_RBD,RBD,MRUN,GEN_ALU,FEC_NAC_ALU,COD_COM_ALU,COD_ENSE2,DIAS_ASISTIDOS,ASIS_PROMEDIO,COD_REG_RBD
136669,8,31,396,2112520,2,200901,3101,7,14,",7",3
136670,8,31,396,2732660,1,200707,3101,7,0,0,3
136671,8,31,396,3962434,1,200901,3101,7,12,",6",3
136672,8,31,396,4199164,1,200707,3101,7,10,",5",3
136673,8,31,396,4218504,2,200812,3101,7,15,",75",3
...,...,...,...,...,...,...,...,...,...,...,...
3560729,8,132,42130,2857442,2,200412,13112,5,21,1,13
3560730,8,132,42130,6558633,1,200602,13201,5,15,",714285714285714",13
3560731,8,132,42130,7703722,1,200101,13201,5,21,1,13
3560732,8,132,42130,8756721,2,200301,13111,5,21,1,13


### 3.2 Filtro de tipo de enseñanza
A continuación, aseguraremos que los datos se encuentren solo en los tipos de enseñanza 'Básica Niños' 'Educación Media Humanistíco Científica Jóvenes' o 'Educación Media Técnico Profesional y Artística, Jóvenes'.

In [33]:
# Asegura que 'COD_ENSE2' sea igual a 2 (Educación básica) o 5 (Humanista Cientifico) o 7 (Técnico Profesional)
df  = df[df['COD_ENSE2'].isin([2, 5, 7])]

### 3.3 Filtro de errores en los datos
Ahora se eliminarán las filas que contengan errores o no posean sentido.

In [34]:
# Asegura que 'GEN_ALU' no sea igual a 0 (Sin información)
df = df[df['GEN_ALU'] != 0]

In [35]:
# Asegura que 'FEC_NAC_ALU' no sea igual a 190001 o 180001 (Sin información)
df = df[(df['FEC_NAC_ALU'] != 190001) & (df['FEC_NAC_ALU'] != 180001)]

In [36]:
# Asegura que 'DIAS_ASISTIDOS' sea distinto a 0 (Retirado del colegio)
df = df[df['DIAS_ASISTIDOS'] != 0]

In [37]:
"Importante para el procesamiento"
# Asegura que 'COD_COM_ALU' empieze con 13 (RM) o 31 (Copiapó)
df['COD_COM_ALU'] = df['COD_COM_ALU'].astype(str)
df = df[(df['COD_COM_ALU'].str.startswith('13')) | (df['COD_COM_ALU'].str.startswith('31'))]
df['COD_COM_ALU'] = df['COD_COM_ALU'].astype(int)

In [38]:
# Imprime las comunas de los colegios y las comunas de los alumnos
print(df['COD_PRO_RBD'].unique())
print(df['COD_COM_ALU'].unique())

[ 31 131 135 134 132 133 136]
[ 3101  3103  3102 13109 13105 13601 13101 13403 13127 13117 13110 13128
 13201 13119 13125 13503 13124 13302 13121 13303 13116 13504 13108 13106
 13505 13404 13131 13501 13111 13126 13301 13112 13602 13102 13103 13130
 13122 13123 13604 13104 13401 13129 13605 13114 13107 13402 13120 13113
 13118 13603 13202 13115 13132 13203 13502]


In [39]:
# Elimina del dataframe las filas que contienen valores nulos o duplicados
df = df.dropna()
df = df.drop_duplicates()

### 3.4 Asegurando el correcto tipo de datos
Ahora aseguraremos que los datos se encuentren en el tipo de datos correcto

In [40]:
# Aseguramos que el tipo de datos correcto para todas las columnas
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 964827 entries, 136669 to 3560733
Data columns (total 11 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   MES_ESCOLAR     964827 non-null  int64 
 1   COD_PRO_RBD     964827 non-null  int64 
 2   RBD             964827 non-null  int64 
 3   MRUN            964827 non-null  int64 
 4   GEN_ALU         964827 non-null  int64 
 5   FEC_NAC_ALU     964827 non-null  int64 
 6   COD_COM_ALU     964827 non-null  int64 
 7   COD_ENSE2       964827 non-null  int64 
 8   DIAS_ASISTIDOS  964827 non-null  int64 
 9   ASIS_PROMEDIO   964827 non-null  object
 10  COD_REG_RBD     964827 non-null  int64 
dtypes: int64(10), object(1)
memory usage: 88.3+ MB


In [41]:
# Cambiand el tipo de dato de 'ASIS_PROMEDIO' a float
# Por ejemplo ",0" pasará a ser 0.0
df['ASIS_PROMEDIO'] = df['ASIS_PROMEDIO'].apply(lambda x: x.replace(',', '.')).astype(float)

## 4. Cambio de nombre de columnas
A continuación se cambiará el nombre de las columnas del conjunto de datos.

In [42]:
# Renombra RUN_ALUMNO a MRUN
df = df.rename(columns={'RUN_ALUMNO': 'MRUN'})

## 5. Exportación de datos
Finalmente, se exportará el conjunto de datos limpio a un archivo csv.

In [43]:
# Export data
df.to_csv('output_data/asistencia.csv', index=False)