# Limpieza de datos de asistencia escolar

En este cuaderno de Jupyter, se limpiará los datos ligados a la asistencia escolar en Chile.

El conjunto de datos utilizado en este análisis se encuentra en el archivo "Asistencia.csv", el cual contiene información sobre la asistencia de los estudiantes en diferentes escuelas de Chile. El conjunto de datos incluye información sobre el mes escolar, el RBD de la escuela, el RUN del alumno, el género del alumno, la fecha de nacimiento del alumno, la comuna del alumno, los días asistidos, los días trabajados y la asistencia promedio.

## 1. Importación de librerías
A continuación se importarán las librerías que se utilizarán en este cuaderno de Jupyter.

In [59]:
import pandas as pd

## 2. Carga de datos
A continuación se cargará el conjunto de datos que se utilizará en este cuaderno de Jupyter.

In [60]:
df = pd.read_csv('../data/Asistencia.csv', sep=';')

### 2.1 Columnas a utilizar
Las columnas que utilizaremos en este cuaderno de Jupyter son las siguientes:
- `MES_ESCOLAR`: Mes escolar
- `COD_PRO_RBD`: Código de la provincia del RBD
- `RBD`: RBD de la escuela
- `MRUN`: RUN del alumno
- `GEN_ALU`: Sexo del alumno
- `FEC_NAC_ALU`: Fecha de nacimiento del alumno
- `COD_COM_ALU`: Número de la comuna del alumno
- `COD_ENSE2`: Código de enseñanza agrupados
- `DIA_ASISISTIDOS`: Días asistidos
- `DIA_TRABAJADOS`: Días trabajados
- `ASIS_PROMEDIO`: Asistencia promedio

In [61]:
# Mantiene las columnas que se encuentran en la lista
columns = ['MES_ESCOLAR', 'COD_PRO_RBD', 'RBD', 'MRUN', 'GEN_ALU', 'FEC_NAC_ALU', 'COD_COM_ALU', 'COD_ENSE2', 'DIAS_ASISTIDOS', 'DIAS_TRABAJADOS', 'ASIS_PROMEDIO']
df = df[columns]

In [62]:
df.head(10)

Unnamed: 0,MES_ESCOLAR,COD_PRO_RBD,RBD,MRUN,GEN_ALU,FEC_NAC_ALU,COD_COM_ALU,COD_ENSE2,DIAS_ASISTIDOS,DIAS_TRABAJADOS,ASIS_PROMEDIO
0,8,151,1,459781,1,198107,15101,8,22,22,1
1,8,151,1,974395,2,196702,15101,8,0,22,0
2,8,151,1,1959596,1,197706,15101,8,0,22,0
3,8,151,1,2267103,2,200102,15101,8,0,22,0
4,8,151,1,2306638,1,200309,15101,8,0,22,0
5,8,151,1,4332937,2,197207,15101,8,0,22,0
6,8,151,1,6602653,1,197812,15101,8,22,22,1
7,8,151,1,7154241,1,200104,15101,8,0,22,0
8,8,151,1,9715496,2,199909,15101,8,0,22,0
9,8,151,1,17443273,2,197404,15101,8,22,22,1


In [63]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3617236 entries, 0 to 3617235
Data columns (total 11 columns):
 #   Column           Dtype 
---  ------           ----- 
 0   MES_ESCOLAR      int64 
 1   COD_PRO_RBD      int64 
 2   RBD              int64 
 3   MRUN             int64 
 4   GEN_ALU          int64 
 5   FEC_NAC_ALU      int64 
 6   COD_COM_ALU      int64 
 7   COD_ENSE2        int64 
 8   DIAS_ASISTIDOS   int64 
 9   DIAS_TRABAJADOS  int64 
 10  ASIS_PROMEDIO    object
dtypes: int64(10), object(1)
memory usage: 303.6+ MB


## 3. Limpieza de datos
A continuación se limpiará el conjunto de datos que se utilizará en este cuaderno de Jupyter.

### 3.1 Filtro de comunas
Primero que todo, aseguraremos que los datos se encuentren solo en las comunas de 'Copiapo' o 'Santiago'.

In [64]:
# Asegura que 'COD_PRO_RBD', la provincia  sea igual a COPIAPÓ o SANTIAGO
df = df[(df['COD_PRO_RBD'] == 31) | (df['COD_PRO_RBD'] == 131)]

### 3.2 Filtro de tipo de enseñanza
A continuación, aseguraremos que los datos se encuentren solo en los tipos de enseñanza 'Básica Niños' 'Educación Media Humanistíco Científica Jóvenes' o 'Educación Media Técnico Profesional y Artística, Jóvenes'.

In [65]:
# Asegura que 'COD_ENSE2' sea igual a 2 (Educación básica) o 5 (Humanista Cientifico) o 7 (Técnico Profesional)
df  = df[df['COD_ENSE2'].isin([2, 5, 7])]

### 3.3 Filtro de errores en los datos
Ahora se eliminarán las filas que contengan errores o no posean sentido.

In [66]:
# Asegura que 'GEN_ALU' no sea igual a 0 (Sin información)
df = df[df['GEN_ALU'] != 0]

In [67]:
# Asegura que 'FEC_NAC_ALU' no sea igual a 190001 o 180001 (Sin información)
df = df[(df['FEC_NAC_ALU'] != 190001) & (df['FEC_NAC_ALU'] != 180001)]

In [68]:
# Asegura que 'DIAS_ASISTIDOS' sea distinto a 0 (Retirado del colegio)
df = df[df['DIAS_ASISTIDOS'] != 0]

In [69]:
"Importante para el procesamiento"
# Asegura que 'COD_COM_ALU' empieze con 131 (Santiago) o 31 (Copiapó)
df['COD_COM_ALU'] = df['COD_COM_ALU'].astype(str)
df = df[(df['COD_COM_ALU'].str.startswith('131')) | (df['COD_COM_ALU'].str.startswith('31'))]
df['COD_COM_ALU'] = df['COD_COM_ALU'].astype(int)

In [70]:
# Imprime las comunas de los colegios y las comunas de los alumnos
print(df['COD_PRO_RBD'].unique())
print(df['COD_COM_ALU'].unique())

[ 31 131]
[ 3101  3103  3102 13120 13109 13105 13101 13119 13116 13125 13128 13124
 13131 13110 13111 13126 13112 13104 13127 13102 13106 13121 13108 13114
 13122 13123 13117 13103 13129 13130 13107 13118 13113 13115 13132]


In [71]:
# Elimina del dataframe las filas que contienen valores nulos o duplicados
df = df.dropna()
df = df.drop_duplicates()

### 3.4 Asegurando el correcto tipo de datos
Ahora aseguraremos que los datos se encuentren en el tipo de datos correcto

In [72]:
# Aseguramos que el tipo de datos correcto para todas las columnas
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 653259 entries, 136805 to 3614115
Data columns (total 11 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   MES_ESCOLAR      653259 non-null  int64 
 1   COD_PRO_RBD      653259 non-null  int64 
 2   RBD              653259 non-null  int64 
 3   MRUN             653259 non-null  int64 
 4   GEN_ALU          653259 non-null  int64 
 5   FEC_NAC_ALU      653259 non-null  int64 
 6   COD_COM_ALU      653259 non-null  int64 
 7   COD_ENSE2        653259 non-null  int64 
 8   DIAS_ASISTIDOS   653259 non-null  int64 
 9   DIAS_TRABAJADOS  653259 non-null  int64 
 10  ASIS_PROMEDIO    653259 non-null  object
dtypes: int64(10), object(1)
memory usage: 59.8+ MB


In [73]:
# Cambiand el tipo de dato de 'ASIS_PROMEDIO' a float
# Por ejemplo ",0" pasará a ser 0.0
df['ASIS_PROMEDIO'] = df['ASIS_PROMEDIO'].apply(lambda x: x.replace(',', '.')).astype(float)

## 4. Cambio de nombre de columnas
A continuación se cambiará el nombre de las columnas del conjunto de datos.

In [74]:
# Renombra RUN_ALUMNO a MRUN
df = df.rename(columns={'RUN_ALUMNO': 'MRUN'})

## 5. Exportación de datos
Finalmente, se exportará el conjunto de datos limpio a un archivo csv.

In [75]:
# Export data
df.to_csv('output_data/asistencia.csv', index=False)