# Limpieza de datos de asistencia escolar

En este cuaderno de Jupyter, se limpiará los datos ligados a la asistencia escolar en Chile.

El conjunto de datos utilizado en este análisis se encuentra en el archivo "Asistencia.csv", el cual contiene información sobre la asistencia de los estudiantes en diferentes escuelas de Chile. El conjunto de datos incluye información sobre el mes escolar, el RBD de la escuela, el RUN del alumno, el género del alumno, la fecha de nacimiento del alumno, la comuna del alumno, los días asistidos, los días trabajados y la asistencia promedio.

## 1. Importación de librerías
A continuación se importarán las librerías que se utilizarán en este cuaderno de Jupyter.

In [1]:
import pandas as pd

## 2. Carga de datos
A continuación se cargará el conjunto de datos que se utilizará en este cuaderno de Jupyter.

In [2]:
data_path = 'data/Asistencia.csv'
df = pd.read_csv(data_path, sep=';')

### 2.1 Columnas a utilizar
Las columnas que utilizaremos en este cuaderno de Jupyter son las siguientes:
- 'MES': Mes escolar
- 'RBD': RBD de la escuela
- 'RUN': RUN del alumno
- 'GEN_ALU': Género del alumno
- 'FEC_NAC_ALU': Fecha de nacimiento del alumno
- 'COM_ALU': Comuna del alumno
- 'DIA_ASIS': Días asistidos
- 'DIA_TRAB': Días trabajados
- 'ASIS_PROM': Asistencia promedio

In [3]:
# Mantiene las columnas que se encuentran en la lista
columns = ['MES_ESCOLAR', 'RBD', 'MRUN', 'GEN_ALU', 'FEC_NAC_ALU', 'COD_COM_ALU', 'NOM_COM_ALU', 'DIAS_ASISTIDOS', 'DIAS_TRABAJADOS', 'ASIS_PROMEDIO']
df = df[columns]

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3617236 entries, 0 to 3617235
Data columns (total 10 columns):
 #   Column           Dtype 
---  ------           ----- 
 0   MES_ESCOLAR      int64 
 1   RBD              int64 
 2   MRUN             int64 
 3   GEN_ALU          int64 
 4   FEC_NAC_ALU      int64 
 5   COD_COM_ALU      int64 
 6   NOM_COM_ALU      object
 7   DIAS_ASISTIDOS   int64 
 8   DIAS_TRABAJADOS  int64 
 9   ASIS_PROMEDIO    object
dtypes: int64(8), object(2)
memory usage: 276.0+ MB


## 3. Limpieza de datos
A continuación se limpiará el conjunto de datos que se utilizará en este cuaderno de Jupyter.

### 3.1 Valores nulos y duplicados
Primero que todo, se eliminarán las filas que contengan valores nulos o duplicados

In [5]:
# Elimina del dataframe las filas que contienen valores nulos o duplicados
df = df.dropna()
df = df.drop_duplicates()

### 3.2 Valores sin información
Ahora se eliminarán las filas que contengan valores sin información

In [6]:
# Asegura que 'GEN_ALU' no sea igual a 0 (Sin información)
df = df[df['GEN_ALU'] != 0]

In [7]:
# Asegura que 'FEC_NAC_ALU' no sea igual a 190001 o 180001 (Sin información)
df = df[(df['FEC_NAC_ALU'] != 190001) & (df['FEC_NAC_ALU'] != 180001)]

### 3.3 Selección de comunas
Ahora aseguraremos que los datos se encuentren solo en las comunas de 'Copiapo' o 'Santiago'

In [8]:
# Asegura que 'NOM_COD_ALU' sea igual a 'COPIAPÓ' o 'SANTIAGO'
df = df[(df['NOM_COM_ALU'] == 'COPIAPÓ') | (df['NOM_COM_ALU'] == 'SANTIAGO')]

### 3.4 Asegurando el correcto tipo de datos
Ahora aseguraremos que los datos se encuentren en el tipo de datos correcto

In [9]:
# Aseguramos que el tipo de datos correcto para todas las columnas
df.info() # Todo ok

<class 'pandas.core.frame.DataFrame'>
Int64Index: 236415 entries, 119 to 3617168
Data columns (total 10 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   MES_ESCOLAR      236415 non-null  int64 
 1   RBD              236415 non-null  int64 
 2   MRUN             236415 non-null  int64 
 3   GEN_ALU          236415 non-null  int64 
 4   FEC_NAC_ALU      236415 non-null  int64 
 5   COD_COM_ALU      236415 non-null  int64 
 6   NOM_COM_ALU      236415 non-null  object
 7   DIAS_ASISTIDOS   236415 non-null  int64 
 8   DIAS_TRABAJADOS  236415 non-null  int64 
 9   ASIS_PROMEDIO    236415 non-null  object
dtypes: int64(8), object(2)
memory usage: 19.8+ MB


### 3.5 Cambiando el tipo de dato de ASIS_PROMEDIO
Ahora cambiaremos el tipo de dato de la columna 'ASIS_PROMEDIO' a float

In [10]:
# Cambiand el tipo de dato de 'ASIS_PROMEDIO' a float
# Por ejemplo ",0" pasará a ser 0.0
df['ASIS_PROMEDIO'] = df['ASIS_PROMEDIO'].apply(lambda x: x.replace(',', '.')).astype(float)

## 4. Cambio de nombre de columnas
A continuación se cambiará el nombre de las columnas del conjunto de datos.

In [11]:
# Renombra las columnas del dataframe
df.rename(columns={'MES_ESCOLAR': 'MES', 'RBD': 'RBD', 'MRUN': 'RUN_ALUMNO', 'GEN_ALU': 'GENERO_ALUMNO', 'FEC_NAC_ALU': 'FECHA_NACIMIENTO_ALUMNO', 'COD_COM_ALU': 'CODIGO_COMUNA_ALUMNO', 'NOM_COM_ALU': 'NOMBRE_COMUNA_ALUMNO', 'DIAS_ASISTIDOS': 'DIAS_ASISTIDOS', 'DIAS_TRABAJADOS': 'DIAS_TRABAJADOS', 'ASIS_PROMEDIO': 'ASISTENCIA_PROMEDIO'}, inplace=True)


## 5. Exportación de datos
Finalmente, se exportará el conjunto de datos limpio a un archivo csv.

In [12]:
# Export data
df.to_csv('output_data/asistencia.csv', index=False)