# Limpieza de datos de rendimiento escolar

En este cuaderno de Jupyter, se limpiará los datos ligados al rendimiento académico escolar. 

El conjunto de datos utilizado en este análisis se encuentra en el archivo "Rendimiento_Estudiante.csv", el cual contiene información sobre el rendimiento de los estudiantes en diferentes escuelas de Chile. El conjunto de datos incluye información sobre el mes escolar, el RBD de la escuela, el RUN del alumno, el género del alumno, la fecha de nacimiento del alumno, la comuna del alumno, el promedio de notas y más.

## 1. Importación de librerías
A continuación se importarán las librerías que se utilizarán en este cuaderno de Jupyter.

In [1]:
import pandas as pd

## 2. Carga de datos
A continuación se cargará el conjunto de datos que se utilizará en este cuaderno de Jupyter.

In [2]:
data_path = 'data/Rendimiento_Estudiante.csv'
df = pd.read_csv(data_path, sep=';')

  df = pd.read_csv(data_path, sep=';')


### 2.1 Columnas a utilizar
Las columnas que utilizaremos en este cuaderno de Jupyter son las siguientes:
- 'RBD': RBD de la escuela
- 'MRUN': RUN del alumno
- 'COD_JOR': Jornada en la que asiste a clases
- 'PROM_GRAL': Promedio general anual del alumno
- 'SIT_FIN_R': Situación de promoción al cierre del año escolar


In [3]:
# Mantiene las columnas que se encuentran en la lista
columns = ['RBD', 'MRUN', 'COD_JOR', 'PROM_GRAL', 'SIT_FIN_R']
df = df[columns]

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3405130 entries, 0 to 3405129
Data columns (total 5 columns):
 #   Column     Dtype 
---  ------     ----- 
 0   RBD        int64 
 1   MRUN       int64 
 2   COD_JOR    int64 
 3   PROM_GRAL  object
 4   SIT_FIN_R  object
dtypes: int64(3), object(2)
memory usage: 129.9+ MB


## 3. Limpieza de datos
A continuación se limpiará el conjunto de datos que se utilizará en este cuaderno de Jupyter.

### 3.1 Filtro de errores en los datos
Ahora se eliminarán las filas que contengan errores o no posean sentido.

In [5]:
# Asegura que 'PROM_GRAL' no sea igual a 0 (Retirado)
df = df[df['PROM_GRAL'] != 0]

In [6]:
# Asegura que 'SIT_FIN_R' no posea información ' '
df = df[df['SIT_FIN_R'] != ' ']

In [7]:
# Elimina del dataframe las filas que contienen valores nulos o duplicados
df = df.dropna()
df = df.drop_duplicates()

### 3.2 Asegurando el correcto tipo de datos
Ahora aseguraremos que los datos se encuentren en el tipo de datos correcto

In [8]:
# Aseguramos que el tipo de datos correcto para todas las columnas
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3402268 entries, 0 to 3405129
Data columns (total 5 columns):
 #   Column     Dtype 
---  ------     ----- 
 0   RBD        int64 
 1   MRUN       int64 
 2   COD_JOR    int64 
 3   PROM_GRAL  object
 4   SIT_FIN_R  object
dtypes: int64(3), object(2)
memory usage: 155.7+ MB


### 3.3 Merge de datos
Ahora se unirán los datos de los estudiantes con los datos de las escuelas.

In [21]:
# Abre el archivo 'asistencia.csv' y 'directorio.csv', y lo guarda en un dataframe
df_asistencia = pd.read_csv('output_data/asistencia.csv', sep=',')
df_directorio = pd.read_csv('output_data/directorio.csv', sep=',')

In [25]:
schools_rbd = df_directorio['RBD'].is_unique

# Elimina del dataframe las filas que no pertenecen a los RBDs de la lista
df = df[df['RBD'].isin(df_directorio['RBD'])]

In [27]:
students_run = df_asistencia['RUN_ALUMNO'].is_unique

# Elimina del dataframe las filas que no pertenecen a los MRUNs de la lista
df = df[df['MRUN'].isin(df_asistencia['RUN_ALUMNO'])]

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16794 entries, 128805 to 3401764
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   RBD        16794 non-null  int64 
 1   MRUN       16794 non-null  int64 
 2   COD_JOR    16794 non-null  int64 
 3   PROM_GRAL  16794 non-null  object
 4   SIT_FIN_R  16794 non-null  object
dtypes: int64(3), object(2)
memory usage: 787.2+ KB


## 4. Cambio de nombre de columnas
A continuación se cambiará el nombre de las columnas del conjunto de datos.

## 5. Exportación de datos
Finalmente, se exportará el conjunto de datos limpio a un archivo csv.

In [48]:
# Export data
df.to_csv('output_data/rendimiento_estudiantes.csv', index=False)