# Limpieza de datos de rendimiento escolar

En este cuaderno de Jupyter, se limpiará los datos ligados al rendimiento académico escolar. 

El conjunto de datos utilizado en este análisis se encuentra en el archivo "Rendimiento_Estudiante.csv", el cual contiene información sobre el rendimiento de los estudiantes en diferentes escuelas de Chile. El conjunto de datos incluye información sobre el mes escolar, el RBD de la escuela, el RUN del alumno, el género del alumno, la fecha de nacimiento del alumno, la comuna del alumno, el promedio de notas y más.

## 1. Importación de librerías
A continuación se importarán las librerías que se utilizarán en este cuaderno de Jupyter.

In [1]:
import pandas as pd

## 2. Carga de datos
A continuación se cargará el conjunto de datos que se utilizará en este cuaderno de Jupyter.

In [15]:
data_path = 'data/Rendimiento.csv'
df = pd.read_csv(data_path, sep=';')

  df = pd.read_csv(data_path, sep=';')


### 2.1 Columnas a utilizar
Las columnas que utilizaremos en este cuaderno de Jupyter son las siguientes:
- 'RBD': RBD de la escuela
- 'MRUN': RUN del alumno
- 'COD_JOR': Jornada en la que asiste a clases
- 'PROM_GRAL': Promedio general anual del alumno
- 'SIT_FIN_R': Situación de promoción al cierre del año escolar


In [16]:
# Mantiene las columnas que se encuentran en la lista
columns = ['RBD', 'MRUN', 'COD_JOR', 'PROM_GRAL', 'SIT_FIN_R']
df = df[columns]

In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3405130 entries, 0 to 3405129
Data columns (total 5 columns):
 #   Column     Dtype 
---  ------     ----- 
 0   RBD        int64 
 1   MRUN       int64 
 2   COD_JOR    int64 
 3   PROM_GRAL  object
 4   SIT_FIN_R  object
dtypes: int64(3), object(2)
memory usage: 129.9+ MB


In [18]:
df

Unnamed: 0,RBD,MRUN,COD_JOR,PROM_GRAL,SIT_FIN_R
0,1,459781,4,66,P
1,1,974395,4,0,T
2,1,1959596,4,0,Y
3,1,2267103,4,0,T
4,1,2306638,4,0,Y
...,...,...,...,...,...
3405125,42130,25620942,1,0,
3405126,42130,785298,1,0,T
3405127,42130,3905129,1,0,T
3405128,42130,13783110,1,0,T


## 3. Limpieza de datos
A continuación se limpiará el conjunto de datos que se utilizará en este cuaderno de Jupyter.

### 3.1 Filtro de errores en los datos
Ahora se eliminarán las filas que contengan errores o no posean sentido.

In [20]:
# Asegura que 'PROM_GRAL' no sea igual a 0 (Retirado)
df = df[df['PROM_GRAL'] != float(0)]

In [21]:
# Asegura que 'SIT_FIN_R' no posea información ' '
df = df[df['SIT_FIN_R'] != ' ']

In [22]:
# Elimina del dataframe las filas que contienen valores nulos o duplicados
df = df.dropna()
df = df.drop_duplicates()

### 3.2 Asegurando el correcto tipo de datos
Ahora aseguraremos que los datos se encuentren en el tipo de datos correcto

In [8]:
# Aseguramos que el tipo de datos correcto para todas las columnas
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3402268 entries, 0 to 3405129
Data columns (total 5 columns):
 #   Column     Dtype 
---  ------     ----- 
 0   RBD        int64 
 1   MRUN       int64 
 2   COD_JOR    int64 
 3   PROM_GRAL  object
 4   SIT_FIN_R  object
dtypes: int64(3), object(2)
memory usage: 155.7+ MB


### 3.3 Merge de datos ( Cambiaría este título? ) 

Ahora se unirán los datos de los estudiantes con los datos de las escuelas.

maira: realmente no entiendo bien que pasa de aquí en adelante jajsa y me provocá conflicto con las otras partes del trabajo

In [7]:
# Abre el archivo 'asistencia.csv' y 'directorio.csv', y lo guarda en un dataframe
df_asistencia = pd.read_csv('output_data/asistencia.csv', sep=',')

In [8]:
# Elimina del dataframe las filas que no pertenecen a los RBDs de la lista
df = df[df['RBD'].isin(df_asistencia['RBD'])]

In [9]:
# Elimina del dataframe las filas que no pertenecen a los MRUNs de la lista
df = df[df['MRUN'].isin(df_asistencia['RUN_ALUMNO'])]

In [10]:
# Cambia el data type de 'PROM_GRAL' a float y asegura que los , se cambien por .
df['PROM_GRAL'] = df['PROM_GRAL'].str.replace(',', '.').astype(float)

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 80256 entries, 128805 to 3401766
Data columns (total 37 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   AGNO            80256 non-null  int64  
 1   RBD             80256 non-null  int64  
 2   DGV_RBD         80256 non-null  int64  
 3   NOM_RBD         80256 non-null  object 
 4   COD_REG_RBD     80256 non-null  int64  
 5   NOM_REG_RBD_A   80256 non-null  object 
 6   COD_PRO_RBD     80256 non-null  int64  
 7   COD_COM_RBD     80256 non-null  int64  
 8   NOM_COM_RBD     80256 non-null  object 
 9   COD_DEPROV_RBD  80256 non-null  int64  
 10  NOM_DEPROV_RBD  80256 non-null  object 
 11  COD_DEPE        80256 non-null  int64  
 12  COD_DEPE2       80256 non-null  int64  
 13  RURAL_RBD       80256 non-null  int64  
 14  ESTADO_ESTAB    80256 non-null  int64  
 15  COD_ENSE        80256 non-null  int64  
 16  COD_ENSE2       80256 non-null  int64  
 17  COD_GRADO       80256 no

In [12]:
# hice esto para ver el asunto , después lo borramos
df

Unnamed: 0,AGNO,RBD,DGV_RBD,NOM_RBD,COD_REG_RBD,NOM_REG_RBD_A,COD_PRO_RBD,COD_COM_RBD,NOM_COM_RBD,COD_DEPROV_RBD,...,COD_COM_ALU,NOM_COM_ALU,COD_RAMA,COD_SEC,COD_ESPE,PROM_GRAL,ASISTENCIA,SIT_FIN,SIT_FIN_R,COD_MEN
128805,2022,396,4,INSTITUTO COMERCIAL ALEJANDRO RIVERA DÍAZ,3,ATCMA,31,3101,COPIAPÓ,31,...,3101,COPIAPÓ,0,0,0,5.4,90,P,P,0
128806,2022,396,4,INSTITUTO COMERCIAL ALEJANDRO RIVERA DÍAZ,3,ATCMA,31,3101,COPIAPÓ,31,...,3101,COPIAPÓ,0,0,0,5.9,99,P,P,0
128807,2022,396,4,INSTITUTO COMERCIAL ALEJANDRO RIVERA DÍAZ,3,ATCMA,31,3101,COPIAPÓ,31,...,3101,COPIAPÓ,0,0,0,6.3,93,P,P,0
128808,2022,396,4,INSTITUTO COMERCIAL ALEJANDRO RIVERA DÍAZ,3,ATCMA,31,3101,COPIAPÓ,31,...,3101,COPIAPÓ,0,0,0,5.2,89,P,P,0
128810,2022,396,4,INSTITUTO COMERCIAL ALEJANDRO RIVERA DÍAZ,3,ATCMA,31,3101,COPIAPÓ,31,...,3101,COPIAPÓ,0,0,0,0.0,0,Y,T,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3401731,2022,41780,7,COLEGIO ALICANTO,3,ATCMA,31,3101,COPIAPÓ,31,...,3101,COPIAPÓ,0,0,0,5.5,85,P,P,0
3401736,2022,41780,7,COLEGIO ALICANTO,3,ATCMA,31,3101,COPIAPÓ,31,...,3101,COPIAPÓ,0,0,0,5.5,79,P,P,0
3401740,2022,41780,7,COLEGIO ALICANTO,3,ATCMA,31,3101,COPIAPÓ,31,...,3101,COPIAPÓ,0,0,0,0.0,0,Y,T,0
3401744,2022,41780,7,COLEGIO ALICANTO,3,ATCMA,31,3101,COPIAPÓ,31,...,3101,COPIAPÓ,0,0,0,5.6,50,P,P,0


## 4. Cambio de nombre de columnas
A continuación se cambiará el nombre de las columnas del conjunto de datos.

## 5. Exportación de datos
Finalmente, se exportará el conjunto de datos limpio a un archivo csv.

In [19]:
# Export data
df.to_csv('output_data/rendimiento_estudiantes.csv', index=False)