# Limpieza de datos de rendimiento escolar

En este cuaderno de Jupyter, se limpiará los datos ligados al rendimiento académico escolar. 

El conjunto de datos utilizado en este análisis se encuentra en el archivo "Rendimiento_Estudiante.csv", el cual contiene información sobre el rendimiento de los estudiantes en diferentes escuelas de Chile. El conjunto de datos incluye información sobre el mes escolar, el RBD de la escuela, el RUN del alumno, el género del alumno, la fecha de nacimiento del alumno, la comuna del alumno, el promedio de notas y más.

## 1. Importación de librerías
A continuación se importarán las librerías que se utilizarán en este cuaderno de Jupyter.

In [3]:
import pandas as pd

## 2. Carga de datos
A continuación se cargará el conjunto de datos que se utilizará en este cuaderno de Jupyter.

In [4]:
data_path = 'data/Rendimiento.csv'
df = pd.read_csv(data_path, sep=';')

  df = pd.read_csv(data_path, sep=';')


### 2.1 Columnas a utilizar
Las columnas que utilizaremos en este cuaderno de Jupyter son las siguientes:
- 'RBD': RBD de la escuela
- 'MRUN': RUN del alumno
- 'COD_JOR': Jornada en la que asiste a clases
- 'PROM_GRAL': Promedio general anual del alumno
- 'SIT_FIN_R': Situación de promoción al cierre del año escolar


In [6]:
# Mantiene las columnas que se encuentran en la lista
columns = ['MRUN','RBD', 'COD_JOR', 'PROM_GRAL', 'SIT_FIN_R']
df = df[columns]

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3405130 entries, 0 to 3405129
Data columns (total 5 columns):
 #   Column     Dtype  
---  ------     -----  
 0   MRUN       int64  
 1   RBD        int64  
 2   COD_JOR    int64  
 3   PROM_GRAL  float64
 4   SIT_FIN_R  object 
dtypes: float64(1), int64(3), object(1)
memory usage: 129.9+ MB


In [5]:
# Cambia el data type de 'PROM_GRAL' a float y asegura que los , se cambien por .
df['PROM_GRAL'] = df['PROM_GRAL'].str.replace(',', '.').astype(float)

## 3. Limpieza de datos
A continuación se limpiará el conjunto de datos que se utilizará en este cuaderno de Jupyter.

### 3.1 Filtro de errores en los datos
Ahora se eliminarán las filas que contengan errores o no posean sentido.

In [8]:
# Asegura que 'PROM_GRAL' no sea igual a 0.0 (Retirado)
df = df[df['PROM_GRAL'] != float(0)]


In [9]:
# Asegura que 'SIT_FIN_R' no posea información ' '
df = df[df['SIT_FIN_R'] != ' ']

In [10]:
# Elimina del dataframe las filas que contienen valores nulos o duplicados
df = df.dropna()
df = df.drop_duplicates()

### 3.2 Asegurando el correcto tipo de datos
Ahora aseguraremos que los datos se encuentren en el tipo de datos correcto

In [11]:
# Aseguramos que el tipo de datos correcto para todas las columnas
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3092848 entries, 0 to 3405088
Data columns (total 5 columns):
 #   Column     Dtype  
---  ------     -----  
 0   MRUN       int64  
 1   RBD        int64  
 2   COD_JOR    int64  
 3   PROM_GRAL  float64
 4   SIT_FIN_R  object 
dtypes: float64(1), int64(3), object(1)
memory usage: 141.6+ MB


In [12]:
# cambiando nombres de columnas
#renombramos la columna MRUN para mayor legebilidad 

df= df.rename(columns={'MRUN': 'RUN_ALUMNO'})


In [15]:
df.tail()

Unnamed: 0,RUN_ALUMNO,RBD,COD_JOR,PROM_GRAL,SIT_FIN_R
3405077,16057557,42081,1,5.6,P
3405079,21859315,42081,1,6.0,P
3405081,5717717,42081,1,6.6,P
3405084,13023637,42081,1,6.9,P
3405088,25734022,42081,1,6.4,P


In [13]:
# Export data
df.to_csv('output_data/rendimiento_estudiantes.csv', index=False)

### 3.3 Merge de datos ( Cambiaría este título? ) 

Ahora se unirán los datos de los estudiantes con los datos de las escuelas.

maira: realmente no entiendo bien que pasa de aquí en adelante jajsa y me provocá conflicto con las otras partes del trabajo

In [40]:
# Abre el archivo 'asistencia.csv' y 'directorio.csv', y lo guarda en un dataframe
df_asistencia = pd.read_csv('output_data/asistencia.csv', sep=',')
df_directorio = pd.read_csv('output_data/directorio.csv', sep=',')

In [41]:
schools_rbd = df_directorio['RBD'].is_unique

# Elimina del dataframe las filas que no pertenecen a los RBDs de la lista
df = df[df['RBD'].isin(df_directorio['RBD'])]

In [43]:
students_run = df_asistencia['RUN_ALUMNO'].is_unique

# Elimina del dataframe las filas que no pertenecen a los MRUNs de la lista
df = df[df['RUN_ALUMNO'].isin(df_asistencia['RUN_ALUMNO'])]

In [44]:
# Cambia el data type de 'PROM_GRAL' a float y asegura que los , se cambien por .
df['PROM_GRAL'] = df['PROM_GRAL'].str.replace(',', '.').astype(float)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['PROM_GRAL'] = df['PROM_GRAL'].str.replace(',', '.').astype(float)


In [45]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 80256 entries, 128805 to 3401766
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   RUN_ALUMNO  80256 non-null  int64  
 1   RBD         80256 non-null  int64  
 2   COD_JOR     80256 non-null  int64  
 3   PROM_GRAL   80256 non-null  float64
 4   SIT_FIN_R   80256 non-null  object 
dtypes: float64(1), int64(3), object(1)
memory usage: 3.7+ MB


In [46]:
# hice esto para ver el asunto , después lo borramos
df

Unnamed: 0,RUN_ALUMNO,RBD,COD_JOR,PROM_GRAL,SIT_FIN_R
128805,439417,396,3,5.4,P
128806,588452,396,3,5.9,P
128807,3392535,396,3,6.3,P
128808,3682443,396,3,5.2,P
128810,5886174,396,3,0.0,T
...,...,...,...,...,...
3401731,25476050,41780,3,5.5,P
3401736,2673908,41780,3,5.5,P
3401740,5270171,41780,3,0.0,T
3401744,8372950,41780,3,5.6,P


## 4. Cambio de nombre de columnas
A continuación se cambiará el nombre de las columnas del conjunto de datos.

## 5. Exportación de datos
Finalmente, se exportará el conjunto de datos limpio a un archivo csv.

In [47]:
# Export data
df.to_csv('output_data/rendimiento_estudiantes.csv', index=False)