# Limpieza de datos de resumen de rendimiento escolar

En este cuaderno de Jupyter, se limpiará los datos ligados al resumen de rendimiento académico escolar por colegio. 

El conjunto de datos utilizado en este análisis se encuentra en el archivo "Resumen_Rendimiento_Estudiante.csv", el cual contiene información sobre el rendimiento de los estudiantes en diferentes escuelas de Chile. El conjunto de datos incluye información  el RBD de la escuela, y los porcentajes de asistencia de los alumnos aprobados/reprovados por escuela 

In [50]:
#importación de librerias 
import pandas as pd

In [51]:
# cargar el archivo como un df de pandas
df = pd.read_csv('data/Resumen_Rendimiento.csv', sep=';')
df_directorio = pd.read_csv('output_data/directorio.csv', sep=',')


### 2.1 Columnas a utilizar
Las columnas que utilizaremos en este cuaderno de Jupyter son las siguientes:

- `RBD`: Codigo unico del establecimiento
- `NOM_RBD`: Nombre del establecimiento
- `COD_COM_RBD`: Código de la comuna
- `COD_PRO_RBD`: Código de la provincia
- `PROM_ASIS`: Porcentaje promedio de Asistencia de 
los alumnos de un mismo nivel de Enseñanza 
- `PROM_ASIS_REP6`: Porcentaje promedio de Asistencia de los alumnos reprobados de un mismo 
nivel de Enseñanza 
- `COD_ENSE2`: 


In [52]:
# Filtramos únicamente las columnas nesesarias
columnas = ['RBD', 'NOM_RBD', 'COD_ENSE2', 'COD_COM_RBD', 'COD_PRO_RBD', 'PROM_ASIS', 'PROM_ASIS_REP']
df = df[columnas]
df.head()

Unnamed: 0,RBD,NOM_RBD,COD_ENSE2,COD_COM_RBD,COD_PRO_RBD,PROM_ASIS,PROM_ASIS_REP
0,1,LICEO POLITECNICO ARICA,8,15101,151,912857142857143,
1,1,LICEO POLITECNICO ARICA,7,15101,151,887191601049869,6868.0
2,1,LICEO POLITECNICO ARICA,8,15101,151,864533333333333,611333333333333.0
3,1,LICEO POLITECNICO ARICA,7,15101,151,910736842105263,85.0
4,1,LICEO POLITECNICO ARICA,8,15101,151,905405405405405,50.0


### 2 Filtro de errores en los datos
Finalmente, verificamos que los datos tengan sentido lógico y no posean errores.

In [53]:
# Asegura que no existan valores NaN o repetidos
df.dropna(inplace=True)
df.drop_duplicates(inplace=True)

In [54]:
# Eliminar filas con valores '0' en PROM_ASIS_REP6 y PROM_ASIS
df = df[df['PROM_ASIS_REP'] != ' ']
df = df[df['PROM_ASIS'] != ' ']


In [55]:
# Convertir columnas de tipo string a float
df['PROM_ASIS_REP'] = df['PROM_ASIS_REP'].str.replace(',', '.').astype(float)
df['PROM_ASIS'] = df['PROM_ASIS'].str.replace(',', '.').astype(float)


In [56]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 8916 entries, 1 to 13727
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   RBD            8916 non-null   int64  
 1   NOM_RBD        8916 non-null   object 
 2   COD_ENSE2      8916 non-null   int64  
 3   COD_COM_RBD    8916 non-null   int64  
 4   COD_PRO_RBD    8916 non-null   int64  
 5   PROM_ASIS      8916 non-null   float64
 6   PROM_ASIS_REP  8916 non-null   float64
dtypes: float64(2), int64(4), object(1)
memory usage: 557.2+ KB


In [57]:
df.head()

Unnamed: 0,RBD,NOM_RBD,COD_ENSE2,COD_COM_RBD,COD_PRO_RBD,PROM_ASIS,PROM_ASIS_REP
1,1,LICEO POLITECNICO ARICA,7,15101,151,88.71916,68.68
2,1,LICEO POLITECNICO ARICA,8,15101,151,86.453333,61.133333
3,1,LICEO POLITECNICO ARICA,7,15101,151,91.073684,85.0
4,1,LICEO POLITECNICO ARICA,8,15101,151,90.540541,50.0
6,3,ESC. PEDRO VICENTE GUTIERREZ TORRES,3,15101,151,100.0,100.0


In [58]:
colegio_mean = df.groupby(['NOM_RBD']).agg({
    'COD_COM_RBD': 'first',
    'COD_PRO_RBD': 'first',
    'RBD': 'first',
    'PROM_ASIS': 'mean',
    'PROM_ASIS_REP': 'mean'
}).reset_index()

colegio_mean


Unnamed: 0,NOM_RBD,COD_COM_RBD,COD_PRO_RBD,RBD,PROM_ASIS,PROM_ASIS_REP
0,ABRAHAM LINCOLN MEMORIAL COLLEGE,5801,58,1930,89.392713,69.000000
1,ABRAHAM LINCOLN SCHOOL,15101,151,67,90.000000,90.000000
2,ACADEMIA HOSPICIO,1107,11,12605,91.025990,77.803571
3,ACADEMIA NERUDIANA,1101,11,12709,94.640719,66.444444
4,ACONCAGUA EDUCA,5706,57,40338,82.234375,76.044776
...,...,...,...,...,...,...
5394,VILLA MARIA COLLEGE,6108,61,11291,93.429143,92.250000
5395,VINA DEL MAR COLLEGE,5109,51,14428,95.710317,85.500000
5396,WEXFORD COLLEGE N 2,13123,131,8997,84.596732,44.500000
5397,WINDMILL COLLEGE,5804,58,1959,86.661654,69.000000


## 4. Exportar datos
Finalmente, se exportan los datos a un archivo csv.

In [59]:
df.to_csv('output_data/resumen_rendimiento.csv', index=False)