# Analisis SIMCE en el rendimiento escolar en Chile

El Sistema de Medicion de Calidad de la Educacion o SIMCE, fue creado en 1968 como prueba estandarizada administrada por el ministerio de educacion para evaluar a los estudiantes de Chile y determinar su rendimiento y calidad academica. Nuestra motivacion existe en investigar las posibles disparidades del sistema de educacion usando bases de datos publicas del gobierno y asi saber que areas clave necesitan un enfoque de efuerzos para potencialmente mejorar el nivel de educacion.

Con nuestro proyecto no solo queremos comparar la calidad de educacion a traves de los años, si no que tambien ver si existe alguna correlacion entre el nivel de formacion y que tan vulnerable sea un sector.

Para cumplir nuestros objetivos dejamos guardados para en el analisis **6 archivos** conteniendo varios datos para extraer que nos serviran para el analisis conteniendo los siguientes cursos:

- `Cuartos Basicos 2014`
- `Cuartos Basicos 2016`
- `Cuartos Basicos 2022`
- `Sextos Basicos 2016`
- `Octavos Basicos 2019`
- `Segundos Medios 2022`

Al estar todos en el formato .xlsx, la libreria **pandas** sera critica en la lectura y manejo rapido de estos datos. Cada uno de estos archivos tienen varias columnas con datos que nos interesan comparar:

- `nom_rbd` | Nombre del establecimiento
- `cod_grupo` | Grado socioeconomico
- `cod_rural_rbd` | Codigo de ruralidad
- `nom_reg_rbd` | Nombre de la region
- `nom_com_rbd` | Nombre de la comuna
- `nom_pro_rbd` | Nombre de la provincia
- `prom_lect` | Promedio de lectura
- `prom_mate` | Promedio de matematicas

Cabe destacar que `prom_lect` y `prom_mate` tienen distintas extensiones segun el curso.

## Glosario

**cod_grupo**:
- 1.0 = Bajo
- 2.0 = Medio bajo
- 3.0 = Medio
- 4.0 = Medio alto
- 5.0 = Alto

**cod_rural**:
- 1.0 = Urbano
- 2.0 = Rural

**cod_depe2**:
- 1.0 = Municipal
- 2.0 = Particular subvencionado
- 3.0 = Particular pagado
- 4.0 = Servicio local de educacion

Para poder empezar con nuestro analisis, tendremos que importar las librerias a usar y leer los archivos.

In [8]:
# imports a usar
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
pd.set_option('future.no_silent_downcasting', True)

cuarto2014 = "data/2014/simce4b2014_rbd_publica_final.xlsx"
cuarto2016 = "data/2016/simce4b2016_rbd_publica_final.xlsx"
sexto2016 = "data/2016/simce6b2016_rbd_publica_final.xlsx"
octavo2019 = "data/2019/simce8b2019_rbd.xlsx"
cuarto2022 = "data/2022/Simce4b2022_rbd_final.xlsx"
segundo2022 = "data/2022/Simce2m2022_rbd_final.xlsx"

def filtrar(df, lect: 'str', mate: 'str'):
    filtrado = ['nom_rbd','cod_grupo','cod_rural_rbd','nom_reg_rbd','nom_com_rbd','nom_pro_rbd','cod_depe2',lect,mate]
    return df[filtrado]

# cuartos basicos:
df14_4 = pd.read_excel(cuarto2014)
df14_4 = filtrar(df14_4, 'prom_lect4b_rbd', 'prom_mate4b_rbd')

df16_4 = pd.read_excel(cuarto2016)
df16_4 = filtrar(df16_4, 'prom_lect4b_rbd', 'prom_mate4b_rbd')

df22_4 = pd.read_excel(cuarto2022)
df22_4 = filtrar(df22_4, 'prom_lect4b_rbd', 'prom_mate4b_rbd')

# sexto basico 2016
df16_6 = pd.read_excel(sexto2016)
df16_6 = filtrar(df16_6, 'prom_lect6b_rbd', 'prom_mate6b_rbd')

# octavo basico 2019
df19_8 = pd.read_excel(octavo2019)
df19_8 = filtrar(df19_8, 'prom_lect8b_rbd', 'prom_mate8b_rbd')

# segundo medio 2022
df22_ii = pd.read_excel(segundo2022)
df22_ii = filtrar(df22_ii, 'prom_lect2m_rbd', 'prom_mate2m_rbd')

Para revisar si hay algunas cosas que no concuerdan, revisaremos como esta cada dataframe.

In [10]:
df14_4.head()

Unnamed: 0,nom_rbd,cod_grupo,cod_rural_rbd,nom_reg_rbd,nom_com_rbd,nom_pro_rbd,cod_depe2,prom_lect4b_rbd,prom_mate4b_rbd
0,JOVINA NARANJO FERNANDEZ,Medio,Urbano,REGIÓN ARICA - PARINACOTA,ARICA,ARICA,Municipal,274.0,262.0
1,COLEGIO INTEGRADO EDUARDO FREI MONTALVA,Medio,Urbano,REGIÓN ARICA - PARINACOTA,ARICA,ARICA,Municipal,255.0,239.0
2,ESCUELA REPUBLICA DE ISRAEL,Medio,Urbano,REGIÓN ARICA - PARINACOTA,ARICA,ARICA,Municipal,261.0,250.0
3,ESCUELA REPUBLICA DE FRANCIA,Medio,Urbano,REGIÓN ARICA - PARINACOTA,ARICA,ARICA,Municipal,234.0,207.0
4,ESC. GRAL. PEDRO LAGOS MARCHANT,Bajo,Urbano,REGIÓN ARICA - PARINACOTA,ARICA,ARICA,Municipal,284.0,270.0


In [11]:
df16_4.head()

Unnamed: 0,nom_rbd,cod_grupo,cod_rural_rbd,nom_reg_rbd,nom_com_rbd,nom_pro_rbd,cod_depe2,prom_lect4b_rbd,prom_mate4b_rbd
0,JOVINA NARANJO FERNANDEZ,Medio,Urbano,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,Municipal,274.0,257.0
1,COLEGIO INTEGRADO EDUARDO FREI MONTALVA,Medio bajo,Urbano,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,Municipal,271.0,259.0
2,ESCUELA REPUBLICA DE ISRAEL,Medio,Urbano,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,Municipal,291.0,298.0
3,ESCUELA REPUBLICA DE FRANCIA,Medio bajo,Urbano,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,Municipal,243.0,235.0
4,ESC. GRAL. PEDRO LAGOS MARCHANT,Medio bajo,Urbano,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,Municipal,257.0,236.0


In [12]:
df22_4.head()

Unnamed: 0,nom_rbd,cod_grupo,cod_rural_rbd,nom_reg_rbd,nom_com_rbd,nom_pro_rbd,cod_depe2,prom_lect4b_rbd,prom_mate4b_rbd
0,ESCUELA RURAL ALEJANDRO VASQUEZ BALDEVELLANO,1.0,2,DE LOS LAGOS,SAN PABLO,OSORNO,1,0.0,0.0
1,ESC. BASICA ALTO MECO,1.0,2,DE LA ARAUCANÍA,LAUTARO,CAUTÍN,1,239.0,218.0
2,ESCUELA HÉROES DE CHILE,2.0,1,DEL BIOBÍO,YUMBEL,BIOBÍO,1,222.0,211.0
3,ESCUELA BASICA LOS OLIVOS,1.0,2,DE ÑUBLE,RÁNQUIL,ITATA,1,276.0,250.0
4,COLEGIO WILLIAM JAMES,4.0,1,DE VALPARAÍSO,VIÑA DEL MAR,VALPARAÍSO,3,264.0,231.0


In [13]:
df16_6.head()

Unnamed: 0,nom_rbd,cod_grupo,cod_rural_rbd,nom_reg_rbd,nom_com_rbd,nom_pro_rbd,cod_depe2,prom_lect6b_rbd,prom_mate6b_rbd
0,JOVINA NARANJO FERNANDEZ,Medio,Urbano,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,Municipal,266.0,259.0
1,COLEGIO INTEGRADO EDUARDO FREI MONTALVA,Medio bajo,Urbano,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,Municipal,248.0,233.0
2,ESCUELA REPUBLICA DE ISRAEL,Medio,Urbano,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,Municipal,262.0,247.0
3,ESCUELA REPUBLICA DE FRANCIA,Medio,Urbano,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,Municipal,202.0,204.0
4,ESC. GRAL. PEDRO LAGOS MARCHANT,Medio bajo,Urbano,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,Municipal,237.0,214.0


In [14]:
df19_8.head()

Unnamed: 0,nom_rbd,cod_grupo,cod_rural_rbd,nom_reg_rbd,nom_com_rbd,nom_pro_rbd,cod_depe2,prom_lect8b_rbd,prom_mate8b_rbd
0,JOVINA NARANJO FERNANDEZ,3.0,1,DE ARICA Y PARINACOTA,ARICA,ARICA,1,260.0,272.0
1,COLEGIO INTEGRADO EDUARDO FREI MONTALVA,3.0,1,DE ARICA Y PARINACOTA,ARICA,ARICA,1,249.0,259.0
2,ESCUELA REPUBLICA DE ISRAEL,3.0,1,DE ARICA Y PARINACOTA,ARICA,ARICA,1,249.0,275.0
3,ESCUELA REPUBLICA DE FRANCIA,3.0,1,DE ARICA Y PARINACOTA,ARICA,ARICA,1,243.0,245.0
4,ESC. GRAL. PEDRO LAGOS MARCHANT,2.0,1,DE ARICA Y PARINACOTA,ARICA,ARICA,1,201.0,218.0


In [15]:
df22_ii.head()

Unnamed: 0,nom_rbd,cod_grupo,cod_rural_rbd,nom_reg_rbd,nom_com_rbd,nom_pro_rbd,cod_depe2,prom_lect2m_rbd,prom_mate2m_rbd
0,LICEO POLITECNICO ARICA,1.0,1,DE ARICA Y PARINACOTA,ARICA,ARICA,4,218.0,242.0
1,LICEO ALBERTO HURTADO,3.0,1,METROPOLITANA DE SANTIAGO,QUINTA NORMAL,SANTIAGO,2,230.0,232.0
2,LICEO POLIV.SAN JOSE DE LA PRECIOSA SANG,3.0,1,METROPOLITANA DE SANTIAGO,QUINTA NORMAL,SANTIAGO,2,254.0,271.0
3,COLEGIO BICENTENARIO ELVIRA HURTADO DE MATTE D...,3.0,1,METROPOLITANA DE SANTIAGO,QUINTA NORMAL,SANTIAGO,2,250.0,286.0
4,CENTRO EDUCACIONAL ALBERTO HURTADO,2.0,1,METROPOLITANA DE SANTIAGO,QUINTA NORMAL,SANTIAGO,2,221.0,227.0


Antes de pasar a nuestro analisis y preguntas objetivo, queremos estandarizar los datos que se muestran de manera distinta, como el `cod_depe2`, `cod_grupo` y `cod_rural`, los cuales no estan mostrados de manera numerica en los dataframes de 2014 y 2016.

In [22]:
reempDepe = {"Municipal": "1.0","Particular subvencionado": "2.0","Particular pagado": "3.0","Servicio Local de Educación": "4.0"}
reempGrupo = {"Bajo": "1.0","Medio bajo": "2.0","Medio": "3.0","Medio alto": "4.0","Alto": "5.0"}
reempRural = {"Urbano": "1","Rural": "2"}

# 2014
df14_4["cod_depe2"] = pd.to_numeric(df14_4["cod_depe2"].replace(reempDepe))
df14_4["cod_grupo"] = pd.to_numeric(df14_4["cod_grupo"].replace(reempGrupo))
df14_4["cod_rural_rbd"] = pd.to_numeric(df14_4["cod_rural_rbd"].replace(reempRural))

# 2016
df16_4["cod_depe2"] = pd.to_numeric(df16_4["cod_depe2"].replace(reempDepe))
df16_4["cod_grupo"] = pd.to_numeric(df16_4["cod_grupo"].replace(reempGrupo))
df16_4["cod_rural_rbd"] = pd.to_numeric(df16_4["cod_rural_rbd"].replace(reempRural))

df16_6["cod_depe2"] = pd.to_numeric(df16_6["cod_depe2"].replace(reempDepe))
df16_6["cod_grupo"] = pd.to_numeric(df16_6["cod_grupo"].replace(reempGrupo))
df16_6["cod_rural_rbd"] = pd.to_numeric(df16_6["cod_rural_rbd"].replace(reempRural))

Y si ahora abrimos esos dataframes, deberian estar con el tipo de dato corecto.

In [23]:
df14_4.head()

Unnamed: 0,nom_rbd,cod_grupo,cod_rural_rbd,nom_reg_rbd,nom_com_rbd,nom_pro_rbd,cod_depe2,prom_lect4b_rbd,prom_mate4b_rbd
0,JOVINA NARANJO FERNANDEZ,3.0,1,REGIÓN ARICA - PARINACOTA,ARICA,ARICA,1.0,274.0,262.0
1,COLEGIO INTEGRADO EDUARDO FREI MONTALVA,3.0,1,REGIÓN ARICA - PARINACOTA,ARICA,ARICA,1.0,255.0,239.0
2,ESCUELA REPUBLICA DE ISRAEL,3.0,1,REGIÓN ARICA - PARINACOTA,ARICA,ARICA,1.0,261.0,250.0
3,ESCUELA REPUBLICA DE FRANCIA,3.0,1,REGIÓN ARICA - PARINACOTA,ARICA,ARICA,1.0,234.0,207.0
4,ESC. GRAL. PEDRO LAGOS MARCHANT,1.0,1,REGIÓN ARICA - PARINACOTA,ARICA,ARICA,1.0,284.0,270.0


In [24]:
df16_4.head()

Unnamed: 0,nom_rbd,cod_grupo,cod_rural_rbd,nom_reg_rbd,nom_com_rbd,nom_pro_rbd,cod_depe2,prom_lect4b_rbd,prom_mate4b_rbd
0,JOVINA NARANJO FERNANDEZ,3.0,1,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,1.0,274.0,257.0
1,COLEGIO INTEGRADO EDUARDO FREI MONTALVA,2.0,1,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,1.0,271.0,259.0
2,ESCUELA REPUBLICA DE ISRAEL,3.0,1,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,1.0,291.0,298.0
3,ESCUELA REPUBLICA DE FRANCIA,2.0,1,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,1.0,243.0,235.0
4,ESC. GRAL. PEDRO LAGOS MARCHANT,2.0,1,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,1.0,257.0,236.0


In [25]:
df16_6.head()

Unnamed: 0,nom_rbd,cod_grupo,cod_rural_rbd,nom_reg_rbd,nom_com_rbd,nom_pro_rbd,cod_depe2,prom_lect6b_rbd,prom_mate6b_rbd
0,JOVINA NARANJO FERNANDEZ,3.0,1,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,1.0,266.0,259.0
1,COLEGIO INTEGRADO EDUARDO FREI MONTALVA,2.0,1,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,1.0,248.0,233.0
2,ESCUELA REPUBLICA DE ISRAEL,3.0,1,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,1.0,262.0,247.0
3,ESCUELA REPUBLICA DE FRANCIA,3.0,1,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,1.0,202.0,204.0
4,ESC. GRAL. PEDRO LAGOS MARCHANT,2.0,1,REGION DE ARICA Y PARINACOTA,ARICA,ARICA,1.0,237.0,214.0
