# World Educational Data - Limpieza y preparación

Este dataset contiene información sobre la educación primaria y secundaria a escala global donde tiene aspectos educativos tipo: resume métricas cruciales que incluyen tasas de no escolarización, tasas de finalización, niveles de competencia, tasas de alfabetización, tasas de natalidad y estadísticas de matriculación en educación primaria y terciaria.

Parte de la información del dataset proviene de estás fuentes:

Tasa de no escolarizados - Instituto de Estadística de la UNESCO (última actualización en marzo de 2021): Muestra el porcentaje de niños y jóvenes que no asisten a la escuela.

Tasa de finalización - Base de datos global de UNICEF (última actualización en abril de 2021): Indica el porcentaje de estudiantes que completan con éxito su educación.

Competencia en lectura y matemáticas - Base de datos de la División de Estadística de las Naciones Unidas (última actualización en junio de 2021): Mide el porcentaje de estudiantes que logran un dominio mínimo en lectura y matemáticas en diferentes etapas educativas.

Tasa de alfabetización juvenil - Instituto de Estadística de la UNESCO (última actualización en marzo de 2021): refleja la tasa de alfabetización entre los jóvenes.

En este notebook se procede a realizar la carga, limpieza y preparación de datos.

# Librerias

A continuación se procede a importar la librerias a utilizar en el notebook.

In [29]:
import pandas as pd
import numpy as np

Se carga y visualiza la información.

In [30]:
data = pd.read_csv('../Data/Inicial/Global_Education.csv', sep=",", encoding="ISO-8859-1")
data.head()

Unnamed: 0,Countries and areas,Latitude,Longitude,OOSR_Pre0Primary_Age_Male,OOSR_Pre0Primary_Age_Female,OOSR_Primary_Age_Male,OOSR_Primary_Age_Female,OOSR_Lower_Secondary_Age_Male,OOSR_Lower_Secondary_Age_Female,OOSR_Upper_Secondary_Age_Male,...,Primary_End_Proficiency_Reading,Primary_End_Proficiency_Math,Lower_Secondary_End_Proficiency_Reading,Lower_Secondary_End_Proficiency_Math,Youth_15_24_Literacy_Rate_Male,Youth_15_24_Literacy_Rate_Female,Birth_Rate,Gross_Primary_Education_Enrollment,Gross_Tertiary_Education_Enrollment,Unemployment_Rate
0,Afghanistan,33.93911,67.709953,0,0,0,0,0,0,44,...,13,11,0,0,74,56,32.49,104.0,9.7,11.12
1,Albania,41.153332,20.168331,4,2,6,3,6,1,21,...,0,0,48,58,99,100,11.78,107.0,55.0,12.33
2,Algeria,28.033886,1.659626,0,0,0,0,0,0,0,...,0,0,21,19,98,97,24.28,109.9,51.4,11.7
3,Andorra,42.506285,1.521801,0,0,0,0,0,0,0,...,0,0,0,0,0,0,7.2,106.4,0.0,0.0
4,Angola,11.202692,17.873887,31,39,0,0,0,0,0,...,0,0,0,0,0,0,40.73,113.5,9.3,6.89


# Metadatos

A continuación se describen las columnas y lo que contienen:

- Countries and Areas : Nombre de los países y áreas.
- Latitude : Coordenadas de latitud de la ubicación geográfica.
- Longitude : Coordenadas de longitud de la ubicación geográfica.
- OOSR_Pre0Primary_Age_Male : Tasa de no escolarización para varones en edad preescolar.
- OOSR_Pre0Primary_Age_Female : Tasa de no escolarización para mujeres en edad preescolar.
- OOSR_Primary_Age_Male : Tasa de no escolarización para hombres en edad de primaria.
- OOSR_Primary_Age_Female : Tasa de no escolarización para mujeres en edad de primaria.
- OOSR_Lower_Secondary_Age_Male : Tasa de no escolarización para hombres en edad de secundaria inferior.
- OOSR_Lower_Secondary_Age_Female : Tasa de no escolarización para mujeres en edad de secundaria inferior.
- OOSR_Upper_Secondary_Age_Male : Tasa de no escolarización para hombres en edad de secundaria superior.
- OOSR_Upper_Secondary_Age_Female : Tasa de no escolarización para mujeres en edad de secundaria superior.
- Completion_Rate_Primary_Male : Tasa de finalización de la educación primaria entre los hombres.
- Completion_Rate_Primary_Female : Tasa de finalización de la educación primaria entre las mujeres.
- Completion_Rate_Lower_Secondary_Male : Tasa de finalización de la educación secundaria inferior entre los hombres.
- Completion_Rate_Lower_Secondary_Female : Tasa de finalización de la educación secundaria inferior entre las mujeres.
- Completion_Rate_Upper_Secondary_Male : Tasa de finalización de la educación secundaria superior entre los hombres.
- Completion_Rate_Upper_Secondary_Female : Tasa de finalización de la educación secundaria superior entre las mujeres.
- Grade_2_3_Proficiency_Reading : Competencia en lectura para estudiantes de grados 2-3.
- Grade_2_3_Proficiency_Math : Competencia en matemáticas para estudiantes de grados 2-3.
- Primary_End_Proficiency_Reading : Competencia en lectura al finalizar la educación primaria.
- Primary_End_Proficiency_Math : Competencia en matemáticas al finalizar la educación primaria.
- Lower_Secondary_End_Proficiency_Reading : Competencia en lectura al final de la educación secundaria inferior.
- Lower_Secondary_End_Proficiency_Math : Competencia en matemáticas al final de la educación secundaria inferior.
- Youth_15_24_Literacy_Rate_Male : Tasa de alfabetización entre jóvenes varones de 15 a 24 años.
- Youth_15_24_Literacy_Rate_Female : Tasa de alfabetización entre mujeres jóvenes de 15 a 24 años.
- Birth_Rate : Tasa de natalidad en los respectivos países/áreas.
- Gross_Primary_Education_Enrollment : Matrícula bruta en educación primaria.
- Gross_Tertiary_Education_Enrollment : Matrícula bruta en educación terciaria.
- Unemployment_Rate : Tasa de desempleo en los respectivos países/áreas.

In [31]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 202 entries, 0 to 201
Data columns (total 29 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   Countries and areas                      202 non-null    object 
 1   Latitude                                 202 non-null    float64
 2   Longitude                                202 non-null    float64
 3   OOSR_Pre0Primary_Age_Male                202 non-null    int64  
 4   OOSR_Pre0Primary_Age_Female              202 non-null    int64  
 5   OOSR_Primary_Age_Male                    202 non-null    int64  
 6   OOSR_Primary_Age_Female                  202 non-null    int64  
 7   OOSR_Lower_Secondary_Age_Male            202 non-null    int64  
 8   OOSR_Lower_Secondary_Age_Female          202 non-null    int64  
 9   OOSR_Upper_Secondary_Age_Male            202 non-null    int64  
 10  OOSR_Upper_Secondary_Age_Female          202 non-n

# Eliminación de columnas

Eliminación de columnas: 'Latitude ', 'Longitude', 'Grade_2_3_Proficiency_Reading', 'Grade_2_3_Proficiency_Math' ya que no me interesa esa información en el análisis y modelado de datos; me di cuenta que hay un espacio en el título de la columna "Latitude ".

In [32]:
data=data.drop(['Latitude ', 'Longitude', 'Grade_2_3_Proficiency_Reading', 'Grade_2_3_Proficiency_Math'], axis=1)
data

Unnamed: 0,Countries and areas,OOSR_Pre0Primary_Age_Male,OOSR_Pre0Primary_Age_Female,OOSR_Primary_Age_Male,OOSR_Primary_Age_Female,OOSR_Lower_Secondary_Age_Male,OOSR_Lower_Secondary_Age_Female,OOSR_Upper_Secondary_Age_Male,OOSR_Upper_Secondary_Age_Female,Completion_Rate_Primary_Male,...,Primary_End_Proficiency_Reading,Primary_End_Proficiency_Math,Lower_Secondary_End_Proficiency_Reading,Lower_Secondary_End_Proficiency_Math,Youth_15_24_Literacy_Rate_Male,Youth_15_24_Literacy_Rate_Female,Birth_Rate,Gross_Primary_Education_Enrollment,Gross_Tertiary_Education_Enrollment,Unemployment_Rate
0,Afghanistan,0,0,0,0,0,0,44,69,67,...,13,11,0,0,74,56,32.49,104.0,9.7,11.12
1,Albania,4,2,6,3,6,1,21,15,94,...,0,0,48,58,99,100,11.78,107.0,55.0,12.33
2,Algeria,0,0,0,0,0,0,0,0,93,...,0,0,21,19,98,97,24.28,109.9,51.4,11.70
3,Andorra,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,7.20,106.4,0.0,0.00
4,Angola,31,39,0,0,0,0,0,0,63,...,0,0,0,0,0,0,40.73,113.5,9.3,6.89
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
197,Venezuela,14,14,10,10,15,13,28,19,0,...,0,0,0,0,0,0,17.88,97.2,79.3,8.80
198,Vietnam,0,0,0,0,0,0,0,0,96,...,55,51,86,81,98,98,16.75,110.6,28.5,2.01
199,Yemen,96,96,10,21,23,34,46,68,70,...,0,0,0,0,0,0,30.45,93.6,10.2,12.91
200,Zambia,0,0,17,13,0,0,0,0,71,...,0,0,5,2,93,92,36.19,98.7,4.1,11.43


# Nombres de Columnas

Para mejor interpretación de la información se procede a cambiar los nombres de las columnas.

In [33]:
data.rename(columns={"Countries and areas":"Paises",
                     "OOSR_Pre0Primary_Age_Male":"Tasa_no_escolaridad_Preescolar_Hombres",
                     "OOSR_Pre0Primary_Age_Female":"Tasa_no_escolaridad_Preescolar_Mujeres",
                     "OOSR_Primary_Age_Male":"Tasa_no_escolaridad_Primaria_Hombres",
                     "OOSR_Primary_Age_Female":"Tasa_no_escolaridad_Primaria_Mujeres",
                     "OOSR_Lower_Secondary_Age_Male":"Tasa_no_escolaridad_SecundariaInferior_Hombres",
                     "OOSR_Lower_Secondary_Age_Female":"Tasa_no_escolaridad_SecundariaInferior_Mujeres",
                     "OOSR_Upper_Secondary_Age_Male":"Tasa_no_escolaridad_SecundariaSuperior_Hombres",
                     "OOSR_Upper_Secondary_Age_Female":"Tasa_no_escolaridad_SecundariaSuperior_Mujeres",
                     "Completion_Rate_Primary_Male":"Tasa_Finalización_Primaria_Hombres",
                     "Completion_Rate_Primary_Female":"Tasa_Finalización_Primaria_Mujeres",
                     "Completion_Rate_Lower_Secondary_Male":"Tasa_Finalización_SecundariaInferior_Hombres",
                     "Completion_Rate_Lower_Secondary_Female":"Tasa_Finalización_SecundariaInferior_Mujeres",
                     "Completion_Rate_Upper_Secondary_Male":"Tasa_Finalización_SecundariaSuperior_Hombres",
                     "Completion_Rate_Upper_Secondary_Female":"Tasa_Finalización_SecundariaSuperior_Mujeres",
                     "Primary_End_Proficiency_Reading":"Competencia_Lectora_Primaria",
                     "Primary_End_Proficiency_Math":"Competencia_Matemática_Primaria",
                     "Lower_Secondary_End_Proficiency_Reading":"Competencia_Lectora_SecundariaInferior",
                     "Lower_Secondary_End_Proficiency_Math":"Competencia_Matemática_SecundariaInferior",
                     "Youth_15_24_Literacy_Rate_Male":"Tasa_Alfabetización_Hombres_15-24_años",
                     "Youth_15_24_Literacy_Rate_Female":"Tasa_Alfabetización_Mujeres_15-24_años",
                     "Birth_Rate":"Tasa_Natalidad",
                     "Gross_Primary_Education_Enrollment":"Matrícula_Bruta_Primaria",
                     "Gross_Tertiary_Education_Enrollment":"Matrícula_Bruta_Terciaria",
                    "Unemployment_Rate":"Tasa_Desempleo"},inplace=True)
data.head()

Unnamed: 0,Paises,Tasa_no_escolaridad_Preescolar_Hombres,Tasa_no_escolaridad_Preescolar_Mujeres,Tasa_no_escolaridad_Primaria_Hombres,Tasa_no_escolaridad_Primaria_Mujeres,Tasa_no_escolaridad_SecundariaInferior_Hombres,Tasa_no_escolaridad_SecundariaInferior_Mujeres,Tasa_no_escolaridad_SecundariaSuperior_Hombres,Tasa_no_escolaridad_SecundariaSuperior_Mujeres,Tasa_Finalización_Primaria_Hombres,...,Competencia_Lectora_Primaria,Competencia_Matemática_Primaria,Competencia_Lectora_SecundariaInferior,Competencia_Matemática_SecundariaInferior,Tasa_Alfabetización_Hombres_15-24_años,Tasa_Alfabetización_Mujeres_15-24_años,Tasa_Natalidad,Matrícula_Bruta_Primaria,Matrícula_Bruta_Terciaria,Tasa_Desempleo
0,Afghanistan,0,0,0,0,0,0,44,69,67,...,13,11,0,0,74,56,32.49,104.0,9.7,11.12
1,Albania,4,2,6,3,6,1,21,15,94,...,0,0,48,58,99,100,11.78,107.0,55.0,12.33
2,Algeria,0,0,0,0,0,0,0,0,93,...,0,0,21,19,98,97,24.28,109.9,51.4,11.7
3,Andorra,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,7.2,106.4,0.0,0.0
4,Angola,31,39,0,0,0,0,0,0,63,...,0,0,0,0,0,0,40.73,113.5,9.3,6.89


# Columna Continentes

Se procede a agregar una columna con los contientes de cada país.

In [34]:
Continentes = pd.read_csv('../Data/Inicial/Continentes.csv', sep=",", encoding="ISO-8859-1")
Continentes.head()


Unnamed: 0,Continentes
0,Asia
1,Europe
2,Africa
3,Europe
4,Africa


In [35]:
data.insert(1, "Continentes", Continentes)
data

Unnamed: 0,Paises,Continentes,Tasa_no_escolaridad_Preescolar_Hombres,Tasa_no_escolaridad_Preescolar_Mujeres,Tasa_no_escolaridad_Primaria_Hombres,Tasa_no_escolaridad_Primaria_Mujeres,Tasa_no_escolaridad_SecundariaInferior_Hombres,Tasa_no_escolaridad_SecundariaInferior_Mujeres,Tasa_no_escolaridad_SecundariaSuperior_Hombres,Tasa_no_escolaridad_SecundariaSuperior_Mujeres,...,Competencia_Lectora_Primaria,Competencia_Matemática_Primaria,Competencia_Lectora_SecundariaInferior,Competencia_Matemática_SecundariaInferior,Tasa_Alfabetización_Hombres_15-24_años,Tasa_Alfabetización_Mujeres_15-24_años,Tasa_Natalidad,Matrícula_Bruta_Primaria,Matrícula_Bruta_Terciaria,Tasa_Desempleo
0,Afghanistan,Asia,0,0,0,0,0,0,44,69,...,13,11,0,0,74,56,32.49,104.0,9.7,11.12
1,Albania,Europe,4,2,6,3,6,1,21,15,...,0,0,48,58,99,100,11.78,107.0,55.0,12.33
2,Algeria,Africa,0,0,0,0,0,0,0,0,...,0,0,21,19,98,97,24.28,109.9,51.4,11.70
3,Andorra,Europe,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,7.20,106.4,0.0,0.00
4,Angola,Africa,31,39,0,0,0,0,0,0,...,0,0,0,0,0,0,40.73,113.5,9.3,6.89
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
197,Venezuela,America,14,14,10,10,15,13,28,19,...,0,0,0,0,0,0,17.88,97.2,79.3,8.80
198,Vietnam,Asia,0,0,0,0,0,0,0,0,...,55,51,86,81,98,98,16.75,110.6,28.5,2.01
199,Yemen,Asia,96,96,10,21,23,34,46,68,...,0,0,0,0,0,0,30.45,93.6,10.2,12.91
200,Zambia,Africa,0,0,17,13,0,0,0,0,...,0,0,5,2,93,92,36.19,98.7,4.1,11.43


# Validar duplicados y nulos

Procedemos a validar si hay valores nulos y duplicados

In [36]:
data[data.isnull().values]

Unnamed: 0,Paises,Continentes,Tasa_no_escolaridad_Preescolar_Hombres,Tasa_no_escolaridad_Preescolar_Mujeres,Tasa_no_escolaridad_Primaria_Hombres,Tasa_no_escolaridad_Primaria_Mujeres,Tasa_no_escolaridad_SecundariaInferior_Hombres,Tasa_no_escolaridad_SecundariaInferior_Mujeres,Tasa_no_escolaridad_SecundariaSuperior_Hombres,Tasa_no_escolaridad_SecundariaSuperior_Mujeres,...,Competencia_Lectora_Primaria,Competencia_Matemática_Primaria,Competencia_Lectora_SecundariaInferior,Competencia_Matemática_SecundariaInferior,Tasa_Alfabetización_Hombres_15-24_años,Tasa_Alfabetización_Mujeres_15-24_años,Tasa_Natalidad,Matrícula_Bruta_Primaria,Matrícula_Bruta_Terciaria,Tasa_Desempleo


In [37]:
data.duplicated().sum()

0

# Exportar información

Es un dataset bastante sencillo y ya depurado para ser usado por eso no necesite más limpieza y estructuración de los datos de acuerdo a lo que necesitaba; por ende procedo a exportar la información en formato .CSV y Parquet.

In [38]:
data.to_csv('../Data/Procesada/Global_Education.csv', sep=',', index = False)
data.to_parquet('../Data/Procesada/Global_Education.parquet', 
                    compression='GZIP',
                    engine='pyarrow')