# Documentación de Modelamiento de datos: Proyecto 

In [1]:
# Tratamiento de datos
# ==============================================================================
import numpy as np
import pandas as pd
from pathlib import Path
# Varios
# ==============================================================================
import warnings
warnings.filterwarnings('ignore')
# ==============================================================================
# Visualización de mas de 30 columnas
pd.set_option('display.max_columns', 60)

## Fuentes de Datos

Las siguientes fuentes de datos fueron extraidas de diferentes entidades gubernamentales, con la finalidad de asociar diferentes indicadores del nivel educativo en prescolar, básica y media del país. A continuación se realizara un modelamiento y perfilamiento de los datos de cada fuente para su posterior preparación y visualización de la información relevante escogida a mostrar.

### 1. MEN_ESTADISTICAS_EN_EDUCACION_EN_PREESCOLAR, BÁSICA Y MEDIA_POR_DEPARTAMENTO

* **Datos ofrecidos por:** Ministerio de Educación Nacional.

* **Datos**
El conjunto de datos **MEN_ESTADISTICAS_EN_EDUCACION_EN_PREESCOLAR__B_SICA_Y_MEDIA_POR_DEPARTAMENTO** contiene los principales indicadores de los niveles preescolar, básica y media discriminados por Departamento desde el año 2011 hasta 2020, el úlitmo años es dato preliminar, el resto son datos definitivos oficial.

Este conjunto de datos se puede relacionar con el de matrícula en educación preescolar, básica y media donde se presenta la caracterización de los estudiantes que permiten obtener información para comprender el comportamiento de los indicadores. 

| **Nombre de Columna** | **Descripción** |
|---|---|
| AÑO | Vigencia del indicador |
| CÓDIGO_DEPARTAMENTO | Código DANE del Departamento |
| DEPARTAMENTO | Nombre del Departamento |
| POBLACIÓN_5_16 | Población en edad teórica de estudiar (5 a 16 años) según proyecciones de población del DANE |
| TASA_MATRICULACIÓN_5_16 | Proporción de la población entre 5 y 16 años que se encuentra asistiendo al sistema educativo.  Cuando las proyecciones de población del DANE no capturan adecuadamente los flujos migratorios internos,  puede alcanzar valores mayores al 100%. |
| COBERTURA_NETA | Es la relación entre el número de estudiantes matriculados en transición, primaria, secundaria y  media que tienen la edad teórica (5 a 16 años) y el total de la población correspondiente a esa misma edad.  Cuando las proyecciones de población del DANE no capturan adecuadamente los flujos migratorios internos,  puede alcanzar valores mayores al 100%. |
| COBERTURA_NETA_TRANSICIÓN | Es la relación entre el número de estudiantes matriculados en transición que tienen la edad teórica para cursar  este nivel (5 años) y el total de la población correspondiente a esa misma edad. Cuando las proyecciones de población  del DANE no capturan adecuadamente los flujos migratorios internos, puede alcanzar valores mayores al 100%. |
| COBERTURA_NETA_PRIMARIA | Es la relación entre el número de estudiantes matriculados en primaria que tienen la edad teórica para cursar  este nivel (6 a 10 años) y el total de la población correspondiente a esa misma edad. Cuando las proyecciones de  población del DANE no capturan adecuadamente los flujos migratorios internos, puede alcanzar valores mayores al 100%. |
| COBERTURA_NETA_SECUNDARIA | Es la relación entre el número de estudiantes matriculados en secundaria que tienen la edad teórica para cursar  este nivel (11 a 14 años) y el total de la población correspondiente a esa misma edad. Cuando las proyecciones de  población del DANE no capturan adecuadamente los flujos migratorios internos, puede alcanzar valores mayores al 100%. |
| COBERTURA_NETA_MEDIA | Es la relación entre el número de estudiantes matriculados en media que tienen la edad teórica para cursar este nivel  (15 a 16 años) y el total de la población correspondiente a esa misma edad. Cuando las proyecciones de población  del DANE no capturan adecuadamente los flujos migratorios internos, puede alcanzar valores mayores al 100%. |
| COBERTURA_BRUTA | Es la relación entre el número de estudiantes matriculados en transición, primaria, secundaria y media respecto  a la población en edad teórica para cursar estos niveles (5 a 16 años). En algunos casos la demanda social es mayor  a la población en edad teórica para cursar educación preescolar, básica y media (5 a 16 años), explicada por  estudiantes en extraedad, por lo que el indicador toma valores superiores al 100%. |
| COBERTURA_BRUTA_TRANSICIÓN | Es la relación entre el número de estudiantes matriculados en transición respecto a la población en edad teórica para  cursar este nivel (5 años). En algunos casos la demanda social es mayor a la población en edad teórica para cursar este  nivel (5 años), explicada por estudiantes en extraedad, por lo que el indicador toma valores superiores al 100%. |
| COBERTURA_BRUTA_PRIMARIA | Es la relación entre el número de estudiantes matriculados en primaria respecto a la población en edad teórica para  cursar este nivel (6 a 10 años). En algunos casos la demanda social es mayor a la población en edad teórica para cursar  este nivel (6 a 10 años), explicada por estudiantes en extraedad, por lo que el indicador toma valores superiores al 100%. |
| COBERTURA_BRUTA_SECUNDARIA | Es la relación entre el número de estudiantes matriculados en secundaria respecto a la población en edad teórica para  cursar este nivel (11 a 14 años). En algunos casos la demanda social es mayor a la población en edad teórica para cursar  este nivel (11 a 14 años), explicada por estudiantes en extraedad, por lo que el indicador toma valores superiores al 100%. |
| COBERTURA_BRUTA_MEDIA | Es la relación entre el número de estudiantes matriculados en media respecto a la población en edad teórica para cursar  este nivel (15 a 16 años). En algunos casos la demanda social es mayor a la población en edad teórica para cursar este  nivel (15 a 16 años), explicada por estudiantes en extraedad, por lo que el indicador toma valores superiores al 100%. |
| TAMAÑO_PROMEDIO_DE_GRUPO | Corresponde al número promedio de estudiantes por grupo. Para su cálculo considera la matrícula y el número de grupos  tanto del sector oficial como del no oficial |
| SEDES_CONECTADAS_A_INTERNET | Indica el porcentaje de sedes oficiales de Una Entidad Territorial Certificada que se encuentran conectadas  a una red de Internet. |
| DESERCIÓN | Tasa de deserción intra - anual del sector oficial. Identifica la proporción de alumnos matriculados que por factores  culturales, coyunturales o de prestación del servicio educativo, abandonan sus estudios durante el año lectivo. |
| DESERCIÓN_TRANSICIÓN | Tasa de deserción intra - anual del sector oficial en transición. Identifica la proporción de alumnos matriculados  que por factores culturales, coyunturales o de prestación del servicio educativo, abandonan sus estudios durante el año lectivo. |
| DESERCIÓN_PRIMARIA | Tasa de deserción intra - anual del sector oficial en primaria. Identifica la proporción de alumnos matriculados  que por factores culturales, coyunturales o de prestación del servicio educativo, abandonan sus estudios durante el año lectivo. |
| DESERCIÓN_SECUNDARIA | Tasa de deserción intra - anual del sector oficial en secundaria. Identifica la proporción de alumnos  matriculados que por factores culturales, coyunturales o de prestación del servicio educativo, abandonan sus estudios  durante el año lectivo. |
| DESERCIÓN_MEDIA | Tasa de deserción intra - anual del sector oficial en media. Identifica la proporción de alumnos matriculados  que por factores culturales, coyunturales o de prestación del servicio educativo, abandonan sus estudios durante el año lectivo. |
| APROBACIÓN | Tasa de aprobación de estudiantes del sector oficial. Identifica el porcentaje de alumnos en educación preescolar,  básica y media que aprueba de acuerdo con los planes y programas de estudio vigentes. |
| APROBACIÓN_TRANSICIÓN | Tasa de aprobación de estudiantes del sector oficial en transición. Identifica el porcentaje de alumnos en este nivel  educativo que aprueba de acuerdo con los planes y programas de estudio vigentes. |
| APROBACIÓN_PRIMARIA | Tasa de aprobación de estudiantes del sector oficial en primaria. Identifica el porcentaje de alumnos en este nivel  educativo que aprueba de acuerdo con los planes y programas de estudio vigentes. |
| APROBACIÓN_SECUNDARIA | Tasa de aprobación de estudiantes del sector oficial en secundaria. Identifica el porcentaje de alumnos en este nivel  educativo que aprueba de acuerdo con los planes y programas de estudio vigentes. |
| APROBACIÓN_MEDIA | Tasa de aprobación de estudiantes del sector oficial en media. Identifica el porcentaje de alumnos en este nivel  educativo que aprueba de acuerdo con los planes y programas de estudio vigentes. |
| REPROBACIÓN | Tasa de reprobación de estudiantes del sector oficial. Identifica el porcentaje de alumnos en educación preescolar,  básica y media que reprueba de acuerdo con los planes y programas de estudio vigentes. |
| REPROBACIÓN_TRANSICIÓN | Tasa de reprobación de estudiantes del sector oficial en transición. Identifica el porcentaje de alumnos en este nivel  educativo que reprueba de acuerdo con los planes y programas de estudio vigentes. |
| REPROBACIÓN_PRIMARIA | Tasa de reprobación de estudiantes del sector oficial en primaria. Identifica el porcentaje de alumnos en este nivel  educativo que reprueba de acuerdo con los planes y programas de estudio vigentes. |
| REPROBACIÓN_SECUNDARIA | Tasa de reprobación de estudiantes del sector oficial en secundaria. Identifica el porcentaje de alumnos en este nivel  educativo que reprueba de acuerdo con los planes y programas de estudio vigentes. |
| REPROBACIÓN_MEDIA | Tasa de reprobación de estudiantes del sector oficial en media. Identifica el porcentaje de alumnos en este nivel  educativo que reprueba de acuerdo con los planes y programas de estudio vigentes. |
| REPITENCIA | Tasa de repitencia del sector oficial. Corresponde al porcentaje de alumnos matriculados en un año escolar en transición,  primaria, secundaria y media que se encuentran repitiendo el mismo grado cursado el año anterior. |
| REPITENCIA_TRANSICIÓN | Tasa de repitencia del sector oficial. Corresponde al porcentaje de alumnos matriculados en transición que se encuentran  repitiendo el mismo grado cursado el año anterior. |
| REPITENCIA_PRIMARIA | Tasa de repitencia del sector oficial. Corresponde al porcentaje de alumnos matriculados en primaria que se encuentran  repitiendo el mismo grado cursado el año anterior. |
| REPITENCIA_SECUNDARIA | Tasa de repitencia del sector oficial. Corresponde al porcentaje de alumnos matriculados en secundaria que se encuentran  repitiendo el mismo grado cursado el año anterior. |
| REPITENCIA_MEDIA | Tasa de repitencia del sector oficial. Corresponde al porcentaje de alumnos matriculados en media que se encuentran  repitiendo el mismo grado cursado el año anterior. |

### Análisis exploratorio
Realizar una exploración descriptiva de los datos permite entender mejor qué información contiene cada variable, así como detectar posibles errores. 

In [2]:
# Lectura de dataset .CSV
directorio = Path().resolve().parent /'fuentes_de_datos/MEN_ESTADISTICAS_EN_EDUCACION_EN_PREESCOLAR__B_SICA_Y_MEDIA_POR_DEPARTAMENTO.csv'
data = pd.read_csv(directorio, sep=',', encoding='utf-8')
data.head()

Unnamed: 0,AÑO,CÓDIGO_DEPARTAMENTO,DEPARTAMENTO,POBLACIÓN_5_16,TASA_MATRICULACIÓN_5_16,COBERTURA_NETA,COBERTURA_NETA_TRANSICIÓN,COBERTURA_NETA_PRIMARIA,COBERTURA_NETA_SECUNDARIA,COBERTURA_NETA_MEDIA,COBERTURA_BRUTA,COBERTURA_BRUTA_TRANSICIÓN,COBERTURA_BRUTA_PRIMARIA,COBERTURA_BRUTA_SECUNDARIA,COBERTURA_BRUTA_MEDIA,TAMAÑO_PROMEDIO_DE_GRUPO,SEDES_CONECTADAS_A_INTERNET,DESERCIÓN,DESERCIÓN_TRANSICIÓN,DESERCIÓN_PRIMARIA,DESERCIÓN_SECUNDARIA,DESERCIÓN_MEDIA,APROBACIÓN,APROBACIÓN_TRANSICIÓN,APROBACIÓN_PRIMARIA,APROBACIÓN_SECUNDARIA,APROBACIÓN_MEDIA,REPROBACIÓN,REPROBACIÓN_TRANSICIÓN,REPROBACIÓN_PRIMARIA,REPROBACIÓN_SECUNDARIA,REPROBACIÓN_MEDIA,REPITENCIA,REPITENCIA_TRANSICIÓN,REPITENCIA_PRIMARIA,REPITENCIA_SECUNDARIA,REPITENCIA_MEDIA
0,2015,5,Antioquia,1262800,89.92,89.79,61.07,89.02,74.17,42.61,103.14,79.42,111.0,110.09,82.19,30.39,61.29,3.82,2.86,2.97,5.55,2.8,89.34,96.94,91.59,83.89,91.56,6.84,0.2,5.44,10.56,5.64,2.83,0.2,2.26,4.55,1.95
1,2015,8,Atlántico,520783,86.17,85.92,53.52,82.12,74.28,45.61,93.38,81.92,100.78,95.67,76.02,26.27,88.0,1.39,1.74,1.29,1.57,1.0,95.19,97.2,95.8,93.48,96.78,3.42,1.06,2.9,4.96,2.22,1.69,1.06,1.38,2.42,1.06
2,2015,11,"Bogotá, D.C.",1455309,82.2,81.77,59.17,78.94,74.89,50.61,88.45,73.77,89.14,94.6,81.94,27.56,98.87,3.63,3.48,2.72,4.85,3.2,96.29,96.51,97.25,95.02,96.57,0.09,0.0,0.03,0.12,0.23,9.91,0.0,6.49,16.02,7.94
3,2015,13,Bolívar,488886,88.78,88.69,58.5,87.33,71.05,39.34,100.18,98.61,111.11,100.44,73.44,23.02,44.94,3.01,3.16,2.54,3.75,2.69,91.5,96.06,92.85,88.1,92.34,5.49,0.78,4.61,8.15,4.97,1.83,0.78,1.74,2.46,0.92
4,2015,15,Boyacá,284611,83.62,83.57,63.02,80.65,74.22,48.61,93.37,82.1,92.12,101.3,85.47,25.17,22.96,2.22,1.8,1.39,3.19,2.32,93.27,97.91,95.64,89.72,93.39,4.51,0.29,2.97,7.09,4.29,2.27,0.29,1.46,3.68,2.07


#### - Informe del dataset
Con data.info() podemos ver la cantidad total de columnas y filas que contiene el dataset, tambien se puede ver el dtypes de cada columna y por ultimo nos indica la cantidad de valores no-nulos, es decir, la cantidad de datos que contiene verdadera información a utilizar.

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 330 entries, 0 to 329
Data columns (total 37 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   AÑO                          330 non-null    int64  
 1   CÓDIGO_DEPARTAMENTO          330 non-null    int64  
 2   DEPARTAMENTO                 330 non-null    object 
 3   POBLACIÓN_5_16               330 non-null    int64  
 4   TASA_MATRICULACIÓN_5_16      330 non-null    float64
 5   COBERTURA_NETA               330 non-null    float64
 6   COBERTURA_NETA_TRANSICIÓN    330 non-null    float64
 7   COBERTURA_NETA_PRIMARIA      330 non-null    float64
 8   COBERTURA_NETA_SECUNDARIA    330 non-null    float64
 9   COBERTURA_NETA_MEDIA         330 non-null    float64
 10  COBERTURA_BRUTA              330 non-null    float64
 11  COBERTURA_BRUTA_TRANSICIÓN   330 non-null    float64
 12  COBERTURA_BRUTA_PRIMARIA     330 non-null    float64
 13  COBERTURA_BRUTA_SECU

#### - Verificamos valores nulos

Como podemos ver el **100%** de los datos realmente **útiles**, correspondería a que ninguno de los **330** registros de cada columna contenga un valor nulo (NaN) como se observa en el siguiente código.

In [4]:
# Revisión
nulls =dict(data.isnull().sum())
dfnulls=pd.DataFrame(list(nulls.items()), columns=['Columna', 'Total_null'])
porcentaje = lambda x: round((x*100)/data.shape[0], 2)
dfnulls['porcentaje']= dfnulls['Total_null'].apply(porcentaje)
dfnulls

Unnamed: 0,Columna,Total_null,porcentaje
0,AÑO,0,0.0
1,CÓDIGO_DEPARTAMENTO,0,0.0
2,DEPARTAMENTO,0,0.0
3,POBLACIÓN_5_16,0,0.0
4,TASA_MATRICULACIÓN_5_16,0,0.0
5,COBERTURA_NETA,0,0.0
6,COBERTURA_NETA_TRANSICIÓN,0,0.0
7,COBERTURA_NETA_PRIMARIA,0,0.0
8,COBERTURA_NETA_SECUNDARIA,0,0.0
9,COBERTURA_NETA_MEDIA,0,0.0


#### - Revisión y analisis de valores nulos

* La columna **TAMAÑO_PROMEDIO_DE_GRUPO** contiene un **30%** de valores Nulos (NaN).
* La columna **SEDES_CONECTADAS_A_INTERNET** contiene un **30%** de valores Nulos (NaN).

#### - Tratamiento de valores nulos

1. La columnas **SEDES_CONECTADAS_A_INTERNET** se rellenaran los valores faltantes con cero, ya que esta variables nos indica un dato sensible que es si la población cuenta con conectividad o no, como no hay un dato se determina que esa zona no cuenta con conectividad.

2. La columnas **TAMAÑO_PROMEDIO_DE_GRUPO** se rellenara con la media de los valores.


In [7]:
# TAMAÑO_PROMEDIO_DE_GRUPO
data.TAMAÑO_PROMEDIO_DE_GRUPO.fillna(data.TAMAÑO_PROMEDIO_DE_GRUPO.mean(),inplace=True)
# SEDES_CONECTADAS_A_INTERNET
data.SEDES_CONECTADAS_A_INTERNET.fillna(0,inplace=True)
data.isnull().sum()

AÑO                            0
CÓDIGO_DEPARTAMENTO            0
DEPARTAMENTO                   0
POBLACIÓN_5_16                 0
TASA_MATRICULACIÓN_5_16        0
COBERTURA_NETA                 0
COBERTURA_NETA_TRANSICIÓN      0
COBERTURA_NETA_PRIMARIA        0
COBERTURA_NETA_SECUNDARIA      0
COBERTURA_NETA_MEDIA           0
COBERTURA_BRUTA                0
COBERTURA_BRUTA_TRANSICIÓN     0
COBERTURA_BRUTA_PRIMARIA       0
COBERTURA_BRUTA_SECUNDARIA     0
COBERTURA_BRUTA_MEDIA          0
TAMAÑO_PROMEDIO_DE_GRUPO       0
SEDES_CONECTADAS_A_INTERNET    0
DESERCIÓN                      0
DESERCIÓN_TRANSICIÓN           1
DESERCIÓN_PRIMARIA             0
DESERCIÓN_SECUNDARIA           0
DESERCIÓN_MEDIA                0
APROBACIÓN                     0
APROBACIÓN_TRANSICIÓN          0
APROBACIÓN_PRIMARIA            0
APROBACIÓN_SECUNDARIA          0
APROBACIÓN_MEDIA               0
REPROBACIÓN                    0
REPROBACIÓN_TRANSICIÓN         0
REPROBACIÓN_PRIMARIA           0
REPROBACIÓ