# Definición de la propuesta




## Problemática

En Colombia, el 54% de los estudiantes en escuelas oficiales se encuentran en los niveles mínimos e insuficientes en las pruebas Saber 11 en 2018. Además, de cada 100 estudiantes que ingresan al primer grado de educación escolar, solo 46 logran graduarse sin desertar ni perder ningún año. Asimismo, 5 de cada 10 niños consideran que solo aprenden lo suficiente o lo básico en el colegio. Este problema no se limita únicamente a la educación correspondiente a la etapa escolar, sino que también afecta a la educación superior, que presenta un déficit acumulado de 15 billones de pesos hasta noviembre de 2021.

## Arquitectura de la solución

Estas estadísticas indican que el sistema educativo de nuestro país tiene grandes falencias estructurales, además de las económicas que ya son evidentes. Es por esto que debemos tomar acción desde nuestros nichos para lograr mejorar este sistema, después de todo, la educación es uno de los pilares mismos de la sociedad en la que vivimos.

El objetivo del presente proyecto es construir un modelo de ML utilizando la tecnología Dask para poder predecir el nivel de deserción escolar total al final de la educación media en cada municipio del país.

Como es usual en los proyectos de ML, seguiremos el siguiente proceso:

* Carga del conjunto de datos con Dask.
* Análisis exploratorio de datos.
* Limpieza de datos: manejo de valores nulos y faltantes.
* Preprocesamiento de los datos utilizando Dask-ML.
* Selección y entrenamiento del modelo utilizando Dask-ML.
* Evaluación de los resultados.

#Declaración del conjunto de datos

## Definición de la fuente del conjunto de datos

El conjunto de datos con el que trabajaremos se obtuvo de las bases de datos abiertas del Ministerio Nacional. Más específicamente, se puede encontrar en el siguiente enlace:  https://www.datos.gov.co/Educaci-n/MEN_ESTADISTICAS_EN_EDUCACION_EN_PREESCOLAR-B-SICA/ji8i-4anb

## Descripición del conjunto de datos:

El conjunto de datos original cuenta con las siguientes variables:


| Variable | Definición | Tipo |
| --- | --- | --- |
| AÑO | Año referente a la entrada | Numérico |
| CODIGO_DEPARTAMENTO | Codigo DANE del departamente | Numérico |
| DEPARTAMENTO | Nombre del departamento | Texto |
| POBLACIÓN_5_16 | Población proyectada a estudiar | Texto |
| TASA_DE_MATRICULACIÓN_5_16 | Tasa de matriculación proyectada | Numerico |
| COBERTURA_NETA | Porcentaje de los estudantes que deberían estar esudianto, que están estudiando | Numérico |
| COBERTURA_NETA_TRANSICIÓN | Porcentaje de estudiantes matriculados en este nivel | Categórico |
| COBERTURA_NETA_PRIMARIA | Porcentaje de estudiantes matriculados en este nivel | Categórico |
| COBERTURA_NETA_SECUNDARIA | Porcentaje de estudiantes matriculados en este nivel | Categórico |
| COBERTURA_NETA_MEDIA | Porcentaje de estudiantes matriculados en este nivel | Categórico |
| COBERTURA_BRUTA | Porcentaje de estudiantes de cualquier edad estudiando | Categórico |
| COBERTURA_BRUTA_TRANSICIÓN |Cobertura bruta en este nivel  | Categórico |
| COBERTURA_BRUTA_PRIMARIA | Cobertura bruta en este nivel | Numérico |
| COBERTURA_BRUTA_SECUNDARIA | Cobertura bruta en este nivel | Numérico |
| COBERTURA_BRUTA_MEDIA |Cobertura bruta en este nivel | Numérico |
| TAMAÑO_PROMEDIO_DE_GRUPO | Promedio del tamaño en el grupo | Numérico |
|SEDES_CONECTADAS_A_INTERNET | Porcentaje de sedes oficiales con acceso a internet | Texto |
| DESERCIÓN | Porcentaje de deserción, esta es la variable objetivo | Numérico |
| DESERCIÓN_TRANSICIÓN | Porcentaje de deserción en este nivel | Numérico |
| DESERCIÓN_PRIMARIA | Porcentaje de deserción en este nivel | Numérico |
| DESERCIÓN_SECUNDARIA | Porcentaje de deserción en este nivel | Numérico |
| DESERCIÓN_MEDIA | Porcentaje de deserción en este nivel  | Numérico |
| APROBACIÓN | Porcentaje de aprobación total | Categórico |
| APROBACIÓN_TRANSICIÓN | Porcentaje de aprovación en este nivel | Numérico |
| APROBACIÓN_PRIMARIA | Porcentaje de aprovación en este nivel | Numerico |
| APROBACIÓN_SECUNDARIA | Porcentaje de aprovación en este nivel | Numérico |
| APROBACIÓN_MEDIA | Porcentaje de aprovación en este nivel | Numérico |
| REPROBACIÓN | Porcentaje de reprobación total | Numerico|
| REPROBACIÓN_TRANSICIÓN|Porcentaje de reprobación en este nivel | Numerico|
| REPROBACIÓN_PRIMARIA | Porcentaje de reprobación en este nivel| Numerico|
| REPROBACIÓN_SECUNDARIA | Porcentaje de reprobación en este nivel| Numerico|
| REPROBACIÓN_MEDIA |Porcentaje de reprobación en este nivel | Numerico|
| REPITENCIA | Porcentaje total de repitencia | Numerico |
| REPITENCIA_TRANSICIÓN |Porcentaje total de repitencia en este nivel | Numerico|
| REPITENCIA_PRIMARIA|Porcentaje total de repitencia en este nivel | Numerico |
| REPITENCIA_SECUNDARIA| Porcentaje total de repitencia en este nivel| Numerico |
| REPITENCIA_MEDIA |Porcentaje total de repitencia en este nivel | Numerico |

El conjunto de datos recorre los años desde 2011 hasta 2020

#Definición de las tecnologias a utilizar

En nuestro caso, al tener una variable objetivo que no es categórica, el uso de un modelo de regresión es ideal para nuestro propósito de predecir valores numéricos.

La tecnología Dask es una elección adecuada debido al volumen de datos que estamos manejando, que puede volverse bastante grande. Dask nos permite realizar procesamiento en paralelo, lo cual es beneficioso para acelerar el procesamiento y el entrenamiento de nuestro modelo. Además, Dask se basa en la familiar interfaz de Pandas, lo que facilita la transición y nos permite aprovechar nuestros conocimientos previos en Pandas.

Otra ventaja de Dask es que ofrece capacidades de entrenamiento y aplicación de modelos en paralelo, lo que acelera significativamente nuestro proceso de predicción. Esto es especialmente útil cuando trabajamos con grandes volúmenes de datos, ya que nos permite aprovechar al máximo los recursos disponibles y reducir el tiempo de ejecución.

En resumen, la elección de Dask para nuestro proyecto se justifica por su capacidad de procesamiento en paralelo, su familiaridad con Pandas y su eficiencia en el entrenamiento y aplicación de modelos, lo cual es crucial para nuestro objetivo de construir un modelo de ML efectivo en un entorno de datos voluminosos.

#Implementación del proceso descrito

##Instalación de herramientas

Comenzamos instalando todas las librerías necesarias para el desarrollo del proyecto.

In [None]:
!pip install dask[complete] h5py dask-ml

In [130]:
import numpy as np
import pandas as pd
import dask.dataframe as dd
import dask.array as da
from dask_ml.model_selection import train_test_split
from google.colab import drive
import dask.dataframe as dd
from dask_ml.preprocessing import OneHotEncoder
from dask_ml.preprocessing import StandardScaler
from dask_ml.linear_model import LinearRegression
from dask_ml.metrics import mean_squared_error, r2_score

## Carga de los datos

Nuestros datos se encuentran en Google Drive, los cargamos y cambiamos el tipo de ciertas variables para el buen funcionamiento de las próximas celdas.

In [154]:
drive.mount('/content/drive')
ruta_archivo = '/content/drive/MyDrive/MLDS/MEN_ESTADISTICAS_EN_EDUCACION_EN_PREESCOLAR__B_SICA_Y_MEDIA_POR_MUNICIPIO.csv'
df = dd.read_csv(ruta_archivo, dtype={'AÑO': 'object',
       'CÓDIGO_ETC': 'object',
       'POBLACIÓN_5_16': 'object'})

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


Para comenzar nuestro análisis exploratorio de datos, veamos nuestro dataframe, sus columnas, los tipos de columnas, y cuantas son.

In [155]:
print(df)

Dask DataFrame Structure:
                  AÑO CÓDIGO_MUNICIPIO MUNICIPIO CÓDIGO_DEPARTAMENTO DEPARTAMENTO CÓDIGO_ETC     ETC POBLACIÓN_5_16 TASA_MATRICULACIÓN_5_16 COBERTURA_NETA COBERTURA_NETA_TRANSICIÓN COBERTURA_NETA_PRIMARIA COBERTURA_NETA_SECUNDARIA COBERTURA_NETA_MEDIA COBERTURA_BRUTA COBERTURA_BRUTA_TRANSICIÓN COBERTURA_BRUTA_PRIMARIA COBERTURA_BRUTA_SECUNDARIA COBERTURA_BRUTA_MEDIA TAMAÑO_PROMEDIO_DE_GRUPO SEDES_CONECTADAS_A_INTERNET DESERCIÓN DESERCIÓN_TRANSICIÓN DESERCIÓN_PRIMARIA DESERCIÓN_SECUNDARIA DESERCIÓN_MEDIA APROBACIÓN APROBACIÓN_TRANSICIÓN APROBACIÓN_PRIMARIA APROBACIÓN_SECUNDARIA APROBACIÓN_MEDIA REPROBACIÓN REPROBACIÓN_TRANSICIÓN REPROBACIÓN_PRIMARIA REPROBACIÓN_SECUNDARIA REPROBACIÓN_MEDIA REPITENCIA REPITENCIA_TRANSICIÓN REPITENCIA_PRIMARIA REPITENCIA_SECUNDARIA REPITENCIA_MEDIA
npartitions=1                                                                                                                                                                           

In [156]:
print(df.columns)

Index(['AÑO', 'CÓDIGO_MUNICIPIO', 'MUNICIPIO', 'CÓDIGO_DEPARTAMENTO',
       'DEPARTAMENTO', 'CÓDIGO_ETC', 'ETC', 'POBLACIÓN_5_16',
       'TASA_MATRICULACIÓN_5_16', 'COBERTURA_NETA',
       'COBERTURA_NETA_TRANSICIÓN', 'COBERTURA_NETA_PRIMARIA',
       'COBERTURA_NETA_SECUNDARIA', 'COBERTURA_NETA_MEDIA', 'COBERTURA_BRUTA',
       'COBERTURA_BRUTA_TRANSICIÓN', 'COBERTURA_BRUTA_PRIMARIA',
       'COBERTURA_BRUTA_SECUNDARIA', 'COBERTURA_BRUTA_MEDIA',
       'TAMAÑO_PROMEDIO_DE_GRUPO', 'SEDES_CONECTADAS_A_INTERNET', 'DESERCIÓN',
       'DESERCIÓN_TRANSICIÓN', 'DESERCIÓN_PRIMARIA', 'DESERCIÓN_SECUNDARIA',
       'DESERCIÓN_MEDIA', 'APROBACIÓN', 'APROBACIÓN_TRANSICIÓN',
       'APROBACIÓN_PRIMARIA', 'APROBACIÓN_SECUNDARIA', 'APROBACIÓN_MEDIA',
       'REPROBACIÓN', 'REPROBACIÓN_TRANSICIÓN', 'REPROBACIÓN_PRIMARIA',
       'REPROBACIÓN_SECUNDARIA', 'REPROBACIÓN_MEDIA', 'REPITENCIA',
       'REPITENCIA_TRANSICIÓN', 'REPITENCIA_PRIMARIA', 'REPITENCIA_SECUNDARIA',
       'REPITENCIA_MEDIA'],
   

In [157]:
print(df.dtypes)

AÑO                             object
CÓDIGO_MUNICIPIO                 int64
MUNICIPIO                       object
CÓDIGO_DEPARTAMENTO              int64
DEPARTAMENTO                    object
CÓDIGO_ETC                      object
ETC                             object
POBLACIÓN_5_16                  object
TASA_MATRICULACIÓN_5_16        float64
COBERTURA_NETA                 float64
COBERTURA_NETA_TRANSICIÓN      float64
COBERTURA_NETA_PRIMARIA        float64
COBERTURA_NETA_SECUNDARIA      float64
COBERTURA_NETA_MEDIA           float64
COBERTURA_BRUTA                float64
COBERTURA_BRUTA_TRANSICIÓN     float64
COBERTURA_BRUTA_PRIMARIA       float64
COBERTURA_BRUTA_SECUNDARIA     float64
COBERTURA_BRUTA_MEDIA          float64
TAMAÑO_PROMEDIO_DE_GRUPO       float64
SEDES_CONECTADAS_A_INTERNET    float64
DESERCIÓN                      float64
DESERCIÓN_TRANSICIÓN           float64
DESERCIÓN_PRIMARIA             float64
DESERCIÓN_SECUNDARIA           float64
DESERCIÓN_MEDIA          

In [158]:
print(df.shape[0].compute())

12343


Vemos que tenemos en total 12343 filas de datos, y si tenemos 41 columnas nuestros datos brutos son: 506063 datos. Además hay 8 de nuestras columnas son valores categóricos, lo cual nos indica que debemos usar preprocesamiento categórico y numérico.

Veamos ahora las estadísticas generales de nuestro conjunto de datos.

In [159]:
desc = df.describe(include="all")
print(desc.compute())

          AÑO  CÓDIGO_MUNICIPIO   MUNICIPIO  CÓDIGO_DEPARTAMENTO DEPARTAMENTO  \
unique     12               NaN        1037                  NaN           36   
count   12343      12343.000000       12343         12343.000000        12343   
top      2019               NaN  Villanueva                  NaN    Antioquia   
freq     1123               NaN          44                  NaN         1375   
mean      NaN      38697.935429         NaN            38.264198          NaN   
std       NaN      26560.364162         NaN            26.573651          NaN   
min       NaN          0.000000         NaN             0.000000          NaN   
25%       NaN      15676.000000         NaN            15.000000          NaN   
50%       NaN      25839.000000         NaN            25.000000          NaN   
75%       NaN      66572.000000         NaN            66.000000          NaN   
max       NaN      99773.000000         NaN            99.000000          NaN   

       CÓDIGO_ETC          

Ahora los promedios de las variables numéricas.

In [160]:
mean = df.mean()
print(mean.compute())

CÓDIGO_MUNICIPIO               38697.935429
CÓDIGO_DEPARTAMENTO               38.264198
TASA_MATRICULACIÓN_5_16           85.043006
COBERTURA_NETA                    85.740056
COBERTURA_NETA_TRANSICIÓN         57.098376
COBERTURA_NETA_PRIMARIA           82.844855
COBERTURA_NETA_SECUNDARIA         69.641950
COBERTURA_NETA_MEDIA              39.938921
COBERTURA_BRUTA                   98.059027
COBERTURA_BRUTA_TRANSICIÓN        86.764201
COBERTURA_BRUTA_PRIMARIA         106.431989
COBERTURA_BRUTA_SECUNDARIA       101.457545
COBERTURA_BRUTA_MEDIA             74.861419
TAMAÑO_PROMEDIO_DE_GRUPO        5908.838508
SEDES_CONECTADAS_A_INTERNET       34.831424
DESERCIÓN                          3.418329
DESERCIÓN_TRANSICIÓN               3.392673
DESERCIÓN_PRIMARIA                 2.713315
DESERCIÓN_SECUNDARIA               4.479580
DESERCIÓN_MEDIA                    3.437073
APROBACIÓN                        91.987078
APROBACIÓN_TRANSICIÓN             96.087689
APROBACIÓN_PRIMARIA             

Veamos que hay variables numéricas que pueden llegar a alterar nuestro trabajo, tal como los código de municipio y departamento, además ciertas variables repetitivas tales como las de deserción por niveles que pueden llevar a la filtración de datos y sobreajuste.

Finalmente comenzamos nuestra limpieza de datos retirando estas columnas repetitivas:

In [161]:
columnasNOIMP = ['AÑO','CÓDIGO_MUNICIPIO','CÓDIGO_DEPARTAMENTO','CÓDIGO_ETC','ETC','COBERTURA_NETA','COBERTURA_BRUTA',
                 'DESERCIÓN_TRANSICIÓN','DESERCIÓN_PRIMARIA','DESERCIÓN_SECUNDARIA','DESERCIÓN_MEDIA','APROBACIÓN',
                 'REPROBACIÓN','REPITENCIA','POBLACIÓN_5_16']

In [162]:
df = df.drop(columnasNOIMP, axis=1)

In [163]:
print(df.dtypes)

MUNICIPIO                       object
DEPARTAMENTO                    object
TASA_MATRICULACIÓN_5_16        float64
COBERTURA_NETA_TRANSICIÓN      float64
COBERTURA_NETA_PRIMARIA        float64
COBERTURA_NETA_SECUNDARIA      float64
COBERTURA_NETA_MEDIA           float64
COBERTURA_BRUTA_TRANSICIÓN     float64
COBERTURA_BRUTA_PRIMARIA       float64
COBERTURA_BRUTA_SECUNDARIA     float64
COBERTURA_BRUTA_MEDIA          float64
TAMAÑO_PROMEDIO_DE_GRUPO       float64
SEDES_CONECTADAS_A_INTERNET    float64
DESERCIÓN                      float64
APROBACIÓN_TRANSICIÓN          float64
APROBACIÓN_PRIMARIA            float64
APROBACIÓN_SECUNDARIA          float64
APROBACIÓN_MEDIA               float64
REPROBACIÓN_TRANSICIÓN         float64
REPROBACIÓN_PRIMARIA           float64
REPROBACIÓN_SECUNDARIA         float64
REPROBACIÓN_MEDIA              float64
REPITENCIA_TRANSICIÓN          float64
REPITENCIA_PRIMARIA            float64
REPITENCIA_SECUNDARIA          float64
REPITENCIA_MEDIA         

Podemos generar un nuevo describe para ver nuestro nuevo conjunto de datos de manera general.

In [164]:
desc = df.describe(include="all")
print(desc.compute())

         MUNICIPIO DEPARTAMENTO  TASA_MATRICULACIÓN_5_16  \
unique        1037           36                      NaN   
count        12343        12343             12228.000000   
top     Villanueva    Antioquia                      NaN   
freq            44         1375                      NaN   
mean           NaN          NaN                85.043006   
std            NaN          NaN                19.083367   
min            NaN          NaN                 0.000000   
25%            NaN          NaN                74.547500   
50%            NaN          NaN                85.500000   
75%            NaN          NaN                95.800000   
max            NaN          NaN               279.030000   

        COBERTURA_NETA_TRANSICIÓN  COBERTURA_NETA_PRIMARIA  \
unique                        NaN                      NaN   
count                12291.000000             12252.000000   
top                           NaN                      NaN   
freq                          N

Veamos ahora que columnas presentan valores nulos en nuestro conjunto de datos.

In [165]:
nulos_por_columna = df.isnull().sum()
print(nulos_por_columna.compute())

MUNICIPIO                         0
DEPARTAMENTO                      0
TASA_MATRICULACIÓN_5_16         115
COBERTURA_NETA_TRANSICIÓN        52
COBERTURA_NETA_PRIMARIA          91
COBERTURA_NETA_SECUNDARIA        94
COBERTURA_NETA_MEDIA             93
COBERTURA_BRUTA_TRANSICIÓN       97
COBERTURA_BRUTA_PRIMARIA         81
COBERTURA_BRUTA_SECUNDARIA       88
COBERTURA_BRUTA_MEDIA           127
TAMAÑO_PROMEDIO_DE_GRUPO       4771
SEDES_CONECTADAS_A_INTERNET    4575
DESERCIÓN                       142
APROBACIÓN_TRANSICIÓN            25
APROBACIÓN_PRIMARIA              25
APROBACIÓN_SECUNDARIA            54
APROBACIÓN_MEDIA                101
REPROBACIÓN_TRANSICIÓN           93
REPROBACIÓN_PRIMARIA             97
REPROBACIÓN_SECUNDARIA          106
REPROBACIÓN_MEDIA               145
REPITENCIA_TRANSICIÓN           159
REPITENCIA_PRIMARIA             148
REPITENCIA_SECUNDARIA           152
REPITENCIA_MEDIA                139
dtype: int64


Todas las columnas con valores nulos son numéricas, es por esto que si podemos separar el conjunto de datos en dos subconjuntos: Uno de variables numéricas y otro de categoricas.

In [166]:
df_cat = df[['MUNICIPIO','DEPARTAMENTO']]
print(df_cat.compute())

            MUNICIPIO DEPARTAMENTO
0            Medellín    Antioquia
1           Abejorral    Antioquia
2            Abriaquí    Antioquia
3          Alejandría    Antioquia
4               Amagá    Antioquia
...               ...          ...
12338        Yavaraté       Vaupés
12339  Puerto Carreño      Vichada
12340    La Primavera      Vichada
12341   Santa Rosalía      Vichada
12342        Cumaribo      Vichada

[12343 rows x 2 columns]


In [167]:
df_num = df.iloc[:, 2:]
print(df_num.compute())

       TASA_MATRICULACIÓN_5_16  COBERTURA_NETA_TRANSICIÓN  \
0                       108.73                      79.80   
1                        97.81                      50.60   
2                        88.61                      66.70   
3                       118.52                      82.70   
4                        78.65                      55.30   
...                        ...                        ...   
12338                    48.62                      31.43   
12339                   127.24                     102.19   
12340                    98.05                      57.37   
12341                    87.86                      53.57   
12342                    42.72                      30.62   

       COBERTURA_NETA_PRIMARIA  COBERTURA_NETA_SECUNDARIA  \
0                       107.20                      94.80   
1                       111.30                      74.20   
2                        93.20                      79.30   
3                      

Ahora sí podemos llenar los valores nulos de cada una de las columnas numéricas con el promedio de la misma columna.

In [168]:
columnas_numericas = df_num.select_dtypes(include='number').columns
promedios = df[columnas_numericas].mean()
df_num = df_num.fillna(promedios)

Y así nuestro conjunto de datos no tiene valores nulos, como podemos verificar a continuación.

In [169]:
print(df_num.isnull().sum().compute())

TASA_MATRICULACIÓN_5_16        0
COBERTURA_NETA_TRANSICIÓN      0
COBERTURA_NETA_PRIMARIA        0
COBERTURA_NETA_SECUNDARIA      0
COBERTURA_NETA_MEDIA           0
COBERTURA_BRUTA_TRANSICIÓN     0
COBERTURA_BRUTA_PRIMARIA       0
COBERTURA_BRUTA_SECUNDARIA     0
COBERTURA_BRUTA_MEDIA          0
TAMAÑO_PROMEDIO_DE_GRUPO       0
SEDES_CONECTADAS_A_INTERNET    0
DESERCIÓN                      0
APROBACIÓN_TRANSICIÓN          0
APROBACIÓN_PRIMARIA            0
APROBACIÓN_SECUNDARIA          0
APROBACIÓN_MEDIA               0
REPROBACIÓN_TRANSICIÓN         0
REPROBACIÓN_PRIMARIA           0
REPROBACIÓN_SECUNDARIA         0
REPROBACIÓN_MEDIA              0
REPITENCIA_TRANSICIÓN          0
REPITENCIA_PRIMARIA            0
REPITENCIA_SECUNDARIA          0
REPITENCIA_MEDIA               0
dtype: int64


Podemos ahora comenzar con el preprocesamiento de los datos, lo primero que haremos será separar nuestra variable objetivo:

In [171]:
y = df_num[['DESERCIÓN']]
df_num = df_num.drop('DESERCIÓN',axis =1)

Veamos los dos conjuntos de datos que tenemos, numérico y categórico, esto con el objetivo de familiarizarnos con ellos.

In [172]:
print(df_num.compute())

       TASA_MATRICULACIÓN_5_16  COBERTURA_NETA_TRANSICIÓN  \
0                       108.73                      79.80   
1                        97.81                      50.60   
2                        88.61                      66.70   
3                       118.52                      82.70   
4                        78.65                      55.30   
...                        ...                        ...   
12338                    48.62                      31.43   
12339                   127.24                     102.19   
12340                    98.05                      57.37   
12341                    87.86                      53.57   
12342                    42.72                      30.62   

       COBERTURA_NETA_PRIMARIA  COBERTURA_NETA_SECUNDARIA  \
0                       107.20                      94.80   
1                       111.30                      74.20   
2                        93.20                      79.30   
3                      

In [105]:
print(y.compute())

       DESERCIÓN
0           3.69
1           6.26
2           0.81
3           4.03
4           4.16
...          ...
12338       4.95
12339       2.36
12340       3.51
12341       3.47
12342       3.28

[12343 rows x 1 columns]


Comenzando con el preprocesamiento de las variables numéricas, utilizaremos el StandardScaler para estandarizar los valores.

In [173]:
from dask_ml.preprocessing import StandardScaler
norm = StandardScaler().fit(df_num)

Transformamos nuestros datos y los visualizamos para confirmar que efectivamente se hayan preprocesado:

In [174]:
df_num_prepro = norm.transform(df_num)
print(df_num_prepro.compute())

       TASA_MATRICULACIÓN_5_16  COBERTURA_NETA_TRANSICIÓN  \
0                     1.247112                   1.386705   
1                     0.672178                  -0.396947   
2                     0.187801                   0.586505   
3                     1.762552                   1.563849   
4                    -0.336589                  -0.109852   
...                        ...                        ...   
12338                -1.917658                  -1.567926   
12339                 2.221657                   2.754375   
12340                 0.684814                   0.016592   
12341                 0.148314                  -0.215527   
12342                -2.228291                  -1.617404   

       COBERTURA_NETA_PRIMARIA  COBERTURA_NETA_SECUNDARIA  \
0                     1.392163                   1.328516   
1                     1.626523                   0.240696   
2                     0.591910                   0.510011   
3                     2

Con el preprocesamiento de las variables categoricas debemos tener un poco más de cuidado. Primero usaremos OneHotEncoder:

In [175]:
from dask_ml.preprocessing import OneHotEncoder
encoder = OneHotEncoder()

Debemos cambiar el tipo de datos de nuestras variables categóricas de 'object' a 'category'. Esto se debe a que al trabajar con variables categóricas, es más eficiente y conveniente utilizar el tipo de datos 'category' en lugar de 'object'.

In [176]:
df_cat['MUNICIPIO'] = df_cat['MUNICIPIO'].astype('category').cat.as_known()
df_cat['DEPARTAMENTO'] = df_cat['DEPARTAMENTO'].astype('category').cat.as_known()

Transformamos nuestros datos con el encoder y verificamos nuestro proceso.

In [177]:
df_cat_prepro = encoder.fit_transform(df_cat)
print(df_cat_prepro.compute())

       MUNICIPIO_Abejorral  MUNICIPIO_Abrego  MUNICIPIO_Abriaquí  \
0                      0.0               0.0                 0.0   
1                      1.0               0.0                 0.0   
2                      0.0               0.0                 1.0   
3                      0.0               0.0                 0.0   
4                      0.0               0.0                 0.0   
...                    ...               ...                 ...   
12338                  0.0               0.0                 0.0   
12339                  0.0               0.0                 0.0   
12340                  0.0               0.0                 0.0   
12341                  0.0               0.0                 0.0   
12342                  0.0               0.0                 0.0   

       MUNICIPIO_Acacías  MUNICIPIO_Acandí  MUNICIPIO_Acevedo  MUNICIPIO_Achí  \
0                    0.0               0.0                0.0             0.0   
1                    

Efectivamente nuestros datos categoricos han pasado ahora a ser vectores numericos, perfecto para nuestro proposito.

Ahora pasaremos a juntar nuestros DataFrames y visualizar el DataFrame con el trabajaremos en la construcción del modelo.

In [None]:
df_preprotod = dd.concat([df_cat_prepro, df_num_prepro], axis=1)

In [179]:
print(df_preprotod.compute())

       MUNICIPIO_Abejorral  MUNICIPIO_Abrego  MUNICIPIO_Abriaquí  \
0                      0.0               0.0                 0.0   
1                      1.0               0.0                 0.0   
2                      0.0               0.0                 1.0   
3                      0.0               0.0                 0.0   
4                      0.0               0.0                 0.0   
...                    ...               ...                 ...   
12338                  0.0               0.0                 0.0   
12339                  0.0               0.0                 0.0   
12340                  0.0               0.0                 0.0   
12341                  0.0               0.0                 0.0   
12342                  0.0               0.0                 0.0   

       MUNICIPIO_Acacías  MUNICIPIO_Acandí  MUNICIPIO_Acevedo  MUNICIPIO_Achí  \
0                    0.0               0.0                0.0             0.0   
1                    

Comenzamos la construcción de nuestro modelo pasando de DataFrames a arrays de Dask:

In [180]:
df_preprotod_arr = df_preprotod.to_dask_array(lengths=True)
y_arr = y.to_dask_array(lengths=True)

Ahora dividimos nuestros arreglos en entrenamiento y prueba.

In [182]:
from dask_ml.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
        df_preprotod_arr, y_arr, test_size=0.3
        )

Como hemos mencionado anteriormente, nuestro objetivo es desarrollar un modelo de regresión. En este caso, utilizaremos un modelo lineal de Dask para realizar el ajuste a nuestros datos de entrenamiento.

In [183]:
from dask_ml.linear_model import LinearRegression
model = LinearRegression().fit(X_train, y_train)

Finalmente, usamos nuestros datos de prueba para poder evaluar nuestro modelo.

In [184]:
y_pred = model.predict(X_test)

Y utilizamos las métricas MSE y R² para evaluar la calidad de nuestro modelo y determinar su eficacia en la predicción. El MSE nos proporciona una medida de qué tan cerca están las predicciones del modelo de los valores reales, mientras que el R² nos indica la proporción de la variabilidad de la variable objetivo que puede explicar nuestro modelo.

In [185]:
from dask_ml.metrics import mean_squared_error, r2_score
mse = mean_squared_error(y_test, y_pred)
print("MSE:", mse)
r2 = r2_score(y_test, y_pred)
print("R²:", r2)

MSE: 8.129975429705508
R²: 0.6357972806707205


#Análisis del resultado y conclusiones

Observamos que tanto la métrica R² como el MSE indican que nuestro modelo es bueno y efectivo en la predicción del nivel de deserción de la educación de transición a media. Gracias a la tecnología de Dask, pudimos construir un modelo con un impacto social significativo que podría extrapolarse a un conjunto de datos aún más amplio, como los datos relacionados con la educación superior. Esto demuestra el potencial de Dask para manejar grandes volúmenes de datos y realizar análisis de manera eficiente.

Con estos resultados positivos, podemos concluir que nuestro modelo es prometedor y tiene aplicaciones potenciales en el campo de la educación para identificar y abordar la deserción estudiantil de manera temprana. Sin embargo, es importante realizar más estudios y validaciones para asegurar la robustez y la generalización del modelo en diferentes contextos educativos.
