<h1 align="center">Proyecto final</h1> 
<h2 align="center">Augusto Rico</h2> 
<h2 align="center">Modulo 3:Big Data</h2> 
<h2 align="center">Universidad Nacional de Colombia</h2> 

---

Este notebook tiene como objetivo ser presentado como trabajo final del módulo 3 del programa de formación MLDS

 **Instalación de modulos**

In [3]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

---

# Descripción del dataset

La base de datos seleccionada es "ICFES Colombia 2018-2021", la cual fue obtenida de Kaggle (https://www.kaggle.com/datasets/sorelyss/icfes-colombia-20182021). Esta base de datos contiene información sobre los resultados y características socioeconómicas de las personas que presentaron el examen Saber 11 durante los años 2018 a 2020. Para nuestro análisis, utilizaremos únicamente los datos del año 2019, incluyendo tanto el examen de inicio como el examen de fin de año.

# Descipcion de las variables

Este dataframe contiene un total de 84 columnas. Sin embargo, utilizaremos únicamente las siguientes columnas:
| Variable | Definición |
| --- | --- |
| SEXO | Sexo del estudiante. |
| EDAD | Edad del estudiante. |
| PERIODO | Periodo en el que se presentó el examen. |
| MUNICIPIO | Municipio donde se encuentra el colegio. |
| DEPARTAMENTO | Departamento donde se encuentra el colegio. |
| ESTRATO | Estrato de la vivienda donde reside el estudiante. |
| INTERNET | Indica si el estudiante tiene acceso a internet en su vivienda. |
| URBANO | Indica si el colegio es rural o urbano. |
| JORNADA_COMPLETA | Tipo de jornada a la que asiste el estudiante. |
| PUNTAJE | Puntaje total obtenido por el estudiante en la prueba Saber 11. |


# Problema


---

Se va a realizar el análisis hecho en el anterior proyecto, con el esquema de programación para el proceso de datos distribuidos **Dask**, para ello se analizará la información con ayuda de este framework para procesar los datos, además se utilizarán técnicas de Machine Learning para realizar un analisis de la educacion en el pais.



# Objetivos
## Objetivo General
* Encontrar que politicas publicas se pueden implementar para mejorar el rendimiento de los estudiantes en las pruebas Saber 11.

## Objetivos Especificos
* Describir los datos con ayuda de Dask tal como se hizo en proyectos anteriores.

* utilizar metodos de machine learning para solucionar el problema

# Carga de datos

---



In [4]:
import dask.dataframe as dd

df = dd.read_csv('../Proyecto1/icfes_data_clean.csv',sep='\t')

if df.npartitions < 10:
    df = df.repartition(npartitions=10)

# Exploración de los datos
---

In [5]:
print(df.npartitions)

40


In [6]:
type(df)

dask.dataframe.core.DataFrame

In [7]:
df

Unnamed: 0_level_0,SEXO,PERIODO,EDAD,DEPARTAMENTO,MUNICIPIO,ESTRATO,URBANO,JORNADA_COMPLETA,INTERNET,PUNTAJE
npartitions=40,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
,object,object,int64,object,object,int64,int64,int64,int64,int64
,...,...,...,...,...,...,...,...,...,...
...,...,...,...,...,...,...,...,...,...,...
,...,...,...,...,...,...,...,...,...,...
,...,...,...,...,...,...,...,...,...,...


In [8]:
print(f'shape: {df.compute().shape}')
print(f'size: {df.compute().size}')

shape: (565785, 10)
size: 5657850


In [9]:
df.dtypes

SEXO                object
PERIODO             object
EDAD                 int64
DEPARTAMENTO        object
MUNICIPIO           object
ESTRATO              int64
URBANO               int64
JORNADA_COMPLETA     int64
INTERNET             int64
PUNTAJE              int64
dtype: object

In [10]:
df.columns

Index(['SEXO', 'PERIODO', 'EDAD', 'DEPARTAMENTO', 'MUNICIPIO', 'ESTRATO',
       'URBANO', 'JORNADA_COMPLETA', 'INTERNET', 'PUNTAJE'],
      dtype='object')

In [11]:
df.head(20)

Unnamed: 0,SEXO,PERIODO,EDAD,DEPARTAMENTO,MUNICIPIO,ESTRATO,URBANO,JORNADA_COMPLETA,INTERNET,PUNTAJE
0,M,SS,17,MAGDALENA,SANTA ANA,3,1,0,1,208
1,F,SS,16,SANTANDER,BUCARAMANGA,0,1,0,0,280
2,M,SS,16,BOGOTA,BOGOTA D.C.,3,1,1,1,299
3,M,SS,18,BOLIVAR,CARTAGENA DE INDIAS,1,1,0,0,299
4,M,SS,17,BOGOTA,BOGOTA D.C.,3,1,0,0,309
5,M,SS,17,BOYACA,DUITAMA,3,1,0,1,319
6,M,SS,17,BOGOTA,BOGOTA D.C.,3,1,0,1,288
7,M,SS,20,ATLANTICO,SOLEDAD,0,1,0,0,198
8,M,SS,17,VALLE DEL CAUCA,CALI,4,1,0,1,355
9,M,SS,17,SANTANDER,BUCARAMANGA,3,1,1,1,313


In [12]:
df.info()

<class 'dask.dataframe.core.DataFrame'>
Columns: 10 entries, SEXO to PUNTAJE
dtypes: object(4), int64(6)

In [13]:
df.describe().compute().drop('count').T.round(2)

Unnamed: 0,mean,std,min,25%,50%,75%,max
EDAD,18.26,6.91,0.0,17.0,18.0,19.0,119.0
ESTRATO,1.93,1.19,0.0,1.0,2.0,4.0,6.0
URBANO,0.84,0.36,0.0,1.0,1.0,1.0,1.0
JORNADA_COMPLETA,0.29,0.45,0.0,0.0,0.0,1.0,1.0
INTERNET,0.58,0.49,0.0,0.0,1.0,1.0,1.0
PUNTAJE,247.49,52.43,0.0,226.0,261.0,338.0,477.0


In [14]:
df.groupby('DEPARTAMENTO')['PUNTAJE'].mean().compute().sort_values(ascending=False)

DEPARTAMENTO
BOGOTA                      267.232673
SANTANDER                   263.769534
BOYACA                      261.607323
CUNDINAMARCA                255.554878
NORTE DE SANTANDER          254.784427
QUINDIO                     252.209951
RISARALDA                   251.302707
VALLE DEL CAUCA             250.462032
HUILA                       249.695976
META                        247.343399
CASANARE                    247.070671
CALDAS                      246.944720
NARIÑO                      245.487395
ATLANTICO                   243.134190
ANTIOQUIA                   242.170939
ARAUCA                      240.657708
TOLIMA                      240.601385
CESAR                       238.297063
PUTUMAYO                    236.470012
SUCRE                       235.885150
CORDOBA                     235.805128
CAQUETA                     232.627770
CAUCA                       231.004917
SAN ANDRES Y PROVIDENCIA    230.441034
BOLIVAR                     228.624683
VICHADA     

# Análisis mediante Modelos de Machine Learning
---

En esta sección se utilizarán dos modelos de aprendizaje supervisados los cuales son: regresión lineal y bosques aleatorios para predecir el puntaje.

In [15]:
df['SEXO'] = df['SEXO'].map({'M': 1, 'F': 0}).astype('int')
df['PERIODO'] = df['PERIODO'].map({'PS': 0, 'SS': 1}).astype('int')

In [16]:
import dask.array as da

X = df.drop(['PUNTAJE', 'DEPARTAMENTO', 'MUNICIPIO'], axis=1).to_dask_array(lengths=True)
y = df['PUNTAJE'].to_dask_array(lengths=True)

In [17]:
print(f'X is a {type(X)} object with {X.npartitions} partitions and shape {X.compute().shape}')
print(f'y is a {type(y)} object with {y.npartitions} partitions and shape {y.compute().shape}')

X is a <class 'dask.array.core.Array'> object with 40 partitions and shape (565785, 7)
y is a <class 'dask.array.core.Array'> object with 40 partitions and shape (565785,)


In [18]:
from dask_ml.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.3
        )

In [19]:
from dask_ml.linear_model import LinearRegression

model = LinearRegression()

model.fit(X_train, y_train)

In [20]:
model.coef_

array([   6.63902111, -270.23503267,   -0.73526063,    5.07435182,
         13.62367151,   21.85107291,   18.94075548])

In [21]:
from dask_ml.metrics import mean_squared_error, mean_absolute_error, r2_score

y_pred = model.predict(X_test)

# Calcular el RMSE (Error de raíz cuadrada media)
rmse = da.sqrt(mean_squared_error(y_test, y_pred))
print("RMSE: %.3f" % rmse)

# Calcular el MSE (Error cuadrático medio)
mse = mean_squared_error(y_test, y_pred)
print("MSE: %.3f" % mse)

# Calcular el MAE (Error absoluto medio)
mae = mean_absolute_error(y_test, y_pred)
print("MAE: %.3f" % mae)

# Calcular el R2 (Coeficiente de determinación)
r2 = r2_score(y_test, y_pred)
print("R2: %.3f" % r2)

RMSE: 67.146
MSE: 4508.563
MAE: 45.931
R2: -0.644


# Random Forest

In [22]:
from dask_ml.preprocessing import LabelEncoder

le = LabelEncoder()

df['DEPARTAMENTO'] = le.fit_transform(df['DEPARTAMENTO'])

In [23]:
X = df.drop(['PUNTAJE','MUNICIPIO'], axis=1).to_dask_array(lengths=True)
y = df['PUNTAJE'].to_dask_array(lengths=True)

In [24]:
X_train, X_test, y_train, y_test = train_test_split(
        X, y, test_size=0.3
        )

In [29]:
from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor(n_estimators=100)

model.fit(X_train, y_train)

In [30]:
y_pred = model.predict(X_test.compute())

# Calcular el RMSE (Error de raíz cuadrada media)
rmse = da.sqrt(mean_squared_error(y_test, y_pred))
print("RMSE: %.3f" % rmse)

# Calcular el MSE (Error cuadrático medio)
mse = mean_squared_error(y_test, y_pred)
print("MSE: %.3f" % mse)

# Calcular el MAE (Error absoluto medio)
mae = mean_absolute_error(y_test, y_pred)
print("MAE: %.3f" % mae)

# Calcular el R2 (Coeficiente de determinación)
r2 = r2_score(y_test, y_pred)
print("R2: %.3f" % r2)

RMSE: 43.440
MSE: 1887.034
MAE: 34.953
R2: 0.311
