# <b><font color="#2cb8b2"> QuantiCore S.A - Estadísticas de Educación en Colombia (2011-2023) </font></b>

## <b><font color="#3ddb8f"> modelado con algoritmos de maching learning </font></b>

_______________________________________________________________

### <b><font color="#a9f04d"> Importar librerías </font></b>

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.utils import resample
from sklearn.preprocessing import MinMaxScaler
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.svm import LinearSVR, SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV

### <b><font color="#a9f04d"> Importar el Dataset </font></b>

In [2]:
df_data = pd.read_csv("../DATA/Estadistica_base_limpia.csv")

_______________________________________________________________

### <b><font color="#268fbe"> 1. Procesamiento de los datos </font></b>

#### <b><font color="#551bb3"> 1.1 Separar variables numéricas</font></b>

In [3]:
num_cols = df_data.select_dtypes(include=['float64', 'int64']).columns
X = df_data[num_cols].drop(columns=['DESERCIÓN'])
y = df_data['DESERCIÓN']

#### <b><font color="#551bb3"> 1.2 Dividir datos en train (70%) y test (30%) con train_test_split</font></b>

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=20)

#### <b><font color="#551bb3"> 1.1 Escalado de características numéricas de entrenamiento</font></b>

In [5]:
# Selección de variables numéricas
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

### <b><font color="#268fbe"> 2. Modelado con algoritmos de regresión </font></b>

#### <b><font color="#551bb3"> 2.1 Regresión lineal</font></b>

#### <b><font color="#a9f04d"> 2.1.1 Construcción del modelo</font></b>

In [6]:
# definir el algoritmo 
RLS= LinearRegression()

Después de haber creado el modelo, ajustamos los datos de entrenamiento de entrada y las etiquetas de salida.

In [7]:
RLS.fit(X_train_scaled, y_train)

In [8]:
# Los coeficientes se denominan pesos.
RLS.coef_

array([ 1.42352458e-02,  5.92607732e-02, -6.50191611e-02, -3.64814638e-03,
       -9.99096464e-03, -5.70329303e-03, -3.59315844e-02, -3.60223281e-04,
        1.64165894e-02,  2.53980988e-02,  1.39428127e-02,  2.41525963e-01,
        7.69667222e-03, -2.84439146e-01,  5.75294131e-02, -1.25246213e-02,
       -6.77106608e-04,  1.45514310e-01,  1.53297646e+00,  5.57135896e-01,
        1.57869126e-01, -2.49886696e+00,  2.97714330e-03,  2.44149084e+00,
        7.05257559e-02, -3.13256168e-02, -1.88284150e+00,  1.76290633e+00,
        9.17751274e-02, -1.19995136e-02,  3.19092966e-01, -2.27368348e-02,
       -1.67878607e-01, -1.47912060e-01, -2.89196093e-02])

In [9]:
# La intersección es lo que se puede comparar con el sesgo.
RLS.intercept_

np.float64(3.498440774113617)

Cada coeficiente corresponde a cada característica y el término de sesgo se agrega como una constante.

#### <b><font color="#a9f04d"> 2.1.2 Evaluación del modelo</font></b>
Existen tres métricas de evaluación principales para los modelos de regresión que implementamos en este modelo. Estas son:

<a name='6'></a>


* **Error cuadrático medio (MSE)**

*Fórmula*: 

$$\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2$$

* **Raíz del error cuadrático medio(RMSE)**

*Fórmula*: 

$$\sqrt{\frac 1n\sum_{i=1}^n(y_i-\hat{y}_i)^2}$$

* **Error absoluto medio (MAE)**

*Fórmula*: 

$$\frac 1n\sum_{i=1}^n|y_i-\hat{y}_i|$$

* **Coeficiente de determinación ($R^2$)**

*Fórmula*:

$$\frac{\sum_{i=1}^n (y_i - \hat{y}_i)^2}{\sum_{i=1}^n (y_i - \bar{y})^2}$$

In [10]:
predicciones = RLS.predict(X_test_scaled)

In [11]:
mse = mean_squared_error(y_test, predicciones)
rmse = np.sqrt(mse)
mae = mean_absolute_error(y_test, predicciones)
r2 = r2_score(y_test, predicciones)

print(f"RMSE: {rmse}")
print(f"MAE: {mae}")
print(f"R^2: {r2}")

RMSE: 0.19470996281503195
MAE: 0.08026902682367196
R^2: 0.992164683556545


Los resultados indican que el modelo tiene un error cuadrático medio (RMSE) de 0.19, un error absoluto medio (MAE) de 0.08 y un alto coeficiente de determinación en el ($R^2$) , lo que sugiere que, en promedio, las predicciones del modelo se desvían 0.08 unidades de la realidad, y que los errores más grandes tienen un impacto moderado. Esto refleja un buen nivel de precisión

#### <b><font color="#a9f04d"> 2.1.3 Evaluación del modelo con validación cruzada</font></b>

Creamos un nuevo modelo y evaluamos 

In [None]:
scoring = 'neg_root_mean_squared_error' 
model = LinearRegression()
scores = cross_val_score(model, X_train_scaled, y_train, scoring=scoring, cv=10)

In [13]:
scores = -scores
scores.mean()

np.float64(0.18890059919026853)

In [None]:
predic = cross_val_predict(model, X_train_scaled, y_train, cv=10)

In [54]:
rmse_cv = np.sqrt(mean_squared_error(y_train, predic))
mae_cv = mean_absolute_error(y_train, predic)
r2_cv = r2_score(y_train, predic)

print(f"RMSE: {rmse_cv}")
print(f"MAE: {mae_cv}")
print(f"R^2: {r2_cv}")

RMSE: 0.19227115716107604
MAE: 0.07812832688133314
R^2: 0.9922213654558617


#### <b><font color="#551bb3"> 2.2 Máquinas de soporte Vectorial (SVM) regresión</font></b>

#### <b><font color="#a9f04d"> 2.2.1 Construcción del modelo</font></b>

In [16]:
reg_svr = LinearSVR()
reg_svr.fit(X_train_scaled, y_train)



#### <b><font color="#a9f04d"> 2.2.2 Evaluación del modelo</font></b>

In [17]:
predicciones_svr = reg_svr.predict(X_test_scaled)

In [18]:
mse_svr = mean_squared_error(y_test, predicciones_svr)
rmse_svr = np.sqrt(mse_svr)
mae_svr = mean_absolute_error(y_test, predicciones_svr)
r2_svr = r2_score(y_test, predicciones_svr)

print(f"RMSE: {rmse_svr}")
print(f"MAE: {mae_svr}")
print(f"R^2: {r2_svr}")

RMSE: 0.3189210857960858
MAE: 0.03359494135259752
R^2: 0.9789793248236455


El modelo de Máquinas de soporte Vectorial (SVM) regresión, presenta muy buenos hallazgos. El error cuadrático medio (RMSE) y el error absoluto medio (MAE) son bajos, y el coeficiente de determinación ($R^2$) indica que el modelo explica el 97.89% de la variabilidad de la deserción escolar, esto quiere decir que, casi todos los factores que afectan la deserción están bien capturados por este modelo.

#### <b><font color="#a9f04d"> 2.2.3 Mejorar el modelo</font></b>


In [19]:
from sklearn.model_selection import RandomizedSearchCV


params = {'gamma':[0.0001, 0.1],'C':[1,1000], 'epsilon':[0,0.5], 'degree':[2,5]}

rnd_search = RandomizedSearchCV(SVR(), params, n_iter=10, verbose=2, cv=3, random_state=42)

rnd_search.fit(X_train_scaled, y_train)

Fitting 3 folds for each of 10 candidates, totalling 30 fits
[CV] END .............C=1, degree=2, epsilon=0, gamma=0.0001; total time=   2.8s
[CV] END .............C=1, degree=2, epsilon=0, gamma=0.0001; total time=   2.7s
[CV] END .............C=1, degree=2, epsilon=0, gamma=0.0001; total time=   2.5s
[CV] END ................C=1, degree=2, epsilon=0, gamma=0.1; total time=   5.3s
[CV] END ................C=1, degree=2, epsilon=0, gamma=0.1; total time=   6.4s
[CV] END ................C=1, degree=2, epsilon=0, gamma=0.1; total time=   6.4s
[CV] END ................C=1, degree=5, epsilon=0, gamma=0.1; total time=   6.0s
[CV] END ................C=1, degree=5, epsilon=0, gamma=0.1; total time=   6.3s
[CV] END ................C=1, degree=5, epsilon=0, gamma=0.1; total time=   6.1s
[CV] END ........C=1000, degree=5, epsilon=0.5, gamma=0.0001; total time=   0.1s
[CV] END ........C=1000, degree=5, epsilon=0.5, gamma=0.0001; total time=   0.1s
[CV] END ........C=1000, degree=5, epsilon=0.5, 

In [20]:
rnd_search.best_params_

{'gamma': 0.0001, 'epsilon': 0, 'degree': 2, 'C': 1000}

In [21]:
svr_rnd = rnd_search.best_estimator_.fit(X_train_scaled, y_train)
predicciones_rnd = svr_rnd.predict(X_test_scaled)

In [22]:
mse_svr_search = mean_squared_error(y_test, predicciones_rnd)
rmse_svr_search = np.sqrt(mse_svr_search)
mae_svr_search = mean_absolute_error(y_test, predicciones_rnd)
r2_svr_search = r2_score(y_test, predicciones_rnd)

print(f"RMSE: {rmse_svr_search}")
print(f"MAE: {mae_svr_search}")
print(f"R^2: {r2_svr_search}")

RMSE: 0.22883472739211536
MAE: 0.031390835021886575
R^2: 0.9891775881175685


Pese a que el modelo ya presentaba muy bueno resultados, dicidimos mejorarlo ajustando sus hiperparametros y buscando cual es el mejor, dando como resultado la disminución de los errores (en particular el RMSE) y elevar el R^2 al 98.92%, lo que es sobresaliente. Este resultado sugiere que el modelo mejorado tiene una capacidad predictiva extremadamente alta.

#### <b><font color="#551bb3"> 2.3 Arboles de Decisión</font></b>

#### <b><font color="#a9f04d"> 2.3.1 Construcción del modelo</font></b>

In [23]:
tree = DecisionTreeRegressor()
tree.fit(X_train_scaled, y_train)

In [24]:
predicciones_tree = tree.predict(X_test_scaled)

In [25]:
mse_tree = mean_squared_error(y_test, predicciones_tree)
rmse_tree = np.sqrt(mse_tree)
mae_tree = mean_absolute_error(y_test, predicciones_tree)
r2_tree = r2_score(y_test, predicciones_tree)

print(f"RMSE: {rmse_tree}")
print(f"MAE: {mae_tree}")
print(f"R^2: {r2_tree}")

RMSE: 0.502300716613076
MAE: 0.26382340815545613
R^2: 0.9478555862943826


En la implementación del modelo de Árbol de decisión muestra una buena capacidad en la regresión, aunque claramente inferior al SVM. Su error es más alto y el $R^2$ de 94.78% indica que, aunque todavía explica una gran parte de la variabilidad, lo hace con menor precisión. 

#### <b><font color="#a9f04d"> 2.3.3 Mejorar el modelo</font></b>

In [26]:
tree.get_params()

{'ccp_alpha': 0.0,
 'criterion': 'squared_error',
 'max_depth': None,
 'max_features': None,
 'max_leaf_nodes': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'monotonic_cst': None,
 'random_state': None,
 'splitter': 'best'}

Hemos visto que una forma de mejorar el modelo de árbol de decisión es encontrar el número correcto de max_depth y algunos otros parámetros. Usemos GridSearch para encontrar los mejores hiperparámetros.

In [27]:
parametros = {'max_leaf_nodes': list(range(0, 10)), 'min_samples_split': [0,1,2, 3, 4], 
              'max_depth':[None,0,1,2,3]}



grid_search = GridSearchCV(DecisionTreeRegressor(random_state=42), parametros, verbose=1, cv=3, refit=True)

grid_search.fit(X_train_scaled, y_train)

Fitting 3 folds for each of 250 candidates, totalling 750 fits


462 fits failed out of a total of 750.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
60 fits failed with the following error:
Traceback (most recent call last):
  File "c:\Users\mafer\AppData\Local\Programs\Python\Python313\Lib\site-packages\sklearn\model_selection\_validation.py", line 866, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
    ~~~~~~~~~~~~~^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "c:\Users\mafer\AppData\Local\Programs\Python\Python313\Lib\site-packages\sklearn\base.py", line 1382, in wrapper
    estimator._validate_params()
    ~~~~~~~~~~~~~~~~~~~~~~~~~~^^
  File "c:\Users\mafer\AppData\Local\Programs\Python\Python313\Lib\site-packages\sklearn\base.py", line 436, in _validate_params
    validate_param

In [28]:
grid_search.best_params_

{'max_depth': None, 'max_leaf_nodes': 9, 'min_samples_split': 2}

In [29]:
grid_search.best_estimator_

In [30]:
tree_best = grid_search.best_estimator_

In [31]:
# Realizar predicciones en el conjunto de prueba usando el mejor árbol de decisión
prediccion = tree_best.predict(X_test_scaled)

In [32]:
rmse_best_tree = np.sqrt(mean_squared_error(y_test, prediccion))
mae_best_tree = mean_absolute_error(y_test, prediccion)
r2_best_tree = r2_score(y_test, prediccion)

print(f"RMSE: {rmse_best_tree}")
print(f"MAE: {mae_best_tree}")
print(f"R²: {r2_best_tree}")

RMSE: 0.8963947866844114
MAE: 0.589652099383728
R²: 0.8339347217909152


Sorpresivamente, la "mejora" aplicada resultó en un rendimiento significativamente peor, debido a que, el RMSE y MAE aumentaron demasiado lo cual disminuye el rendimiento, y el $R^2$ cayó al 83.39%. Esto sugiere que la selección de hiperparámetros en este caso no fue óptima y terminó sobreajustando o subajustando el modelo.

#### <b><font color="#551bb3"> 2.4 Random Forest</font></b>

#### <b><font color="#a9f04d"> 2.4.1 Construcción del modelo</font></b>

In [33]:
random_forest = RandomForestRegressor(min_samples_split=2,bootstrap=False, random_state=42,n_jobs=-1)
random_forest.fit(X_train_scaled, y_train)

#### <b><font color="#a9f04d"> 2.4.2 Evaluación del modelo</font></b>

In [34]:
predicciones_random = random_forest.predict(X_test_scaled)

In [35]:
mse_random = mean_squared_error(y_test, predicciones_random)
rmse_random = np.sqrt(mse_random)
mae_random = mean_absolute_error(y_test, predicciones_random)
r2_random = r2_score(y_test, predicciones_random)

print(f"RMSE: {rmse_random}")
print(f"MAE: {mae_random}")
print(f"R^2: {r2_random}")

RMSE: 0.48146565552439957
MAE: 0.2503543735026167
R^2: 0.9520916935193143


En la implementación del modelo de Random Forest muestra una buena capacidad en la regresión equiparable al modelo de arbol de decisión, pero con una ligera mejora gracias a su naturaleza de ensamble. El $R^2$ sugiere que también es un modelo bastante confiable, aunque no al nivel del SVM.

#### <b><font color="#a9f04d"> 2.3.3 Mejorar el modelo</font></b>

In [36]:
random_forest.get_params()

{'bootstrap': False,
 'ccp_alpha': 0.0,
 'criterion': 'squared_error',
 'max_depth': None,
 'max_features': 1.0,
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'monotonic_cst': None,
 'n_estimators': 100,
 'n_jobs': -1,
 'oob_score': False,
 'random_state': 42,
 'verbose': 0,
 'warm_start': False}

Usaremos GridSearch para encontrar los mejores hiperparámetros con los que podemos reentrenar el modelo. Al establecer el Refit como True, el bosque aleatorio se reentrenará automáticamente en el conjunto de datos con los mejores hiperparámetros. 

In [38]:
param = {
    'n_estimators': [100, 200],
    'max_leaf_nodes': [10, 20, 30, 40, 42]}

grid_search = GridSearchCV(RandomForestRegressor(min_samples_split=2,bootstrap=False,random_state=42), param, verbose=1, cv=3, n_jobs=-1)

grid_search.fit(X_train_scaled, y_train)

Fitting 3 folds for each of 10 candidates, totalling 30 fits


In [39]:
grid_search.best_params_

{'max_leaf_nodes': 42, 'n_estimators': 200}

In [40]:
grid_search.best_estimator_

In [41]:
random_best = grid_search.best_estimator_

In [42]:
prediccion_random = random_best.predict(X_test_scaled)

In [43]:
mse_random_best = mean_squared_error(y_test, prediccion_random)
rmse_random_best = np.sqrt(mse_random_best)
mae_random_best = mean_absolute_error(y_test, prediccion_random)
r2_random_best = r2_score(y_test, prediccion_random)

print(f"RMSE: {rmse_random_best}")
print(f"MAE: {mae_random_best}")
print(f"R^2: {r2_random_best}")

RMSE: 0.6164628518476986
MAE: 0.38343511484207876
R^2: 0.9214594360418116


Al igual que con el árbol de decisión, el modelo “mejorado” resultó siendo peor que el original. El aumento en los errores y la reducción en R^2 reflejan que los nuevos hiperparámetros no optimizaron el rendimiento.

#### <b><font color="#a9f04d"> 3. Conclusión</font></b>

En términos generales se presento un buen rendiemiento general respecto a las metricas empleadas en cada uno de los modelos de regresión desarrollados. Por consiguiente y luego de realizar un análisis multivariable, se determinó que los dos mejores algoritmo fueron regresión lineal y el SVM de regresión, debido a que, por una parte; La regresión lineal es el modelo más sólido, con el mejor $R^2$ y un balance excelente entre RMSE y MAE; en el caso de SVM de regresión tiene MAE menor, lo cual indica que sus predicciones tienden a estar más cerca del valor real.