# Modelo de rendimiento en las pruebas Saber 11 2017-2019

## Cargar los modulos necesarios y los datos

In [None]:
# Importar modulos para el tratamiento de los datos y visualizaciones
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# Cargar los datos, se puede hacer desde una URL
# url = 'https://gitlab.com/jairo.acosta/saber11/-/raw/main/IGAE.csv'
df = pd.read_csv('C:/Users/jacos/Desktop/IGAE.csv', header=0)

## Formatear los datos

In [None]:
# Convertir la columna clase a valor numérico, observe que los valores antiguos
# Tienen una comilla simple de origen
df['RENDIMIENTO'] = df['RENDIMIENTO'].map(
    {"'Minimo o insuficiente'": 0, "'Satisfactorio o avanzado'": 1})

In [None]:
# Eliminar las comillas innecesarios en las otras columnas del dataframe
df['FAMI_EDUCACIONMADRE'] = df['FAMI_EDUCACIONMADRE'].str.replace("'",'')

In [None]:
df['FAMI_EDUCACIONPADRE'] = df['FAMI_EDUCACIONPADRE'].str.replace("'",'')

In [None]:
df['COLE_DEPTO_UBICACION'] = df['COLE_DEPTO_UBICACION'].str.replace("'",'')

In [None]:
df['COLE_NATURALEZA'] = df['COLE_NATURALEZA'].str.replace("'",'')

In [None]:
df['FAMI_NUMLIBROS'] = df['FAMI_NUMLIBROS'].str.replace("'",'')

In [None]:
df['FAMI_COMELECHEDERIVADOS'] = df['FAMI_COMELECHEDERIVADOS'].str.replace("'",'')

In [None]:
df['FAMI_COMECARNEPESCADOHUEVO'] = df['FAMI_COMECARNEPESCADOHUEVO'].str.replace("'",'')

In [None]:
df['ESTU_DEDICACIONINTERNET'] = df['ESTU_DEDICACIONINTERNET'].str.replace("'",'')

In [None]:
df['FAMI_PERSONASHOGAR'] = df['FAMI_PERSONASHOGAR'].str.replace("'",'')

In [None]:
df['ESTU_DEDICACIONLECTURADIARIA'] = df['ESTU_DEDICACIONLECTURADIARIA'].str.replace("'",'')

In [None]:
df['EDAD'] = df['EDAD'].str.replace("'",'')

In [None]:
# Revisar los efectos del formateo de texto
df.tail()

In [None]:
df.info()

## Crear las variables dummy

In [None]:
df = pd.get_dummies(df)

In [None]:
df.head()

In [None]:
df.info()

In [None]:
# Eliminar las variables que no generan información al modelo
del df['FAMI_EDUCACIONMADRE_No aplica']

In [None]:
del df['FAMI_EDUCACIONPADRE_No aplica']

## Asignar valores de X e y

In [None]:
X = df.loc[:, df.columns!= 'RENDIMIENTO']

In [None]:
y = df['RENDIMIENTO']

## Crear el conjunto de entrenamiento y validación

In [None]:
# Cargar el modulo para dividir el conjunto de datos en conjunto de entrenamiento y validación
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

In [None]:
X_train.shape, X_test.shape

## Modelo de regresión logística

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
logistica = LogisticRegression()

### Ajustar el modelo a los datos

In [None]:
logistica.fit(X_train, y_train)

### Parámetros $\theta$ del modelo

In [None]:
logistica.intercept_

In [None]:
logistica.coef_

### Predicción en el conjunto de validación

In [None]:
logistica_pred = logistica.predict(X_test)

In [None]:
logistica_pred

### Métricas del modelo

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score, roc_auc_score

In [None]:
confusion_matrix(y_test, logistica_pred)

In [None]:
accuracy_score(y_test, logistica_pred)

In [None]:
roc_auc_score(y_test, logistica_pred)

## Modelo de árboles

In [None]:
from sklearn import tree

In [None]:
arbol = tree.DecisionTreeClassifier(max_depth = 4)

### Ajustar el modelo a los datos

In [None]:
arbol.fit(X_train, y_train)

### Predicción en el conjunto de validación

In [None]:
arbol_pred = arbol.predict(X_test)

In [None]:
arbol_pred

### Métricas del modelo

In [None]:
confusion_matrix(y_test, arbol_pred)

In [None]:
accuracy_score(y_test, arbol_pred)

In [None]:
roc_auc_score(y_test, arbol_pred)

### Gráfica del árbol

In [None]:
datos_graf = tree.export_graphviz(arbol, out_file = None, feature_names = X_train.columns,
                                  filled = True, class_names = ['Minimo o insuficiente','Satisfactorio o avanzado'])

In [None]:
from IPython.display import Image
import pydotplus

In [None]:
graph = pydotplus.graph_from_dot_data(datos_graf)
Image(graph.create_png())

In [None]:
# Guardar como un archivo
# graph.write_png('arboloriginalclass.png')

## Modelo de Perceptrón Multicapa

In [None]:
from sklearn.neural_network import MLPClassifier

In [None]:
perceptron = MLPClassifier(solver='lbfgs', alpha=1e-3, hidden_layer_sizes=(5, 5), random_state=123, max_iter=10000, activation = 'logistic')

### Transformación de los datos

In [None]:
# Como es un modelo más complicado se escala el vector de características
# para que el modelo se ajuste a los datos de forma más ágil
from sklearn import preprocessing

In [None]:
escala = preprocessing.StandardScaler().fit(X_train)

In [None]:
X_esc = escala.transform(X_train)

In [None]:
X_esc_test = escala.transform(X_test)

### Ajustar el modelo a los datos

In [None]:
perceptron.fit(X_esc, y_train)

### Predicción en el conjunto de validación

In [None]:
perceptron_pred = perceptron.predict(X_esc_test)

In [None]:
perceptron_pred

### Métricas del modelo

In [None]:
confusion_matrix(y_test, perceptron_pred)

In [None]:
accuracy_score(y_test, perceptron_pred)

In [None]:
roc_auc_score(y_test,perceptron_pred)