## Implementación de una IA para predecir intensidad de ejercicios matemáticos.

### Descripción

Para diseñar la IA se implementarán 2 métodos de de ML. Se utilizará una Red Neuronal Artificial y un Supporting Vector Machine para ver cuál de los 2 da mejor precisión al momento de obtener resultados. Lo que se busca es que cuando un nuevo jugador entre al juego, se pueda estimadar cuál sería la intensidad con la que se presentarán los ejercicios de cada dificultad. Esta intensidad se irá re-ajustando con base en el desempeño que los usuarios tengan al recibir un grupo de ejercicios.

### Librerías

* __NumPy__: Para operaciones algebráicas y arreglos multidimensionales
* __Pandas__: Para estructuras de datos fáciles de usar, con alto desempeño y varias utilidades de analítica de datos
* __Seaborn__: Para visualizaciones de datos estadísticos con interfaz profesional.
* __Scikit-Learn__: Para realizar preprocesamiento y partición de datos, utilizar SVM y validar la precisión de los modelos de ML.
* __Keras__: Para utilizar redes neuronales de una forma rápida, sin complicaciones.

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
#Pre-processing, dataset partition and metrics
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import confusion_matrix
#Deep learning library
from keras.models import Sequential
from keras.layers import Dense
#Data serialization
import pickle;

Using TensorFlow backend.


### Limpieza de datos

Antes que nada, hay que preparar los datos. Para esto vamos a cargar los datos del último backup de la base de datos, con nombre _datos_hartford_marzo.csv_.

In [2]:
#Reading the data
hartfortDF = pd.read_csv('datasets/datos_hartford_marzo.csv');
hartfortDF

Unnamed: 0,id,edad,escuela,genero,grado,loID,problema,respuesta,respuestaJ,tiempo,tipo,userID
0,-LaQZuzKIyNwR9BjyCRb,11,Hartford International School,0,5,0,1+3=?,4,4,3.846108,1,-LaQZtfxo0QA8Ij62dk1
1,-LaQZvtdCeLWO-JIpe-5,10,Hartford International School,0,5,0,1+3=?,4,4,2.995306,1,-LaQZurPwCF55Hiv18kH
2,-LaQZw327YO_BI2Q6T4S,11,Hartford International School,0,5,0,4+2=?,6,6,4.395411,1,-LaQZtfxo0QA8Ij62dk1
3,-LaQZwUESO5MHv2WwDPU,10,Hartford International School,0,5,0,4+2=?,6,6,2.422333,1,-LaQZurPwCF55Hiv18kH
4,-LaQZxM_2u3CMfFABrsf,11,Hartford International School,0,5,0,4+3=?,7,7,5.348062,1,-LaQZtfxo0QA8Ij62dk1
5,-LaQZxo2ftJ6yznn-S0B,11,Hartford International School,0,5,0,3+1=?,4,4,1.821805,1,-LaQZtfxo0QA8Ij62dk1
6,-LaQZyF_PFe28n9FPZ_E,10,Hartford International School,0,5,0,4+3=?,7,7,7.252773,1,-LaQZurPwCF55Hiv18kH
7,-LaQZyJEMTLH8853Xqhd,10,Hartford International School,0,5,0,1+3=?,4,4,8.776219,1,-LaQZvlOUvQcKzVILey9
8,-LaQZz4MQ-QUgAECRK-y,10,Hartford International School,0,5,0,4+2=?,6,6,3.158357,1,-LaQZvlOUvQcKzVILey9
9,-LaQZzA0-R-RZS3wqszl,11,Hartford International School,0,5,0,6+4=?,10,10,5.565162,1,-LaQZtfxo0QA8Ij62dk1


Comenzaremos por obviar algunas columnas del dataset como:
* __id__: El identificador de una respuesta. El index que tiene ese registro en el dataset será más útil.
* __escuela__: Puesto que solo estamos considerando un colegio por el momento, no es necesario tenerlo.
* __tipo__: Hace referencia al tipo de pregunta. Solo se manejarán cerradas, por tanto es irrelevante.

Las variables _respuesta_ y _respuestaJ_ hacen referencia a la respuesta del ejercicio y la del jugador respectivamente. Las respuestas del jugador pueden ser iguales, diferentes o contener un _no sé_ (indicado como un - en el campo de respuestaJ). Por simplicidad para la red neuronal, se utilizará una nueva columna _isCorrect_, donde se indicará si la respuesta fue _correcta_ o _incorrecta_ con un 1 o un 0 respectivamente. Será __correcto__ si la respuesta del jugador y la del problema son las mismas, e __incorrecto__ si la respuesta del jugador es diferente o contiene un _no sé_. 

In [3]:
def isAnswerCorrect(df):
    df['respuesta'] = df['respuesta'].apply(str)
    isCorrect = (df['respuesta'] == df['respuestaJ']);
    return 1*isCorrect;

isCorrectColumn = isAnswerCorrect(hartfortDF);
hartfortDF['isCorrect'] = isCorrectColumn;
hartfortDF = hartfortDF.drop(labels=['id','escuela','problema','respuesta','respuestaJ','tipo'],axis=1)
hartfortDF

Unnamed: 0,edad,genero,grado,loID,tiempo,userID,isCorrect
0,11,0,5,0,3.846108,-LaQZtfxo0QA8Ij62dk1,1
1,10,0,5,0,2.995306,-LaQZurPwCF55Hiv18kH,1
2,11,0,5,0,4.395411,-LaQZtfxo0QA8Ij62dk1,1
3,10,0,5,0,2.422333,-LaQZurPwCF55Hiv18kH,1
4,11,0,5,0,5.348062,-LaQZtfxo0QA8Ij62dk1,1
5,11,0,5,0,1.821805,-LaQZtfxo0QA8Ij62dk1,1
6,10,0,5,0,7.252773,-LaQZurPwCF55Hiv18kH,1
7,10,0,5,0,8.776219,-LaQZvlOUvQcKzVILey9,1
8,10,0,5,0,3.158357,-LaQZvlOUvQcKzVILey9,1
9,11,0,5,0,5.565162,-LaQZtfxo0QA8Ij62dk1,1


Estos datos presentan algunas anomalías, pues el banco de preguntas tiene 25 preguntas. El número de datos actual no corresponde a un múltiplo de 25, por tanto hay datos basura. Además, se sabe que hay un niño con edad "1" en el dataset. Esto no debería ser posible. Por tanto es necesario realizar unos ajustes al dataset completo. Solo se considerarán los niños con _edad > 4_. 

In [4]:
hartfortDF = hartfortDF.loc[lambda x: x.edad > 4]

Acto seguido, eliminará al usuario con número de ejercicios incompleto. Para saber esto se agruparán los niños por userID y se realizará un conteo de cuantos registros tiene su ID asociado. Si todas las respuestas fueron contestadas, debería aparecer un valor de 25 en todas las columnas de ese registro. La variable _uncompleteData_ tendrá la información del usuario con menos de 25 respuestas, donde tomaremos su userID y se procederá a eliminar del dataset.

In [5]:
uncompleteData = hartfortDF.groupby(['userID']).count().loc[lambda x: x.edad < 25]
hartfortDF = hartfortDF.loc[lambda x: x.userID != '-LaQlc1fC7y-HDX9BHFG']
hartfortDF = hartfortDF.reset_index(drop=True)

#hartfortDF.groupby(['grado','genero','loID']).mean()

Como eliminamos datos, es necesario reajustar los indices que tiene cada registro en el dataset.

In [6]:
hartfortDF = hartfortDF.reset_index()

### Estableciendo medidas de rendimiento

Luego de limpiar los datos se procederá a establecer medidas de rendimiento que ayudarán al modelo a predecir los siguientes valores de las intensidades de ejercicios a generar para cada nivel de dificultad. Como se tienen 5 objetivos de aprendizaje, hay 5 niveles de intensidad asociados a cada uno. El mejor indicador de desempeño del jugador es el tiempo que tomó en realizar un ejercicio. Lo que se hará entonces es definir un puntaje base que disminuirá a medida que el jugador tome más tiempo para contestar la pregunta. Nuestra función entonces estará dada de la siguiente forma:

\begin{equation*}
score = ( 20 - \frac{tiempo}{3} ) *isCorrect
\end{equation*}

In [7]:
timeMedianPerGrade = hartfortDF.groupby(['loID','grado'])['tiempo'].median();
timesMedianDF = timeMedianPerGrade.reset_index();

In [8]:
def answerScore(answer):
    time = answer['tiempo'];
    timeLimit = int(timeMedianPerGrade[answer['loID'],answer['grado']]) + 2;
    if(time < timeLimit and answer['isCorrect'] == 1):
        return 20-(time/3);
    else:
        return 0;
    
hartfortDF['score'] = hartfortDF.apply(answerScore,axis=1);


Con el fin de obtener el mejor performance para nuestra red neuronal, es necesario normalizar los datos para que cuando se estén hayando relaciones entre ellos el cómputo sea mucho más flexible y reduce imperfecciones al momento de predecir. La variable tiempo presenta una distribución normal sesgada a la derecha, así que podemos normalizarlo con confianza.

In [9]:
#Mostrando mediana por grado y dificultad
#Realizar bulletplot
#sns.barplot(x=timesMedianDF['grado'],y=timesMedianDF['tiempo'], hue=timesMedianDF['loID']);

#Grouping users
usersTimesMean = hartfortDF.groupby(['userID','loID'])['score'].mean().reset_index();

In [10]:
def calculateIntensities(userPerformance):
    return (userPerformance.loc['score']/20);

def getIntensityDF(intensityDF):
    LO0Array = []
    LO1Array = []
    LO2Array = []
    LO3Array = []
    LO4Array = []
    IDArray = []
    for i in range(0, 575, 5):
        IDArray.append(intensityDF.loc[i].userID)
        LO0Array.append(intensityDF.loc[i].intensity)
        LO1Array.append(intensityDF.loc[i+1].intensity)
        LO2Array.append(intensityDF.loc[i+2].intensity)
        LO3Array.append(intensityDF.loc[i+3].intensity)
        LO4Array.append(intensityDF.loc[i+4].intensity)
    d = {'userID':IDArray, 'LOI0': LO0Array,'LOI1': LO1Array,'LOI2': LO2Array,'LOI3': LO3Array,'LOI4': LO4Array}
    return pd.DataFrame(data=d)

usersTimesMean['intensity'] = usersTimesMean.apply(calculateIntensities,axis=1);
usersTimesMean.round({'intensity':1})

#General user information
generalUserInfo = hartfortDF.groupby(['userID']).mean()
#Por algún motivo en jupyter se agrega un index al groupby. Toca sacarlo
generalUserInfo = generalUserInfo.drop(labels=['index','loID','tiempo','isCorrect','score'],axis=1);
print(generalUserInfo)

#Adding the LOs intensity to the dataset
#This intensity dice qué tan bien va para ese LO. Si se interpreta que un niño tiene
#0.6 en el LO1, significa que necesita una intensidad de 1-0.6 -> 0.4 de ejercicios
#para la siguiente pasada.
LOIntensitiesPerUser = getIntensityDF(usersTimesMean);
LOIntensitiesPerUser = LOIntensitiesPerUser.set_index('userID');
LOIntensitiesPerUser = LOIntensitiesPerUser.round(1);
generalUserInfo[['LOIN0','LOIN1','LOIN2','LOIN3','LOIN4']] = LOIntensitiesPerUser[['LOI0','LOI1','LOI2','LOI3','LOI4']];

                      edad  genero  grado
userID                                   
-LaQZtfxo0QA8Ij62dk1  11.0     0.0    5.0
-LaQZurPwCF55Hiv18kH  10.0     0.0    5.0
-LaQZvlOUvQcKzVILey9  10.0     0.0    5.0
-LaQZxvCZUvf9J0938NI  10.0     0.0    5.0
-LaQ_08Mr96o00YYSj4_  10.0     1.0    5.0
-LaQ_17xY4fcr0IJ-wUl  10.0     1.0    5.0
-LaQ_3Jf9TXvzTNREIvk  11.0     1.0    5.0
-LaQ_5nnlLhsA3u6iDF5  10.0     0.0    5.0
-LaQ_9HUIeIA4jb6sDJP  11.0     1.0    5.0
-LaQ_CEv2yISUm4huLdu  10.0     0.0    5.0
-LaQa9_yZe2QIGwUI97V   9.0     1.0    4.0
-LaQaAZe3AIGwhz4RGv8  10.0     0.0    4.0
-LaQaBwGM7chXgcxGWm4   9.0     1.0    4.0
-LaQaCD3Tt6MqBLXFWlo   9.0     0.0    4.0
-LaQaCtYmjcDn1o_e2wS  10.0     1.0    4.0
-LaQaFnfS5F0SeUydvqF   9.0     0.0    4.0
-LaQaGKChrY_RVH_ZSVh   9.0     1.0    4.0
-LaQaHbp6k-WCUWlvAeF   9.0     0.0    4.0
-LaQaIs7kNjNUNymFxaE   9.0     1.0    4.0
-LaQaMeQKmxfsQO3MIGF   9.0     1.0    4.0
-LaQaPuV88dOyBakZcrN  10.0     1.0    4.0
-LaQaRv2l5EEbdPe9-Qo   9.0     1.0

In [11]:
X = generalUserInfo.drop(labels=['LOIN0','LOIN1','LOIN2','LOIN3','LOIN4'],axis=1);
Y = generalUserInfo[['LOIN0','LOIN1','LOIN2','LOIN3','LOIN4']].copy()
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=0)
sc = StandardScaler() #Must be scaled to avoid variable domination
#Transforming dataset
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)
X

Unnamed: 0_level_0,edad,genero,grado
userID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
-LaQZtfxo0QA8Ij62dk1,11.0,0.0,5.0
-LaQZurPwCF55Hiv18kH,10.0,0.0,5.0
-LaQZvlOUvQcKzVILey9,10.0,0.0,5.0
-LaQZxvCZUvf9J0938NI,10.0,0.0,5.0
-LaQ_08Mr96o00YYSj4_,10.0,1.0,5.0
-LaQ_17xY4fcr0IJ-wUl,10.0,1.0,5.0
-LaQ_3Jf9TXvzTNREIvk,11.0,1.0,5.0
-LaQ_5nnlLhsA3u6iDF5,10.0,0.0,5.0
-LaQ_9HUIeIA4jb6sDJP,11.0,1.0,5.0
-LaQ_CEv2yISUm4huLdu,10.0,0.0,5.0


In [12]:
#Building the ANN
classifier = Sequential();
classifier.add(Dense(input_dim=3, activation='relu', kernel_initializer='uniform', units=10));
classifier.add(Dense(kernel_initializer='normal',units=5))
classifier.compile(optimizer='sgd', loss='binary_crossentropy', metrics=['mse','mae']);
classifier.fit(X_train, y_train, batch_size=5, epochs=50)
y_pred = classifier.predict(X_test);

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50



Se guarda la información de la red neuronal en un archivo


In [13]:

filename = 'neuralnet'
outfile = open(filename,'wb')
pickle.dump(classifier,outfile)
outfile.close()