In [1]:
%matplotlib inline

In [2]:
"""
Carga de los distintos ficheros de la práctica
"""
import pandas as pd
import numpy as np


def getUsuariosEspeciales(df):
    """
    Obtiene los usuarios especiales (no alumnos).
    Aquellos que son capaces de hacer acciones propias del administrador o el profesor
    Como por ejemplo Nombre evento igual a "Módulo de curso actualizado" o "Rol asignado"

    dataFrame es el fichero de logs original

    """
    selecting_criteria = df['Nombre evento'].isin(["Módulo de curso actualizado", "Rol asignado"])

    return df[selecting_criteria]['Nombre completo del usuario'].unique().tolist()


def eliminaUsuariosEspeciales(dataFrame, especiales):
    """
    Elimina los usuarios especiales del log

    dataFrame es el fichero de logs original

    """
    one_hot_especiales = dataFrame['Nombre completo del usuario'].isin(especiales)
    # El nombre hace referencia a one hot encoding
    return dataFrame[one_hot_especiales.apply(lambda x: not x)]


def clasificaInteraccionesMEPRO(fila):
    """
    Devuelve la clase de una interaccion
    """
    if 'Carpeta: Material adicional' in fila['Contexto del evento']:
        return 'Adicional'
    elif any(interaction in fila['Contexto del evento'] for interaction in ('prácticas', 'código', 'proyecto')):
        return 'Practicas'
    else:
        return generic_interaction(fila)


def clasificaInteraccionesSISIN(fila):
    """
    Devuelve la clase de una interaccion
    """
    if any(w1 in fila['Contexto del evento'] and w2 in fila['Contexto del evento']
           for w1, w2 in (('URL', ''), ('Página', 'video'), ('Página', 'enlace'))):
        return 'Adicional'
    elif any(word in fila['Contexto del evento'] for word in ('prácticas', 'código', 'notebook')):
        return 'Practicas'
    else:
        return generic_interaction(fila)


def generic_interaction(fila):
    if 'Recurso' in fila['Componente']:
        return 'Teoria'
    elif 'Cuestionario' in fila['Componente']:
        return 'AutoEvaluacion'
    elif 'Comentarios de la entrega' in fila['Componente']:
        return 'Feedback'
    elif 'Foro' in fila['Componente']:
        return 'Foro'
    else:
        return 'Otro'


def addTipoInteraccion(df, f_tipos):
    """
    Haz una copia de df, añade el tipo y devuelve la copia
    sin modificar el original.
    Pista: usar Apply. Apply toma una Serie (la fila en este caso) y devuelve un valor
    """
    return df.assign(Interaccion=pd.Series(df.apply(f_tipos, axis=1)))


def eliminaIrrelevantes(df):
    """
    Devuelve un dataframe de logs sin todos los eventos de tipo Otro
    Pista: Máscara binaria
    """
    return df[df['Interaccion'] != 'Otro']


def getGlobalStats(df):
    """
    Devuelve el total de las interacciones de cada tipo.
    """
    df_n = df.assign(N_usuarios=pd.Series([1 for i in range(len(df))]))
    for column in df_n:
        if column != 'Interaccion' and column != 'N_usuarios':
            del df_n[column]
    return df_n.groupby('Interaccion').count()


def getIndividualStats(df):
    """
    Devuelve las estadísticas individuales de cada alumno, por tipo
    """

    df_nu = df.assign(values=pd.Series([1 for i in range(len(df))]))
    for column in df_nu:
        if column != 'Interaccion' and column != 'Nombre completo del usuario' and column != 'values':
            del df_nu[column]


    df_nu['Nombre completo del usuario'] = df_nu['Nombre completo del usuario'].apply(lambda fila: int(fila[8:]))

    df_result = df_nu.pivot_table(
        index='Nombre completo del usuario',
        columns='Interaccion', values='values',
        aggfunc='count')
    return df_result.fillna(0) # TODO quitar usuario.


def getCorrelaciones(df_asignatura, df_notas):
    """
    Recibe una tabla de estadísticas de los alumnos, la que devuelve getIndividualStats
    Y recibe un dataframe con las notas.
    Los combina y obtiene las correlaciones entre las distintas columnas y la nota.
    """
    df_asignatura_id = df_asignatura.copy()

    df_notas.Id = df_notas.Id.astype(np.float64)
    df_notas['Total 1ª convocatoria (Real)'] = \
        df_notas['Total 1ª convocatoria (Real)'].apply(lambda x: x if x != '-' else 0).astype(np.float64)
    df_notas['Total 2ª convocatoria (Real)'] = \
        df_notas['Total 2ª convocatoria (Real)'].apply(lambda x: x if x != '-' else 0).astype(np.float64)

    df_asignatura_id = pd.merge(df_asignatura_id, df_notas.set_index('Id'), left_index=True, right_index=True)

    return df_asignatura_id.corr(), df_asignatura_id

In [3]:
meLogs = pd.read_excel('../data/xlsAnon.xlsx', 'Sheet1', index_col=None, na_values=['NA'])
siLogs = pd.read_csv('../data/csvAnon.csv')

notasME = pd.read_csv('../data/meNotas.csv')
del notasME['Unnamed: 0']
notasSI = pd.read_csv('../data/siNotas.csv')

In [4]:
usuariosEspecialesME = getUsuariosEspeciales(meLogs)
print('Usuarios: ', len(set(meLogs['Nombre completo del usuario'])))
print('Usuarios especiales: ', len(set(usuariosEspecialesME)))


Usuarios:  74
Usuarios especiales:  3


In [5]:
dfME = eliminaUsuariosEspeciales(meLogs, usuariosEspecialesME)
print('Tras eliminar especiales: ', len(set(dfME['Nombre completo del usuario'])))


Tras eliminar especiales:  71


In [6]:
dfME = addTipoInteraccion(dfME, clasificaInteraccionesMEPRO)
print('Interacciones de cada clase:')
for inter in set(dfME.Interaccion):
    print(inter, dfME[dfME['Interaccion'] == inter].count().Interaccion)

Interacciones de cada clase:
Feedback 16
Foro 426
AutoEvaluacion 11580
Practicas 316
Teoria 3945
Adicional 97
Otro 37344


In [7]:
dfME = eliminaIrrelevantes(dfME)
print('Interacciones de cada clase:')
for inter in set(dfME.Interaccion):
    print(inter, dfME[dfME['Interaccion'] == inter].count().Interaccion)

Interacciones de cada clase:
Feedback 16
Foro 426
AutoEvaluacion 11580
Practicas 316
Teoria 3945
Adicional 97


In [8]:
dfMEstats_ind = getIndividualStats(dfME)
print('Usuarios: ', dfMEstats_ind.count().Foro)

Usuarios:  71


In [9]:
dfMEstats_corr, dfMErged = getCorrelaciones(dfMEstats_ind, notasME)
print(dfMEstats_corr)
print('\n')
print('Usuarios: ', len(dfMErged))

                              Adicional  AutoEvaluacion  Feedback      Foro  \
Adicional                      1.000000        0.121483 -0.046090 -0.052327   
AutoEvaluacion                 0.121483        1.000000 -0.108960  0.103431   
Feedback                      -0.046090       -0.108960  1.000000  0.129359   
Foro                          -0.052327        0.103431  0.129359  1.000000   
Practicas                     -0.076445        0.102848  0.291515  0.139539   
Teoria                         0.269927        0.470108  0.086438  0.007432   
Total 1ª convocatoria (Real)  -0.139327        0.134672 -0.079084  0.048867   
Total 2ª convocatoria (Real)  -0.119457        0.110382 -0.037362  0.116512   

                              Practicas    Teoria  \
Adicional                     -0.076445  0.269927   
AutoEvaluacion                 0.102848  0.470108   
Feedback                       0.291515  0.086438   
Foro                           0.139539  0.007432   
Practicas              

In [10]:
dfMErged_bool = dfMErged.copy()
dfMErged_bool['Total 1ª convocatoria (Real)'] = \
    dfMErged_bool['Total 1ª convocatoria (Real)'].apply(lambda x: 1 if x >= 5 else 0)
dfMErged_bool['Total 2ª convocatoria (Real)'] = \
    dfMErged_bool['Total 2ª convocatoria (Real)'].apply(lambda x: 1 if x >= 5 else 0)

In [11]:
import sklearn.cluster as cluster
import time

In [12]:
clusters = {
    "KMeans": { 'name':   cluster.KMeans,
                'args':   (),
                'kwargs': {'n_clusters':6}},
    "AffinityPropagation": {
                'name': cluster.AffinityPropagation, 
                'args':(), 
                'kwargs': {'preference':-5.0, 'damping':0.95}},
    "MeanShift": {
                'name': cluster.MeanShift, 
                'args':(0.175,), 
                'kwargs':{'cluster_all':False}},
    "SpectralClustering": {
                'name': cluster.SpectralClustering, 
                'args':(), 
                'kwargs':{'n_clusters':6}},
    "AgglomerativeClustering": {
                'name': cluster.AgglomerativeClustering, 
                'args':(), 
                'kwargs':{'n_clusters':6, 'linkage':'ward'}},
    "DBSCAN": { 
                'name': cluster.DBSCAN, 
                'args':(), 
                'kwargs':{'eps':0.025}}
}
def exec_cluster(data, algorithm, args, kwds, bool_data=True):
    start_time = time.time()
    labels = algorithm(*args, **kwds).fit_predict(data)
    end_time = time.time()
    
    print('Tiempo:',end_time-start_time)
    
    label_set = set(labels)
    value_set = set(data['Total 2ª convocatoria (Real)'])
    clusters = {}
    for n in label_set:
        tmp = data[labels == n]
        clusters[n] = {}
        if bool_data:
            clusters[n][1] = len(tmp[tmp['Total 2ª convocatoria (Real)'] == 1].index)
            clusters[n][0] = len(tmp[tmp['Total 2ª convocatoria (Real)'] == 0].index)
        else:            
            clusters[n][1] = len(tmp[tmp['Total 2ª convocatoria (Real)'] >= 5].index)
            clusters[n][0] = len(tmp[tmp['Total 2ª convocatoria (Real)'] < 5].index)

    
    print('  |Aprobado|Suspenso|')
    print('-----------------------')
    for n in label_set:
        
        print(n,'|', end='')
        for i in (1,0):
            print(clusters[n][i],'     |', end='')
        print('')
        print('-----------------------')
        
def exec_clusters(data, cwp, bool_data=True):
    for cluster in cwp:
        print(cluster, ':')
        c_name = cwp[cluster]['name']
        c_args = cwp[cluster]['args']
        c_kwargs = cwp[cluster]['kwargs']
        exec_cluster(data, c_name, c_args, c_kwargs, bool_data)
        print('\n')

In [13]:
exec_clusters(dfMErged_bool, clusters)

MeanShift :
Tiempo: 0.05663180351257324
  |Aprobado|Suspenso|
-----------------------
0 |7      |0      |
-----------------------
1 |0      |2      |
-----------------------
2 |2      |0      |
-----------------------
3 |0      |1      |
-----------------------
4 |1      |0      |
-----------------------
5 |1      |0      |
-----------------------
6 |1      |0      |
-----------------------
7 |1      |0      |
-----------------------
8 |1      |0      |
-----------------------
9 |1      |0      |
-----------------------
10 |0      |1      |
-----------------------
11 |0      |1      |
-----------------------
12 |1      |0      |
-----------------------
13 |1      |0      |
-----------------------
14 |0      |1      |
-----------------------
15 |0      |1      |
-----------------------
16 |1      |0      |
-----------------------
17 |0      |1      |
-----------------------
18 |0      |1      |
-----------------------
19 |0      |1      |
-----------------------
20 |1      |0      |
---



Tiempo: 0.15136432647705078
  |Aprobado|Suspenso|
-----------------------
0 |32      |17      |
-----------------------
1 |7      |0      |
-----------------------
2 |2      |2      |
-----------------------
3 |0      |2      |
-----------------------
4 |3      |0      |
-----------------------
5 |3      |0      |
-----------------------


DBSCAN :
Tiempo: 0.0008065700531005859
  |Aprobado|Suspenso|
-----------------------
0 |7      |0      |
-----------------------
-1 |40      |21      |
-----------------------


AffinityPropagation :
Tiempo: 0.0028777122497558594
  |Aprobado|Suspenso|
-----------------------
0 |1      |0      |
-----------------------
1 |1      |0      |
-----------------------
2 |1      |0      |
-----------------------
3 |1      |0      |
-----------------------
4 |0      |1      |
-----------------------
5 |2      |3      |
-----------------------
6 |1      |0      |
-----------------------
7 |0      |1      |
-----------------------
8 |1      |0      |
----------

In [14]:
exec_clusters(dfMErged, clusters, False)

MeanShift :
Tiempo: 0.030735015869140625
  |Aprobado|Suspenso|
-----------------------
0 |2      |0      |
-----------------------
1 |1      |0      |
-----------------------
2 |1      |0      |
-----------------------
3 |1      |0      |
-----------------------
4 |0      |1      |
-----------------------
5 |1      |0      |
-----------------------
6 |1      |0      |
-----------------------
7 |1      |0      |
-----------------------
8 |0      |1      |
-----------------------
9 |0      |1      |
-----------------------
10 |1      |0      |
-----------------------
11 |1      |0      |
-----------------------
12 |1      |0      |
-----------------------
13 |1      |0      |
-----------------------
14 |0      |1      |
-----------------------
15 |0      |1      |
-----------------------
16 |1      |0      |
-----------------------
17 |1      |0      |
-----------------------
18 |0      |1      |
-----------------------
19 |0      |1      |
-----------------------
20 |1      |0      |
--



In [33]:
from sklearn.naive_bayes import GaussianNB, MultinomialNB
from sklearn.svm import SVC 
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score
from sklearn.model_selection import train_test_split, cross_val_predict, cross_val_score


classifiers = {
    'GaussianNB': GaussianNB(),
    'MultinomialNB': MultinomialNB(),
    'SVC': SVC(),
    'DecisionTree':  DecisionTreeClassifier(),
}

def exec_classifier(classifier, data, target):
    X = data
    y = target
    
    predicted = cross_val_predict(classifier, X, y, cv=2)
    
    # accuracy
    print("Accuracy", end='\t')
    print("%0.3f"%cross_val_score(classifier, X, y, cv=2).mean(), end='\t')
    print("%0.3f"%accuracy_score(y, predicted))

    #f1
    print("F-Measure", end='\t')   
    print("%0.3f"%cross_val_score(classifier, X, y, cv=2, scoring='f1').mean(), end='\t')
    print("%0.3f"%f1_score(y, predicted))

    # precision
    print("Precisión", end='\t')
    print("%0.3f"%cross_val_score(classifier, X, y, cv=2, scoring='precision').mean(), end='\t')
    print("%0.3f"%precision_score(y, predicted))

    # recall
    print("Recall\t", end='\t')
    print("%0.3f"%cross_val_score(classifier, X, y, cv=2, scoring='recall').mean(), end='\t')
    print("%0.3f"%recall_score(y, predicted))
    
    
def exec_classifiers(data, classifiers):
    target = data['Total 2ª convocatoria (Real)']
    data_aux = data.copy()
    del(data_aux['Total 2ª convocatoria (Real)'])
    del(data_aux['Total 1ª convocatoria (Real)'])
    for classifier in classifiers:
        print('\n\nClassifier: ', classifier)
        exec_classifier(classifiers[classifier], data_aux, target)
        
exec_classifiers(dfMErged_bool, classifiers)



Classifier:  MultinomialNB
Accuracy	0.587	0.588
F-Measure	0.715	0.720
Precisión	0.680	0.679
Recall		0.764	0.766


Classifier:  SVC
Accuracy	0.721	0.721
F-Measure	0.832	0.832
Precisión	0.712	0.712
Recall		1.000	1.000


Classifier:  DecisionTree
Accuracy	0.660	0.662
F-Measure	0.745	0.758
Precisión	0.728	0.750
Recall		0.743	0.766


Classifier:  GaussianNB
Accuracy	0.452	0.456
F-Measure	0.542	0.584
Precisión	0.583	0.619
Recall		0.547	0.553


In [48]:
from sklearn.linear_model import LinearRegression, ARDRegression, HuberRegressor, PassiveAggressiveRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, median_absolute_error, r2_score

regressions = {
    'ARDRegression': ARDRegression(),
    'HuberRegressor': HuberRegressor(),
    'PassiveAggressiveRegressor': PassiveAggressiveRegressor(),
    'LinearRegression' : LinearRegression(),
}

def exec_regression(regression, data, target):
    X = data
    y = target
    
    predicted = cross_val_predict(regression, X, y, cv=2)
    
    # mean absolute
    print("Mean absolute error", end='\t')
    print("%0.3f"%cross_val_score(regression, X, y, cv=2, scoring='neg_mean_absolute_error').mean(), end='\t')
    print("%0.3f"%mean_absolute_error(y, predicted))

    # mean squared
    print("Mean squared error", end='\t')   
    print("%0.3f"%cross_val_score(regression, X, y, cv=2, scoring='neg_mean_squared_error').mean(), end='\t')
    print("%0.3f"%mean_squared_error(y, predicted))

    # Median absolute
    print("Median absolute error", end='\t')
    print("%0.3f"%cross_val_score(regression, X, y, cv=2, scoring='neg_median_absolute_error').mean(), end='\t')
    print("%0.3f"%median_absolute_error(y, predicted))

    # r2
    print("R2-Score\t", end='\t')
    print("%0.3f"%cross_val_score(regression, X, y, cv=2, scoring='r2').mean(), end='\t')
    print("%0.3f"%r2_score(y, predicted, multioutput='uniform_average'))
    
    
def exec_regressions(data, regressions):
    target = data['Total 2ª convocatoria (Real)']
    data_aux = data.copy()
    del(data_aux['Total 2ª convocatoria (Real)'])
    del(data_aux['Total 1ª convocatoria (Real)'])
    for regression in regressions:
        print('\n\nRegression: ', regression)
        exec_regression(regressions[regression], data_aux, target)
        
exec_regressions(dfMErged, regressions)



Regression:  HuberRegressor
Mean absolute error	-1.904	1.904
Mean squared error	-6.714	6.714
Median absolute error	-1.423	1.388
R2-Score		-0.574	-0.556


Regression:  LinearRegression
Mean absolute error	-2.072	2.072
Mean squared error	-7.427	7.427
Median absolute error	-1.689	1.627
R2-Score		-0.762	-0.721


Regression:  ARDRegression
Mean absolute error	-1.717	1.717
Mean squared error	-5.259	5.259
Median absolute error	-1.320	1.393
R2-Score		-0.272	-0.218


Regression:  PassiveAggressiveRegressor
Mean absolute error	-7.375	8.201
Mean squared error	-18.439	139.994
Median absolute error	-3.709	4.433
R2-Score		-15.493	-31.437
