In [1]:
from iwi131_utils import iwi131_utils
import logging
import os
import pandas as pd 

pjoin = os.path.join

logging.basicConfig(level=getattr(logging, 'INFO'))
logger = logging.getLogger('get_notas_csj')

In [2]:
# VARIABLES DE ENTORNO

# Contests de hackerrank
#contests =["https://www.hackerrank.com/lab2-07-cachapoal"]
contests =['https://www.hackerrank.com/lab2-cc-01-loa',
'https://www.hackerrank.com/lab2-cc-02-limari',
'https://www.hackerrank.com/lab2-cc-06-teno',
'https://www.hackerrank.com/lab2-cc-08-itata']

# Plantilla de SIGA para las listas
siga_lista='Curso_IWI131_{0}_2019-1.xls'

# Paralelos
paralelos=range(1,23)

# Directorio de listas
dir_listas = pjoin('/Users/dylan/Desktop/iwi131_utils/listas_2019s1_cc/')

# Directorio de notas
dir_notas = pjoin('/Users/dylan/Desktop/iwi131_utils/notas_lab2_2019s1_cc/')

# Ratio de similitud entre usuarios (debe ser mayor o igual a 0.85)
ratio_user=0.85

In [3]:
# Diccionario de DFs por paralelo
dic_df_par={}

# Obtencion de los alumnos desde las listas del SIGA
logger.debug('++ Obteniendo datos de las listas de SIGA...')
for par in paralelos:
    curso=pjoin(dir_listas, siga_lista.format(par))
    dic_df_par[par]=iwi131_utils.estudiantes_x_paralelo_siga(curso)
logger.debug('++ OK')

In [4]:
# Lista con los alumnos y notas desde los leaderboard
lista_alumnos_nota=[]

logger.debug('++ Obteniendo notas desde todos los contests...')
#Obtencion de los usuarios y notas de los leaderboard
for con in contests:
    scr = iwi131_utils.Scraper(con+'/leaderboard')
    lista_alumnos_nota+=[(sansano_hack.username,sansano_hack.nota) for sansano_hack in scr.scrape()]
logger.debug('++ OK')

# FUNCION PARA CAMBIAR FORMATO USMROL
def map_rol_standard(username):
    import re
    p = re.compile(r'USM(?P<rol>\d{9})')
    m = p.search(username[0])
    if m:
        return (m.group('rol'),username[1])
    return username
lista_alumnos_nota = list(map(map_rol_standard, lista_alumnos_nota))

# DF con todas las notas y los usuarios
df_alumnos_nota=pd.DataFrame(lista_alumnos_nota, columns = ['rol', 'nota']) 

INFO:iwi131_utils:Loading leaderboard from url https://www.hackerrank.com/lab2-cc-01-loa/leaderboard
INFO:iwi131_utils:Page 1 loaded.
INFO:iwi131_utils:Page 2 loaded.
INFO:iwi131_utils:Page 3 loaded.
INFO:iwi131_utils:Page 4 loaded.
INFO:iwi131_utils:Page 5 loaded.
INFO:iwi131_utils:Page 6 loaded.
INFO:iwi131_utils:Page 7 loaded.
INFO:iwi131_utils:Page 8 loaded.
INFO:iwi131_utils:Page 9 loaded.
INFO:iwi131_utils:Page 10 loaded.
INFO:iwi131_utils:Page 11 loaded.
INFO:iwi131_utils:Page 12 loaded.
INFO:iwi131_utils:Page 13 loaded.
INFO:iwi131_utils:Page 14 loaded.
INFO:iwi131_utils:Page 15 loaded.
INFO:iwi131_utils:Page 16 loaded.
INFO:iwi131_utils:Page 17 loaded.
INFO:iwi131_utils:Leaderboard details not found -- Done loading
INFO:iwi131_utils:Loading leaderboard from url https://www.hackerrank.com/lab2-cc-02-limari/leaderboard
INFO:iwi131_utils:Page 1 loaded.
INFO:iwi131_utils:Page 2 loaded.
INFO:iwi131_utils:Page 3 loaded.
INFO:iwi131_utils:Page 4 loaded.
INFO:iwi131_utils:Page 5 loade

In [5]:
# Diccionario llave paralelo y valor un df con los roles,user y nota de cada alumno
match_alumnos_notas={}

# Merge entre todas las notas y los alumnos por paralelo
logger.debug('++ Empaquetando las notas por paralelo...')
for paralelo in paralelos:
    match_alumnos_notas[paralelo]=pd.merge(df_alumnos_nota,dic_df_par[paralelo], on="rol")
logger.debug('++ OK')    

In [6]:
logger.debug('++ Obteniendo alumnos no identificados...')
# DF con los alumnos sin identificacion en el match por paralelo
alumnos_sin_identificar_all=pd.concat([pd.concat(match_alumnos_notas.values(),sort=False), df_alumnos_nota],sort=False).drop_duplicates(subset='rol', keep=False)
logger.debug('++ OK')    

In [7]:
# Identificacion de los alumnos NN por paralelo
logger.debug('++ Identificando usuarios mal ingresados...')
residuos=[]
for paralelo in paralelos:
    aux_df,residuo=iwi131_utils.identificador_nn(dic_df_par[paralelo],alumnos_sin_identificar_all,ratio_user)
    residuos+=(residuo)
    match_alumnos_notas[paralelo]=pd.concat([match_alumnos_notas[paralelo],aux_df],sort=False).drop_duplicates(subset='rol', keep='first').reset_index(drop=True)
logger.debug('++ OK')

In [8]:
logger.debug('++ Obteniendo alumnos no identificados finales...')
# DF con los alumnos sin identificacion en el match por paralelo
alumnos_sin_identificar_final=pd.concat([pd.DataFrame(residuos, columns = ['rol']), alumnos_sin_identificar_all],sort=False).drop_duplicates(subset='rol', keep=False).reset_index(drop=True)
logger.debug('++ OK')

In [9]:
# Guarda las notas de los paralelos
logger.debug('++ Guardando notas en CSV por paralelo...')
for paralelo,df in match_alumnos_notas.items():
    df.to_csv(pjoin(dir_notas,'NOTAS_LAB2_{0}.csv'.format(paralelo)))
logger.debug('++ OK')

In [10]:
# Guarda en un CVS las notas de los alumnos sin identificar
logger.debug('++ Guardando notas de alumnos no identificados...')
alumnos_sin_identificar_final.to_csv(pjoin(dir_notas,'NOTAS_LAB2_NN.csv'.format(paralelo)))
logger.debug('++ OK')

In [11]:
totales=len(df_alumnos_nota)
iden=len(pd.concat(match_alumnos_notas.values()))
no_iden=len(alumnos_sin_identificar_final)
perdidos=(totales-(iden+no_iden))
print('Usuarios totales: {}'.format(totales))
print('Usuarios identificados: {}'.format(iden))
print('Usuarios sin identificar: {}'.format(no_iden))
print('Usuarios perdidos: {}'.format(perdidos))

Usuarios totales: 523
Usuarios identificados: 466
Usuarios sin identificar: 61
Usuarios perdidos: -4
