In [19]:
#imports
import pandas as pd
import numpy as np

from math import pi
from statistics import mean
from bokeh.transform import cumsum
from bokeh.transform import factor_cmap
from bokeh.models import ColumnDataSource, FactorRange
from bokeh.palettes import Category20c
from bokeh.plotting import figure, show

from fractions import Fraction
concept_checks = ['1AM','1PM','2AM','2PM','3AM','3PM','4AM','4PM','5AM','5PM','6AM']

#data gathering
notes = pd.read_excel('../data/all_sections_notes.xlsx')
student_data = pd.read_excel('../data/student_information_filtered.xlsx')

## Data Gathering

In [20]:
student_data = student_data[student_data['NUMERO'].notna()]
student_data.drop(columns={'EPS', 'Comentarios','Falta por consentimiento'}, axis=1, inplace=True)
student_data['DOCUMENTO '] = pd.to_numeric(student_data['DOCUMENTO '])
student_data.columns

#We rename the columns to make them easier to work with
notes.rename(columns={
    #WEEK 1
    'OrgDefinedId':'user',
    'Secciones':'sec',
    'Entrega de la mañana D1 Points Grade <Numérico Puntos máx.:5 Categoría:Semana 1\Week1>':'1AM',
    'Entrega de la tarde D1 Points Grade <Numérico Puntos máx.:5 Categoría:Semana 1\Week1>':'1PM',
    'Entrega de la mañana (D2) Points Grade <Numérico Puntos máx.:5 Categoría:Semana 1\Week1>':'2AM',
    'Entrega de la tarde (D2) Points Grade <Numérico Puntos máx.:5 Categoría:Semana 1\Week1>':'2PM',
    'Entrega de la mañana (D3) Points Grade <Numérico Puntos máx.:5 Categoría:Semana 1\Week1>':'3AM',
    'Entrega de la tarde (D3) Points Grade <Numérico Puntos máx.:5 Categoría:Semana 1\Week1>':'3PM',
    'Entrega de la mañana (D4) Points Grade <Numérico Puntos máx.:5 Categoría:Semana 1\Week1>':'4AM',
    'Entrega de la tarde (D4) Points Grade <Numérico Puntos máx.:5 Categoría:Semana 1\Week1>':'4PM',

    'Semana 1\Week1 Subtotal Numerator':'week_1_numerator',
    'Semana 1\Week1 Subtotal Denominator':'week_1_denominator',
    
    #WEEK 2
    'Entrega de la tarde (D5) Points Grade <Numérico Puntos máx.:5 Categoría:Semana 2\Week 2>':'5PM',
    'Entrega de la mañana (D5) Points Grade <Numérico Puntos máx.:5 Categoría:Semana 2\Week 2>':'5AM',
    'Entrega de la mañana (D6) Points Grade <Numérico Puntos máx.:5 Categoría:Semana 2\Week 2>':'6AM',

    'Semana 2\Week 2 Subtotal Numerator':'week_2_numerator',
    'Semana 2\Week 2 Subtotal Denominator':'week_2_denominator',

    'Calculated Final Grade Numerator':'final_numerator',
    'Calculated Final Grade Denominator':'final_denominator'
}, inplace = True)

#we change the type to a numeric float64 from 'object'
#Week 1
notes['1AM'] = pd.to_numeric(notes['1AM'])
notes['1PM'] = pd.to_numeric(notes['1PM'])
notes['2AM'] = pd.to_numeric(notes['2AM'])
notes['2PM'] = pd.to_numeric(notes['2PM'])
notes['3AM'] = pd.to_numeric(notes['3AM'])
notes['3PM'] = pd.to_numeric(notes['3PM'])
notes['4AM'] = pd.to_numeric(notes['4AM'])
notes['4PM'] = pd.to_numeric(notes['4PM'])
#Week 2
notes['5AM'] = pd.to_numeric(notes['5AM'])
notes['5PM'] = pd.to_numeric(notes['5PM'])
notes['6AM'] = pd.to_numeric(notes['6AM'])



notes['sec'].replace(['Sección No. 1', 'Sección No. 2', 'Sección No. 3','Sección No. 4','Sección No. 5','Sección No. 6','Sección No. 7',
'Sección No. 8','Sección No. 9','Sección No. 10 - Las morcillitas'], [1,2,3,4,5,6,7,8,9,10], inplace=True)

notes.fillna(0.0, inplace=True)
notes['user'] = pd.to_numeric(notes['user'])

notes.drop(columns={'Adjusted Final Grade Numerator', 'Adjusted Final Grade Denominator', 'Username'}, axis=1, inplace=True)

data = pd.merge(notes, student_data, how='inner', left_on='user', right_on='DOCUMENTO ')

data.drop(columns={'EMAIL ESTUDIANTE',
       'CORREO ACUDIENTE', 'ESPAÑOL', 'MATEMATICAS', 'PROMEDIO NOTAS',
       'ESCALA', 'PUNTAJE', 'RESULTADO', 'EMAIL CONFIRMACION ','CSBRIDGE SEC', 'Email','DOCUMENTO '}, axis=1, inplace=True)

#we recalculate the numerator and denominator for every student, as the data didn't take NaN into account.
for index in data.index:
        #week 1
        a = (sum([data.loc[index, '1AM'],
        data.loc[index, '1PM'],
        data.loc[index, '2AM'],
        data.loc[index, '2PM'],
        data.loc[index, '3AM'],
        data.loc[index, '3PM'],
        data.loc[index, '4AM'],
        data.loc[index, '4PM']]))
        b = 8.0

        data.loc[index, 'week_1_numerator'] = Fraction(a/b).numerator
        data.loc[index, 'week_1_denominator'] = Fraction(a/b).denominator

        #week 2
        a = (sum([data.loc[index, '5AM'],
                data.loc[index, '5PM'],
                data.loc[index, '6AM']]))
        b = 3.0

        data.loc[index, 'week_2_numerator'] = Fraction(a/b).numerator
        data.loc[index, 'week_2_denominator'] = Fraction(a/b).denominator

        #final values, this operation might come as redundant at first, but it is quite important for final averages. Either way, i might 
        #optimize it in the future.
        a = (sum([data.loc[index, '1AM'],
        data.loc[index, '1PM'],
        data.loc[index, '2AM'],
        data.loc[index, '2PM'],
        data.loc[index, '3AM'],
        data.loc[index, '3PM'],
        data.loc[index, '4AM'],
        data.loc[index, '4PM'],
        data.loc[index, '5AM'],
        data.loc[index, '5PM'],
        data.loc[index, '6AM']]))
        b = 11.0
        
        data.loc[index, 'final_numerator'] = Fraction(a/b).numerator
        data.loc[index, 'final_denominator'] = Fraction(a/b).denominator

data.columns


Index(['user', 'Last Name', 'First Name', 'sec', '1AM', '1PM', '2AM', '2PM',
       '3AM', '3PM', '4AM', '4PM', 'week_1_numerator', 'week_1_denominator',
       '5PM', '5AM', '6AM',
       'Entrega de la Final del curso Points Grade <Numérico Puntos máx.:5 Categoría:Semana 2\Week 2>',
       'week_2_numerator', 'week_2_denominator', 'final_numerator',
       'final_denominator', 'NUMERO', 'ESTUDIANTE', 'Asistió', 'GENERO',
       'COLEGIO', 'GRADO'],
      dtype='object')

In [None]:
def average_per_school(data):
    #TODO