# Záróvizsga igazságossága

### Demo

In [1]:
import pandas as pd

Amit tudni kell az igazságossághoz: 
 1. milyen tárgyakat tanít a tanár   
 2. ~az egyes tárgyakhoz hány tanár és hallgató jut -> átlagos hallgatók száma / tanár~
 3. elnökként hányszor van beosztva (ha nem vizsgázató) --> WL
 4. tagként hányszor van beosztva (ha nem elnök)        --> WL kiszámításhoz
 5. vizsgáztatóként hányszor van beosztva (ennek számolja alapból) --> WL
 
 (3-5. minden egyes beosztás egy 3 elemű vektor lehet, pl. az `[1 0 1]` jelentése, hogy az adott vizsgán a tanár elnökként és
 vizsgáztatóként volt jelen) 

Hogyan használjuk a rendelkezésre álló adatokat? 
Pl. az alábbi számok jellemzik 3 tanár tárgyainak és vizsgázatott hallgatóinak számát. 


In [2]:
A = {"examines": 34, "total_courses": 3, "exams_per_course": {1: 8, 2: 10, 3: 16}, "students_per_course": {1: 8, 2: 10, 3: 8}}
B = {"examines": 17, "total_courses": 1, "exams_per_course": {0: 17}, "students_per_course": {0: 17}}
C = {"examines": 4, "total_courses": 2, "exams_per_course": {3: 0, 4: 4}, "students_per_course": {3: 8, 4: 4}}

df = pd.DataFrame([A, B, C])
df["spc_sum"] = df.apply(lambda x: sum(x.students_per_course.values()), axis = 1)
df

Unnamed: 0,examines,total_courses,exams_per_course,students_per_course,spc_sum
0,34,3,"{1: 8, 2: 10, 3: 16}","{1: 8, 2: 10, 3: 8}",26
1,17,1,{0: 17},{0: 17},17
2,4,2,"{3: 0, 4: 4}","{3: 8, 4: 4}",12


Alább pedig az egyes tárgyakról található példaadat:

In [3]:
Courses = {0: {"students": 17, "teachers": 1}, 
           1: {"students": 8, "teachers": 1 }, 
           2: {"students": 10, "teachers": 1}, 
           3: {"students": 16, "teachers": 2}, 
           4: {"students": 4, "teachers": 1}}

> **Kihívás:** Hogyan tudjuk a modell tudtára adni, hogy egy tanár lehet-e elnök? Külön modell ellenőrizze az elnöki beosztások igazságosságát? 

Nem, ez is egy input lesz.

> **Kérdés:** Az egyes dimenziókról feltesszük, hogy függetlenek. Tényleg azok? Ha nem, milyen függőségeket sejthetünk meg?

### Input feldolgozása

In [4]:
from collections import defaultdict

In [68]:
class ScheduleStats:
    
    _SCHEDULE_DATA_PATH = './data/Beosztáshoz2020osz.xlsx'
    
    def __init__(self):
        self._schedule = self.load_in_sample_data()
        self.courses = self._init_courses()
        self.teachers = self._init_teachers()
        
    def load_in_sample_data(self):
        path = ScheduleStats._SCHEDULE_DATA_PATH
        sheet_name = '1.kör'
        usecols = "I:K,M:O,Q"
        
        schedule = self._load_in_schedule(path, sheet_name, usecols)
        
        # resolve NaN due to merged cells        
        schedule[['Elnök', 'Tag', 'Titkár']] = schedule[['Elnök', 'Tag', 'Titkár']].fillna(method = 'ffill')
        
        # filter out rows where student name is NaN        
        schedule = schedule.dropna(subset = ['Név'])
        return schedule
        
    def _load_in_schedule(self, path, sheet_name = None, usecols = None):            
        return pd.read_excel(path, sheet_name = sheet_name, usecols = usecols)           
    
    def _init_courses(self):
        if self._schedule is None:
            raise Exception('Parsing course information was called before initializing a "Schedule" DataFrame to work with. ')
        course_data = [
            {"Tárgy": targy, 
             "Hallgatók": len(self._schedule[self._schedule["Vizsgatárgy"] == targy]),
             "Tanárok": len(self._schedule[self._schedule["Vizsgatárgy"] == targy].Vizsgáztató.unique())}
            for targy in self._schedule.Vizsgatárgy.unique()
        ]
        courses = pd.DataFrame(course_data)
        # Egy tanárra jutó hallgatók száma
        courses['ETJH'] = courses.Hallgatók / courses.Tanárok
        courses.ETJH = courses.ETJH.round().astype(int)
        return courses
    
    def _init_teachers(self):
        if self._schedule is None:
            raise Exception('Parsing teacher information was called before initializing a "Schedule" DataFrame to work with. ')
        all_teachers = pd.unique(self._schedule[["Vizsgáztató", "Elnök", "Tag", "Titkár"]].values.ravel('K'))
        teacher_data = list(defaultdict())
        for teacher in all_teachers:
            exam_count = len(self._schedule[self._schedule.Vizsgáztató == teacher])
            pres_count = len(self._schedule[(self._schedule.Vizsgáztató != teacher) & (self._schedule.Elnök == teacher)])
            mem_count = len(self._schedule[(self._schedule.Vizsgáztató != teacher) & (self._schedule.Tag == teacher)])
            sec_count = len(self._schedule[(self._schedule.Vizsgáztató != teacher) & (self._schedule.Titkár == teacher)])
            taught_subjects = self._schedule[self._schedule.Vizsgáztató == teacher].Vizsgatárgy.unique()
            ASI = sum(self.courses[self.courses.Tárgy.isin(taught_subjects)].ETJH)
            teacher_dict = {"Tanár": teacher, 
             "Vizsga": exam_count, 
             "Elnök": pres_count,
             "Tag": mem_count,
             "Titkár": sec_count,
             "ÁHI": ASI
            }
            teacher_data.append(teacher_dict)
        return pd.DataFrame(teacher_data)    

In [78]:
ss = ScheduleStats()
ss.teachers

# TODO összes hallgatóinak a száma 
tanar = ss.teachers.Tanár.iloc[0]
len(ss._schedule[ss._schedule.Vizsgáztató == tanar])
# TODO óráinak a száma


23