# Test 1: Rozřazení 10 dětí do 4 školek

## Výroba datasetu
Skript vygeneruje 10 fiktivních uchazečů ve věku 2 až 7 let s náhodným datem narození, spádovou školkou a dalšími atributy převzatými z reálného přihlašovacího formuláře z webu zapisdoms.brno.cz. Školky jsou 4 a mají každá 3 volná místa.


In [2]:
import csv
import pandas as pd
import random
import copy
import numpy as np
import datetime
from dateutil.relativedelta import relativedelta
import sys
from matching.games import HospitalResident
import warnings


deti = pd.read_csv('deti_copy.csv')
prihlasky = pd.read_csv('prihlasky_test.csv')
skolky = pd.read_csv('skolky_test.csv')
skolky['volna_mista'] = 3

warnings.filterwarnings("ignore", category=DeprecationWarning)

def get_random_rows(dataframe, num_rows=10, random_seed=None):
    # Vybere z datasetu "děti" 20 náhodných řádek
    random.seed(random_seed)
    random_rows = dataframe.sample(n=num_rows, random_state=random_seed)
    random_rows['spadova_skolka'] = [random.randint(0, 3) for _ in range(num_rows)]
    random_rows.reset_index()
    random_rows.drop(['Unnamed: 0'], axis = 1)
    return random_rows
deti = get_random_rows(deti, num_rows=10, random_seed=10)
deti.to_csv('deti_test.csv')
print(deti[['id_dite', 'jmeno', 'datum_narozeni', 'spadova_skolka']])
print()
print(skolky[['skolka_id', 'nazev_kratky', 'volna_mista']])

      id_dite                  jmeno datum_narozeni  spadova_skolka
924       924       Jozef Test Černý     2017-05-07               0
1284     1284      Štefan Test Černý     2016-09-18               3
2126     2126  Ludmila Test Kučerová     2019-12-10               3
1161     1161   Richard Test Svoboda     2016-11-06               0
1365     1365  Patrik Test Procházka     2020-06-28               1
2486     2486    Petra Test Kučerová     2017-01-03               3
2157     2157  Ludmila Test Tesařová     2019-05-08               3
1470     1470     Róbert Test Kadlec     2019-01-09               2
326       326     David Test Kovařík     2020-01-11               1
410       410     Adam Test Pospíšil     2018-10-22               0

   skolka_id    nazev_kratky  volna_mista
0          0   MŠ Absolonova            3
1          1  MŠ Amerlingova            3
2          2   MŠ Antonínská            3
3          3      MŠ Bellova            3


## Priority uchazečů
Každý uchazeč se může přihlásit, do kolika školek chce. Volí si je formou prioritního seznamu, kde nejoblíbenější školka je uvedena první a tak dál. Volbu uchazečů zde simuluje náhodný výběr. 

In [3]:
def get_prihlasky(deti_df, pocet_skolek):
    random.seed(78)
    # Fuknce simuluje výběr oblíbených školek tím, že přiřadí uchazeči náhodný seznam. Počet položek je také náhodný.
    # Funkce zohledňuje spádovost a školku sourozence.
    data = {'dite': [], 'jmeno': [], 'skolka': [], 'poradi': []}
    for idx, row in deti_df.iterrows():
        vybrane_skolky = set()
        pocet_prihlasek = random.randint(1, pocet_skolek)
    
        for i in range(pocet_prihlasek):
            if i == 0:
                vybrane_skolky.add(str(row['spadova_skolka']))
            if i == 1 and pd.notna(row['skolka_sourozence']):
                vybrane_skolky.add(str(row['skolka_sourozence']))
            else:
                vybrane_skolky.add(str(random.randint(0, pocet_skolek - 1)))
    
        vybrane_skolky = list(vybrane_skolky)
    
        for index, value in enumerate(vybrane_skolky):
            data['dite'].append(str(row['id_dite']))
            data['jmeno'].append(row['jmeno'])
            data['skolka'].append(value)
            data['poradi'].append(index + 1)

    df = pd.DataFrame(data)
    return df

prihlasky = get_prihlasky(deti, len(skolky))
prihlasky.to_csv('prihlasky_test.csv')

def get_priorities(tabulka_prihlasek):
    # Funkce vytvoří slovník uchazečů a jejich prioritních seznamů školek.
    prihlasky_groupedby_kids = tabulka_prihlasek.groupby('dite')['skolka'].agg(list)
    return prihlasky_groupedby_kids.to_dict()        
priority = get_priorities(prihlasky)

def get_priorities_names(priority_dict):
    priorities_names = {}
    for k, v in priority_dict.items():
        k = deti.loc[deti['id_dite'] == int(k), 'jmeno'].item()
        v = [skolky.loc[int(item)]['nazev_kratky'] for item in v]
        priorities_names[k] = v
    return priorities_names
priority_jmena = get_priorities_names(priority)

print("Uchazeči a jejich vybrané školky v pořadí podle oblíbenosti:")
print()
for a, b in priority_jmena.items():
    print(a, b)


Uchazeči a jejich vybrané školky v pořadí podle oblíbenosti:

Richard Test Svoboda ['MŠ Absolonova', 'MŠ Amerlingova', 'MŠ Antonínská']
Štefan Test Černý ['MŠ Bellova', 'MŠ Amerlingova', 'MŠ Absolonova']
Patrik Test Procházka ['MŠ Bellova', 'MŠ Amerlingova', 'MŠ Antonínská']
Róbert Test Kadlec ['MŠ Bellova', 'MŠ Antonínská']
Ludmila Test Kučerová ['MŠ Bellova', 'MŠ Amerlingova', 'MŠ Absolonova']
Ludmila Test Tesařová ['MŠ Bellova', 'MŠ Amerlingova']
Petra Test Kučerová ['MŠ Bellova', 'MŠ Amerlingova', 'MŠ Absolonova', 'MŠ Antonínská']
David Test Kovařík ['MŠ Amerlingova', 'MŠ Antonínská']
Adam Test Pospíšil ['MŠ Bellova', 'MŠ Absolonova']
Jozef Test Černý ['MŠ Absolonova', 'MŠ Antonínská']


## Priority školek
Uchazeči dostávají body podle kritérií popsaných zde: https://zapisdoms.brno.cz/kriteria-rizeni

In [4]:
deti = pd.read_csv('deti_test.csv')
skolky = pd.read_csv('skolky_test.csv')
prihlasky = pd.read_csv('prihlasky_test.csv')

def get_mestska_cast(deti_df): 
    # Funkce rozšíří tabulku dětí o sloupec "mestska_cast", převzatý od spádové školky, za účelem obodování. 
    deti_df = pd.merge(deti_df, skolky[['skolka_id', 'mc']], left_on = 'spadova_skolka', right_on = 'skolka_id')   
    deti_df.reset_index(inplace = True)
    return deti_df
deti = get_mestska_cast(deti)

def get_age(birthday):
    # Z data narození vypočte věk v letech a dnech k letošnímu 31. srpnu.
    today = datetime.date.today()
    current_year = today.year
    schoolyear_start = datetime.date(birthday.year, 8, 31)
    difference = schoolyear_start - birthday - relativedelta(days = 1)   # prizpusobeni webu zapisdoms.brno.cz

    schoolyear_start_current = datetime.date(current_year, 8, 31)
    age_in_years = int(round((schoolyear_start_current - schoolyear_start).days/365, 0))
    if difference.days < 0:
        age_in_years -= 1
    return age_in_years, difference.days

def get_points_years(age, age_difference_days):
    # Přidelí body za věk.
    options = {7: 2160, 6: 2120, 5: 2080, 4: 2040, 3: 2000, 2: 0, 1: 0}
    calculate_points = lambda x: 1000 if (x == 2 and age_difference_days < 0) else options[x]
    points_years = calculate_points(age)
    return points_years

def calculate_points_one_child(id_child):
    # Sečte body za všechna bodovaná kritéria.

    # vytvořit tabulku "1 uchazeč, všechny školky"  
    copy_skolky = copy.deepcopy(skolky)
    copy_skolky['id_dite'] = id_child  
    copy_skolky = copy_skolky[copy_skolky['volna_mista'] > 0] 
    df_one_child = pd.merge(copy_skolky, deti, left_on ='id_dite', right_on = 'id_dite', how = 'left')
    df_one_child.rename(columns={'skolka_id_x': 'id_skolka', 'mc_x': 'mc_skolka', 'mc_y': 'mc_dite'}, inplace = True)
    df_one_child.drop(['skolka_id_y', 'index'], axis = 1, inplace = True)

    # body za věk
    df_one_child['datum_narozeni'] = pd.to_datetime(df_one_child['datum_narozeni']).dt.date
    df_one_child['vek'] = df_one_child['datum_narozeni'].apply(lambda x: pd.Series(get_age(x)))[0]
    df_one_child['vek_dny_srpen31'] = df_one_child['datum_narozeni'].apply(lambda x: pd.Series(get_age(x)))[1]
    df_one_child['body_za_vek_roky'] = df_one_child.apply(lambda row: get_points_years(row['vek'], row['vek_dny_srpen31']), axis=1)
    df_one_child['body_za_vek_dny'] = df_one_child.apply(lambda row: 0 if (row['vek_dny_srpen31'] < 0) else row['vek_dny_srpen31']*0.02, axis = 1)
    df_one_child['prioritni_vek'] = df_one_child.apply(lambda row: True if (3 <= row['vek'] <= 6) else False, axis = 1)

    # body za bydliště
    df_one_child['body_spadovost'] = df_one_child.apply(lambda row: 250 if row['bydliste_brno'] == True else 0, axis = 1)
    df_one_child['body_spadovost'] = df_one_child.apply(lambda row: 500 if row['mc_skolka'] == row['mc_dite'] else row['body_spadovost'], axis = 1)
    df_one_child['body_spadovost'] = df_one_child.apply(lambda row: 750 if (row['id_skolka'] == row['spadova_skolka']) and (row['prioritni_vek'] == False) else row['body_spadovost'], axis = 1)
    df_one_child['body_spadovost'] = df_one_child.apply(lambda row: 1000 if (row['id_skolka'] == row['spadova_skolka']) and (row['prioritni_vek'] == True) else row['body_spadovost'], axis = 1)

    # body za sourozence ve školce
    df_one_child['body_sourozenec'] = df_one_child.query('prioritni_vek == True and skolka_sourozence == id_skolka').apply(lambda x: 10, axis = 1)
    df_one_child['body_sourozenec'].fillna(0, inplace = True)

    # dve specialni skolky, které mají jako spádovou oblast celé Brno a nabízejí prodloužený provoz
    # body navíc, pokud uchazeč doloží potřebu prodlouženého provozu
    # zapisdoms.brno.cz nespecifikuje počet bodů navíc >>> arbitrárně stanoveno 50 bodů
    df_one_child.loc[df_one_child['id_skolka'].isin([137, 138]), 'body_spadovost'] = df_one_child.loc[df_one_child['id_skolka'].isin([137, 138]), 'body_spadovost'].apply(lambda x: 1000)
    df_one_child.loc[df_one_child['id_skolka'].isin([137, 138]), 'body_sourozenec'] = df_one_child.loc[df_one_child['id_skolka'].isin([137, 138]), 'body_sourozenec'].apply(lambda x: 10)
    df_one_child['body_prodlouz_provoz'] = 0
    df_one_child.loc[df_one_child['id_skolka'].isin([137, 138]), 'body_prodlouz_provoz'] = df_one_child.loc[df_one_child['id_skolka'].isin([137, 138]), 'body_prodlouz_provoz'].apply(lambda x: 50 if 'prodlouzena_dochazka' == True else 0)

    # nezohledneni bodů za "Den věku dítěte v roce narození" v případě spádových školek
    df_one_child.loc[df_one_child['spadova_skolka'] == df_one_child['id_skolka'], 'body_za_vek_dny'] = df_one_child.loc[df_one_child['spadova_skolka'] == df_one_child['id_skolka'], 'body_za_vek_dny'].apply(lambda x: 0)

    # součet bodů
    df_one_child['body_soucet'] = df_one_child['body_sourozenec'] + df_one_child['body_spadovost'] + df_one_child['body_za_vek_roky'] + df_one_child['body_za_vek_dny'] + df_one_child['body_prodlouz_provoz']
    d_pivoted = df_one_child.pivot(index = 'id_dite', columns = 'id_skolka', values = 'body_soucet')
    d_pivoted = pd.merge(deti, d_pivoted, how = 'right', left_on = 'id_dite', right_on = 'id_dite')
    d_pivoted.drop(['Unnamed: 0.1', 'Unnamed: 0', 'skolka_id'], axis = 1, inplace = True)
    return d_pivoted
    
# výstup pro prvního uchazeče:
body = calculate_points_one_child(deti.iloc[0]['id_dite'])  

# výstup pro všechny uchazeče:
for i in range(1, len(deti)):
    one_child_pivoted_df = calculate_points_one_child(deti.iloc[i]['id_dite'])
    body = pd.concat([body, one_child_pivoted_df])   
# all_points.to_csv('all_points_test.csv')
print('Všichni uchazeči vs. všechny čtyři školky: přidělené body')
print()
print(body[['id_dite', 'jmeno', 0, 1, 2, 3]])


Všichni uchazeči vs. všechny čtyři školky: přidělené body

   id_dite                  jmeno        0        1        2        3
0      924       Jozef Test Černý  2910.00  2412.30  2412.30  2412.30
0     1161   Richard Test Svoboda  2910.00  2410.00  2410.00  2410.00
0      410     Adam Test Pospíšil  3080.00  2330.00  2330.00  2330.00
0     1284      Štefan Test Černý  2410.00  2410.00  2410.00  2910.00
0     2126  Ludmila Test Kučerová  2290.00  2290.00  2290.00  3040.00
0     2486    Petra Test Kučerová  2414.78  2414.78  2414.78  2910.00
0     2157  Ludmila Test Tesařová  2332.28  2332.28  2332.28  3080.00
0     1365  Patrik Test Procházka  2291.26  3040.00  2291.26  2291.26
0      326     David Test Kovařík  2294.64  3040.00  2294.64  2294.64
0     1470     Róbert Test Kadlec  2334.66  2334.66  3080.00  2334.66


Z této tabulky vybereme pro každou školku jen ty uchazeče, kteří se na ni hlásí, a seřadíme je podle počtu bodů: 

In [5]:
def get_schools_longlists(body_df, prihlasky_df):
    # Z výše spočítaných bodů vybere jen ty relevantní podle toho, kdo se kam hlásí.
    # výstup je slovnik typu "skolka a k ni vsechny deti, co se na ni hlasi, seřazené podle počtu bodů"
    prihlasky_groupedby_schools = prihlasky_df.groupby('skolka')['dite'].agg(list)
    prihlasky_groupedby_schools = prihlasky_groupedby_schools.to_dict()

    longlists = {}
    schools = prihlasky_groupedby_schools.keys()
    for s in schools:
        all_kids_one_school = body_df[['id_dite', s]].copy()  

        kids_applyint_to_one_school = all_kids_one_school.loc[all_kids_one_school['id_dite'].isin(prihlasky_groupedby_schools[s])].copy()

        kids_applyint_to_one_school.sort_values(by=s, ascending=False, inplace=True)
        kids_applyint_to_one_school.reset_index(inplace=True, drop=True)
        sorted_longlist = tuple(kids_applyint_to_one_school['id_dite'])
        longlists[str(s)] = [str(x) for x in sorted_longlist]
    return longlists

serazeni_uchazeci = get_schools_longlists(body, prihlasky)
# print(schools_longlists)

def get_longlists_names(longlists_dict):
    longlists_names = {}
    for k, v in longlists_dict.items():
        k = skolky.loc[int(k)]['nazev_kratky']
        v = [(deti.loc[deti['id_dite'] == int(i), 'jmeno'].item()) for i in v]
        longlists_names[k] = v
    return longlists_names
serazeni_uchazeci_jmena = get_longlists_names(serazeni_uchazeci)
print()
for k,v in serazeni_uchazeci_jmena.items():
    print(k,v)
    print()



MŠ Absolonova ['Adam Test Pospíšil', 'Jozef Test Černý', 'Richard Test Svoboda', 'Petra Test Kučerová', 'Štefan Test Černý', 'Ludmila Test Kučerová']

MŠ Amerlingova ['Patrik Test Procházka', 'David Test Kovařík', 'Petra Test Kučerová', 'Richard Test Svoboda', 'Štefan Test Černý', 'Ludmila Test Tesařová', 'Ludmila Test Kučerová']

MŠ Antonínská ['Róbert Test Kadlec', 'Petra Test Kučerová', 'Jozef Test Černý', 'Richard Test Svoboda', 'David Test Kovařík', 'Patrik Test Procházka']

MŠ Bellova ['Ludmila Test Tesařová', 'Ludmila Test Kučerová', 'Štefan Test Černý', 'Petra Test Kučerová', 'Róbert Test Kadlec', 'Adam Test Pospíšil', 'Patrik Test Procházka']



## Rozřazení

Vytvořené priority uchazečů a priority školek jsou spolu s kapacitou školek vstupními údaji pro rozřazovací algoritmus. 

Algoritmus prochází seznam uchazečů a každého přiřadí do školky jeho první volby, pokud má tato školka ještě kapacitu. Toto přiřazení ale není finální, protože dříve nebo později přijde řada na dítě, jehož nejoblíbenější školka už je plná. V tomto okamžiku dojde na porovnávání počtu bodů. Pokud má dítě více bodů než poslední uchazeč nad čarou, do školky se dostane, ale onen poslední z ní vypadává. Vyřazeného uchazeče se algoritmus následně pokusí stejným způsobem spárovat se školkou jeho druhé volby a tak stále dokola. Tímto způsobem algoritmus přepisuje seznamy dětí pro každou školku, dokud se nedostane do stabilního stavu, kdy nikdo nemůže vyřadit nikoho. Tento stav vrátí jako výsledek.


In [8]:
def get_volna_mista(df_skolky):
    # vyrobí slovník školka: kapacita ve formátu vhodném pro následující funkci
    volna_mista = df_skolky[['skolka_id', 'volna_mista']]
    volna_mista = volna_mista.to_dict('dict')['volna_mista']
    volna_mista = {str(k):v for k, v in volna_mista.items()}
    return volna_mista
volna_mista = get_volna_mista(skolky)

# Input pro následující rozřazovací funkci:
# print('priority uchazečů: ', priority)
# print('uchazeči o každou školu, seřazení podle bodů: ', serazeni_uchazeci)
# print('školky a jejich kapacity: ', volna_mista)

def match(priority_zaku, priority_skolek, kapacity_skolek):
    game = HospitalResident.create_from_dictionaries(priority_zaku, priority_skolek, kapacity_skolek)
    schools_shortlists = game.solve(optimal="resident")
    return schools_shortlists
rozrazeni = match(priority, serazeni_uchazeci, volna_mista)

def save_results(results):
    with open('vysledek.csv', 'w') as file:
        writer = csv.DictWriter(file, fieldnames = ['dite', 'skolka', 'poradi'])
        writer.writeheader()
        for school, shortlist in results.items():
            for index, person in enumerate(shortlist):
                d = {'skolka': school, 'poradi': index + 1, 'dite': person}
                writer.writerow(d)
    return
save_results(rozrazeni)



def get_vysledek_se_jmeny(vysledek):
    names = {}
    for k, v in vysledek.items():
        k = skolky.loc[int(k.name)]['nazev_kratky']
        v = [(deti.loc[deti['id_dite'] == int(i.name), 'jmeno'].item()) for i in v]
        names[k] = v
    return names
vysledek_se_jmeny = get_vysledek_se_jmeny(rozrazeni)
print('Výsledky - kdo se dostal kam: ')
print()
for k,v in vysledek_se_jmeny.items():
    print(k,v)
    print()


Výsledky - kdo se dostal kam: 

MŠ Absolonova ['Adam Test Pospíšil', 'Jozef Test Černý', 'Richard Test Svoboda']

MŠ Amerlingova ['Patrik Test Procházka', 'David Test Kovařík', 'Petra Test Kučerová']

MŠ Antonínská ['Róbert Test Kadlec']

MŠ Bellova ['Ludmila Test Tesařová', 'Ludmila Test Kučerová', 'Štefan Test Černý']

