# Demo 1: Brno 2023

Reálná situace v Brně na jaře 2023: 138 školek a 3200 dětí. 

## Výroba datasetu
Skript vygeneruje 3200 fiktivních uchazečů ve věku 2 až 7 let s náhodným datem narození, spádovou školkou a dalšími atributy převzatými z reálného přihlašovacího formuláře z webu zapisdoms.brno.cz. 


In [1]:

import csv
import datetime
from dateutil.relativedelta import relativedelta
import random
import pandas as pd
import copy

random.seed(11)

skolky_spadove = 136   # běžné školky
skolky_vse = 139   # 2 školky mají jako spádovou oblast celé Brno, 1 má vlastní zápis

def get_random_birthday():    
    # Fuknce generuje náhodná data narození dětí ve věku 2 až 7 let. 
    today = datetime.date.today()
    current_year = today.year
    birthday_range = datetime.date(current_year-2, 8, 30) - datetime.date(current_year-7, 5, 31)    # (current_year-7, 5, 31) je vysledkem odhadu
    random_integer = random.randint(0, birthday_range.days)
    random_birthday = datetime.date(current_year-2, 8, 30) - relativedelta(days = random_integer)
    return random_birthday
random_birthday = get_random_birthday()

def get_random_school():
    # Funkce generuje náhodnou spádovou školku. U desetiny uchazečů vygeneruje také školku, kam chodí starší sourozenec.
    spadova_skolka = random.randint(0, skolky_spadove-1)   
    random_number = random.randint(1, 1000)
    if random_number%10 == 0:                         
        skolka_sourozence = spadova_skolka
    if random_number%20 == 0:
        skolka_sourozence = random.randint(1, skolky_vse-1)  
    else:
        skolka_sourozence = None                 
    return spadova_skolka, skolka_sourozence

je_bydliste_Brno = lambda x: False if x%21 == 0 else True  
# Funkce u většiny uchazečů určí jako místo bydliště Brno. Počet brněnských vs. mimobrněnských je výsledkem odhadu.

je_prodlouzena_dochazka = lambda x: True if x%33 == 0 else False   
# Funkce u většiny dětí zvolí, že nepožadují prodlouženou docházku. Počet je opět vysledkem odhadu. 

def get_names(jmena_divky, jmena_hosi):
    # vyrobi jména fiktivním uchazečům. Vstupem jsou nejběžnější česká a slovenská křestní jména a příjmení.
    first_names_0, surnames_0 = [], []
    with open(jmena_divky, newline='') as file:
        fi = csv.reader(file, delimiter=';')
        for line in fi:
            first_names_0.append(line[0])
            surnames_0.append(line[1])
    divky = [{'jmeno': i + ' Test ' + ii} for i in first_names_0 for ii in surnames_0]

    first_names_1, surnames_1 = [], []
    with open(jmena_hosi, newline='') as file:
        f = csv.reader(file, delimiter=';')
        for line in f:
            first_names_1.append(line[0])
            surnames_1.append(line[1])
    hosi = [{'jmeno': i + ' Test ' + ii} for i in first_names_1 for ii in surnames_1]

    return divky, hosi
    
divky, hosi = get_names('dummy_input_data/divky.csv', 'dummy_input_data/hosi.csv')

for i in hosi:
    i['pohlavi'] = 'M'
for i in divky:
    i['pohlavi'] = 'F'

deti = hosi + divky

for i in deti:
    i['datum_narozeni'] = get_random_birthday()
    i['spadova_skolka'] = get_random_school()[0]
    i['skolka_sourozence'] = get_random_school()[1]
    i['bydliste_brno'] = je_bydliste_Brno(random.randint(1, 1000))
    i['prodlouzena_dochazka'] = je_prodlouzena_dochazka(random.randint(1, 1000))

print("Náhodně vybraný uchazeč: ")
random.seed(None)
print(random.choice(deti))

deti = pd.DataFrame(deti)
new_col = deti.index
deti.insert(0, 'id_dite', new_col)  
deti.to_csv('deti.csv')


FileNotFoundError: [Errno 2] No such file or directory: 'dummy_input_data/divky.csv'

## Uchazeči si vybírají školky
Každý uchazeč se může přihlásit, do kolika školek chce. Volí si je formou prioritního seznamu, kde nejoblíbenější školka je uvedena první a tak dál.

In [11]:
def get_prihlasky(deti_df, pocet_skolek):
    random.seed(78)
    # Fuknce simuluje výběr oblíbených školek tím, že přiřadí uchazeči náhodný seznam. Počet položek je také náhodný.
    # Funkce zohledňuje spádovost a školku sourozence.
    data = {'dite': [], 'jmeno': [], 'skolka': [], 'poradi': []}
    for idx, row in deti_df.iterrows():
        vybrane_skolky = set()
        pocet_prihlasek = random.randint(1, pocet_skolek)
    
        for i in range(pocet_prihlasek):
            if i == 0:
                vybrane_skolky.add(str(row['spadova_skolka']))
            if i == 1 and pd.notna(row['skolka_sourozence']):
                vybrane_skolky.add(str(row['skolka_sourozence']))
            else:
                vybrane_skolky.add(str(random.randint(0, pocet_skolek - 1)))
    
        vybrane_skolky = list(vybrane_skolky)
    
        for index, value in enumerate(vybrane_skolky):
            data['dite'].append(str(row['id_dite']))
            data['jmeno'].append(row['jmeno'])
            data['skolka'].append(value)
            data['poradi'].append(index + 1)

    df = pd.DataFrame(data)
    return df

prihlasky = get_prihlasky(deti, len(skolky))
prihlasky.to_csv('prihlasky_test.csv')

def get_priorities(tabulka_prihlasek):
    # Funkce vytvoří slovník uchazečů a jejich prioritních seznamů školek.
    prihlasky_groupedby_kids = tabulka_prihlasek.groupby('dite')['skolka'].agg(list)
    return prihlasky_groupedby_kids.to_dict()        
priority = get_priorities(prihlasky)

def get_priorities_names(priority_dict):
    priorities_names = {}
    for k, v in priority_dict.items():
        k = deti.loc[deti['id_dite'] == int(k), 'jmeno'].item()
        v = [skolky.loc[int(item)]['nazev_kratky'] for item in v]
        priorities_names[k] = v
    return priorities_names
priority_jmena = get_priorities_names(priority)

print("Uchazeči a jejich vybrané školky v pořadí podle oblíbenosti:")
print()
for a, b in priority_jmena.items():
    print(a, b)


0 index                                  0
Unnamed: 0.1                         924
Unnamed: 0                           924
id_dite                              924
jmeno                   Jozef Test Černý
pohlavi                                M
datum_narozeni                2017-05-07
spadova_skolka                         0
skolka_sourozence                    NaN
bydliste_brno                       True
prodlouzena_dochazka               False
skolka_id                              0
mc                                 komin
Name: 0, dtype: object
1 index                                      1
Unnamed: 0.1                            1161
Unnamed: 0                              1161
id_dite                                 1161
jmeno                   Richard Test Svoboda
pohlavi                                    M
datum_narozeni                    2016-11-06
spadova_skolka                             0
skolka_sourozence                        NaN
bydliste_brno                      

## Obodování uchazečů
Uchazeči dostávají body podle kritérií popsaných zde: https://zapisdoms.brno.cz/kriteria-rizeni

In [3]:
deti = pd.read_csv('deti_test.csv')
skolky = pd.read_csv('skolky_test.csv')
prihlasky = pd.read_csv('prihlasky_test.csv')

def get_mestska_cast(deti_df): 
    # Funkce rozšíří tabulku dětí o sloupec "mestska_cast", převzatý od spádové školky, za účelem obodování. 
    deti_df = pd.merge(deti_df, skolky[['skolka_id', 'mc']], left_on = 'spadova_skolka', right_on = 'skolka_id')   
    deti_df.reset_index(inplace = True)
    return deti_df
deti = get_mestska_cast(deti)

def get_age(birthday):
    # Z data narození vypočte věk v letech a dnech k letošnímu 31. srpnu.
    today = datetime.date.today()
    current_year = today.year
    schoolyear_start = datetime.date(birthday.year, 8, 31)
    difference = schoolyear_start - birthday - relativedelta(days = 1)   # prizpusobeni webu zapisdoms.brno.cz

    schoolyear_start_current = datetime.date(current_year, 8, 31)
    age_in_years = int(round((schoolyear_start_current - schoolyear_start).days/365, 0))
    if difference.days < 0:
        age_in_years -= 1
    return age_in_years, difference.days

def get_points_years(age, age_difference_days):
    # Přidelí body za věk.
    options = {7: 2160, 6: 2120, 5: 2080, 4: 2040, 3: 2000, 2: 0, 1: 0}
    calculate_points = lambda x: 1000 if (x == 2 and age_difference_days < 0) else options[x]
    points_years = calculate_points(age)
    return points_years

def calculate_points_one_child(id_child):
    # Sečte body za všechna bodovaná kritéria.

    # vytvořit tabulku "1 uchazeč, všechny školky"  
    copy_skolky = copy.deepcopy(skolky)
    copy_skolky['id_dite'] = id_child  
    copy_skolky = copy_skolky[copy_skolky['volna_mista'] > 0] 
    df_one_child = pd.merge(copy_skolky, deti, left_on ='id_dite', right_on = 'id_dite', how = 'left')
    df_one_child.rename(columns={'skolka_id_x': 'id_skolka', 'mc_x': 'mc_skolka', 'mc_y': 'mc_dite'}, inplace = True)
    df_one_child.drop(['skolka_id_y', 'index'], axis = 1, inplace = True)

    # body za věk
    df_one_child['datum_narozeni'] = pd.to_datetime(df_one_child['datum_narozeni']).dt.date
    df_one_child['vek'] = df_one_child['datum_narozeni'].apply(lambda x: pd.Series(get_age(x)))[0]
    df_one_child['vek_dny_srpen31'] = df_one_child['datum_narozeni'].apply(lambda x: pd.Series(get_age(x)))[1]
    df_one_child['body_za_vek_roky'] = df_one_child.apply(lambda row: get_points_years(row['vek'], row['vek_dny_srpen31']), axis=1)
    df_one_child['body_za_vek_dny'] = df_one_child.apply(lambda row: 0 if (row['vek_dny_srpen31'] < 0) else row['vek_dny_srpen31']*0.02, axis = 1)
    df_one_child['prioritni_vek'] = df_one_child.apply(lambda row: True if (3 <= row['vek'] <= 6) else False, axis = 1)

    # body za bydliště
    df_one_child['body_spadovost'] = df_one_child.apply(lambda row: 250 if row['bydliste_brno'] == True else 0, axis = 1)
    df_one_child['body_spadovost'] = df_one_child.apply(lambda row: 500 if row['mc_skolka'] == row['mc_dite'] else row['body_spadovost'], axis = 1)
    df_one_child['body_spadovost'] = df_one_child.apply(lambda row: 750 if (row['id_skolka'] == row['spadova_skolka']) and (row['prioritni_vek'] == False) else row['body_spadovost'], axis = 1)
    df_one_child['body_spadovost'] = df_one_child.apply(lambda row: 1000 if (row['id_skolka'] == row['spadova_skolka']) and (row['prioritni_vek'] == True) else row['body_spadovost'], axis = 1)

    # body za sourozence ve školce
    df_one_child['body_sourozenec'] = df_one_child.query('prioritni_vek == True and skolka_sourozence == id_skolka').apply(lambda x: 10, axis = 1)
    df_one_child['body_sourozenec'].fillna(0, inplace = True)

    # dve specialni skolky, které mají jako spádovou oblast celé Brno a nabízejí prodloužený provoz
    # body navíc, pokud uchazeč doloží potřebu prodlouženého provozu
    # zapisdoms.brno.cz nespecifikuje počet bodů navíc >>> arbitrárně stanoveno 50 bodů
    df_one_child.loc[df_one_child['id_skolka'].isin([137, 138]), 'body_spadovost'] = df_one_child.loc[df_one_child['id_skolka'].isin([137, 138]), 'body_spadovost'].apply(lambda x: 1000)
    df_one_child.loc[df_one_child['id_skolka'].isin([137, 138]), 'body_sourozenec'] = df_one_child.loc[df_one_child['id_skolka'].isin([137, 138]), 'body_sourozenec'].apply(lambda x: 10)
    df_one_child['body_prodlouz_provoz'] = 0
    df_one_child.loc[df_one_child['id_skolka'].isin([137, 138]), 'body_prodlouz_provoz'] = df_one_child.loc[df_one_child['id_skolka'].isin([137, 138]), 'body_prodlouz_provoz'].apply(lambda x: 50 if 'prodlouzena_dochazka' == True else 0)

    # nezohledneni bodů za "Den věku dítěte v roce narození" v případě spádových školek
    df_one_child.loc[df_one_child['spadova_skolka'] == df_one_child['id_skolka'], 'body_za_vek_dny'] = df_one_child.loc[df_one_child['spadova_skolka'] == df_one_child['id_skolka'], 'body_za_vek_dny'].apply(lambda x: 0)

    # součet bodů
    df_one_child['body_soucet'] = df_one_child['body_sourozenec'] + df_one_child['body_spadovost'] + df_one_child['body_za_vek_roky'] + df_one_child['body_za_vek_dny'] + df_one_child['body_prodlouz_provoz']
    d_pivoted = df_one_child.pivot(index = 'id_dite', columns = 'id_skolka', values = 'body_soucet')
    d_pivoted = pd.merge(deti, d_pivoted, how = 'right', left_on = 'id_dite', right_on = 'id_dite')
    d_pivoted.drop(['Unnamed: 0.1', 'Unnamed: 0', 'skolka_id'], axis = 1, inplace = True)
    return d_pivoted
    
# výstup pro prvního uchazeče:
body = calculate_points_one_child(deti.iloc[0]['id_dite'])  

# výstup pro všechny uchazeče:
for i in range(1, len(deti)):
    one_child_pivoted_df = calculate_points_one_child(deti.iloc[i]['id_dite'])
    body = pd.concat([body, one_child_pivoted_df])   
# all_points.to_csv('all_points_test.csv')
print('Všichni uchazeči vs. všechny čtyři školky: přidělené body')
print()
print(body[['id_dite', 'jmeno', 0, 1, 2, 3]])


Všichni uchazeči vs. všechny čtyři školky: přidělené body

   id_dite                  jmeno        0        1        2        3
0      924       Jozef Test Černý  3120.00  2372.30  2372.30  2372.30
0     1161   Richard Test Svoboda  3120.00  2370.00  2370.00  2370.00
0      410     Adam Test Pospíšil  3040.00  2290.00  2290.00  2290.00
0     1284      Štefan Test Černý  2370.00  2370.00  2370.00  3120.00
0     2126  Ludmila Test Kučerová  2250.00  2250.00  2250.00  3000.00
0     2486    Petra Test Kučerová  2374.78  2374.78  2374.78  3120.00
0     2157  Ludmila Test Tesařová  2292.28  2292.28  2292.28  3040.00
0     1365  Patrik Test Procházka  2251.26  3000.00  2251.26  2251.26
0      326     David Test Kovařík  2254.64  3000.00  2254.64  2254.64
0     1470     Róbert Test Kadlec  2294.66  2294.66  3040.00  2294.66


## Školky si vybrají uchazeče
Každá školka si z tabulky obodovaných uchazečů (výše) vybere jen ty, kteří se na ni hlásí, a seřadí je podle jejich bodů.

In [4]:
def get_schools_longlists(body_df, prihlasky_df):
    # Z výše spočítaných bodů vybere jen ty relevantní podle toho, kdo se kam hlásí.
    # výstup je slovnik typu "skolka a k ni vsechny deti, co se na ni hlasi, seřazené podle počtu bodů"
    prihlasky_groupedby_schools = prihlasky_df.groupby('skolka')['dite'].agg(list)
    prihlasky_groupedby_schools = prihlasky_groupedby_schools.to_dict()

    longlists = {}
    schools = prihlasky_groupedby_schools.keys()
    for s in schools:
        all_kids_one_school = body_df[['id_dite', s]].copy()  

        kids_applyint_to_one_school = all_kids_one_school.loc[all_kids_one_school['id_dite'].isin(prihlasky_groupedby_schools[s])].copy()

        kids_applyint_to_one_school.sort_values(by=s, ascending=False, inplace=True)
        kids_applyint_to_one_school.reset_index(inplace=True, drop=True)
        sorted_longlist = tuple(kids_applyint_to_one_school['id_dite'])
        longlists[str(s)] = [str(x) for x in sorted_longlist]
    return longlists

serazeni_uchazeci = get_schools_longlists(body, prihlasky)
# print(schools_longlists)

def get_longlists_names(longlists_dict):
    longlists_names = {}
    for k, v in longlists_dict.items():
        k = skolky.loc[int(k)]['nazev_kratky']
        v = [(deti.loc[deti['id_dite'] == int(i), 'jmeno'].item()) for i in v]
        longlists_names[k] = v
    return longlists_names
serazeni_uchazeci_jmena = get_longlists_names(serazeni_uchazeci)
print('Školky a jejich uchazeči, seřazení podle počtu bodů: ')
print()
for k,v in serazeni_uchazeci_jmena.items():
    print(k,v)
    print()


Školky a jejich uchazeči, seřazení podle počtu bodů: 

MŠ Absolonova ['Jozef Test Černý', 'Richard Test Svoboda', 'Adam Test Pospíšil', 'Petra Test Kučerová', 'Štefan Test Černý', 'Ludmila Test Kučerová']

MŠ Amerlingova ['Patrik Test Procházka', 'David Test Kovařík', 'Petra Test Kučerová', 'Richard Test Svoboda', 'Štefan Test Černý', 'Ludmila Test Tesařová', 'Ludmila Test Kučerová']

MŠ Antonínská ['Róbert Test Kadlec', 'Petra Test Kučerová', 'Jozef Test Černý', 'Richard Test Svoboda', 'David Test Kovařík', 'Patrik Test Procházka']

MŠ Bellova ['Štefan Test Černý', 'Petra Test Kučerová', 'Ludmila Test Tesařová', 'Ludmila Test Kučerová', 'Róbert Test Kadlec', 'Adam Test Pospíšil', 'Patrik Test Procházka']



## Rozřazení

In [9]:
def get_volna_mista(df_skolky):
    # vyrobí slovník školka: kapacita ve formátu vhodném pro následující funkci
    volna_mista = df_skolky[['skolka_id', 'volna_mista']]
    volna_mista = volna_mista.to_dict('dict')['volna_mista']
    volna_mista = {str(k):v for k, v in volna_mista.items()}
    return volna_mista
volna_mista = get_volna_mista(skolky)

# Input pro následující rozřazovací funkci:
# print('priority uchazečů: ', priority)
# print('uchazeči o každou školu, seřazení podle bodů: ', serazeni_uchazeci)
# print('školky a jejich kapacity: ', volna_mista)

def match(priority_zaku, priority_skolek, kapacity_skolek):
    game = HospitalResident.create_from_dictionaries(priority_zaku, priority_skolek, kapacity_skolek)
    schools_shortlists = game.solve(optimal="resident")
    return schools_shortlists
rozrazeni = match(priority, serazeni_uchazeci, volna_mista)
print(rozrazeni)

def save_results(results):
    with open('vysledek.csv', 'w') as file:
        writer = csv.DictWriter(file, fieldnames = ['dite', 'skolka', 'poradi'])
        writer.writeheader()
        for school, shortlist in results.items():
            for index, person in enumerate(shortlist):
                d = {'skolka': school, 'poradi': index + 1, 'dite': person}
                writer.writerow(d)
    return
save_results(rozrazeni)



def get_vysledek_se_jmeny(vysledek):
    names = {}
    for k, v in vysledek.items():
        k = skolky.loc[int(k.name)]['nazev_kratky']
        v = [(deti.loc[deti['id_dite'] == int(i.name), 'jmeno'].item()) for i in v]
        names[k] = v
    return names
vysledek_se_jmeny = get_vysledek_se_jmeny(rozrazeni)
print('Kdo se dostal kam: ')
print()
for k,v in vysledek_se_jmeny.items():
    print(k,v)
    print()


{0: [2486, 1284, 2126], 1: [1365, 326, 1161], 2: [1470, 924], 3: [2157, 410]}
Kdo se dostal kam: 

MŠ Absolonova ['Petra Test Kučerová', 'Štefan Test Černý', 'Ludmila Test Kučerová']

MŠ Amerlingova ['Patrik Test Procházka', 'David Test Kovařík', 'Richard Test Svoboda']

MŠ Antonínská ['Róbert Test Kadlec', 'Jozef Test Černý']

MŠ Bellova ['Ludmila Test Tesařová', 'Adam Test Pospíšil']

