# Data preprocessing - dáta **regzam**

V tomto notebooku si načítame dáta *regzam_portalvs.xml*, upravíme ich do slušnej formy pre ďalšie analýzy a následne uložíme v tejto upravenej forme do excelu/csv.

In [1]:
import pandas as pd

regzam dáta sa načítavajú z **nested xml**, elementy *Employment* a *Guarantee* majú ešte vnorené elementy, čo nám trochu sťažuje načítavanie, viď nižšie:

In [2]:
regzam_data = pd.read_xml('../data/regzam_portalvs.xml')
display(regzam_data)

Unnamed: 0,Id,GivenName,FamilyName,DegreePedagogicalAcademic,DegreeMaster,DegreeDoctor,Employment,Guarantee
0,18799121690,Štefan,Kočan,Doc.,JUDr.,PhD.,,
1,14002860472,Dušan,Korgo,DOC,JUDR,PHD,,
2,17922733804,Ján,Buzalka,prof.,PhDr.,CSc.,,
3,16290288493,Jozef,Stieranka,prof.,Ing.,PhD.,,
4,21401303068,Ľuboš,Wäldl,doc.,JUDr.,PhD.,,
...,...,...,...,...,...,...,...,...
32730,12110964830,Joža,Spurný,doc.,JUDr.PhDr.,Ph.D.,,
32731,13500390262,Marcela,Harčárová,,Mgr.,,,
32732,17108478442,Jana,Juhásová,,Mgr.,,,
32733,15917135755,Miriama,Kubušová,,Mgr.,,,


- Skúšali sme pracovať s argumentom *stylesheet* pandasovej funkcie read_xml, no bolo ťažké vytvoriť stylesheet, ktorý by vedel načítať nielen vnorené elementy Empolyment a Guarantee, ale aj ich ďalšie vnorené elementy, ako napr. Workplace/University.
- Preto sme napokon zvolili iný prístup:

- Načítame xml ako string:

In [60]:
import xml.etree.ElementTree as ET
from xml.etree.ElementTree import tostring

tree = ET.parse('../data/regzam_portalvs.xml')
tree = tree.getroot()  # type <class 'xml.etree.ElementTree.Element'>
t = tostring(tree, encoding='utf8', method='xml')

- Teraz treba dáta "sploštiť" (anglicky: "flatten"), aby sme sa zbavili vnorení:

- Prvý pokus bol načítať dáta do slovníka, ktorý mal ako keys názvy stĺpcov a values boli príslušné listy s hodnotami pre daný stĺpec. 
Rekurzívne sme získali "sploštený" slovník. Tento prístup mal však problém, že pre tých zamestnancov, ktorým chýbali niektoré údaje (elementy), nepridalo do príslušného "stĺpca" nič,
sĺpce mali teda rozličné dĺžky a stratili sme informáciu o tom, ktorý údaj prislúcha ktorému zamestnancovi. 
- Druhý pokus už bol úspešnejší, lebo sme dáta načítali do slovníka slovníkov, teda slovník result má ako keys identifikačné čísla zamestnancov, a ako hodnoty slovník s jednotlivými údajmi pre daného zamestnanca:

In [61]:
from collections import defaultdict
from lxml import etree

def xml_to_dict(root):
    """
    Convert the nested xml to a "flat" dictionary.
    
    Parameters:
    -----------
    root : <class 'lxml.etree._Element'> object
        The loaded nested xml.
        
    Returns:
    --------
    result : dictionary
        The flat dictionary.
    
    """
    result = defaultdict(dict)
    for child in root:
        row_id = child.attrib['Id']
        result[row_id] = xml_to_dict_helper(child)
        for key in ['GivenName', 'FamilyName', 'DegreePedagogicalAcademic', 
                    'DegreeMaster', 'DegreeDoctor', 'Employment_Workplace_University', 
                    'Employment_Type', 'Employment_Subtype', 'Employment_BeginDate', 
                    'Employment_Ratio', 'Guarantee_StudyProgram', 'Guarantee_University', 
                    'Guarantee_Faculty', 'Guarantee_FormOfStudy', 'Guarantee_LevelOfStudy', 
                    'Employment_Workplace_Faculty', 'Employment_EndDate']:
            try:
                if len(result[row_id][key]) == 1 and key[:9] != "Guarantee":
                    result[row_id][key] = result[row_id][key][0]
                elif len(result[row_id][key]) == 0:
                    result[row_id][key] = None
            except KeyError:
                result[row_id][key] = None
    return result

def xml_to_dict_helper(root):
    # Create a defaultdict to store the result
    result = defaultdict(list)
    # Iterate over the root element's children
    for child in root:
        # Get the child's tag name and text
        tag = child.tag
        text = child.text

        # If the child has children, recursively process them
        if child.getchildren():
            sub_dict = xml_to_dict_helper(child)
            for k, v in sub_dict.items():
                result[tag + '_' + k].extend(v)
        else:
            # If the child has no children, store its tag and text in the result
            result[tag].append(text)

    return result

In [62]:
# Parse the XML document into an <class 'lxml.etree._Element'> object
root = etree.fromstring(t)

# Convert the ElementTree object to a dictionary
result = xml_to_dict(root)

In [63]:
df = pd.DataFrame.from_dict(result).transpose().reset_index().rename(columns={"index": "Employee_ID"})
display(df)

Unnamed: 0,Employee_ID,GivenName,FamilyName,DegreePedagogicalAcademic,DegreeMaster,DegreeDoctor,Employment_Workplace_University,Employment_Type,Employment_Subtype,Employment_BeginDate,Employment_Ratio,Guarantee_StudyProgram,Guarantee_University,Guarantee_Faculty,Guarantee_FormOfStudy,Guarantee_LevelOfStudy,Employment_Workplace_Faculty,Employment_EndDate
0,18799121690,Štefan,Kočan,Doc.,JUDr.,PhD.,Vysoká škola bezpečnostného manažérstva v Koši...,Docent,s titulom docent a vysokoškolským vzdelaním tr...,2020-10-01,100,,,,,,,
1,14002860472,Dušan,Korgo,DOC,JUDR,PHD,,,,,,,,,,,,
2,17922733804,Ján,Buzalka,prof.,PhDr.,CSc.,,,,,,,,,,,,
3,16290288493,Jozef,Stieranka,prof.,Ing.,PhD.,Akadémia Policajného zboru,Profesor,s titulom profesor a vysokoškolským vzdelaním ...,2013-11-01,100,"[bezpečnostnoprávna ochrana osôb a majetku, be...","[Akadémia Policajného zboru, Akadémia Policajn...","[None, None, None, None, None, None, None]","[1, 2, 1, 2, 2, 1, 2]","[1, 1, 2, 2, 2, 3, 3]",,
4,21401303068,Ľuboš,Wäldl,doc.,JUDr.,PhD.,Akadémia Policajného zboru,Profesor,s titulom docent a vysokoškolským vzdelaním tr...,2008-09-01,100,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32426,13500390262,Marcela,Harčárová,,Mgr.,,Vysoká škola zdravotníctva a sociálnej práce s...,Asistent,s vysokoškolským vzdelaním druhého stupňa,2022-09-01,50,,,,,,,
32427,17108478442,Jana,Juhásová,,Mgr.,,Vysoká škola zdravotníctva a sociálnej práce s...,Asistent,s vysokoškolským vzdelaním druhého stupňa,2022-09-01,50,,,,,,,
32428,15917135755,Miriama,Kubušová,,Mgr.,,Vysoká škola zdravotníctva a sociálnej práce s...,Asistent,s vysokoškolským vzdelaním druhého stupňa,2022-09-01,50,,,,,,,
32429,51680829014,Jana,Ochodnícka,,PhDr.,,Vysoká škola zdravotníctva a sociálnej práce s...,Odborný asistent,s vysokoškolským vzdelaním tretieho stupňa,2022-09-30,30,,,,,,,


Možno trochu nevýhodne sme načítali dáta o Guarantee, ale až neskôr sa ukáže, či tieto dáta potrebujeme v inej forme a teda či sa nám oplatí investovať energiu do zlepšenia.
Môžeme ale aspoň skontrolovať, či listy, ktoré sme uložili do Guarantee stĺpcov, majú pri všetkých riadkoch rovnakú dĺžku:

In [64]:
for index, row in df.iterrows():
    if row["Guarantee_StudyProgram"] is not None:
        if len(row["Guarantee_StudyProgram"]) == len(row["Guarantee_University"]) == len(row["Guarantee_Faculty"]) == len(row["Guarantee_FormOfStudy"]) == len(row["Guarantee_LevelOfStudy"]):
            pass
        else:
            print("The following row has a different number of records in Guarantee columns:", row)

## Pridanie odvodených sĺpcov:

In [65]:
df["Guarantee"] = df.apply(lambda row: row["Guarantee_StudyProgram"] is not None, axis=1)
display(df)

Unnamed: 0,Employee_ID,GivenName,FamilyName,DegreePedagogicalAcademic,DegreeMaster,DegreeDoctor,Employment_Workplace_University,Employment_Type,Employment_Subtype,Employment_BeginDate,Employment_Ratio,Guarantee_StudyProgram,Guarantee_University,Guarantee_Faculty,Guarantee_FormOfStudy,Guarantee_LevelOfStudy,Employment_Workplace_Faculty,Employment_EndDate,Guarantee
0,18799121690,Štefan,Kočan,Doc.,JUDr.,PhD.,Vysoká škola bezpečnostného manažérstva v Koši...,Docent,s titulom docent a vysokoškolským vzdelaním tr...,2020-10-01,100,,,,,,,,False
1,14002860472,Dušan,Korgo,DOC,JUDR,PHD,,,,,,,,,,,,,False
2,17922733804,Ján,Buzalka,prof.,PhDr.,CSc.,,,,,,,,,,,,,False
3,16290288493,Jozef,Stieranka,prof.,Ing.,PhD.,Akadémia Policajného zboru,Profesor,s titulom profesor a vysokoškolským vzdelaním ...,2013-11-01,100,"[bezpečnostnoprávna ochrana osôb a majetku, be...","[Akadémia Policajného zboru, Akadémia Policajn...","[None, None, None, None, None, None, None]","[1, 2, 1, 2, 2, 1, 2]","[1, 1, 2, 2, 2, 3, 3]",,,True
4,21401303068,Ľuboš,Wäldl,doc.,JUDr.,PhD.,Akadémia Policajného zboru,Profesor,s titulom docent a vysokoškolským vzdelaním tr...,2008-09-01,100,,,,,,,,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32426,13500390262,Marcela,Harčárová,,Mgr.,,Vysoká škola zdravotníctva a sociálnej práce s...,Asistent,s vysokoškolským vzdelaním druhého stupňa,2022-09-01,50,,,,,,,,False
32427,17108478442,Jana,Juhásová,,Mgr.,,Vysoká škola zdravotníctva a sociálnej práce s...,Asistent,s vysokoškolským vzdelaním druhého stupňa,2022-09-01,50,,,,,,,,False
32428,15917135755,Miriama,Kubušová,,Mgr.,,Vysoká škola zdravotníctva a sociálnej práce s...,Asistent,s vysokoškolským vzdelaním druhého stupňa,2022-09-01,50,,,,,,,,False
32429,51680829014,Jana,Ochodnícka,,PhDr.,,Vysoká škola zdravotníctva a sociálnej práce s...,Odborný asistent,s vysokoškolským vzdelaním tretieho stupňa,2022-09-30,30,,,,,,,,False


Zmeníme poradie stĺpcov:

In [66]:
df = df[['Employee_ID', 'FamilyName', 'GivenName', 'DegreePedagogicalAcademic', 'DegreeMaster', 'DegreeDoctor', 
         'Employment_Workplace_University', 'Employment_Workplace_Faculty', 
         'Employment_Type', 'Employment_Subtype', 'Employment_BeginDate', 'Employment_EndDate', 'Employment_Ratio', 
         'Guarantee', 'Guarantee_StudyProgram', 'Guarantee_University', 'Guarantee_Faculty', 'Guarantee_FormOfStudy', 'Guarantee_LevelOfStudy'
        ]]

In [67]:
df.to_csv('../data/preprocessed/regzam.csv')