In [2]:
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:80% !important; }</style>"))

## ARES XML Processing Functions & Common params

In [24]:
from lxml import etree as ET
import pandas as pd
import re

# input parameters
xml_namespaces = {'are': 'http://wwwinfo.mfcr.cz/ares/xml_doc/schemas/ares/ares_answer_or/v_1.0.2', 
              'dtt': 'http://wwwinfo.mfcr.cz/ares/xml_doc/schemas/ares/ares_datatypes/v_1.0.2',
              'udt': 'http://wwwinfo.mfcr.cz/ares/xml_doc/schemas/uvis_datatypes/v_1.0.1',
              'xsi': 'http://www.w3.org/2001/XMLSchema-instance'
             }
xml_data = ET.parse("darv_or.xml")

# Check if tag/attribute @ exists and return its value
def set_tag_value(attr_xpath, elem, xml_namespaces):
    if re.search('@',attr_xpath) is not None and elem.xpath(attr_xpath,namespaces = xml_namespaces) != []:# check for @ for attributes
        tag_value = elem.xpath(attr_xpath,namespaces = xml_namespaces)[0]
    elif elem.xpath(attr_xpath,namespaces = xml_namespaces) != []:
            tag_value = elem.xpath(attr_xpath,namespaces = xml_namespaces)[0].text
    else:
        tag_value = None
    return tag_value

# Iterate elements under parent tag and get element tag/attr values, static key values are assigned as well
def populate_table (xml_data,parent_tag, table_columns):
    table_columns_pd = pd.DataFrame(table_columns,columns =['tag','xpath','type'])
    iter_tag_values = []
    key_values = []
    for item in table_columns:
        if item[2] == 'S':
            key_values.append(set_tag_value(item[1],xml_data, xml_namespaces))
    if parent_tag:
        for elem in parent_tag:
            tag_values = []
            for item in table_columns:
                if item[2] == 'I':
                    tag_values.append(set_tag_value(item[1],elem, xml_namespaces)) 
            tag_values = key_values + tag_values
            iter_tag_values.append(tag_values)
    else:
        iter_tag_values.insert(0,key_values)
    table_pd = pd.DataFrame(iter_tag_values, columns=table_columns_pd['tag'].tolist())
    return table_pd

### zakladni_udaje

In [16]:
basic_info_table_columns = [
    # Vypis Vypis_OR/Uvod
    ['Aktualizace_DB','./are:Odpoved/dtt:Vypis_OR/dtt:Uvod/dtt:Aktualizace_DB','S'],
    ['Datum_vypisu','./are:Odpoved/dtt:Vypis_OR/dtt:Uvod/dtt:Datum_vypisu','S'],
    # Zakladni_udaje
    ['ICO','./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:ICO','S'],
    ['Stav_subjektu','./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:Stav/dtt:Stav_subjektu','S'],
    ['Konkurz','./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:Stav/dtt:Konkurz/dtt:Kod','S'],
    ['Vyrovnani','./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:Stav/dtt:Vyrovnani/dtt:Kod','S'],
    ['Zamitnuti','./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:Stav/dtt:Zamitnuti/dtt:Kod','S'],
    ['Likvidace','./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:Stav/dtt:Likvidace/dtt:Kod','S'],
    ['Datum_zapisu_OR','./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:Datum_zapisu_OR','S'],
    # Registrace
    
    ['Soud_Kod','./are:Odpoved/dtt:Vypis_OR/dtt:Registrace/dtt:Spisova_znacka/dtt:Soud/dtt:Kod','S'],
    ['Soud_Text','./are:Odpoved/dtt:Vypis_OR/dtt:Registrace/dtt:Spisova_znacka/dtt:Soud/dtt:Text','S'],
    ['Oddil_vlozka','./are:Odpoved/dtt:Vypis_OR/dtt:Registrace/dtt:Spisova_znacka/dtt:Oddil_vlozka','S'],
    
    # Pravni_forma_OR
    ['Kod_PF','./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:Pravni_forma_OR/dtt:Kod_PF','S'],
    ['Nazev_PF','./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:Pravni_forma_OR/dtt:Nazev_PF','S'],
    ['PF_osoba','./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:Pravni_forma_OR/dtt:PF_osoba','S'],
    ['TZU_osoba','./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:Pravni_forma_OR/dtt:TZU_osoba','S'],
    
]
populate_table(xml_data,None,basic_info_table_columns)

Unnamed: 0,Aktualizace_DB,Datum_vypisu,ICO,Stav_subjektu,Konkurz,Vyrovnani,Zamitnuti,Likvidace,Datum_zapisu_OR,Soud_Kod,Soud_Text,Oddil_vlozka,Kod_PF,Nazev_PF,PF_osoba,TZU_osoba
0,2018-08-22,2018-08-23,63275635,Aktivní,0,0,0,0,1995-08-01,3,Krajský soud v Českých Budějovicích,B 698,121,Akciová společnost,P,Tuzemská


### obchodni_firma

In [15]:
company_name_table_columns = [
    ['ICO','./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:ICO','S'],
    ['dod','./@dod','I'],
    ['ddo','./@ddo','I'],
    ['Obchodni_firma','.','I']
]
company_name_parent_tag = xml_data.xpath('./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:Obchodni_firma',namespaces = xml_namespaces)
populate_table(xml_data,company_name_parent_tag,company_name_table_columns)

Unnamed: 0,ICO,dod,ddo,Obchodni_firma
0,63275635,2006-06-30,,MADETA a. s.
1,63275635,2005-07-04,2006-06-30,MADETA Group a. s.
2,63275635,1995-08-01,2005-07-04,"JIHOMILK, akciová společnost"


### sidlo

In [17]:
# S = static record key from ancestor tag (static), I = iterative records under parent_tag 
headquarters_table_columns = [
    ['ICO','./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:ICO','S'],
    ['dod','./@dod','I'],
    ['ddo','./@ddo','I'],
    ['ID_adresy','./dtt:ID_adresy','I'],
    ['Kod_statu','./dtt:Kod_statu','I'],
    ['Nazev_statu','./dtt:Nazev_statu','I'],
    ['Nazev_okresu','./dtt:Nazev_okresu','I'],
    ['Nazev_obce','./dtt:Nazev_obce','I'],
    ['Nazev_casti_obce','./dtt:Nazev_casti_obce','I'],
    ['Nazev_ulice','./dtt:Nazev_ulice','I'],
    ['Cislo_domovni','./dtt:Cislo_domovni','I'],
    ['Typ_cislo_domovni','./dtt:Typ_cislo_domovni','I'],
    ['Cislo_orientacni','./dtt:Cislo_orientacni','I'],
    ['PSC','./dtt:PSC','I'],
    ['Cislo_do_adresy','./dtt:Cislo_do_adresy','I']
                      ]
headquarters_parent_tag = xml_data.xpath('./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:Sidlo',namespaces = xml_namespaces)
populate_table(xml_data,headquarters_parent_tag,headquarters_table_columns)

Unnamed: 0,ICO,dod,ddo,ID_adresy,Kod_statu,Nazev_statu,Nazev_okresu,Nazev_obce,Nazev_casti_obce,Nazev_ulice,Cislo_domovni,Typ_cislo_domovni,Cislo_orientacni,PSC,Cislo_do_adresy
0,63275635,2017-11-23,,29643147,203,Česká republika,České Budějovice,České Budějovice,České Budějovice 4,Rudolfovská tř.,246.0,1.0,83.0,37001,
1,63275635,2016-12-07,2017-11-23,29643145,203,Česká republika,České Budějovice,České Budějovice,České Budějovice 4,Rudolfovská tř.,246.0,1.0,83.0,37001,
2,63275635,2002-08-14,2016-12-07,29643143,203,Česká republika,České Budějovice,České Budějovice,,Rudolfovská,,,,37050,246/83
3,63275635,1995-08-01,2002-08-14,29643141,203,Česká republika,,České Budějovice,,Rudolfovská,,,,37050,83


### predmet_podnikani
__TODO__: 

Rozmyslet jestli brat i ostatni cinnosti (ucel nadace atp.), 

texty obsahuji \n nutno strip, nebo replace

In [18]:
cinnosti_table_columns = [
    ['ICO','./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:ICO','S'],
    ['dod','./@dod','I'],
    ['ddo','./@ddo','I'],
    ['predmet_podnikani','.','I']
]
cinnosti_parent_tag = xml_data.xpath('./are:Odpoved/dtt:Vypis_OR/dtt:Cinnosti/dtt:Predmet_podnikani/dtt:Text',namespaces = xml_namespaces)
populate_table(xml_data,cinnosti_parent_tag,cinnosti_table_columns)

Unnamed: 0,ICO,dod,ddo,predmet_podnikani
0,63275635,2014-08-06,,"\nprodej kvasného lihu, konzumního lihu a liho..."
1,63275635,2011-11-10,,\nopravy silničních vozidel\n
2,63275635,2011-11-10,,\nklempířství a oprava karoserií\n
3,63275635,2009-03-06,,"\nzámečnictví, nástrojářství\n"
4,63275635,2009-03-06,,"\nvýroba, obchod a služby neuvedené v přílohác..."
5,63275635,2009-03-06,,"\nvýroba, instalace, opravy elektrických stroj..."
6,63275635,2008-01-22,2009-03-06,"\ntestování, měření, analýzy a kontroly\n"
7,63275635,2007-10-11,2015-04-18,\nkoupě za účelem jeho dalšího prodeje a prodej\n
8,63275635,2007-10-11,2015-04-18,\nvelkoobchod\n
9,63275635,2007-10-11,2015-04-18,\nzprostředkovatelská činnost\n


### statutarni_organ
__TODO:__ zkontrolovat v profilingu, existenci FO bez bydliste v takovem pripade jeste iterovat pres FO a nasledne spojit DFs pres unique

In [34]:
statutory_table_columns = [
    ['ICO','./are:Odpoved/dtt:Vypis_OR/dtt:Zakladni_udaje/dtt:ICO','S'],
    ['Titul_pred','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Titul_pred','I'],
    ['Jmeno','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Jmeno','I'],
    ['Prijmeni','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Prijmeni','I'],
    ['Titul_za','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Titul_za','I'],
    ['Datum_narozeni','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Datum_narozeni','I'],
    ['Rodne_cislo','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Rodne_cislo','I'],
    ['Osoba_textem','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Osoba_textem','I'],
    ['Bydliste_dod','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Bydliste/@dod','I'],
    ['Bydliste_ddo','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Bydliste/@ddo','I'],
    ['ID_adresy','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Bydliste/dtt:ID_adresy','I'],
    ['Kod_statu','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Bydliste/dtt:Kod_statu','I'],
    ['Nazev_statu','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Bydliste/dtt:Nazev_statu','I'],
    ['Nazev_okresu','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Bydliste/dtt:Nazev_okresu','I'],
    ['Nazev_obce','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Bydliste/dtt:Nazev_obce','I'],
    ['Nazev_casti_obce','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Bydliste/dtt:Nazev_casti_obce','I'],
    ['Nazev_ulice','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Bydliste/dtt:Nazev_ulice','I'],
    ['Cislo_domovni','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Bydliste/dtt:Cislo_domovni','I'],
    ['Typ_cislo_domovni','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Bydliste/dtt:Typ_cislo_domovni','I'],
    ['Cislo_orientacni','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Bydliste/dtt:Cislo_orientacni','I'],
    ['PSC','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Bydliste/dtt:PSC','I'],
    ['Cislo_do_adresy','./dtt:Clen/dtt:Fyzicka_osoba/dtt:Bydliste/dtt:Cislo_do_adresy','I']
]
statutory_parent_tag = xml_data.xpath('./are:Odpoved/dtt:Vypis_OR/dtt:Statutarni_organ/dtt:Clen_SO',namespaces = xml_namespaces)
data = populate_table(xml_data,statutory_parent_tag,statutory_table_columns)
data.head(100)

Unnamed: 0,ICO,Titul_pred,Jmeno,Prijmeni,Titul_za,Datum_narozeni,Rodne_cislo,Osoba_textem,Bydliste_dod,Bydliste_ddo,...,Nazev_statu,Nazev_okresu,Nazev_obce,Nazev_casti_obce,Nazev_ulice,Cislo_domovni,Typ_cislo_domovni,Cislo_orientacni,PSC,Cislo_do_adresy
0,63275635,Ing.,PAVEL,Tester,,1984-12-02,,,,,...,,,,,,,,,,
1,63275635,Ing.,PAVEL,BURYÁNEK,,1984-12-02,,,2017-09-13,,...,Česká republika,Tábor,Veselí nad Lužnicí,Veselí nad Lužnicí II,Na Pasekách,948.0,1.0,,39181.0,
2,63275635,Ing.,MILAN,TEPLÝ,,1949-03-26,,,2016-12-07,,...,Česká republika,České Budějovice,České Budějovice,České Budějovice 2,České Vrbné,2307.0,1.0,,37011.0,
3,63275635,Ing.,PETR,PAYER,,1976-07-17,,,2016-12-07,,...,Česká republika,České Budějovice,České Budějovice,České Budějovice 3,Nerudova,904.0,1.0,66.0,37004.0,
4,63275635,Ing.,JAN,TEPLÝ,,1980-03-15,,,2016-12-07,,...,Česká republika,České Budějovice,České Budějovice,České Budějovice 2,České Vrbné,2307.0,1.0,,37011.0,
5,63275635,Ing.,PAVEL,BURYÁNEK,,1984-12-02,,,2016-12-07,2017-09-13,...,Česká republika,Tábor,Veselí nad Lužnicí,Veselí nad Lužnicí I,A. Jiráska,349.0,1.0,,39181.0,
6,63275635,Ing.,PAVEL,BURYÁNEK,,1984-12-02,,,2014-08-06,2016-12-07,...,Česká republika,,Veselí nad Lužnicí,Veselí nad Lužnicí I,A. Jiráska,349.0,1.0,,39181.0,
7,63275635,Ing.,PETR,PAYER,,1976-07-17,,,2014-08-06,2016-12-07,...,Česká republika,,České Budějovice,České Budějovice 3,Nerudova,904.0,1.0,66.0,37004.0,
8,63275635,Ing.,JAN,TEPLÝ,,1980-03-15,,,2014-08-06,2016-12-07,...,Česká republika,,České Budějovice,České Budějovice 2,České Vrbné,2307.0,1.0,,37011.0,
9,63275635,Ing.,JAN,TEPLÝ,,1980-03-15,,,2013-12-19,2014-08-06,...,Česká republika,,České Budějovice,České Budějovice 2,České Vrbné,2307.0,1.0,,37011.0,
