In [1]:
import xml.etree.ElementTree as ET
import numpy as np
from copy import deepcopy
from pprint import pprint
#import warnings

%pprint

In [2]:
tree = ET.parse('../Składnica-frazowa-171220/NKJP_1M_0401000002/morph_2-p/morph_2.52-s.xml')
tree

<xml.etree.ElementTree.ElementTree at 0x7fa9a7fde2e8>

In [3]:
tree = ET.parse('../Składnica-frazowa-171220/NKJP_1M_0401000002/morph_4-p/morph_4.67-s.xml')
tree

<xml.etree.ElementTree.ElementTree at 0x7fa98e6302e8>

In [4]:
def check_sentence(xml_tree, accept_tags=["forest","tree"]):
    
    """
    Funkcja sprawdza poprawnosc wypowiedzenia i arumentu: 
    - czy istnieje dla niego poprawne drzewo - wypowiedzenie jest poprawne jesli base_answer na polu "type" ma wartosc "FULL".
    - arumentem powinno byc drzewo o tagu korzenia rownym "forest" lub "tree".
    [W oryginalnych plikach z lasami jest to "forest", natomiast gdy z lasu tworzone sa pojedyncze drzewa,
    to maja one tag "tree"]
    
    xml_tree - las drzew lub drzewo [xml.etree.ElementTree.ElementTree]
    """
    
    assert type(xml_tree)== ET.ElementTree, "Bad argument type"
    
    
    if type(accept_tags) == str:
        accept_tags = [accept_tags]
    
    
    if not xml_tree.getroot().tag in accept_tags:
        raise AssertionError('Argument in not in [' + ",".join(accept_tags) + '] - it has tag "' + xml_tree.getroot().tag + '"' )
    
    
    base_answer_type = xml_tree.getroot().find('.//answer-data//base-answer').attrib["type"]
    correct = base_answer_type == "FULL"

    if not correct:
        raise AssertionError("Sentence is not correct: Node <base-answer> has type value " + base_answer_type  + " instead of 'FULL'")
        
    pass


def get_random_tree(forest, random_state=None):
    
    """
    Funkcja zwraca losowe drzewo z upakowanego lasu (forest).
    Dla lasu, w ktorym nie ma poprawnego drzewa funkcja wyrzuca blad.
    
    forest - las drzew [xml.etree.ElementTree.ElementTree]
    """

    # sprawdzenie poprawnosci lasu i ewentualne wypisanie komunikatu
    check_sentence(forest,"forest")
    
    # ustawiamy ziarno
    if random_state is not None:
        np.random.seed(random_state)
            
            
    root_old = forest.getroot()
    root_new = ET.Element("tree",root_old.attrib)
    
    
    # las sklada sie z drzew (wezly "node") oraz dodatkowych danych (inne wezly) -
    # tresc wypowiedzenia, statystyki lasu, itd. - i tutaj przepisujemy te wezly
    features = root_old.getchildren()
    for feature in features:
        if feature.tag != "node": 
            feature_copy = deepcopy(feature)
            if feature_copy.tag == "stats":
                feature_copy.tag = "forest-stats"
                
            root_new.append(feature_copy) # modyfikujemy tag wezla wiec potrzebna kopia, zeby nie zmodyfikowac oryginalnego drzewa
    
    # definiujemy wezel ze statystykami drzewa
    # robimy to w tym iejscu zeby zachowac logiczna kolejnosc wezlow - zeby wypisywalo sie to na poczatku
    # wartosci nadamy nizej
    ET.SubElement(root_new, "tree-stats", {"height":"0","nodes":"0"})
            
            
    # definiujemy rekurencyjna funkcje, ktora bedzie przechodzic po lesie i
    # kolekcjonowac wezly, tworzac losowe drzewo.
    # drzewo jest tworzone na korzeniu root_new.
    def add_random_children(current_node_old):
        
        current_node_new = ET.SubElement(root_new, current_node_old.tag, current_node_old.attrib)
        
        features = current_node_old.getchildren()
        # kazdy "node" jest terminalem albo nieterminalem i ma opis wlasnosci
        # i tutaj wyciagamy te wlasnosci z wezla innego niz "children"
        for feature in features:
            if feature.tag != "children": 
                current_node_new.append(feature)
        
        children_old = current_node_old.findall("children")
        if len(children_old) == 0: #jestesmy w lisciu wiec konczymy dzialanie funkcji
            return None
        random_children_old = children_old[np.random.choice(len(children_old),1)[0]]
        random_children_new = ET.SubElement(current_node_new, random_children_old.tag, random_children_old.attrib)
        for child_old in random_children_old.getchildren():
            x = ET.SubElement(random_children_new, child_old.tag, child_old.attrib)
            next_node = root_old.find('.//node[@nid="' + x.attrib["nid"] + '"]')
            add_random_children(next_node)
        
    
        # wezel startowy (przyjmujemy, ze node z id=0 jest zawsze pierwszy):
    # TODO: upewnic sie czy to jest poprawne podejscie - czy moze byc inny wezel poczatkowym
    node_0 = root_old.find('.//node[@nid="0"]') 
    
    # konstruujemy drzewo:
    add_random_children(node_0)
    
    new_tree = ET.ElementTree(root_new)
    
    th = _tree_height(new_tree, node_id=0)
    
    root_new.find("tree-stats").attrib["height"] = str(th)
    root_new.find("tree-stats").attrib["nodes"] = str(len(root_new.findall("node")))
    
    return new_tree
       
 

def number_of_trees_in_forest(forest):

    """
    Funkcja zwraca liczbe drzew w lesie forest.
    
    forest - las drzew [xml.etree.ElementTree.ElementTree]
    """
    
    check_sentence(forest,"forest")
    
    return int(forest.find("stats").attrib["trees"])
    
    
def get_random_negative_tree(forest, random_state=None):
    
    """
    Funkcja zwraca losowe negatywne (niepoprawne) drzewo z lasu forest.
    
    Gdy las sklada sie tylko z jednego drzewa (poprawnego) to zwracana jest wartosc None.
    
    forest - las drzew [xml.etree.ElementTree.ElementTree]
    """
    
    check_sentence(forest,"forest")
    
    number_of_trees_in_forest = forest.find("stats").attrib["trees"]
    
    if number_of_trees_in_forest == 1:
        Warning("There is only one tree in the forest")
        return None
    
    else:
        while True:
            tree = get_random_tree(forest,random_state)
            if not is_positive(tree):
                return tree
    
    

In [12]:
random_tree = get_random_tree(tree)

In [13]:
ET.dump(random_tree)

<tree grammar_no="1505562921" sent_id="NKJP_1M_0401000002/morph_4-p/morph_4.67-s"><text>Papież Formosus zmarł w kwietniu 896 w wyniku nieznanej choroby lub otrucia.</text>
  <startnode from="0" to="13">wypowiedzenie</startnode>
  <forest-stats cputime="10.487813580000001" inferences="7448127" nodes="124" trees="173" />
    <answer-data>
        <base-answer type="FULL" username="none">
            <comment>AUTO</comment>
        </base-answer>
        <extra-answer type="FULL" username="witoldk">
            <comment>AUTO</comment>
        </extra-answer>
        <extra-answer type="FULL" username="piotrb">
            <comment>AUTO</comment>
        </extra-answer>
    </answer-data>
  <tree-stats height="15" nodes="49" /><node chosen="true" from="0" nid="0" subtrees="173" to="13"><nonterminal>
      <category>wypowiedzenie</category>
    </nonterminal>
    <children chosen="true" rule="w"><child from="0" head="true" nid="1" to="12" /><child from="12" head="false" nid="71" to="13" /><

In [187]:
random_tree.write("test.xml")

In [204]:
terminal_nodes = [x for x in random_tree.findall("node[terminal]")]
terminal_nodes

terminals = [[(x.attrib["nid"],
               x.find("terminal//orth").text, 
               x.find("terminal//base").text, 
               x.find("terminal//f").text)]  for x in terminal_nodes]
terminals

ids = [x[0][0] for x in terminals]
ids

terminal_nodes = [x for x in random_tree.findall("node[terminal]")]
terminal_nodes

terminals = [[(x.attrib["nid"],
               x.find("terminal//orth").text, 
               x.find("terminal//base").text, 
               x.find("terminal//f").text)]  for x in terminal_nodes]
terminals

ids = [x[0][0] for x in terminals]
ids

terminals

[[('6', 'Papież', 'papież', 'subst:sg:nom:m1')],
 [('9', 'Formosus', 'Formosus', 'subst:sg:nom:m1')],
 [('13', 'zmarł', 'zemrzeć', 'praet:sg:m1:perf')],
 [('17', 'w', 'w', 'prep:loc:nwok')],
 [('20', 'kwietniu', 'kwiecień', 'subst:sg:loc:m3')],
 [('24', '896', '896', 'adj:sg:gen:m3:pos')],
 [('28', 'w', 'w', 'prep:loc:nwok')],
 [('32', 'wyniku', 'wynik', 'subst:sg:loc:m3')],
 [('36', 'nieznanej', 'nieznany', 'adj:sg:gen:f:pos')],
 [('40', 'choroby', 'choroba', 'subst:sg:gen:f')],
 [('42', 'lub', 'lub', 'conj')],
 [('45', 'otrucia', 'otrucie', 'subst:sg:gen:n')],
 [('49', '.', '.', 'interp')]]

In [205]:
dependency_tree = terminals.copy()

In [206]:
for nid in ids:
    
    parent = random_tree.find(".//children/child[@nid='"+str(nid)+"']....")
   
    if parent is not None:
        loc =  np.where([str(nid) in [x[0] for x in branch] and len(branch[-1])>2 for branch in dependency_tree])[0]
        
        if parent.attrib["nid"] not in ids:
            ids.append(parent.attrib["nid"])
        
        
        if len(parent.findall("children/child"))==1:
            dependency_tree[loc[0]].append(tuple([parent.attrib["nid"]] +[x.text for x in parent.find("nonterminal").getchildren()]))
        else:
            dependency_tree[loc[0]].append((parent.attrib["nid"],))
            
            if parent.attrib["nid"] not in [branch[0][0] for branch in dependency_tree]:
                dependency_tree.append([tuple([parent.attrib["nid"]] +[x.text for x in parent.find("nonterminal").getchildren()])])

    
dependency_tree                     

6
[0]
[<Element 'child' at 0x7fa98df684f8>]
9
[1]
[<Element 'child' at 0x7fa98df68818>]
13
[2]
[<Element 'child' at 0x7fa98e295188>]
17
[3]
[<Element 'child' at 0x7fa98e295598>]
20
[4]
[<Element 'child' at 0x7fa98e295818>]
24
[5]
[<Element 'child' at 0x7fa98e295b88>]
28
[6]
[<Element 'child' at 0x7fa98e295ef8>]
32
[7]
[<Element 'child' at 0x7fa98e25c2c8>]
36
[8]
[<Element 'child' at 0x7fa98e25c728>]
40
[9]
[<Element 'child' at 0x7fa98e25ca98>]
42
[10]
[<Element 'child' at 0x7fa98e25cc28>]
45
[11]
[<Element 'child' at 0x7fa98e25cea8>]
49
[12]
[<Element 'child' at 0x7fa98e279098>]
5
[0]
[<Element 'child' at 0x7fa98df68368>]
8
[1]
[<Element 'child' at 0x7fa98df68638>]
12
[2]
[<Element 'child' at 0x7fa98e4299f8>]
16
[3]
[<Element 'child' at 0x7fa98e2954a8>, <Element 'child' at 0x7fa98e295688>]
19
[4]
[<Element 'child' at 0x7fa98e295728>]
23
[5]
[<Element 'child' at 0x7fa98e295a98>]
27
[6]
[<Element 'child' at 0x7fa98e295e08>, <Element 'child' at 0x7fa98e25c048>]
31
[7]
[<Element 'child' at

[[('6', 'Papież', 'papież', 'subst:sg:nom:m1'),
  ('5', 'formarzecz', 'papież', 'nom', 'mos', 'poj', '[]'),
  ('4',
   'fno',
   'papież',
   'nom',
   'mos',
   'poj',
   '3',
   '[]',
   'rzecz',
   'bzap',
   'pre',
   'tak',
   'neut',
   'ni'),
  ('3',)],
 [('9', 'Formosus', 'Formosus', 'subst:sg:nom:m1'),
  ('8', 'formarzecz', 'Formosus', 'nom', 'mos', 'poj', '[]'),
  ('7',
   'fno',
   'Formosus',
   'nom',
   'mos',
   'poj',
   '3',
   '[]',
   'rzecz',
   'bzap',
   'pre',
   'tak',
   'neut',
   'ni'),
  ('3',)],
 [('13', 'zmarł', 'zemrzeć', 'praet:sg:m1:perf'),
  ('12',
   'formaczas',
   'os',
   'dk',
   'prze',
   'ozn',
   'mos',
   'poj',
   '3',
   '[subj(np(nom))]',
   'tak'),
  ('11',
   'fwe',
   'os',
   'dk',
   'prze',
   'ozn',
   'mos',
   'poj',
   '3',
   '[subj(np(nom))]',
   'tak',
   'neut',
   'ni'),
  ('10',
   'ff',
   'os',
   'dk',
   'prze',
   'ozn',
   'mos',
   'poj',
   '3',
   '[subj(np(nom))]',
   'tak',
   'neut',
   'ni'),
  ('1',)],
 [('17'

In [209]:
[[x[1] for x in branch[:-1]] for branch in dependency_tree]

[['Papież', 'formarzecz', 'fno'],
 ['Formosus', 'formarzecz', 'fno'],
 ['zmarł', 'formaczas', 'fwe', 'ff'],
 ['w', 'przyimek'],
 ['kwietniu', 'formarzecz', 'fno'],
 ['896', 'formaprzym', 'fpt', 'fl'],
 ['w', 'przyimek'],
 ['wyniku', 'formarzecz', 'fno'],
 ['nieznanej', 'formaprzym', 'fpt', 'fno'],
 ['choroby', 'formarzecz', 'fno'],
 ['lub', 'spójnik'],
 ['otrucia', 'formarzecz', 'fno'],
 ['.', 'znakkonca'],
 ['fpm', 'fl'],
 ['fpm', 'fl'],
 ['fno'],
 [],
 ['fno', 'fw'],
 ['fno'],
 ['fno'],
 ['zdanie']]

In [211]:
[[x[0] for x in branch] for branch in dependency_tree]

[['6', '5', '4', '3'],
 ['9', '8', '7', '3'],
 ['13', '12', '11', '10', '1'],
 ['17', '16', '15'],
 ['20', '19', '18', '15'],
 ['24', '23', '22', '21', '1'],
 ['28', '27', '26'],
 ['32', '31', '30', '29'],
 ['36', '35', '34', '48', '53'],
 ['40', '39', '38', '37'],
 ['42', '41', '37'],
 ['45', '44', '43', '37'],
 ['49', '71', '0'],
 ['15', '14', '1'],
 ['26', '25', '1'],
 ['37', '53'],
 ['0'],
 ['3', '2', '1'],
 ['29', '26'],
 ['53', '29'],
 ['1', '0']]

In [186]:
ET.dump(random_tree)

<tree grammar_no="1505562921" sent_id="NKJP_1M_0401000002/morph_4-p/morph_4.67-s"><text>Papież Formosus zmarł w kwietniu 896 w wyniku nieznanej choroby lub otrucia.</text>
  <startnode from="0" to="13">wypowiedzenie</startnode>
  <forest-stats cputime="10.487813580000001" inferences="7448127" nodes="124" trees="173" />
    <answer-data>
        <base-answer type="FULL" username="none">
            <comment>AUTO</comment>
        </base-answer>
        <extra-answer type="FULL" username="witoldk">
            <comment>AUTO</comment>
        </extra-answer>
        <extra-answer type="FULL" username="piotrb">
            <comment>AUTO</comment>
        </extra-answer>
    </answer-data>
  <tree-stats height="15" nodes="49" /><node chosen="true" from="0" nid="0" subtrees="173" to="13"><nonterminal>
      <category>wypowiedzenie</category>
    </nonterminal>
    <children chosen="true" rule="w"><child from="0" head="true" nid="1" to="12" /><child from="12" head="false" nid="71" to="13" /><

In [6]:
def _tree_height(xml_tree, node_id=0):
    
    """
    Funkcja oblicza wysokosc drzewa (dlugosc najdluzszej sciezki od korzenia do liscia)
    lub lasu (maximum z wszystkich mozliwych drzew)
    
    xml_tree - drzewo luba las drzew lub korzen drzewa jednego lub drugiego
    """
    
    
    if type(xml_tree)==ET.Element:
        node = tree
    else:
        node = tree.getroot()
        
    node = node.find('.//node[@nid="' + str(node_id) + '"]')
    children = node.findall(".//children//child")
    
    if len(children)==0:
        return 1
    else:
        children_nodes = [child.attrib["nid"] for child in children]
        return 1+max([_tree_height(tree,x) for x in children_nodes])
        

In [7]:
_tree_height(tree.getroot())

15

In [8]:
def number_of_nodes(tree):
    """
    Zwraca liczbe wezlow w drzewie.
    
    tree - drzewo lub korzen drzewa
    """
    if type(tree)==ET.Element:
        return len(tree.findall("node"))
    else:
        return len(tree.getroot().findall("node")) 

In [10]:
number_of_nodes(tree)

124

In [11]:
def is_positive(tree): 
    
    """
    Funkcja sprawdza czy drzewo jest pozytywne - czy jest poprawnym drzewem rozbioru
    Zwraca wartosc logiczna.
    
    tree - drzewo [xml.etree.ElementTree.ElementTree]
    """
    
    check_sentence(tree,"tree")
    
    assert len(tree.find("node"))>0, 'There is not "node" element in the tree'
    
    #Sprawdzamy czy wszystkie wezly "node" maja wartosc chosen="true":
    for x in tree.iter("node"):
        if not x.attrib["chosen"]=="true":
            return False

    #Sprawdzamy czy wszystkie wezly "node" maja wartosc chosen="true":
    for x in tree.iter(".//children"):
        if not x.attrib["chosen"]=="true":
            return False
        
    return True
        
        
    


def get_positive_tree(forest):
    
    """
    Funkcja zwraca poprawne (pozytywne) drzewo z upakowanego lasu (forest).
    Dla lasu, w ktorym nie ma poprawnego drzewa funkcja wyrzuca blad.
    
    forest - las drzew [xml.etree.ElementTree.ElementTree]
    """

    # sprawdzenie poprawnosci lasu i ewentualne wypisanie komunikatu
    check_sentence(forest,"forest")
            
    root_old = forest.getroot()
    root_new = ET.Element("tree",root_old.attrib)
    
    
    # las sklada sie z drzew (wezly "node") oraz dodatkowych danych (inne wezly) -
    # tresc wypowiedzenia, statystyki lasu, itd. - i tutaj przepisujemy te wezly
    features = root_old.getchildren()
    for feature in features:
        if feature.tag != "node": 
            feature_copy = deepcopy(feature)
            if feature_copy.tag == "stats":
                feature_copy.tag = "forest-stats"
                
            root_new.append(feature_copy) # modyfikujemy tag wezla wiec potrzebna kopia, zeby nie zmodyfikowac oryginalnego drzewa
            
    # definiujemy rekurencyjna funkcje, ktora bedzie przechodzic po lesie i
    # kolekcjonowac wezly, tworzac losowe drzewo.
    # drzewo jest tworzone na korzeniu root_new.
    def add_positive_children(current_node_old):
        
        current_node_new = ET.SubElement(root_new, current_node_old.tag, current_node_old.attrib)
        
        features = current_node_old.getchildren()
        # kazdy "node" jest terminalem albo nieterminalem i ma opis wlasnosci
        # i tutaj wyciagamy te wlasnosci z wezla innego niz "children"
        for feature in features:
            if feature.tag != "children": 
                current_node_new.append(feature)
        
        
        children_old = current_node_old.findall('children[@chosen="true"]')
        # powinno byc tylko jedno takie dziecko
        
        assert len(children_old) <= 1, 'More than one children has chosen="true"'
        
        if len(children_old) == 0: #jestesmy w lisciu wiec konczymy dzialanie funkcji
            return None
        
        #random_children_old = children_old[np.random.choice(len(children_old),1)[0]]
        children_new = ET.SubElement(current_node_new, children_old[0].tag, children_old[0].attrib)
        for child_old in children_old[0].getchildren():
            x = ET.SubElement(children_new, child_old.tag, child_old.attrib)
            next_node = root_old.find('.//node[@nid="' + x.attrib["nid"] + '"]')
            assert next_node.attrib["chosen"] == "true"
            add_positive_children(next_node)
        
    
    # wezel startowy (przyjmujemy, ze node z id=0 jest zawsze pierwszy):
    # TODO: upewnic sie czy to jest poprawne podejscie - czy moze byc inny wezel poczatkowym
    node_0 = root_old.find('.//node[@nid="0"][@chosen="true"]') 
    
    # konstruujemy drzewo:
    add_positive_children(node_0)
    
    positive_tree = ET.ElementTree(root_new)

    # Sprawdzenie poprawnosci drzewa
    assert is_positive(positive_tree), """Something gone wrong - tree is not positive"""
        
        
    return positive_tree
    

In [82]:
pos_tree = get_positive_tree(tree)

In [83]:
get_positive_tree(tree).write("test.xml")