## Parsing demo

In [33]:
import re

file_path = "/home/droca1/Treebanks/corpus-eusebio.txt"
data_file = open(file_path, "r")
data = data_file.read()

# remove <number>\n using regex
data = re.sub(r'\d+\n', '', data)

# remove \n
data = data.replace("\n", " ")

# split into sentences using regex
sentences = re.split(r'(?<!\w\.\w.)(?<![A-Z][a-z]\.)(?<=\.|\?)\s', data)

# sentences = [s + "." for s in sentences]
sentences = [s.strip() for s in sentences]

# close characters
punctuation = [".", ",", ";", ":", "!", "?", "(", ")", "[", "]", "{", "}", "”"]
for p in punctuation:
    sentences = [s.replace(p, " " + p) for s in sentences]

# open characters
punctuation = ["¿", "¡", "“"]
for p in punctuation:
    sentences = [s.replace(p, p + " ") for s in sentences]

# bidirectional quotes
punctuation = ["\"", "'"]
for p in punctuation:
    sentences = [s.replace(p, " " + p + " ") for s in sentences]

# remove extra spaces
sentences = [re.sub(' +', ' ', s) for s in sentences]

for s in sentences[:10]:
    print(s)

# write adding a root token
output_file = "./demo.raw"
with open(output_file, "w") as f:
    for sent in sentences:
        f.write("-ROOT- " + sent + "\n")

En el texto , la autora habla de lo que son las bellísimas personas .
Las define como gente que se calla lo que piensa por no discutir , por no crear discordia .
Ella vivió rodeada por bellísimas personas , más ella no se considera parte de ellas .
No tiene miedo de morderse la lengua para expresar su opinión .
En el texto se pregunta si sería capaz de trabar amistad con gente que tiene ideales opuestos a los suyos , ideales que ella consideraría " estúpidos " .
¿ Sería yo amiga de alguien con ideas distintas a las mías ?
No viví rodeada de bellísimas personas , como la autora .
Mi entorno han sido personas que sabían cuando debían callar y cuando hablar y dar su opinión .
Personas que no se callaban lo que pensaban solo para gustar más , caer mejor a la gente o evitar disputas .
Personas que van sin filtros , que te dicen las cosas como son .


In [34]:
# python ~/machamp/predict.py ./spanish-model/model.pt ./demo.raw ./demo.labels --raw_text

postprocess_path = "./demo_fix.labels"
is_new_sentence = True
with open(postprocess_path, "w") as f:
    for line in open("./demo.labels", "r"):
        fixed_line = []
        
        # add bos and eos
        if is_new_sentence:
            fixed_line.append(4*"-BOS-\t")
            is_new_sentence = False
            fixed_line = '\t'.join(fixed_line)
            f.write(fixed_line+"\n")
        
        if line == "\n":
            fixed_line.append(4*"-EOS-\t")
            is_new_sentence = True
            fixed_line = '\t'.join(fixed_line)
            f.write(fixed_line+"\n")
            f.write("\n")
            continue

        fixed_line = line.split('\t')[1:4]
        fixed_line.insert(1, "_")
        fixed_line = '\t'.join(fixed_line)
        f.write(fixed_line+"\n")

In [37]:
# python main.py DEPS DEC BRK_7B ./demo_fix.labels ./demo.conllu --multitask

from codelin.models.linearized_tree import LinearizedTree
from codelin.models.deps_tree import D_Tree

# read conllu decoded file
conllu_file = "./demo.conllu"
trees = D_Tree.read_conllu_file(conllu_file)

# print sample
print(trees[0])
print(D_Tree.to_latex(trees[0]))

0	-ROOT-	_	-ROOT-	_	_	0	-NOREL-	_	_
1	En	_	_	_	_	3	case	_	_
2	el	_	_	_	_	3	det	_	_
3	texto	_	_	_	_	7	obl	_	_
4	,	_	_	_	_	3	punct	_	_
5	la	_	_	_	_	6	det	_	_
6	autora	_	_	_	_	7	nsubj	_	_
7	habla	_	_	_	_	0	root	_	_
8	de	_	_	_	_	14	mark	_	_
9	lo	_	_	_	_	14	det	_	_
10	que	_	_	_	_	14	nsubj	_	_
11	son	_	_	_	_	14	cop	_	_
12	las	_	_	_	_	14	det	_	_
13	bellísimas	_	_	_	_	14	amod	_	_
14	personas	_	_	_	_	7	ccomp	_	_
15	.	_	_	_	_	7	punct	_	_


\begin{dependency}[theme = simple]
\begin{deptext}[row sep=.25em, column sep=1.5em]
0 \& 1 \& 2 \& 3 \& 4 \& 5 \& 6 \& 7 \& 8 \& 9 \& 10 \& 11 \& 12 \& 13 \& 14 \& 15 \\ 
-ROOT- \& En \& el \& texto \& , \& la \& autora \& habla \& de \& lo \& que \& son \& las \& bellísimas \& personas \& . \\ 
\end{deptext}
\depedge{4}{2}{case}
\depedge{4}{3}{det}
\depedge{8}{4}{obl}
\depedge{4}{5}{punct}
\depedge{7}{6}{det}
\depedge{8}{7}{nsubj}
\depedge{1}{8}{root}
\depedge{15}{9}{mark}
\depedge{15}{10}{det}
\depedge{15}{11}{nsubj}
\depedge{15}{12}{cop}
\depedge{15}{13}{de