In [47]:
from lesson_parser import MyHTMLParser
from tonic_accent import global_word_dict
parser = MyHTMLParser()
lesson_word_dict = parser.get_lesson_word_tonic_accent_dict()

In [48]:
import re

def get_html_of_token(token, lesson_dict = {}):
    token_properties = lesson_dict.get(token.lower(), '')
    if not token_properties:
        token_properties = global_word_dict.get(token.lower(), '')
        if not token_properties:
            return token
    txt = ""
    index = 0
    for frag_struct in token_properties:
        frag_txt = token[index:index+len(frag_struct[0])]
        if frag_struct[1]:
            txt += "<b>" + frag_txt + "</b>"
        else:
            txt += frag_txt
        index += len(frag_struct[0])
    return txt

def get_bold_sentence(sentence, lesson_dict = {}):
    tokens = re.findall(r"[\w']+|[.,¡!¿:\-?;–]", sentence)
    bold_sentence = ""
    for index, token in enumerate(tokens):
        try:
            next_token = tokens[index + 1]
        except IndexError:
            next_token = ''
        bold_token = get_html_of_token(token, lesson_dict)
        bold_sentence += bold_token
        if not token in ".,¡!¿-?;:":
            if not next_token in ".,;!?-:":
                bold_sentence += ' '
        elif token in "¡-¿":
            pass
        else:
            bold_sentence += ' '
    return bold_sentence        



In [21]:
s = """<p>S07-Uf, es<b>cu</b>cha, da <b>mie</b>do:: &quot;Nos di<b>je</b>ron que la habita<b>ción</b> ten<b>drí</b>a <b>vis</b>tas y nos <b>die</b>ron <b>u</b>na que <b>da</b>ba al <b>pa</b>tio.&quot; </p>"""

In [22]:
s

'<p>S07-Uf, es<b>cu</b>cha, da <b>mie</b>do:: &quot;Nos di<b>je</b>ron que la habita<b>ción</b> ten<b>drí</b>a <b>vis</b>tas y nos <b>die</b>ron <b>u</b>na que <b>da</b>ba al <b>pa</b>tio.&quot; </p>'

In [51]:
bs = get_bold_sentence(s, lesson_word_dict)

In [52]:
bs

'p S07-Uf, es b cu b cha, da b mie b do: : quot; Nos di b je b ron que la habita b ción b ten b drí b a b vis b tas y nos b die b ron b u b na que b da b ba al b pa b tio. quot; p'

In [4]:
from tonic_accent import get_sentences

In [5]:
lesson = get_sentences(75)

In [6]:
lesson

['N75-Lección setenta y cinco',
 'S00-TITLE-Hoteles con encanto',
 'S01-Si el plan es ir al hotel, deberíamos reservar ya. ',
 'S02-He hecho búsquedas en Internet, y el que más barato saldría es este. ',
 'S03-Por una habitación con una cama matrimonial, serían 34 euros por noche. ',
 'S04-Barato es, desde luego. ¿Has leído las valoraciones de los clientes? ',
 'S05-¿Tú te fías de eso? ',
 'S06-Claro que sí, ¡es imprescindible! ',
 'S07-Uf, escucha, da miedo::: "Nos dijeron que la habitación tendría vistas y nos dieron una que daba al patio." ',
 'S08-"Como el aire acondicionado estaba averiado, abrimos la ventana y hubo que cerrarla enseguida por los olores."',
 'S09-No había agua caliente ni jabón, las bombillas estaban fundidas, el lavabo atascado y el espejo roto. ',
 'S10-Nos metimos en la cama, y a medianoche un cuadro se descolgó de la pared solito. ',
 'S11-A no ser que os gusten las pelis de terror, ¡no vayáis! ',
 'S12-Ejem, y ¿no preferirías ir de camping? ',
 'T00-TRANSLATE

In [1]:
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
        
    def analyze_lesson(self, lesson, lesson_number):
        self.sentences = []
        self.sentences_fragments = []
        self.lesson_number = lesson_number
        self.bold_data = False
        self.feed(lesson)

    def get_lesson_word_tonic_accent_dict(self):
        word_dict = {}
        if not hasattr(self, 'sentences'):
            return {}
        for i, s in enumerate(self.sentences):
            wl = get_sentence_word_list(s, self.sentences_fragments[i])
            for word, tonic_accent in wl:
                if not word in word_dict:
                    word_dict[word] = tonic_accent
        return word_dict
        
    def get_lesson_word_index_dict(self):
        word_dict = {}
        if not hasattr(self, 'sentences'):
            return {}
        for i, s in enumerate(self.sentences):
            wl = get_sentence_word_list(s, self.sentences_fragments[i])
            for word, tonic_accent in wl:
                if not word in word_dict:
                    word_dict[word] = [(self.lesson_number, i)]
                else:
                    word_dict[word].append((self.lesson_number, i))
        return word_dict
       
    def handle_starttag(self, tag, attrs):
        if tag == "b":
            self.bold_data = True
        elif tag == "p":
            self.current_sentence = ""
            self.current_sentence_fragments = []
            #self.first_data = True


    def handle_endtag(self, tag):
        if tag == "b":
            self.bold_data = False
        elif tag == "p":
            self.sentences_fragments.append(self.current_sentence_fragments)
            self.sentences.append(self.current_sentence)
            
    def handle_data(self, data):
        print(data)
        #if self.first_data:
        #    self.first_data = False
            #data = data.split('-')[1]
        if hasattr(self, "current_sentence"):
            self.current_sentence_fragments.append((data, self.bold_data))
            self.current_sentence += data

    def get_sentences(self):
        return self.sentences


In [2]:
parser = MyHTMLParser()

In [8]:
lesson_nb = 75
lesson_filename = f"Sentences/html/L{str(lesson_nb).zfill(3)}.html"
lesson_filename

'Sentences/html/L075.html'

In [12]:
f = open(lesson_filename, "r")
lesson = f.readlines()[0]
f.close()

In [13]:
lesson

'<p>N75-Lec<b>ción</b> se<b>ten</b>ta y <b>cin</b>co</p><p>S00-TITLE-Ho<b>te</b>les con en<b>can</b>to</p><p>S01-Si el plan es ir al ho<b>tel</b>, debe<b>rí</b>amos reser<b>var</b> ya. </p><p>S02-He <b>he</b>cho <b>bús</b>quedas en Inter<b>net</b>, y el que más ba<b>ra</b>to sal<b>drí</b>a es <b>es</b>te. </p><p>S03-Por <b>u</b>na habita<b>ción</b> con <b>u</b>na <b>ca</b>ma matrimo<b>nial</b>, se<b>rí</b>an 34 <b>eu</b>ros por <b>no</b>che. </p><p>S04-Ba<b>ra</b>to es, <b>des</b>de <b>lue</b>go. ¿Has le<b>í</b>do las valora<b>cio</b>nes de los <b>clien</b>tes? </p><p>S05-¿Tú te <b>fí</b>as de <b>e</b>so? </p><p>S06-<b>Cla</b>ro que sí, ¡es imprescin<b>di</b>ble! </p><p>S07-Uf, es<b>cu</b>cha, da <b>mie</b>do::: &quot;Nos di<b>je</b>ron que la habita<b>ción</b> ten<b>drí</b>a <b>vis</b>tas y nos <b>die</b>ron <b>u</b>na que <b>da</b>ba al <b>pa</b>tio.&quot; </p><p>S08-&#34;<b>Co</b>mo el <b>ai</b>re acondicio<b>na</b>do es<b>ta</b>ba ave<b>ria</b>do, a<b>bri</b>mos la ven<b>ta</b>na y

In [23]:
parser.analyze_lesson(s, lesson_nb)

In [24]:
sentences = parser.get_sentences()

In [25]:
sentences

['S07-Uf, escucha, da miedo:: "Nos dijeron que la habitación tendría vistas y nos dieron una que daba al patio." ']

In [26]:
parser.current_sentence_fragments

[('S07-Uf, es', False),
 ('cu', True),
 ('cha, da ', False),
 ('mie', True),
 ('do:: "Nos di', False),
 ('je', True),
 ('ron que la habita', False),
 ('ción', True),
 (' ten', False),
 ('drí', True),
 ('a ', False),
 ('vis', True),
 ('tas y nos ', False),
 ('die', True),
 ('ron ', False),
 ('u', True),
 ('na que ', False),
 ('da', True),
 ('ba al ', False),
 ('pa', True),
 ('tio." ', False)]

In [19]:
lines[1]

IndexError: list index out of range

In [20]:
lines

['<p>N75-Lec<b>ción</b> se<b>ten</b>ta y <b>cin</b>co</p><p>S00-TITLE-Ho<b>te</b>les con en<b>can</b>to</p><p>S01-Si el plan es ir al ho<b>tel</b>, debe<b>rí</b>amos reser<b>var</b> ya. </p><p>S02-He <b>he</b>cho <b>bús</b>quedas en Inter<b>net</b>, y el que más ba<b>ra</b>to sal<b>drí</b>a es <b>es</b>te. </p><p>S03-Por <b>u</b>na habita<b>ción</b> con <b>u</b>na <b>ca</b>ma matrimo<b>nial</b>, se<b>rí</b>an 34 <b>eu</b>ros por <b>no</b>che. </p><p>S04-Ba<b>ra</b>to es, <b>des</b>de <b>lue</b>go. ¿Has le<b>í</b>do las valora<b>cio</b>nes de los <b>clien</b>tes? </p><p>S05-¿Tú te <b>fí</b>as de <b>e</b>so? </p><p>S06-<b>Cla</b>ro que sí, ¡es imprescin<b>di</b>ble! </p><p>S07-Uf, es<b>cu</b>cha, da <b>mie</b>do::: &quot;Nos di<b>je</b>ron que la habita<b>ción</b> ten<b>drí</b>a <b>vis</b>tas y nos <b>die</b>ron <b>u</b>na que <b>da</b>ba al <b>pa</b>tio.&quot; </p><p>S08-&#34;<b>Co</b>mo el <b>ai</b>re acondicio<b>na</b>do es<b>ta</b>ba ave<b>ria</b>do, a<b>bri</b>mos la ven<b>ta</b>na 