In [90]:
import string
import numpy as np

In [304]:
class Segmentator:
    def __init__(self, lexicon=None):
        self.load_lexicon(lexicon)
    
    def load_lexicon(self, lexicon):
        for i in range(len(lexicon)):
            lexicon[i] = np.array(lexicon[i].split())
        self.lexicon = lexicon
        
    def segment(self, text):
        text = self._save_breaked_words(text)
        segments = text.split()
        self._split_punctuation(segments)
        self._use_lexicon(segments)
        self._add_eos(segments)
        return segments
        
    def _save_breaked_words(self, text):
        return text.replace('-\n', '')
    
    def _split_punctuation(self, segments):
        for i in reversed(range(len(segments))):
            if segments[i][-1] in string.punctuation:
                segments.insert(i+1, segments[i][-1])
                segments[i] = segments[i][:-1]
                
    def _add_eos(self, segments):
        segments.append("<eos>")
        for i in reversed(range(len(segments)-1)):
            if segments[i][-1] in [".", "!", "?"] and segments[i+1][0].isupper():
                segments.insert(i+1, "<eos>")
    
    def _use_lexicon(self, segments):
        wholes = self._get_wholes(segments)
        for i in reversed(range(len(wholes))):
            segments[wholes[i][0]] = wholes[i][2]
            del segments[wholes[i][0]+1:wholes[i][1]+1]
    
    def _get_wholes(self, segments):
      # _get_całostki
        segments_to_concat = []
        for lex in self.lexicon:
            indices = [i for i, x in enumerate(segments) if x == lex[0]]
            for inx in indices:
                if inx + len(lex) < len(segments):
                    concat = True
                    for j in range(len(lex)):
                        if lex[j] != segments[inx + j]:
                            concat = False
                            break
                    if concat is True:
                        whole = ""
                        for l in lex:
                            whole += l + " "
                        segments_to_concat.append([inx, inx+len(lex)-1, whole])
        return segments_to_concat
    
    def print_segments(self, segments):
        for s in segments:
            print(s)


In [305]:
text = """Woda-jest jedną wody jest z najpospolitszych substancji we Wszechświe-\ncie. 
          Cząsteczka wody jest trzecią najbardziej rozpowszechnioną molekułą 
          w ośrodku międzygwiazdowym, po cząsteczkowym wodorze i tlenku węgla."""
lexicon = ["najbardziej rozpowszechnioną", "po cząsteczkowym wodorze", "wody jest"]
print(text)

Woda-jest jedną wody jest z najpospolitszych substancji we Wszechświe-
cie. 
          Cząsteczka wody jest trzecią najbardziej rozpowszechnioną molekułą 
          w ośrodku międzygwiazdowym, po cząsteczkowym wodorze i tlenku węgla.


In [306]:
segmentator = Segmentator(lexicon)
segments = segmentator.segment(text)
segmentator.print_segments(segments)

Woda-jest
jedną
wody jest 
z
najpospolitszych
substancji
we
Wszechświecie
.
<eos>
Cząsteczka
wody jest 
trzecią
najbardziej
rozpowszechnioną
najbardziej rozpowszechnioną 
ośrodku
międzygwiazdowym
,
po
cząsteczkowym
po cząsteczkowym wodorze 
węgla
.
<eos>
