# Natural Language Processing

## List 2

In [26]:
from src.tag_generator import TagGeneratorUni, TagGeneratorBi
from src.parsers.tag_parser import TagParser
from src.parsers.unigram_parser import UnigramParser
from src.parsers.bigram_parser import BigramParser

### Create required objects, structures etc.

In [27]:
tag_parser = TagParser()
unigrams_parser = UnigramParser('poleval_2grams.txt')
bigrams_parser = BigramParser('poleval_2grams.txt')
tag_generator_uni = TagGeneratorUni()
tag_generator_bi = TagGeneratorBi()

In [28]:
tagged_tokens = tag_parser.create_tag_token_pairs()
tag_sets = tag_parser.create_tags_struct()

In [29]:
# A part of tagged_tokens
dict(list(tagged_tokens.tagged_tokens.items())[0:2])

{'zapachnie': 'T3182', 'wchłaniałbyś': 'T904'}

In [30]:
unigrams = unigrams_parser.create_unigrams_struct().unigrams

In [31]:
# A part of unigrams_struct
dict(list(unigrams.items())[0:2])

{'operatora': 12838, 'zarówno': 292192}

In [32]:
bigrams = bigrams_parser.create_bigrams_struct(k=3).bigrams

In [33]:
# A part of bigrams_struct
dict(list(bigrams.items())[0:2])

{'rozdrobniona': [('sieć', 11),
  ('i', 12),
  ('.', 17),
  (',', 23),
  ('struktura', 32),
  ('na', 6)],
 'świadectwem': [(',', 87),
  ('.', 41),
  ('z', 7),
  ('o', 13),
  ('i', 25),
  ('wiary', 22),
  ('nawrócenia', 4),
  ('tamtych', 4),
  ('był', 7),
  ('były', 6),
  ('było', 5),
  ('wielkiej', 9),
  ('prawdy', 4),
  ('jakości', 7),
  ('obecności', 8),
  ('istnienia', 14),
  ('kultu', 8),
  ('tej', 6),
  ('naszej', 10),
  ('są', 41),
  ('braku', 11),
  ('ich', 23),
  ('słabości', 7),
  ('szczepienia', 4),
  ('naszego', 4),
  ('tych', 11),
  ('rozwoju', 5),
  ('uzyskania', 19),
  ('jednej', 4),
  ('woli', 5),
  ('jej', 9),
  ('jego', 25),
  ('szkoły', 4),
  ('przeszłości', 7),
  ('życia', 15),
  ('wielowiekowej', 4),
  ('upadku', 4),
  ('złego', 6),
  ('dojrzałości', 25),
  ('dawnej', 7),
  ('pochodzenia', 6),
  ('udziałowym', 6),
  ('wzrostu', 4),
  ('po', 6),
  ('miłości', 4),
  ('wydanym', 10),
  ('historycznym', 4),
  ('pracy', 30),
  ('jest', 42),
  ('głębokiej', 4),
  ('na', 1

### Make some tests

#### To simplify the problem assume, that there is no punctuation mark within the sentence (easy to handle it). The pipe shows breaking bigrams continuations. The question mark tells us, that the coresponding word is not tagged in supertags.txt

In [34]:
s1 = 'Mały Piotruś spotkał w niewielkiej restauracyjce wczoraj poznaną \
      koleżankę'

#### Unigrams

In [35]:
tag_generator_uni.generate_sentence_coresponding_tags(s1, tagged_tokens,
                                                      unigrams, tag_sets)

'Bosy ? spowodował nieco niezbędnej wojnie z zwiększoną historię'

#### Bigrams

In [36]:
tag_generator_bi.generate_sentence_coresponding_tags(s1, tagged_tokens,
                                                     unigrams, bigrams,
                                                     tag_sets)

'Wiosenny ?  |  zajął się nielegalnej  |  formie na dokonaną analizę'

In [37]:
tag_generator_bi.generate_sentence_coresponding_tags(s1, tagged_tokens,
                                                     unigrams, bigrams,
                                                     tag_sets,
                                                     continuations=10)

'Francuski ?  |  odziedziczył po niedzielnej porażce z planowaną inflację'

In [55]:
tag_generator_bi.generate_sentence_coresponding_tags(s1, tagged_tokens,
                                                     unigrams, bigrams,
                                                     tag_sets,
                                                     continuations=100)

'Szczegółowy ?  |  założył w niebezpiecznej przygodzie z wyłączoną obsługę'

In [38]:
s2 = 'W zadaniu tym powinieneś losować zdania o słowach z identyczną \
      charakterystyką gramatyczną jak zdanie wejściowe'

####  Unigrams

In [39]:
tag_generator_uni.generate_sentence_coresponding_tags(s2, tagged_tokens,
                                                      unigrams, tag_sets)

'Na brzmieniu tym powinieneś obserwować panowania na mistrzostwach ze całą scenografią germanizacyjną jak wsparcie termalne'

####  Bigrams

In [40]:
tag_generator_bi.generate_sentence_coresponding_tags(s2, tagged_tokens,
                                                     unigrams, bigrams,
                                                     tag_sets)

'W oparciu  |  swoim  |  powinieneś znać zagrożenia na mistrzostwach w ziemską  |  realizacją  |  kolejną  |  jak nauczanie indywidualne'

In [41]:
tag_generator_bi.generate_sentence_coresponding_tags(s2, tagged_tokens,
                                                     unigrams, bigrams,
                                                     tag_sets,
                                                     continuations=10)

'Ze  |  imieniu swoim  |  powinieneś kierować pytania i cierpieniach i właściwą realizacją  |  rządową  |  owad  |  kształtowanie  |  wschodnie'

In [56]:
tag_generator_bi.generate_sentence_coresponding_tags(s2, tagged_tokens,
                                                     unigrams, bigrams,
                                                     tag_sets,
                                                     continuations=100)

'W otoczeniu  |  jednym  |  powinieneś robić zdjęcia i zwichnięciach  |  się regionalną kasą krajową  |  jak stężenie masowe'

In [42]:
s3 = 'Na następnym skrzyżowaniu skręć w lewo'

#### Unigrams

In [43]:
tag_generator_uni.generate_sentence_coresponding_tags(s3, tagged_tokens,
                                                      unigrams, tag_sets)

'Że umiarkowanym uzgodnieniu wzdłuż i prosto'

#### Bigrams

In [44]:
tag_generator_bi.generate_sentence_coresponding_tags(s3, tagged_tokens,
                                                     unigrams, bigrams,
                                                     tag_sets)

'Mianowicie  |  podstawowym znaczeniu wręcz przeciwnie  |  warto'

In [45]:
tag_generator_bi.generate_sentence_coresponding_tags(s3, tagged_tokens,
                                                     unigrams, bigrams,
                                                     tag_sets,
                                                     continuations=10)

'I rosyjskim embargu  |  wzdłuż na serio'

In [57]:
tag_generator_bi.generate_sentence_coresponding_tags(s3, tagged_tokens,
                                                     unigrams, bigrams,
                                                     tag_sets,
                                                     continuations=100)

'Nad powiatowym  |  postępowaniu  |  wręcz najbardziej warto'

In [46]:
s4 = 'Nie ma absolutnie żadnych ograniczeń prawnych'

####  Unigrams

In [47]:
tag_generator_uni.generate_sentence_coresponding_tags(s4, tagged_tokens,
                                                      unigrams, tag_sets)

'Nie ma na których narzędzi sztywnych'

#### Bigrams

In [48]:
tag_generator_bi.generate_sentence_coresponding_tags(s4, tagged_tokens,
                                                     unigrams, bigrams,
                                                     tag_sets)

'Nie ma więc takich działań poszczególnych'

In [49]:
tag_generator_bi.generate_sentence_coresponding_tags(s4, tagged_tokens,
                                                     unigrams, bigrams,
                                                     tag_sets,
                                                     continuations=10)

'Nie ma na wszystkich państw centralnych'

In [58]:
tag_generator_bi.generate_sentence_coresponding_tags(s4, tagged_tokens,
                                                     unigrams, bigrams,
                                                     tag_sets,
                                                     continuations=100)

'Nie ma więc żadnych działań fiskalnych'

In [50]:
s5 = 'Zadanie będzie oceniane na podzbiorze części testowej korpusu'

#### Unigrams

In [51]:
tag_generator_uni.generate_sentence_coresponding_tags(s5, tagged_tokens,
                                                      unigrams, tag_sets)

'Pismo będzie chronione z zakresie części polskiej remontu'

#### Bigrams

In [52]:
tag_generator_bi.generate_sentence_coresponding_tags(s5, tagged_tokens,
                                                     unigrams, bigrams,
                                                     tag_sets)

'Spięcie  |  będzie realizowane w rzeszowie  |  części dawnej  |  pomiaru'

In [53]:
tag_generator_bi.generate_sentence_coresponding_tags(s5, tagged_tokens,
                                                     unigrams, bigrams,
                                                     tag_sets,
                                                     continuations=10)

'Stanowisko będzie wydane na rządzie  |  części zachodniej kościoła'

In [59]:
tag_generator_bi.generate_sentence_coresponding_tags(s5, tagged_tokens,
                                                     unigrams, bigrams,
                                                     tag_sets,
                                                     continuations=100)

'Oblicze  |  będzie udzielane w języku  |  części wspólnej rządu'