# Natural Language Processing 

### List 3

In [23]:
from src.parsers.token_parser import TokenParser
from src.parsers.unigram_parser import UnigramParser
from src.parsers.bigram_parser import BigramParser
from src.viterbi_text_pred import ViterbiRevTextPred
from sklearn.metrics import accuracy_score

## Create required objects, structs etc.

In [2]:
token_example = 'woda'
text_example = 'nie stara sie nadmiernie zebysmy ja polubili'.split()

In [3]:
token_parser = TokenParser()

In [4]:
token_parser.gen_poss_rev_tokens(token_example)

['woda', 'wodą', 'wóda', 'wódą']

In [5]:
unigrams = UnigramParser().create_unigrams_struct(k=3).unigrams

In [6]:
bigrams = BigramParser().create_bigrams_struct(k=3).bigrams

In [7]:
viterbi_text_pred = ViterbiRevTextPred()

In [8]:
viterbi_text_pred.gen_poss_sent(text_example, token_parser)

[['nie', 'nię'],
 ['stara', 'starą', 'stąra', 'stąrą', 'śtara', 'śtarą', 'śtąra', 'śtąrą'],
 ['sie', 'się', 'śie', 'śię'],
 ['nadmiernie',
  'nadmiernię',
  'nadmięrnie',
  'nadmięrnię',
  'nądmiernie',
  'nądmiernię',
  'nądmięrnie',
  'nądmięrnię'],
 ['zebysmy',
  'zebyśmy',
  'zębysmy',
  'zębyśmy',
  'źebysmy',
  'źebyśmy',
  'źębysmy',
  'źębyśmy',
  'żebysmy',
  'żebyśmy',
  'żębysmy',
  'żębyśmy'],
 ['ja', 'ją'],
 ['polubili', 'pólubili']]

In [9]:
viterbi_text_pred.gen_poss_sent(text_example, token_parser, with_cap=True)

[['nie', 'nię', 'Nie', 'Nię'],
 ['stara',
  'starą',
  'stąra',
  'stąrą',
  'śtara',
  'śtarą',
  'śtąra',
  'śtąrą',
  'Stara',
  'Starą',
  'Stąra',
  'Stąrą',
  'Śtara',
  'Śtarą',
  'Śtąra',
  'Śtąrą'],
 ['sie', 'się', 'śie', 'śię', 'Sie', 'Się', 'Śie', 'Śię'],
 ['nadmiernie',
  'nadmiernię',
  'nadmięrnie',
  'nadmięrnię',
  'nądmiernie',
  'nądmiernię',
  'nądmięrnie',
  'nądmięrnię',
  'Nadmiernie',
  'Nadmiernię',
  'Nadmięrnie',
  'Nadmięrnię',
  'Nądmiernie',
  'Nądmiernię',
  'Nądmięrnie',
  'Nądmięrnię'],
 ['zebysmy',
  'zebyśmy',
  'zębysmy',
  'zębyśmy',
  'źebysmy',
  'źebyśmy',
  'źębysmy',
  'źębyśmy',
  'żebysmy',
  'żebyśmy',
  'żębysmy',
  'żębyśmy',
  'Zebysmy',
  'Zebyśmy',
  'Zębysmy',
  'Zębyśmy',
  'Źebysmy',
  'Źebyśmy',
  'Źębysmy',
  'Źębyśmy',
  'Żebysmy',
  'Żebyśmy',
  'Żębysmy',
  'Żębyśmy'],
 ['ja', 'ją', 'Ja', 'Ją'],
 ['polubili', 'pólubili', 'Polubili', 'Pólubili']]

## Tests

### Without capital letters

In [27]:
t1 = 'nie stara się nadmiernie żebyśmy ją polubili'.split()
t2 = 'lubię pić gorącą herbatę'.split()
t3 = 'nie stara się nadmiernie , żebyśmy ją polubili'.split()
t4 = 'można wydłużyć termin wybranego zadania'.split()
t5 = 'ciemny kąt w dużym pokoju'.split()
sents = (t1, t2, t3, t4, t5)

In [28]:
for sent in sents:
    rec_sent = viterbi_text_pred.predict(sent, unigrams, bigrams, token_parser)
    print(rec_sent, accuracy_score(sent, rec_sent.split()))

nie stara się nadmiernie żebyśmy ją polubili 1.0
lubię pić gorącą herbatę 1.0
nie stara się nadmiernie , żebyśmy ją polubili 1.0
można wydłużyć termin wybranego zadania 1.0
ciemny kąt w dużym pokoju 1.0


### With capital letters

In [32]:
for sent in sents:
    rec_sent = viterbi_text_pred.predict(sent, unigrams, bigrams, token_parser).capitalize()
    print(rec_sent, accuracy_score(' '.join(sent).capitalize().split(), rec_sent.split()))

Nie stara się nadmiernie żebyśmy ją polubili 1.0
Lubię pić gorącą herbatę 1.0
Nie stara się nadmiernie , żebyśmy ją polubili 1.0
Można wydłużyć termin wybranego zadania 1.0
Ciemny kąt w dużym pokoju 1.0
