### Bartłomiej Krzepkowski, Daniel Salamon:              
# Spell Checker

# Project

### Projekt polega na przedstawieniu paru modeli poprawiania błedów w podanych frazach, które zostały wybrane w taki sposób by stopniowo pokazywać trudności w danym zagadnieniu.

#### Są to: 
`jeden model neuronowy który bazuje na strukturze seq2seq i na który wpadliśmy przeglądając literaturę dotyczącą tłumaczenia maszynowego.
W kontraście do niego prezentujemy modele które tworzą ciąg elementów (zaczynając od drugiego) będących rozbudowaną wersją modelu wcześniejszego. Modele te nazwaliśmy nie-neuronowymi, które następnie podzieliliśmy na grupy opisane dalej.`

`Dla każdej grupy prezentujemy benchmarki na dwóch rodzajach danych. Dane zebrane podzieliliśmy na dwa rodzaje - rzeczywiste i syntetyczne. 
Rzeczywiste dane (4k słów) to dane uzyskane ze strony aspell` http://aspell.net/test/common-all/, `która umieszcza zbiory otagowanych danych wraz z ich wynikiem uzyskanych na swoich modelach. Mają oni na danych których używamy wynik 74%, jako "accuracy" dla pierwszego słowa i 96%, jeżeli słowo pojawiło się w pierwszej piątce najbardziej oczekiwanych wyników.
W naszej pracy za sukces w modelu nie-neuronowym uważamy bycie oczekiwanego słowa na pierwszym albo drugim miejscu w liście najlepszych wyników.`

`Słownik słów wraz z częstościami dla modeli nie-neuronowych który jest dla nich niezbędny stworzyliśmy z tekstu pobranego ze strony` https://www.wordfrequency.info/

`Syntetyczne dane z kolei powstały z naszego modelu który generuje błędy w wyrażeniu - model powstał ten z braku dostatecznie dużej liczby rzeczywistych danych otagowanych - szczególnie jeżeli chodzi o wyrażenia skłające się wielu słów. Model jest modyfikacją generatora ukazanego w artukule Petera Norviga o spellcheckerze, poprzez nałozenie na niego więzów, dlatego że uważamy iż błędy nie są robione w sposób losowy. Nasz generator tworzy jedynie literówki powstałe wskutek zamiany znaku, pominiecia, dodania lub zamiany dwóch sasiednich znaków w wyrażeniu, ale w obrębie znaku który miał być wybrany. Liczba błędów w wyrażeniu jest generowana ze zmodyfikowanego rozkładu Benforda` https://pl.wikipedia.org/wiki/Rozk%C5%82ad_Benforda, `poprzez obserwację jakości generowanych błędów. Natomiast miejsce literówek brane jest z rozkładu jednostajnego.
Na model ten następnie nałóżyliśmy ograniczenie by zachowywał stałą liczbę tokenów w wyrażeniach. Tego modelu użyliśmy podczas generowania. `

`Dane które postanowiliśmy potraktować naszym generatorem sciągneliśmy z` http://opus.nlpl.eu/OpenSubtitles2016.php. `Są to dialogi z napisów do filmów.
Te dane po przeprocessowaniu posłużyły do trenowania wyżej wymienionej sieci neurowej, jak i ponownym sprawdzeniu wyników dla modeli nie-neuronowych.
Dane te posłużyły nam również do wygenerowanie bi-gramów i tri-gramów.`


`Sprawdzamy dokładność (accuracy), oraz czas obliczeń modeli.`

## Problem

    `Widząc słowo w pewnych okolicznosciach, należy wskazać jego poprawną wersje, jeżeli jest błedne, w przeciwnym przypadku pozostawić je takie jakie jest.
    Oto sformalizowany zapis problemu:`

\begin{equation*}
P(c \mid O(w))
\end{equation*}

`...co czytamy jako` <b>`Prawdopodobienstwo że chodziło o`</b> $c$ <b>`jeżeli zaobserwowano`</b> $w$ <b>`w pewnym otoczeniu`</b> $O$.

## Data Presentation

In [1]:
import sys
from pandas import read_csv
sys.path.insert(0, 'code')
from context_approach_C import ContextApproach
from validation_utils import compare, get_accuracy, get_test_data
from preprocessing import get_words_from_text, get_words_with_freq_from_text, file_filter

#### Vocab

In [2]:
PATH_TO_VOCABULARY = "data/text.txt"
freq_vocab = get_words_with_freq_from_text(PATH_TO_VOCABULARY)
freq_vocab

Counter({'Provance': 1,
         'depends': 19,
         'unsealed': 2,
         'Flirty': 1,
         'voiceover': 1,
         'Tripp': 1,
         'mange': 1,
         'trading': 102,
         'condemned': 35,
         'Nassim': 1,
         'EPIRA': 1,
         'swimwear': 1,
         'SchoolsThis': 1,
         'beach': 33,
         'synonimous': 1,
         'hazing': 10,
         'yep': 1,
         'demo': 15,
         'supplied': 22,
         'philosophical': 2,
         'Mandheling': 1,
         'Toberlone': 1,
         'Badal': 3,
         'pellet': 7,
         'serious': 215,
         'Bolts': 1,
         'Ziegfeld': 1,
         'Cahinhinan': 1,
         'illusion': 1,
         'Olympians': 8,
         'Lean': 4,
         'becomes': 85,
         'quinella': 1,
         'Ring': 3,
         'Yeager': 8,
         'Marble': 1,
         'LOVE': 3,
         '2291243': 1,
         'pairs': 17,
         'distasteful': 2,
         'Seattleite': 1,
         'Tallgrass': 2,
         'Drown

#### Real data

In [3]:
TEST_DATA_PATH = "data/aspell-60_6-normal.txt"
test_data = get_test_data(TEST_DATA_PATH, "\t")
test_data[:10]

[('archetect', 'architect'),
 ('xenophoby', 'xenophobia'),
 ('meerkrat', 'meerkat'),
 ('fundametals', 'fundamentals'),
 ('feromone', 'pheromone'),
 ('compatiable', 'compatible'),
 ('harases', 'harasses'),
 ('peice', 'piece'),
 ('theif', 'thief'),
 ('eventially', 'eventually')]

#### Bi-grams

In [4]:
PATH_TO_BI_GRAMS = "data/bigrams_final_encoded.pkl"
context_bi = ContextApproach(load_bi_grams_path=PATH_TO_BI_GRAMS)
context_bi.bi_grams

defaultdict(<function preprocessing.a()>,
            {'alden': defaultdict(int,
                         {"'": 0.2857142857142857,
                          None: 0.14285714285714285,
                          'once': 0.14285714285714285,
                          'still': 0.14285714285714285,
                          'to': 0.14285714285714285,
                          'will': 0.14285714285714285}),
             'swimwear': defaultdict(int,
                         {',': 0.05128205128205128,
                          None: 0.48717948717948717,
                          'ad': 0.02564102564102564,
                          'and': 0.05128205128205128,
                          'campaign': 0.02564102564102564,
                          'designer': 0.05128205128205128,
                          'designs': 0.02564102564102564,
                          'does': 0.02564102564102564,
                          'for': 0.02564102564102564,
                          'is': 0.05128205128205128,
  

##### `Struktura tri-gramu jest identyczna, jedynie rozszerzona o kolejny stopień w drzewie, więc nie zamierzamy jej pokazywać by oszczędzić miejsce.`

#### Bi-grams syntetic data

In [5]:
PATH_TO_BI_GRAMS_TEST_DATA = "data/bi_grams_test_data.csv"
bi_grams_test_data = read_csv(PATH_TO_BI_GRAMS_TEST_DATA)
bi_grams_test_data.head(n=10)

Unnamed: 0,typo_with_context,valid
0,contempt frlm,from
1,contempt aloje,alone
2,halt thks,this
3,halt yojr,your
4,innocent fridnd,friend
5,innocent foreger,forever
6,innocent ksoul,soul
7,innocent hsuspect,suspect
8,innocent thst,that
9,innocent bback,back


##### `Dane dla tri-gramu są identyczne, jedynie rozszerzone o dodatkowe słowo, poprzedzające słowo z wygenerowaną literówką, tworzące kontekst.`

#### Open Subtitles 2016

In [6]:
PATH_TO_OPEN_SUBTITLES_TRAIN_DATA = "data/Open_subtitles_train_data.txt"
open_subtitles_train_data = read_csv(PATH_TO_OPEN_SUBTITLES_TRAIN_DATA, sep="@")
open_subtitles_train_data.head(n=10)

Unnamed: 0,Welcome tot the twilight zone,Welcome to the twilight zone
0,For lisa's kmost important run of,For lisa's most important run of
1,I think I'n ready to ikind of Step up the game...,I think I'm ready to kind of Step up the game ...
2,Down. I'm nott here to make friends,Down. I'm not here to make friends
3,Smashes ibto atigun dpass. I'm gonna get this ...,Smashes into atigun pass. I'm gonna get this t...
4,For the cafsh into a fight for,For the cash into a fight for
5,"We're at the eye of the Storm, tye mouth of th...","We're at the eye of the Storm, the mouth of th..."
6,"Alex debogprski is headeed south On the vast, ...","Alex debogorski is headed south On the vast, o..."
7,Weather hanges quickly across The flat planes....,Weather changes quickly across The flat planes...
8,"Row, alex finds himself in the","Row, alex finds himself in the"
9,Middle of a blinding snowstorm,Middle of a blinding snowstorm
