## Tworzenie error model - 25.05.2019

In [1]:
import pickle
from collections import defaultdict
import string
import pandas as pd
import numpy as np
import copy

Operacje jakie będę wykonywał. Logika według artykułu Kernighan 1990:

1. Deletion:

Badam `correction`. Interesujące mnie litery to ta, która stoi przed usuwaną (`correction[nums[0]-1]`) oraz ta usunięta (`correction[nums[0]]`). Jeżeli `nums[0] == 0` wtedy nie będzie litery przed nią, więc zwracam `(#, correction[nums[0]])`.

2. Insertion

Badam jednocześnie `correction` i `error`. Litery, które mnie interesują to `correction[nums[0]]` oaz `error[nums[1]]`.

3. Substitution (replace)

Badam jednocześnie `correction` i `error`. Litery, które mnie interesują to `error[nums[0]]` oraz `correction[nums[0]]`.

4. Reversal

Badam tylko `correction`. Litery, które mnie interesują to `correction[nums[1]]` oraz `correction[nums[0]]`.

In [2]:
# pamiętaj o użyciu axis = 1
def create_column_with_letters(nums, basic_type, error, correction):
    if basic_type == 'insert':
        return (correction[nums[0]], error[nums[1]])
    elif basic_type == 'delete':
        try:
            return (correction[nums[0]-1], correction[nums[0]])
        except:
            return ('#', correction[nums[0]])
    elif basic_type == 'replace':
        try:
            return (correction[nums[0]], error[nums[0]])
        except:
            print(error, correction)
            return None
    else:
        # transposition
        return (correction[nums[1]], correction[nums[0]])

Ładuję dane podzielone (na treningowe i testowe):

In [3]:
with open('../pickles/test_train.dat', 'rb') as file:
    train_test_list = pickle.load(file)

In [4]:
X_train = train_test_list[0]
y_train = train_test_list[2]

In [5]:
X_train.head()

Unnamed: 0,text_with_error,corrected_text,is_valid_sentence,error,type,dist,category,file,basic_type_operation,nums,correction
119,Pod koniec tego samego roku przszło na świat d...,Pod koniec tego samego roku przyszło na świat ...,True,przszło,nonword,1,pisownia,plewic.01.0427.yaml,delete,"(3, 3)",przyszło
296,Zna powiązania Eliasza z mesjanistycznymi ocze...,Zna powiązania Eliasza z mesjanistycznymi ocze...,True,"wię,",nonword,1,znaki diakrytyczne,plewic.01.0040.yaml,replace,"(2, 2)","wie,"
441,"Na początku cala okolica byla osobną wioską, s...","Na początku cała okolica była osobną wioską, s...",True,cala,realword,1,znaki diakrytyczne/kontekst,plewic.01.0026.yaml,replace,"(2, 2)",cała
440,"Była więc to działalnośc analogiczna do tej, k...","Była więc to działalność analogiczna do tej, k...",True,działalnośc,nonword,1,znaki diakrytyczne,plewic.04.0067.yaml,replace,"(10, 10)",działalność
26,Kościół posiada nawę z dwoma podcieniami i cen...,Kościół posiada nawę z dwoma podcieniami i cen...,True,podwyzszonym,nonword,1,znaki diakrytyczne,plewic.01.0036.yaml,replace,"(5, 5)",podwyższonym


In [6]:
X_train['letter_pairs'] = X_train[['nums', 'basic_type_operation', 'error', 'correction']].apply(lambda x: create_column_with_letters(*x), axis=1)
X_train.head()

sa ! 'są:'
sa ! 'są:'


Unnamed: 0,text_with_error,corrected_text,is_valid_sentence,error,type,dist,category,file,basic_type_operation,nums,correction,letter_pairs
119,Pod koniec tego samego roku przszło na świat d...,Pod koniec tego samego roku przyszło na świat ...,True,przszło,nonword,1,pisownia,plewic.01.0427.yaml,delete,"(3, 3)",przyszło,"(z, y)"
296,Zna powiązania Eliasza z mesjanistycznymi ocze...,Zna powiązania Eliasza z mesjanistycznymi ocze...,True,"wię,",nonword,1,znaki diakrytyczne,plewic.01.0040.yaml,replace,"(2, 2)","wie,","(e, ę)"
441,"Na początku cala okolica byla osobną wioską, s...","Na początku cała okolica była osobną wioską, s...",True,cala,realword,1,znaki diakrytyczne/kontekst,plewic.01.0026.yaml,replace,"(2, 2)",cała,"(ł, l)"
440,"Była więc to działalnośc analogiczna do tej, k...","Była więc to działalność analogiczna do tej, k...",True,działalnośc,nonword,1,znaki diakrytyczne,plewic.04.0067.yaml,replace,"(10, 10)",działalność,"(ć, c)"
26,Kościół posiada nawę z dwoma podcieniami i cen...,Kościół posiada nawę z dwoma podcieniami i cen...,True,podwyzszonym,nonword,1,znaki diakrytyczne,plewic.01.0036.yaml,replace,"(5, 5)",podwyższonym,"(ż, z)"


In [23]:
X_train.loc[X_train['letter_pairs'].isna()]

Unnamed: 0,text_with_error,corrected_text,is_valid_sentence,error,type,dist,category,file,basic_type_operation,nums,correction,letter_pairs
367,! 'Specjalnymi przypadkami kwintesecji sa ener...,! 'Specjalnymi przypadkami kwintesecji są: ene...,False,sa,nonword,1,znaki diakrytyczne,plewic.01.0140.yaml,replace,"(2, -1)",! 'są:',
457,Bohaterami filmu sa bezdomny zakochany w młodo...,! 'Bohaterami filmu są: bezdomny zakochany w m...,True,sa,nonword,1,znaki diakrytyczne,plewic.08.0067.yaml,replace,"(2, -1)",! 'są:',


Usuwam te dwa wiersze:

In [7]:
X_train.drop(367, inplace=True)
X_train.drop(457, inplace=True)

In [8]:
X_train['basic_type_operation'].unique()

array(['delete', 'replace', 'insert', 'transpose'], dtype=object)

## Tabela pusta

Tworzę pustą tabelę, która będzie wypełniona zerami. Tabela dla *del* oraz *add* musi mieć dodatkowo wiersz na znak pusty (czyli 33 wiersze na 32 kolumny). Na razie tworzę słownik par liter, gdzie pierwsza litera oznacza wiersz, natomiast druga litera to oznaczenie kolumny.

In [9]:
del_dict = defaultdict(int)
add_dict = defaultdict(int)
sub_dict = defaultdict(int)
rev_dict = defaultdict(int)

def create_dict_as_matrix(basic_type_operation, letter_pairs):
    global del_dict
    global add_dict
    global sub_dict
    global rev_dict
    
    # first letter - row, second letter - column
    row_column = "".join(letter_pairs)
    
    # to lower
    row_column = row_column.lower()
    
    
    # filter out punctuations
    punctuation_set = set(string.punctuation)
    punctuation_in_row_column = set(row_column).intersection(punctuation_set)
    if punctuation_in_row_column:
        return None
    
    # filter out non-Polish letters
    polish_letters = 'aąbcćdeęfghijklłmnńoóprsśtuwyzźż'
    non_polish_letters = set(row_column) - set(polish_letters)
    if non_polish_letters:
        return None
    
    if basic_type_operation == 'delete':
        del_dict[row_column] += 1
    elif basic_type_operation == 'insert':
        add_dict[row_column] += 1
    elif basic_type_operation == 'replace':
        sub_dict[row_column] += 1
    else:
        # transposition
        rev_dict[row_column] += 1
    return None

In [10]:
X_train[['basic_type_operation', 'letter_pairs']].apply(lambda x: create_dict_as_matrix(*x), axis=1)

119    None
296    None
441    None
440    None
26     None
       ... 
447    None
245    None
165    None
473    None
468    None
Length: 402823, dtype: object

In [11]:
ops_count_dict = {'del': del_dict, 'add': add_dict, 'rev': rev_dict, 'sub': sub_dict}

In [12]:
with open('../pickles/ops_count_dict.p', 'wb') as file:
    pickle.dump(ops_count_dict, file, protocol=pickle.HIGHEST_PROTOCOL)

Tworzę macierze, które będę mógł pokazać na slajdach:

In [13]:
polish_letters_extended = 'aąbcćdeęfghijklłmnńoóprsśtuwyzźż' + 'qxv'
polish_letters_extended_pound = polish_letters_extended + '#'
# polish_letters_extended = polish_letters + '#' + 'qxv'
len(polish_letters_extended)

35

Dostęp do ramki danych jest przez `df['col']['row']`, a pary liter (klucze) w słowniku mam zapisane jako `rowcolumn`

Wersja `extended` jest dla macierzy *del* oraz *add*.

In [14]:
zero_data_extended = np.zeros(shape=(len(polish_letters_extended_pound), len(polish_letters_extended)))
zero_data = np.zeros(shape=(len(polish_letters_extended), len(polish_letters_extended)))

In [15]:
del_matrix = pd.DataFrame(copy.deepcopy(zero_data_extended), columns=list(polish_letters_extended), index=list(polish_letters_extended_pound))
for letters, count in del_dict.items():
    del_matrix[letters[1]][letters[0]] += count

In [16]:
add_matrix = pd.DataFrame(copy.deepcopy(zero_data_extended), columns=list(polish_letters_extended), index=list(polish_letters_extended_pound))
for letters, count in add_dict.items():
    add_matrix[letters[1]][letters[0]] += count

In [17]:
sub_matrix = pd.DataFrame(copy.deepcopy(zero_data), columns=list(polish_letters_extended), index=list(polish_letters_extended))
for letters, count in sub_dict.items():
    sub_matrix[letters[1]][letters[0]] += count

In [18]:
rev_matrix = pd.DataFrame(copy.deepcopy(zero_data), columns=list(polish_letters_extended), index=list(polish_letters_extended))
for letters, count in rev_dict.items():
    rev_matrix[letters[1]][letters[0]] += count

Zmieniam typ liczb z float na int (żeby były czytelniejsze):

In [19]:
del_matrix = del_matrix.astype(int)
add_matrix = add_matrix.astype(int)
sub_matrix = sub_matrix.astype(int)
rev_matrix = rev_matrix.astype(int)

In [21]:
add_matrix.to_csv('../csv_files/add_matrix.csv', index=True)
del_matrix.to_csv('../csv_files/del_matrix.csv', index=True)
sub_matrix.to_csv('../csv_files/sub_matrix.csv', index=True)
rev_matrix.to_csv('../csv_files/rev_matrix.csv', index=True)

Zapisuję ramki danych do pickle:

In [22]:
add_matrix.to_pickle('../pickles/add_matrix.p')

In [23]:
del_matrix.to_pickle('../pickles/del_matrix.p')

In [24]:
sub_matrix.to_pickle('../pickles/sub_matrix.p')

In [25]:
rev_matrix.to_pickle('../pickles/rev_matrix.p')