In [2]:
import pickle
import pandas as pd
from collections import defaultdict

## Statystyki dotyczące korpusu

Na korpus składa się tyle plików YAML:

In [3]:
!ls -l ./plewic-yaml | egrep '\.yaml$' | wc -l 

1348


# Struktura błędu

Każda edycja dotycząca poprawienia błędu jest zapisana w oddzielnym segmencie pliku tekstowego:

`text` poprzedza błędny zapis, natomiast `new_text` poprawiony zapis. `valid_sentence` oznacza (raczej) to czy zaobserwowano zdanie (`true`) czy równoważnik zdania (`false`). `type` odnosi się do tego czy analizowany błąd jest rzeczywistym słowem (`realword`) czy nieistniejącym (`nonword`).

## Kategorie błędów

Poniżej tworzę listę unikalnych wartości `category`:

In [2]:
stats = pickle.load(open("../pickles/stats_corpus.p", "rb"))

W korpusie wyróżnia się m.in. `valid_sentence`, czyli pełne zdania. Stanowią one:

In [4]:
stats['valid_sentence']/stats['total_sentences']

0.8509097441089537

Ramka danych dla poszczególnych kategorii:

In [5]:
categories = [category for category in stats['categories']]
counts = [stats['categories'][category] for category in stats['categories']]

In [6]:
category_count = {'category': categories, 'count': counts}

category_count_df = pd.DataFrame(data=category_count)

In [8]:
category_count_df

Unnamed: 0,category,count
0,fleksja,121188
1,semantyka/styl,4744
2,wielkość liter,220341
3,pisownia,328779
4,fleksja/czas,23552
5,pisownia/prawdopodobnie,27752
6,interpunkcja,308508
7,znaki diakrytyczne,202135
8,przyimek,56848
9,spójnik,24209


In [10]:
category_count_df.sort_values(by='count', ascending=False)

Unnamed: 0,category,count
3,pisownia,328779
6,interpunkcja,308508
2,wielkość liter,220341
7,znaki diakrytyczne,202135
10,nierozpoznany,156911
0,fleksja,121188
8,przyimek,56848
15,semantyka,50775
16,znaki diakrytyczne/kontekst,39488
5,pisownia/prawdopodobnie,27752


In [11]:
category_count_df.sort_values(by='count', ascending=False).to_csv('./plik.csv')

In [14]:
category_count_df.sort_values(by='count', ascending=False).to_latex('./tabelka.tex', index=False)

Błędy oznaczone przez kategorię `'pisownia'` to tak zwane literówki, np. 'nekiedy' zamiast 'niekiedy'. Sprawdzam jaki dystans edycji dla tej kategorii (spodziewam się 1 lub 2):

Wczytanie pliku, któr zawiera wszystkie poprawki w formie słownika:

In [3]:
revision_files = pickle.load(open("../pickles/plewic_files_as_lists.p", "rb"))

Długość słownika odpowiada liczbie plików `'plewic*'` w folderze:

In [4]:
len(revision_files)

1348

Przykładowy plik zapisany w postaci listy słowników, gdzie każdy słownik to jedna poprawka:

In [13]:
type(revision_files['plewic.09.0057.yaml'])

list

In [14]:
type(revision_files['plewic.09.0057.yaml'][0])

dict

Dla `valid_sentence` jest distance tzn. ile edycji trzeba dokonać, żeby przejść od błędu do poprawnego rozwiązania:

In [15]:
revision_files['plewic.09.0057.yaml'][4]

{'text': '仁徳天皇|Nintoku tennō -– 16. cesarz Japonii według tradycyjnego porządku dziedziczenia.',
 'new_text': '仁徳天皇|Nintoku tennō -– 16. cesarz Japonii, według tradycyjnego porządku dziedziczenia.',
 'valid_sentence': False,
 'errors': [{'error': 'Japonii',
   'correction': 'Japonii,',
   'position': '5',
   'attributes': {'category': 'interpunkcja'}}]}

In [16]:
revision_files['plewic.09.0057.yaml'][49]

{'text': 'Razem z nim przemieszczał się z miejsca na miejce i ukrywał.',
 'new_text': 'Razem z nim przemieszczał się z miejsca na miejsce i ukrywał.',
 'valid_sentence': True,
 'errors': [{'error': 'miejce',
   'correction': 'miejsce',
   'position': '8',
   'attributes': {'type': 'nonword',
    'distance': '1',
    'category': 'pisownia'}}]}

Sprawdzam jaką część literówek stanowią non-words oraz real-words:

In [17]:
distance_sum = defaultdict(int)
count = defaultdict(int)

max_distance = 0
max_distance_revision = {}

for filename, file_revision_list in revision_files.items():
    for revision_dict in file_revision_list:
        try:
            for error in revision_dict['errors']:
                if error['attributes']['category'] in ['pisownia', 'pisownia/prawdopodobnie']:
                    distance_sum[error['attributes']['type']] += int(error['attributes']['distance'])
                    if int(error['attributes']['distance']) > max_distance:
                        max_distance_revision = revision_dict
                    max_distance = max(int(error['attributes']['distance']), max_distance)
                    count[error['attributes']['type']] += 1
        except KeyError:
            print(filename)
            print(revision_dict)

Okazuje się, że w literówkach (błędy pisowni) występuje właściwie tylko nie-słowa (nonwords):

In [18]:
count

defaultdict(int, {'nonword': 356338, 'multiword': 81, 'unknown': 112})

Średni dystans edycji wynosi:

In [19]:
distance_sum['nonword']/count['nonword']

1.2127109654316968

Poniższy zmiana pokazuje, że niebezpiecznie jest uznawać kategorię `pisownia/prawdopodobnie` za `pisownia`. Aby temu zaradzić będę stosował warunek, że żeby zostać uznanym za `pisownia` będąc w `pisownia/prawdopodobnie` błąd musi mieć dystans edycji co najwyżej 2.

In [20]:
max_distance_revision

{'text': 'standard powinień określać mechanizmy autentykacji oraz szyfrowania w celu zapewnienia integralności systemu oraz ochrony danych przesyłanych przez użytkownika',
 'new_text': 'standard powinien określać mechanizmy uwierzytelniania oraz szyfrowania w celu zapewnienia integralności systemu oraz ochrony danych przesyłanych przez użytkownika',
 'valid_sentence': False,
 'errors': [{'error': 'powinień',
   'correction': 'powinien',
   'position': '1',
   'attributes': {'type': 'nonword',
    'distance': '1',
    'category': 'znaki diakrytyczne'}},
  {'error': 'autentykacji',
   'correction': 'uwierzytelniania',
   'position': '4',
   'attributes': {'type': 'nonword',
    'distance': '13',
    'category': 'pisownia/prawdopodobnie'}}]}

Realword errors należy szukać w innych kategoriach: `nierozpoznany`, `semantyka`, `pisownia/prawdopodobnie`:

In [21]:
distance_sum = defaultdict(int)
count = defaultdict(int)

max_distance = 0
max_distance_revision = {}

for filename, file_revision_list in revision_files.items():
    for revision_dict in file_revision_list:
        try:
            for error in revision_dict['errors']:
                if error['attributes']['category'] in ['semantyka']:
                    distance_sum[error['attributes']['type']] += int(error['attributes']['distance'])
                    if int(error['attributes']['distance']) > max_distance:
                        max_distance_revision = revision_dict
                    max_distance = max(int(error['attributes']['distance']), max_distance)
                    count[error['attributes']['type']] += 1
        except KeyError:
            print(filename)
            print(revision_dict)

In [22]:
distance_sum

defaultdict(int, {'realword': 84916})

In [23]:
count

defaultdict(int, {'realword': 50775})