In [1]:
import pickle
import pandas as pd
import sys
import time

Ładowanie pliku z błędami:

In [2]:
with open("../pickles/plewic_files_as_lists.p", 'rb') as input_pickle:
     revision_files = pickle.load(input_pickle)

`revision_files` jest to słownik. Klucz to nazwa pliku `.yaml`, natomiast jako wartość mamy listę błędów w danym pliku `.yaml`. Każdy błąd reprezentowany jest przez słownik:

In [4]:
revision_files['plewic.09.0138.yaml']

[{'text': 'Zawody odbywać się będą na torze olimpijskim w Igls, położonym około 4 km na południe od Innsbrucku, miasta-organizatora ZIOM 2012.',
  'new_text': 'Zawody odbywać się będą na torze olimpijskim w Igls, położonym około 4 km na południe od Innsbrucka, miasta-organizatora ZIOM 2012.',
  'valid_sentence': True,
  'errors': [{'error': 'Innsbrucku,',
    'correction': 'Innsbrucka,',
    'position': '16',
    'attributes': {'type': 'realword',
     'distance': '1',
     'category': 'fleksja'}}]},
 {'text': 'Ślizg Dziewczyn Skeleton na Zimowych Igrzyskach Olimpijskich Młodzieży 2012 - ślizg dziewczyn',
  'new_text': 'Ślizg Dziewcząt Skeleton na Zimowych Igrzyskach Olimpijskich Młodzieży 2012 - ślizg dziewcząt',
  'valid_sentence': False,
  'errors': [{'error': 'Dziewczyn',
    'correction': 'Dziewcząt',
    'position': '1',
    'attributes': {'type': 'realword',
     'distance': '2',
     'category': 'semantyka/styl'}},
   {'error': 'dziewczyn',
    'correction': 'dziewcząt',
    'p

Kategorie błędów, które mnie interesują to: `pisownia`, `znaki diakrytyczne`, `znaki diakrytyczne/kontekst`, `składnia`, `fleksja/liczba`. Dodatkowo ograniczam się do tych, które są w dystansie edycji co najwyżej 1.

In [8]:
col_names = ['text_with_error', 'corrected_text', 'is_valid_sentence', 'error', 'correction', 'type', 'dist', 'category', 'file']

error_df = pd.DataFrame(columns=col_names)
error_df

Unnamed: 0,text_with_error,corrected_text,is_valid_sentence,error,correction,type,dist,category,file


In [7]:
from IPython.display import clear_output

def update_progress(progress):
    bar_length = 20
    if isinstance(progress, int):
        progress = float(progress)
    if not isinstance(progress, float):
        progress = 0
    if progress < 0:
        progress = 0
    if progress >= 1:
        progress = 1
        
    block = int(round(bar_length * progress))

    clear_output(wait = True)
    text = "Progress: [{0}] {1:.1f}%".format( "#" * block + "-" * (bar_length - block), progress * 100)
    print(text)

## Podejście multi

Mam listę kluczy słownika:

In [5]:
revision_files.keys()

dict_keys(['plewic.09.0138.yaml', 'plewic.07.0053.yaml', 'plewic.07.0019.yaml', 'plewic.01.0191.yaml', 'plewic.03.0025.yaml', 'plewic.01.0158.yaml', 'plewic.04.0019.yaml', 'plewic.09.0110.yaml', 'plewic.01.0095.yaml', 'plewic.09.0054.yaml', 'plewic.07.0129.yaml', 'plewic.03.0101.yaml', 'plewic.06.0005.yaml', 'plewic.09.0087.yaml', 'plewic.02.0120.yaml', 'plewic.03.0085.yaml', 'plewic.01.0247.yaml', 'plewic.02.0071.yaml', 'plewic.01.0224.yaml', 'plewic.01.0111.yaml', 'plewic.09.0023.yaml', 'plewic.03.0046.yaml', 'plewic.07.0005.yaml', 'plewic.01.0261.yaml', 'plewic.06.0037.yaml', 'plewic.01.0117.yaml', 'plewic.08.0007.yaml', 'plewic.04.0010.yaml', 'plewic.01.0104.yaml', 'plewic.01.0013.yaml', 'plewic.05.0051.yaml', 'plewic.01.0040.yaml', 'plewic.04.0023.yaml', 'plewic.01.0419.yaml', 'plewic.03.0029.yaml', 'plewic.08.0097.yaml', 'plewic.01.0323.yaml', 'plewic.03.0043.yaml', 'plewic.07.0057.yaml', 'plewic.08.0090.yaml', 'plewic.03.0016.yaml', 'plewic.01.0273.yaml', 'plewic.04.0089.yaml', 

Chcę, żeby każdy z procesorów dostał część tych kluczy i wykonał zadanie (funkcję).

In [3]:
def get_error_dataframe(key):
    """
    Return a dataframe that consists of row - one for each error.
    Key represents one .yaml file.
    """
    categories_to_keep = set(["pisownia", "znaki diakrytyczne", "znaki diakrytyczne/kontekst", "składnia", "fleksja/liczba"])
    
    col_names = ['text_with_error', 'corrected_text', 'is_valid_sentence', 'error', 'correction', 'type', 'dist', 'category', 'file']
    error_df = pd.DataFrame(columns=col_names)
    
    row_to_insert = dict()
    row_to_insert['file'] = key
    for revision in revision_files[key]:
        # revision is a dictionary
        row_to_insert['text_with_error'] = revision['text']
        row_to_insert['corrected_text'] = revision['new_text']
        row_to_insert['is_valid_sentence'] = revision['valid_sentence']
        for error_dict in revision['errors']:
            # one revision may hold multiple revisions
            error_category = error_dict['attributes']['category']
            if error_category in categories_to_keep:
                row_to_insert['error'] = error_dict['error']
                row_to_insert['correction'] = error_dict['correction']
                row_to_insert['type'] = error_dict['attributes']['type']
                row_to_insert['dist'] = error_dict['attributes']['distance']
                row_to_insert['category'] = error_category
                # add row to the dataframe
                error_df.loc[len(error_df)] = row_to_insert
    return error_df

In [19]:
few_keys = list(revision_files.keys())[:15]

Podejście asynchroniczne:

In [4]:
import multiprocessing as mp

t0 = time.time()
pool = mp.Pool(processes=6)

results = [pool.apply_async(get_error_dataframe, args=(file_name,)) for file_name in revision_files.keys()]

big_data_frame = pd.concat([res.get() for res in results], axis=0)
t1 = time.time()

total_async = t1- t0
print(total_async)

401.48740005493164


In [5]:
big_data_frame.shape

(609572, 9)

In [None]:
big_data_frame.reset_index(drop=True)

In [13]:
with open("./pickles/chosen_errors.p", "wb") as file:
    pickle.dump(big_data_frame, file, protocol=pickle.HIGHEST_PROTOCOL)