In [1]:
import os

from datasets import load_dataset
from functools import partial

while "notebooks" in os.getcwd():
    os.chdir("..")

import gensim.parsing.preprocessing as gsp

from mim_nlp.preprocessing import (
    lemmatize,
    process_emojis,
    remove_urls,
    strip_multiple_emojis,
    strip_short_words,
    TextCleaner,
    token_usernames,
)

  from .autonotebook import tqdm as notebook_tqdm


# Loading an open-source dataset

In [2]:
dataset = load_dataset("allegro/summarization-polish-summaries-corpus")

100%|██████████| 3/3 [00:00<00:00, 813.38it/s]


In [3]:
texts = dataset["train"]["target"]

In [4]:
len(texts)

15598

# Define the preprocessing pipeline

In [5]:
def lowercase(x: str) -> str:
    return x.lower()

In [6]:
pipeline = [
    lowercase,
    token_usernames,
    gsp.strip_tags,
    remove_urls,
    process_emojis,
    gsp.strip_punctuation,
    gsp.strip_numeric,
    gsp.strip_multiple_whitespaces,
    partial(strip_short_words, minsize=3),
    strip_multiple_emojis,
    lemmatize,
]

In [7]:
text_cleaner = TextCleaner(pipeline=pipeline)

# Set the sample size

In [8]:
N = 10000
texts_sample = texts[:N]

# Run without multiprocessing

In [9]:
%%time
clean_texts = text_cleaner.clean_texts(texts_sample, multiprocessing=False)

# Run with multiprocessing

In [9]:
%%time
clean_texts = text_cleaner.clean_texts(texts_sample, multiprocessing=True)

CPU times: user 269 ms, sys: 223 ms, total: 492 ms
Wall time: 1min 27s


In [10]:
clean_texts[:5]

array(['wrzesień życie wejść reforma oświata więc niezbędny być wymiana wiele podręcznik wykaz książka dopuścić przez MEN nauka szkoła ukazać się dopiero pod koniec sierpień wydawnictwo szukać sposób zachęcić nauczyciel wybrać on podręcznik ten por nauczyciel niechętnie zmieniać podręcznik który uczyć teraz być to zmusić',
       'kasacja cel zapewnić obywatelon szeroki dostęp niezależny niezawisły sąd tym przypadek sąd najwyższy szczególność kasacja polegać szeroki włączyć instancyjny działalność orzeczniczy umacnić prawo zaufanie obywatel profesjonalizm przekładać się liczba odwołać orzeczenie sąd druga instancja nawet ten sprawa któych ładunek problematyka prawny nie uzasadniać wypowiedź wnosić kasacja oczekiwać niekorzystny dla on wynik sprawić prawo zostać zmienić gdyby jednak przy określać zasięg kasacja bracić pod uwaga wyłącznie społeczny zapotrzebowanie orzecznictwo dojść sytuacja niemożliwy przyjęcie zarówno wzgląd cel organizacja wymiar sprawiedliwość jak sam prawo obywatel 