In [12]:
import spacy
import pandas as pd

In [11]:
with open("../data/slk_newscrawl_2016_1M/slk_newscrawl_2016_1M-sentences.txt", "r", encoding="utf-8") as f:
    # read lines and split at tab, keep only second column
    slk_df = pd.DataFrame(
        [line.strip().split("\t")[1] for line in f.readlines()], columns=["sentence"]
    )
    display(slk_df.head())

Unnamed: 0,sentence
0,! 00:01 Nestrapnuj sa krcmovymi frajerinami a ...
1,"007iwb, platený diskuter, ktorý v každej debat..."
2,01:15 - tvoj mozog plný fekálií je schopný iba...
3,"01. apríl 2014, 07:18 Počet obetí zosuvu pôdy ..."
4,"01. apríl 2014, 14:33 Nora Mojsejová na slobode?"


In [13]:
# get example sized corpus
slk_df = slk_df.sample(n=100, random_state=42).reset_index(drop=True)
display(slk_df.head())
print(f"Slovak corpus size: {len(slk_df)} sentences")

Unnamed: 0,sentence
0,Zmeňte svoj životný štýl: TAKTO sa namotivujte...
1,Autodopravcovia napríklad žiadajú pozastaviť v...
2,Pomohla strýčkovi Samovi dokončiť projekt rozh...
3,Október s IKARom: Tajomstvo Budhovho úsmevu 26...
4,"Ale to neznamená, že sú preto menej bezpečné a..."


Slovak corpus size: 100 sentences


In [19]:
# Load Slovak model
nlp = spacy.load("sk_dep_web_md")

# Use nlp.pipe for fast batch processing
texts = slk_df["sentence"].astype(str).tolist()

tokens = []
for doc in nlp.pipe(texts, batch_size=50):
    tokens.append([token.text.lower() for token in doc])


slk_df["tokens"] = tokens
display(slk_df.head())

  with torch.cuda.amp.autocast(self._mixed_precision):


Unnamed: 0,sentence,tokens
0,Zmeňte svoj životný štýl: TAKTO sa namotivujte...,"[zmeňte, svoj, životný, štýl, :, takto, sa, na..."
1,Autodopravcovia napríklad žiadajú pozastaviť v...,"[autodopravcovia, napríklad, žiadajú, pozastav..."
2,Pomohla strýčkovi Samovi dokončiť projekt rozh...,"[pomohla, strýčkovi, samovi, dokončiť, projekt..."
3,Október s IKARom: Tajomstvo Budhovho úsmevu 26...,"[október, s, ikarom, :, tajomstvo, budhovho, ú..."
4,"Ale to neznamená, že sú preto menej bezpečné a...","[ale, to, neznamená, ,, že, sú, preto, menej, ..."


In [20]:
# display 20 random example entries
display(slk_df.sample(n=20, random_state=42))

Unnamed: 0,sentence,tokens
83,"Fanúšikovia ""bieleho baletu"" po debakli žiadaj...","[fanúšikovia, "", bieleho, baletu, "", po, debak..."
53,Ponuky práce 6 alebo viac rokov na www.avizo.s...,"[ponuky, práce, 6, alebo, viac, rokov, na, www..."
70,Hned si aj odpoviem - ziadnu.,"[hned, si, aj, odpoviem, -, ziadnu, .]"
45,Sagan zarobil na Tour viac než polovicu celého...,"[sagan, zarobil, na, tour, viac, než, polovicu..."
44,"Fronc odhaduje, že zrušenie jednej málotriedne...","[fronc, odhaduje, ,, že, zrušenie, jednej, mál..."
39,V istom momente vzájomného konfliktu jedna z o...,"[v, istom, momente, vzájomného, konfliktu, jed..."
22,"Harabin chce v budúcnosti presadiť to, aby sa ...","[harabin, chce, v, budúcnosti, presadiť, to, ,..."
80,V druhom dejstve o 6 rokov staršia Ruska dosia...,"[v, druhom, dejstve, o, 6, rokov, staršia, rus..."
10,Nakaziť môžete aj partnera Tesnú bielizeň a te...,"[nakaziť, môžete, aj, partnera, tesnú, bielize..."
0,Zmeňte svoj životný štýl: TAKTO sa namotivujte...,"[zmeňte, svoj, životný, štýl, :, takto, sa, na..."


In [3]:
# preprocess Slovak data
'''
- convert to lowercase
- remove punctuation
- remove numbers
- remove extra whitespace
'''
slk_df['sentence'] = slk_df['sentence'].str.lower()
slk_df['sentence'] = slk_df['sentence'].str.replace(r'[^\w\s]', '', regex=True)
slk_df['sentence'] = slk_df['sentence'].str.replace(r'\d+', '', regex=True)
slk_df['sentence'] = slk_df['sentence'].str.replace(r'\s+', ' ', regex=True).str.strip()
display(slk_df.head())
slk_df.to_csv("../data/preprocessed/PROCESSED_slk_wikipedia_2021_300K-sentences.txt", index=False, header=False, sep='\t', encoding='utf-8')

Unnamed: 0,sentence
0,krátvšetky z týchto skladieb boli vydané pred ...
1,ráľ dárajavauš hovorí kráľovstvo ktoré našemu ...
2,máj kedy británia a francúzsko ukončili jedno ...
3,v takzvanom divadle obrazov presadzoval spojen...
4,miesto v uk či let me fly miesto v uk


In [11]:
# preprocess Turkish data
'''
- remove punctuation
- remove numbers
- remove extra whitespace
'''
tur_df['sentence'] = tur_df['sentence'].str.replace(r'[^\w\s]', '', regex=True)
tur_df['sentence'] = tur_df['sentence'].str.replace(r'\d+', '', regex=True)
tur_df['sentence'] = tur_df['sentence'].str.replace(r'\s+', ' ', regex=True).str.strip()
display(tur_df.head())
tur_df.to_csv("../data/preprocessed/PROCESSED_tur_news_2024_1M-sentences.txt", index=False, header=False, sep='\t', encoding='utf-8')

Unnamed: 0,sentence
0,çok düşük çok düşük bir büyüme
1,Kasım tarihinden itibaren geçerli olmak üzere ...
2,günü saat de Beşiktaş ilçesi Gayrettepe Mahall...
3,Adana YasinPoyraz firmasının et dönerinde deri...
4,yaş arası çocuklu annelere Anne Kart uygulamas...


In [4]:
# Preprocess English data
'''
- convert to lowercase
- remove punctuation
- remove numbers
- remove extra whitespace
'''
eng_df['sentence'] = eng_df['sentence'].str.lower()
eng_df['sentence'] = eng_df['sentence'].str.replace(r'[^\w\s]', '', regex=True)
eng_df['sentence'] = eng_df['sentence'].str.replace(r'\d+', '', regex=True)
eng_df['sentence'] = eng_df['sentence'].str.replace(r'\s+', ' ', regex=True).str.strip()
display(eng_df.head())
eng_df.to_csv("../data/preprocessed/PROCESSED_eng-simple_wikipedia_2021_300K-sentences.txt", index=False, header=False, sep='\t', encoding='utf-8')

Unnamed: 0,sentence
0,taking matters into their own hands men seekin...
1,coin struck only in proof
2,august november was a spanish artist
3,meters per second is a vector
4,and his music video were released on november st
