In [1]:
import pandas as pd
from helpers.text_preprocessing import en_tokenize, cz_tokenize
from helpers.corpus_creation import build_vocab, interleave_tokens, simple_join_tokens, save_vocab, print_corpus_stats

In [2]:
CORPUS_PATH = 'corpus/ufal/'

In [3]:
df = pd.read_csv(CORPUS_PATH + "ufal.csv")

# Uložení cz a en tokenů

In [4]:
df['EN_tokens'] = df['EN'].map(lambda x: en_tokenize(x))
df['CZ_tokens'] = df['CZ'].map(lambda x: cz_tokenize(x))
df

Unnamed: 0,ID,EN,CZ,EN_tokens,CZ_tokens
0,0,Part-of-speech (POS) tagging is sometimes cons...,Značkování slovními druhy (POS tagging) se v p...,"[po, tag, sometim, consid, almost, solv, probl...","[značkován, slovn, druh, pos, tagging, počítač..."
1,1,Sentiment analysis or automatic extraction of ...,Sentiment analysis neboli automatická extrakce...,"[sentiment, analysi, automat, extract, subject...","[sentiment, analysis, nebol, automatick, extra..."
2,2,Ignite talk on automatic detection of emotions...,"Ignite talk na téma automatické detekce emocí,...","[ignit, talk, automat, detect, emot, basic, ap...","[ignit, talk, tém, automatick, detekk, emoc, z..."
3,3,"If well trained, computers can count emotions ...","Pokud mají dostatek trénovacích dat, umějí str...","[well, train, comput, count, emot, text, ironi]","[dostatek, trénovac, dat, uměj, stroj, rozpozn..."
4,4,"In this talk, we introduce the basic means of ...",V přednášce si představíme základní prostředky...,"[talk, introduc, basic, mean, express, emot, c...","[přednášk, představím, základn, prostředk, emo..."
...,...,...,...,...,...
236,236,We present a dataset of telephone conversation...,Prezentujeme sadu nahrávek telefonních hovorů ...,"[present, dataset, telephon, convers, english,...","[prezentujem, sad, nahrávek, telefonn, hovor, ..."
237,237,Vystadial 2013 ASR training scripts provides A...,Vystadial 2013 ASR trénovací skripty obsahují ...,"[vystadi, asr, train, script, provid, asr, tra...","[vystadial, asr, trénovac, skript, obsahuj, sk..."
238,238,Vystadial 2013 is a dataset of telephone conve...,Vystadial 2013 je databáze telefonních hovorů ...,"[vystadi, dataset, telephon, convers, czech, d...","[vystadial, databáh, telefonn, hovor, česk, vy..."
239,239,Vystadial 2013 is a dataset of telephone conve...,Vystadial 2013 je databáze telefonních hovorů ...,"[vystadi, dataset, telephon, convers, english,...","[vystadial, databáh, telefonn, hovor, anglic, ..."


In [5]:
df.to_csv('with_tokens.csv')

# Vytvoření slovníku

In [6]:
vocab = build_vocab(df)

In [7]:
save_vocab(vocab, CORPUS_PATH)

In [8]:
print_corpus_stats(df, vocab)

Paragraphs counts: 241
CZ tokens counts: 16396
EN tokens counts: 10539
Unique CZ tokens counts: 4364
Unique EN tokens counts: 1827


In [15]:
df.explode('EN_tokens')['EN_tokens'].value_counts().to_csv(CORPUS_PATH + 'en_freqs.csv')
df.explode('CZ_tokens')['CZ_tokens'].value_counts().to_csv(CORPUS_PATH + 'cz_freqs.csv')

# Vytvoření datasetu pro trénování w2v

In [13]:
interleaved = interleave_tokens(df)
interleaved

0        [značkován, po, slovn, tag, druh, sometim, pos...
1        [značkován, slovn, po, druh, tag, pos, sometim...
2        [značkován, slovn, druh, po, pos, tag, tagging...
3        [značkován, slovn, druh, pos, po, tagging, tag...
4        [značkován, slovn, druh, pos, tagging, po, poč...
                               ...                        
11241    [lehk, sloves, představujíc, určit, typ, kompl...
11242    [lehk, sloves, představujíc, určit, typ, kompl...
11243    [lehk, sloves, představujíc, určit, typ, kompl...
11244    [lehk, sloves, představujíc, určit, typ, kompl...
11245    [lehk, sloves, představujíc, určit, typ, kompl...
Length: 11246, dtype: object

In [14]:
interleaved.to_csv(CORPUS_PATH + "interleaved.csv")

In [25]:
simple_joined = simple_join_tokens(df)
simple_joined

Unnamed: 0,data
0,"[značkován, slovn, druh, pos, tagging, počítač..."
1,"[sentiment, analysis, nebol, automatick, extra..."
2,"[ignit, talk, tém, automatick, detekk, emoc, z..."
3,"[dostatek, trénovac, dat, uměj, stroj, rozpozn..."
4,"[přednášk, představím, základn, prostředk, emo..."
...,...
236,"[prezentujem, sad, nahrávek, telefonn, hovor, ..."
237,"[vystadial, asr, trénovac, skript, obsahuj, sk..."
238,"[vystadial, databáh, telefonn, hovor, česk, vy..."
239,"[vystadial, databáh, telefonn, hovor, anglic, ..."


In [None]:
simple_joined.to_csv(CORPUS_PATH + "simple_joined.csv")