# Count unique X-SAMPA syllables

In [1]:
%load_ext dotenv
%dotenv
import os

base_dir = os.getenv("WORKING_DIR")
os.chdir(base_dir)

In [2]:
from src.data_loader_and_saver import JSONDataLoaderAndSaver

data_loader = JSONDataLoaderAndSaver(base_dir, input_data_dir="src/data")

In [3]:
from src.kveta.sampa_syllable_parser import SampaSyllableParser

sampa_parser = SampaSyllableParser()

## All poems just 1 metre, no unknown metres

In [4]:
extension = "_one_metre_all_metres_recognized"

In [5]:
sampa_tokens = data_loader.load_data(f"train_sampa_tokens{extension}")
sampa_tokens[0]

train_sampa_tokens_one_metre_all_metres_recognized.json: loaded 40137 records.


[['tEc', 't_so', 'sE', 'h\\roznI', 'zlatEm', 'zaskvi:vaji:'],
 ['na', 'za:h\\onEx', 'sE', 'astrI', 'usmi:vaji:'],
 ['pP\\I', 'pl=nE:', 't_Si:SI', 'v', 'dobrE:m', 'rozmaru'],
 ['sI', 'do', 'kola', 'drux', 'z', 'druh\\Em', 'zaspi:vaji:'],
 ['o', 'kra:sni:x', 'J\\i:fka:x', 'ktErE:', 'kokEtJE'],
 ['vjEji:P\\Em', 'JadEr', 'vl=nu', 'ukri:vaji:'],
 ['o', 'zlati:x', 'slatki:x', 't_SasEx', 'mladoscI'],
 ['jES', 'nEli:tostJE', 's', 'la:sko_u', 'upli:vaji:'],
 ['o', 'polIpt_si:x', 'jIxS', 'sta:lE', 'mi:J', 'a', 'mi:J'],
 ['jES', 'jako', 'pr=vJi:', 'slatkE:', 'nEbi:vaji:'],
 ['o', 'rukavIt_Ska:x', 'stuSka:x', 'kadEP\\i:x'],
 ['jES', 'f', 'skP\\i:nka:x', 's', 'lIstI', 'la:skI', 'sEtli:vaji:'],
 ['o', 'vlasEx', 'proP\\i:dli:x', 'gdIs', 'tmavi:x', 'tEc'],
 ['jES', 'stP\\i:br=no_u', 'sE', 'vl=no_u', 'zaxvi:vaji:'],
 ['o', 'pi:sJi:x', 'ktErE:', 'f', 'sklonu', 'mladoscI'],
 ['tak', 'vEsElE:', 'juS', 'notI', 'nEmi:vaji:'],
 ['o', 'fSEm', 't_so', 'vadnE', 'lItski:x', 'losu:', 'h\\ro_u'],
 ['nat', 't_Si:m'

In [6]:
sampa_tokens = [token for poem in sampa_tokens for line in poem for token in line]
sampa_tokens[:10]

['tEc',
 't_so',
 'sE',
 'h\\roznI',
 'zlatEm',
 'zaskvi:vaji:',
 'na',
 'za:h\\onEx',
 'sE',
 'astrI']

In [7]:
len(sampa_tokens)

7240855

In [8]:
syllables = [syll for sampa in sampa_tokens for syll in sampa_parser.get_syllables(sampa)]
syllables[:10]

['tEc', 't_so', 'sE', 'h\\ro', 'znI', 'zla', 'tEm', 'za', 'skvi:', 'va']

In [9]:
len(syllables)

12400823

In [10]:
unique_syllables = set(syllables)
len(unique_syllables)

17197

In [11]:
list(unique_syllables)[:10]

['J\\Ej',
 'znoj',
 'rstvost',
 'stax',
 'bo:s',
 'zZh\\af',
 'ptmu',
 'rt_Si:n',
 'flE:m',
 'rsEm']

## All lines just 1 metre, no unknown metres

In [12]:
extension = "_one_metre_line_all_metres_recognized"

In [13]:
sampa_tokens = data_loader.load_data(f"train_sampa_tokens{extension}")
sampa_tokens[0]

train_sampa_tokens_one_metre_line_all_metres_recognized.json: loaded 41762 records.


[['mu:j', 'koJi:t_SEk', 'vrani:'],
 ['jako', 'malovani:'],
 ['h\\opsa', 'h\\Ejsa', 'h\\Ej'],
 ['noSkI', 'pjEknE:', 'zdvi:h\\a:'],
 ['uSIma', 'sI', 'stP\\i:h\\a:'],
 ['h\\opsa', 'h\\Ejsa', 'h\\Ej'],
 ['dlo_uh\\a:', 't_SErna:', 'h\\P\\i:va'],
 ['po', 'vjEtru', 'mu', 'spli:va:'],
 ['h\\opsa', 'h\\Ejsa', 'h\\Ej'],
 ['potkofkI', 'mu', 'zvoJi:'],
 ['jIskra', 'jIskru', 'h\\oJi:'],
 ['h\\opsa', 'h\\Ejsa', 'h\\Ej'],
 ['mu:j', 'koJi:t_Sku', 'vrani:'],
 ['jako', 'malovani:'],
 ['h\\opsa', 'h\\Ejsa', 'h\\Ej'],
 ['aS', 'cE', 'osEdla:mE'],
 ['kam', 'sE', 'poJ\\i:va:mE'],
 ['h\\opsa', 'h\\Ejsa', 'h\\Ej'],
 ['rozjEdEm', 'sE', 'f', 'polI'],
 ['pP\\Ez', 'h\\orI', 'a', 'dolI'],
 ['h\\opsa', 'h\\Ejsa', 'h\\Ej'],
 ['rozjEdEm', 'sE', 'lEtEm'],
 ['SIroSIri:m', 'svjEtEm'],
 ['h\\opsa', 'h\\Ejsa', 'h\\Ej'],
 ['ZEc', 'sE', 'rozjEdEmE'],
 ['kam', 'sE', 'rozjEt', 'xt_sEmE'],
 ['h\\opsa', 'h\\Ejsa', 'h\\Ej'],
 ['tak', 'mu:j', 'vrani:', 'koJI'],
 ['ac', 'sI', 'na:s', 'gdo', 'h\\oJi:'],
 ['h\\opsa', 'h\\Ejsa', 'h\\E

In [14]:
sampa_tokens = [token for poem in sampa_tokens for line in poem for token in line]
sampa_tokens[:10]

['mu:j',
 'koJi:t_SEk',
 'vrani:',
 'jako',
 'malovani:',
 'h\\opsa',
 'h\\Ejsa',
 'h\\Ej',
 'noSkI',
 'pjEknE:']

In [15]:
len(sampa_tokens)

7823727

In [16]:
syllables = [syll for sampa in sampa_tokens for syll in sampa_parser.get_syllables(sampa)]
syllables[:10]

['mu:j', 'ko', 'Ji:', 't_SEk', 'vra', 'ni:', 'ja', 'ko', 'ma', 'lo']

In [17]:
len(syllables)

13408524

In [18]:
unique_syllables = set(syllables)
len(unique_syllables)

17589

In [19]:
list(unique_syllables)[:10]

['J\\Ej',
 'znoj',
 'rstvost',
 'stax',
 'zZh\\af',
 'ptmu',
 'rt_Si:n',
 'flE:m',
 'rsEm',
 'J\\En']