In [1]:
!pip install spacy
!pip install num2words

[0mDefaulting to user installation because normal site-packages is not writeable
[0mDefaulting to user installation because normal site-packages is not writeable


In [2]:
!python -m spacy download de_core_news_sm

[0mDefaulting to user installation because normal site-packages is not writeable
Collecting de-core-news-sm==3.3.0
  Downloading https://github.com/explosion/spacy-models/releases/download/de_core_news_sm-3.3.0/de_core_news_sm-3.3.0-py3-none-any.whl (14.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m14.6/14.6 MB[0m [31m26.9 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('de_core_news_sm')


In [3]:
import os
import glob
import nemo.collections.asr as nemo_asr
import torch
import numpy as np
import ctc_decoders
import torchaudio
import soundfile as sf
import librosa
import pandas as pd
from num2words import num2words
import re

################################################################################
###          (please add 'export KALDI_ROOT=<your_path>' in your $HOME/.profile)
###          (or run as: KALDI_ROOT=<your_path> python <your_script>.py)
################################################################################



In [4]:
from processing.text_processor import preprocess_transcript_for_alignment, preprocess_transcript_for_sentence_split, split_to_sentences
from transcribing.stt_transcribe import get_stt_transcription, get_stt_probs

In [5]:
torch.random.manual_seed(0)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

print(torch.__version__)
print(device)

1.11.0
cuda


## Read true transcript
Read the text from the complete protocol provided by the parliament of canton Schwyz. After reading the text process everything and split the whole text into its sentences. 

In [6]:
PATH_TO_TRANSCRIPT = 'data/text_processed_2021-02-24.txt'

In [7]:
numeral_to_ordinal = {
    ' 1. ': ' erster ',
    ' 2. ': ' zweiter ',
    ' 3. ': ' dritter ',
    ' 4. ': ' vierter ',
    ' 5. ': ' fünfter ',
    ' 6. ': ' sechster ',
    ' 7. ': ' siebter ',
    ' 8. ': ' achter ',
    ' 9. ': ' neunter ',
    ' 10. ': ' zehnter ',
    ' 11. ': ' elfter ',
    ' 12. ': ' zwölfter ',
    ' 13. ': ' dreizehnter ',
    ' 14. ': ' vierzehnter ',
    ' 15. ': ' fünfzehnter ',
    ' 16. ': ' sechszehnter ',
    ' 17. ': ' siebzehnter ',
    ' 18. ': ' achtzehnter ',
    ' 19. ': ' neunzehnter ',
    ' 20. ': ' zwanzigster ',
    ' 21. ': ' einundzwanzigster ',
    ' 22. ': ' zweiundzwanzigster ',
    ' 23. ': ' dreiundzwanzigster ',
    ' 24. ': ' vierundzwanzigster ',
    ' 25. ': ' fünfundzwanzigster ',
    ' 26. ': ' sechsundzwanzigster ',
    ' 27. ': ' siebenundzwanzigster ',
    ' 28. ': ' achtundzwanzigster ',
    ' 29. ': ' neunundzwanzigster ',
    ' 30. ': ' dreissigster ',
    ' 31. ': ' einunddreissigster '
}

In [8]:
#TODO adjust for fifth, sixth ect.
with open(PATH_TO_TRANSCRIPT, encoding='utf-8') as f:
    transcript = f.read()
    transcript = preprocess_transcript_for_sentence_split(transcript)
    for key in numeral_to_ordinal.keys():
        transcript = transcript.replace(key, numeral_to_ordinal[key])
    transcript = transcript.replace('%','Prozent')
    transcript = transcript.replace('Mio.','Millionen')
    transcript = transcript.replace('Fr.','Franken')
    transcript = transcript.replace('KRP','Kantonsratpräsident')
    transcript = transcript.replace('KR','Kantonsrat')
    transcript = transcript.replace('Dr.','Doktor')
    transcript = transcript.replace('§§','Paragraph')
    transcript = transcript.replace('§','Paragraph')
    transcript = transcript.replace('Abs.','Absatz')
    transcript = transcript.replace('z. B.','zum Beispiel')
    transcript = re.sub(r"(\d+)", lambda x: num2words(int(x.group(0)), lang='de'), transcript)
    truth_sentences = split_to_sentences(transcript)

In [9]:
print(truth_sentences)

['Guten Morgen, geschätzte Damen und Herren Kantonsrätinnen, Kantonsräte, geschätzte Frau Landammann, geschätzte Herren Regierungsräte, liebe Vertreterinnen und Vertreter der Medien.', 'Ich begrüsse Sie recht herzlich zur ersten Sitzung im Jahr zweitausendeinundzwanzig.', 'Ich hoffe, Sie sind gut gerutscht – auch wenn es schon länger her ist und wahrscheinlich anders war als in anderen Jahren.', 'Ich komme zu den Mitteilungen:', 'Leider muss ich Ihnen drei Todesfälle bekannt geben.', 'Am fünfter Januar zweitausendeinundzwanzig ist alt Kantonsrat Adrian Dummermuth-Reichmuth aus Goldau verstorben.', 'Er nahm zweitausendsieben bis zum Legislaturwechsel im Sommer zweitausendzwanzig als CVP-Vertreter aus der Gemeinde Arth im Kantonsrat Einsitz.', 'Von zweitausendzwölf bis zweitausendfünfzehn war er Fraktionspräsident der CVP und von zweitausendsechzehn bis zweitausendachtzehn amtete er als Präsident der Kommission für Bildung und Kultur.', 'Ebenfalls am fünfter Januar zweitausendeinundzwanz

## Retrieve all audio files to later match with the corresponding text

In [10]:
PATH_TO_AUDIO = '/data/voice/SZ_parliament/raw/parts'

In [11]:
audio_files = glob.glob(os.path.join(PATH_TO_AUDIO, '*.wav'))
#print(audio_files)

For testing use a test file randomly extracted from one of the audio files

In [12]:
# set a single pregenerated file for testing
TEST_FILE = ['data/processed_0224_part2.wav']

## Transcription
Load and instantiate a pre-trained model from NVIDIA. In this case we use CTC decoding as output. 

In [13]:
# load model once
model = nemo_asr.models.EncDecCTCModel.from_pretrained(model_name="stt_de_quartznet15x5")

[NeMo I 2022-06-15 11:22:50 cloud:56] Found existing object /home/user/.cache/torch/NeMo/NeMo_1.8.2/stt_de_quartznet15x5/b82da4f9a238e099c0d94a6a0f7e8b4d/stt_de_quartznet15x5.nemo.
[NeMo I 2022-06-15 11:22:50 cloud:62] Re-using file from: /home/user/.cache/torch/NeMo/NeMo_1.8.2/stt_de_quartznet15x5/b82da4f9a238e099c0d94a6a0f7e8b4d/stt_de_quartznet15x5.nemo
[NeMo I 2022-06-15 11:22:50 common:747] Instantiating model from pre-trained checkpoint


[NeMo W 2022-06-15 11:22:51 modelPT:148] If you intend to do training or fine-tuning, please call the ModelPT.setup_training_data() method and provide a valid configuration file to setup the train data loader.
    Train config : 
    manifest_filepath: /raid/noneval.json
    sample_rate: 16000
    labels:
    - ' '
    - a
    - b
    - c
    - d
    - e
    - f
    - g
    - h
    - i
    - j
    - k
    - l
    - m
    - 'n'
    - o
    - p
    - q
    - r
    - s
    - t
    - u
    - v
    - w
    - x
    - 'y'
    - z
    - ä
    - ö
    - ü
    - ß
    batch_size: 32
    trim_silence: true
    max_duration: 16.7
    shuffle: true
    is_tarred: false
    tarred_audio_filepaths: null
    num_workers: 8
    pin_memory: true
    
[NeMo W 2022-06-15 11:22:51 modelPT:155] If you intend to do validation, please call the ModelPT.setup_validation_data() or ModelPT.setup_multiple_validation_data() method and provide a valid configuration file to setup the validation data loader(s). 
    V

[NeMo I 2022-06-15 11:22:51 features:259] PADDING: 16
[NeMo I 2022-06-15 11:22:51 features:276] STFT using torch


                    not been set for this class (WER). The property determines if `update` by
                    default needs access to the full metric state. If this is not the case, significant speedups can be
                    achieved and we recommend setting this to `False`.
                    We provide an checking function
                    `from torchmetrics.utilities import check_forward_no_full_state`
                    that can be used to check if the `full_state_update=True` (old and potential slower behaviour,
                    default for now) or if `full_state_update=False` can be used safely.
                    
    


[NeMo I 2022-06-15 11:22:53 save_restore_connector:209] Model EncDecCTCModel was successfully restored from /home/user/.cache/torch/NeMo/NeMo_1.8.2/stt_de_quartznet15x5/b82da4f9a238e099c0d94a6a0f7e8b4d/stt_de_quartznet15x5.nemo.


Retrieve the transcript of the given audio sequence

In [14]:
stt_output = get_stt_transcription(model, TEST_FILE)

Transcribing:   0%|          | 0/1 [00:00<?, ?it/s]

In [15]:
#print(stt_output)

For comparison we attach the actual true transcript of the given sequence

In [16]:
#true_transcript = "die zur Verfügung stehenden Mittel fair aufgeteilt werden, um sämtliche Unternehmen unterstützen zu können, die jetzt dringend unsere Hilfe brauchen. Zu erwähnen ist auch, dass bei vielen betroffenen Unternehmen die Personalkosten durch die Kurzarbeitsentschädigung oder durch die Corona-Erwerbsersatzentschädigung seit März 2020 gedeckt"

In [17]:
#print(true_transcript)

In [18]:
!pip install biopython

[0mDefaulting to user installation because normal site-packages is not writeable


## TODO
Implement the start and end point detection for each sentence, then pass it along to the sentence aligner

Get the probabilities for each token in the transcript

In [19]:
def get_stt_probs(model, file):
    logits = model.transcribe(paths2audio_files=file, logprobs=True)[0]
    probs = softmax(logits)
    return probs

def get_stt_logits(model, file):
    logits = model.transcribe(paths2audio_files=file, logprobs=True)[0]
    return logits

def softmax(logits):
    e = np.exp(logits - np.max(logits))
    return e / e.sum(axis=-1).reshape([logits.shape[0], 1])

In [20]:
stt_probs = get_stt_probs(model, TEST_FILE)

Transcribing:   0%|          | 0/1 [00:00<?, ?it/s]

In [21]:
stt_logits = get_stt_logits(model, TEST_FILE)

Transcribing:   0%|          | 0/1 [00:00<?, ?it/s]

In [22]:
#print(stt_logits)

## Timestep extraction
Define the duration of a timestep 

In [23]:
# 40ms is duration of a timestep at output of the model
time_stride = 0.02

Get the model's alphabet and replace unknown token with 'space'

In [24]:
labels = list(model.cfg.decoder.vocabulary) + ['blank']
labels[0] = 'space'

In [25]:
print(labels)

['space', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'ä', 'ö', 'ü', 'ß', 'blank']


In [26]:
try:
    from plotly import graph_objects as go
except ModuleNotFoundError:
    !pip install plotly
    from plotly import graph_objects as go

In [27]:
'''
# plot probability distribution over characters for each timestep
fig_probs = go.Figure(
    go.Heatmap(z=stt_probs.transpose(),
               colorscale=[
                   [0, 'rgb(30,62,62)'],
                   [1, 'rgb(30,255,30)'],
               ],
               y=labels,
               dx=time_stride,
               name='Probs',
               hovertemplate='Time: %{x:.2f} s<br>Character: %{y}<br>Probability: %{z:.2f}<extra></extra>'),
    layout={
        'height': 300,
        'xaxis': {'title': 'Time, s'},
        'yaxis': {'title': 'Characters'},
        'title': 'Character Probabilities',
        'margin': dict(l=0, r=0, t=40, b=0, pad=0),
    }
)
fig_probs.show()
'''

"\n# plot probability distribution over characters for each timestep\nfig_probs = go.Figure(\n    go.Heatmap(z=stt_probs.transpose(),\n               colorscale=[\n                   [0, 'rgb(30,62,62)'],\n                   [1, 'rgb(30,255,30)'],\n               ],\n               y=labels,\n               dx=time_stride,\n               name='Probs',\n               hovertemplate='Time: %{x:.2f} s<br>Character: %{y}<br>Probability: %{z:.2f}<extra></extra>'),\n    layout={\n        'height': 300,\n        'xaxis': {'title': 'Time, s'},\n        'yaxis': {'title': 'Characters'},\n        'title': 'Character Probabilities',\n        'margin': dict(l=0, r=0, t=40, b=0, pad=0),\n    }\n)\nfig_probs.show()\n"

Extract timestamps for 'space' tokens

In [28]:
#print(np.argmax(stt_probs[6]))

In [29]:
#print(stt_probs[0])

In [30]:
#for i in range(0, stt_probs.shape[0]):
#    print(np.argmax(stt_probs[i]))

In [31]:
# get timestamps for space symbols
spaces = []

state = ''
idx_state = 0

if np.argmax(stt_probs[0]) == 0:
    state = 'space'

for idx in range(1, stt_probs.shape[0]):
    current_char_idx = np.argmax(stt_probs[idx])
    if state == 'space' and current_char_idx != 0 and current_char_idx != 31:
        spaces.append([idx_state, idx-1])
        state = ''
    if state == '':
        if current_char_idx == 0:
            state = 'space'
            idx_state = idx

if state == 'space':
    spaces.append([idx_state, len(stt_probs)-1])

In [32]:
print(labels[31])

blank


In [33]:
no_conf = []
char_argmax = []
char_probs = []

conf_state = ''
index_state = 0

for index in range(1, stt_probs.shape[0]):
    current_char_index = np.argmax(stt_probs[index])
    if conf_state == 'space' and current_char_index != 0 and current_char_index != 31:
        no_conf.append([index_state, index-1])
        conf_state = ''
    if conf_state == '':
        if current_char_index != 31:
            max_index = np.argmax(stt_probs[index])
            char_argmax.append(max_index)
            char_probs.append(stt_probs[index][max_index])
        if current_char_index == 0:
            conf_state = 'space'
            index_state = index


In [34]:
#print(char_probs)

In [35]:
vocab_dict = { i : labels[i] for i in range(0, len(labels), 1)}

In [36]:
print(vocab_dict)

{0: 'space', 1: 'a', 2: 'b', 3: 'c', 4: 'd', 5: 'e', 6: 'f', 7: 'g', 8: 'h', 9: 'i', 10: 'j', 11: 'k', 12: 'l', 13: 'm', 14: 'n', 15: 'o', 16: 'p', 17: 'q', 18: 'r', 19: 's', 20: 't', 21: 'u', 22: 'v', 23: 'w', 24: 'x', 25: 'y', 26: 'z', 27: 'ä', 28: 'ö', 29: 'ü', 30: 'ß', 31: 'blank'}


In [37]:
char_tokens = list(map(vocab_dict.get, char_argmax))

In [38]:
average_probs = []
current_prob = []
for idx, token in enumerate(char_tokens):
    if token != 'space':
        current_prob.append(char_probs[idx])
    if token == 'space':
        average_probs.append(np.mean(current_prob))
        current_prob = []
        
    

In [39]:
print(len(average_probs))

3520


In [40]:
#print(spaces)

In [41]:
#print(stt_output)

split audio signal into separate words

In [42]:
from IPython.display import Audio, display

In [43]:
#signal, sample_rate = librosa.load(TEST_FILE[0], sr=None)

In [44]:
#print(stt_output)

In [45]:
storage_words = list()
storage_start_time = list()
storage_end_time = list()

In [46]:
# calibration offset for timestamps: 180 ms
offset = -0.18

# split the transcript into words
words = stt_output.split()

# cut words
pos_prev = 0
for j, spot in enumerate(spaces):
    display(words[j])
    pos_end = offset + (spot[0]+spot[1])/2*time_stride
    #display(Audio(signal[int(pos_prev*sample_rate):int(pos_end*sample_rate)],
    #             rate=sample_rate))
    storage_words.append(words[j])
    storage_start_time.append(pos_prev)
    storage_end_time.append(pos_end)
    pos_prev = pos_end

#display(words[j+1])
#display(Audio(signal[int(pos_prev*sample_rate):],
#        rate=sample_rate))


'ich'

'mich'

'ridrale'

'eire'

'defte'

'päfraktion'

'unterstützt'

'abenfalls'

'schlosse'

'der'

'ersatz'

'und'

'der'

'wiedrigsbau'

'von'

'wonheim'

'phöenix'

'en'

'einsiedler'

'und'

'wihrt'

'die'

'usgaberbewelligung'

'itder'

'höfi'

'vor'

'elf'

'ko'

'nylnulreis'

'millionen'

'francre'

'eichtimigarne'

'danca'

'vemauworde'

'dich'

'friedri'

'drie'

'froaktionssprachendecucimerica'

'aspessim'

'suro'

'buticer'

'ctspräsident'

'ces'

'damem'

'und'

'herre'

'halte'

'mich'

'auchots'

'deen'

'vorredner'

'gongrum'

'uv'

'tetsas'

'kanton'

'pflichtetic'

'einen'

'uftstiftig'

'könig'

'phoenisenne'

'witerimilforräne'

'des'

'schuckmachtunds'

'witd'

'kommissionssprach'

'zum'

'nivealprojekt'

'zauber'

'es'

'entspricht'

'der'

'vorgabe'

'und'

'derfür'

'davorderige'

'aus'

'bruft'

'um'

'manche'

'mittere'

'ivlirität'

'ihne'

'bedürfnis'

'krachtswerte'

'und'

'darum'

'bitte'

'ec'

'sie'

'mit'

'amenterra'

'matraf'

'de'

'rgigsfolge'

'und'

'der'

'usgaubewilligung'

'zuestimmeng'

'böcstedank'

'für'

'aufmerksamkeitals'

'wote'

'viel'

'ver'

'fraktionsprachenderalf'

'schmi'

'schiburach'

'jazzepräsident'

'jessy'

'cantonsradin'

'und'

'cantonsrat'

'dephe'

'tsvp'

'fraktion'

'hat'

'grundlagen'

'en'

'dushührige'

'von'

'der'

'gjerigs'

'ruskaber'

'bewilligung'

'für'

'das'

'projekt'

'wurde'

'stifti'

'phoenix'

'in'

'einseelel'

'diskutiertdusganslarg'

'begründet'

'sich'

'um'

'sätzlichen'

'huftrag'

'dem'

'zufolk'

'wo'

'jeder'

'kanton'

'wahrleishte'

'das'

'in'

'verlidenpersonen'

'die'

'wohnsitz'

'in'

'seinem'

'gebiet'

'haben'

'ein'

'angebot'

'in'

'anninstatutionen'

'zur'

'verfügung'

'steht'

'dass'

'in'

'ihren'

'bedürfnissen'

'in'

'angemessener'

'weise'

'entspricht'

'hriften'

'königs'

'ignorarant'

'die'

'institution'

'für'

'betrük'

'forpsychische'

'ranke'

'personen'

'sie'

'betriebt'

'ja'

'bereits'

'hütsonheim'

'in'

'einseele'

'djetzige'

'debüt'

'in'

'einsieder'

'entsprached'

'nehmen'

'der'

'hütigenahwordrige'

'vor'

'alm'

'phosite'

'sicherheitstechnik'

'pinktekraftigkeit'

'ruhmnprogramm'

'für'

'die'

'hütig'

'therapeutisch'

'therbeutigegebeheite'

'eitdes'

'möglichkeit'

'agar'

'in'

'unmittelbarer'

'nöchi'

'grundstück'

'gottorstarb'

'areal'

'vom'

'bezirk'

'reinsiedeln'

'in'

'buracht'

'zer'

'werbe'

'dass'

'hat'

'er'

'bereits'

'aun'

'zeinzee'

'stimmfog'

'faguacas'

'nachm'

'er'

'folgte'

'arnekturwettbewerb'

'und'

'wieder'

'bearbeitig'

'vom'

'sieger'

'projekt'

'han'

'sich'

'die'

'sam'

'köchte'

'vor'

'zwölf'

'komma'

'sieben'

'drüh'

'millionen'

'frankenga'

'dott'

'ruse'

'resultiert'

'jetzt'

'der'

'kantonsbitrag'

'vor'

'elfcommunün'

'millionenfrancken'

'dajo'

'ous'

'maximal'

'werkt'

'zerstoen'

'die'

'berachtiger'

'beotrage'

'vor'

'dem'

'betrag'

'begründet'

'sich'

'vensetzlicher'

'leichtik'

'sufttrag'

'wo'

'von'

'kanton'

'trot'

'bewilligen'

'ish'

'das'

'ganze'

'projekt'

'mifundierte'

'narhwies'

'über'

'dem'

'bedorf'

'vor'

'seine'

'geheimplatz'

'erstellt'

'wurde'

'aberfalls'

'die'

'stromorganisation'

'der'

'hüttige'

'richtlinie'

'und'

'therapeutisch'

'auwordrige'

'kraftworde'

'aufgrund'

'wurde'

'setzliche'

'funksetzlicher'

'leichtegshuftrag'

'für'

'manche'

'mit'

'behendrik'

'unterstützt'

'dßvp'

'fraktion'

'großmehrheitlich'

'die'

'usgabebewilligung'

'welche'

'dank'

'feride'

'und'

'stitzigs'

'wurde'

'di'

'frieiviiete'

'fraktionsspracheneragewolywitz'

'für'

'gelbe'

'fraktionen'

'herr'

'prädent'

'wiener'

'monlerre'

'sich'

'zwelffixiret'

'sind'

'tokhton'

'u'

'dumfer'

'mochtwurz'

'grinlebrale'

'rachti'

'der'

'satz'

'von'

'rietigsbuch'

'von'

'fhöenix'

'wonheim'

'in'

'einzeeder'

'sinnvoll'

'nötig'

'die'

'beide'

'autgebiefe'

'ore'

'und'

'soneck'

'entsprache'

'nünbernötigund'

'zukünftige'

'buhdihe'

'horworderige'

'und'

'sichereitsstanmawordfordemmn'

'wommodernen'

'monheim'

'bevorhlag'

'breg'

'und'

'dorgument'

'für'

'de'

'zursätze'

'für'

'widri'

'vozrandsgefrieß'

'mohnhein'

'plattz'

'überzügt'

'üs'

'darum'

'und'

'schützgerbe'

'fraktion'

'eistimmig'

'die'

'usgaberwilligung'

'gemnazegedigsl'

'aus'

'schloßdanc'

'rm'

'gezwiete'

'die'

'wotmaligas'

'rat'

'derfraunzhom'

'sind'

'einsiedler'

'aiteltosmacher'

'breggen'

'duschmerksamkeit'

'uf'

'ebestimmter'

'sparkferdinftenverdämberr'

'de'

'ufgabewirkung'

'richte'

'die'

'stiftig'

'königliches'

'urshangecgild'

'fürise'

'kanton'

'wurd'

'zeigt'

'das'

'büste'

'manche'

'mitterundt'

'sdoat'

'ertenzeich'

'und'

'zweitens'

'dass'

'aufgrund'

'von'

'erer'

'persönliche'

'initiative'

'als'

'großes'

'warchr'

'schofferwarte'

'od'

'riece'

'geor'

'onhet'

'und'

'labeskoliti'

'kontonentscheidend'

'verbesserte'

'dtetrynananane'

'fronchali'

'einsiedler'

'richardhiwilacher'

'ulsgös'

'rickerbach'

'din'

'diryvanavo'

'sich'

'einig'

'zeiten'

'ebruri'

'öphie'

'den'

'kanton'

'hindnüt'

'de'

'lyddiseizuga'

'schicke'

'wird'

'nur'

'viel'

'größehete'

'urssacher'

'marmor'

'bisalber'

'parkmssasiens'

'gemocht'

'hüd'

'nach'

'wiesjar'

'stömedor'

'den'

'in'

'den'

'kantonsraten'

'krölnt'

'oderstiftigm'

'nuskar'

'bewelliger'

'wiederhin'

'ihres'

'ihre'

'bestauensichrt'

'für'

'mich'

'steigere'

'glabesgalität'

'im'

'kantone'

'nornden'

'missin'

'vortritt'

'mit'

'lyd'

'zahmrtnahber'

'exenti'

'teilichrafte'

'strausmntmittirnigenitie'

'interaktion'

'lavig'

'meddine'

'zamer'

'um'

'das'

'für'

'michn'

'entscheidende'

'fraktorfürfür'

'cetisslorius'

'sabrene'

'im'

'mittel'

'mmittelpunktstaatde'

'manchem'

'kanton'

'isch'

'pettesi'

'der'

'rusgeber'

'usgabebewerdiugung'

'zuwort'

'stehende'

'dankeun'

'wortmaltings'

'rat'

'jie'

'ieie'

'verschüpfte'

'halte'

'wurte'

'sie'

'frau'

'an'

'dammeherr'

'beseumpini'

'daman'

'und'

'heeres'

'wichtigsten'

'vorab'

'der'

'regierigsrat'

'stand'

'voll'

'umfanglich'

'hinter'

'dem'

'projekt'

'und'

'tas'

'sowohl'

'inhaltlicher'

'wie'

'auibulischer'

'hinsicht'

'übrigens'

'schließlich'

'mich'

'am'

'dank'

'von'

'ihm'

'vorredner'

'gern'

'o'

'die'

'betroffene'

'persone'

'duswüriger'

'zu'

'dem'

'projekt'

'hänt'

'sie'

'vom'

'kommissionspräsident'

'und'

'auf'

'der'

'fraktionssprache'

'chört'

'ich'

'bedanke'

'mich'

'ganzherzlich'

'für'

'die'

'große'

'unterstützig'

'vor'

'allmau'

'im'

'name'

'für'

'der'

'betroffenen'

'persone'

'herziche'

'dankgott'

'itate'

'ich'

'unbespitte'

'mither'

'met'

'zu'

'taperate'

'gespitete'

'staatschrieber'

'kantonsrarzschluss'

'folzlassen'

'kantonsradbeschluss'

'sübe'

'deierausgabenwilligung'

'für'

'den'

'ersatz'

'und'

'erweiterungsbau'

'des'

'wohnheims'

'mit'

'beschäftigung'

'der'

'stiftung'

'phoenix'

'der'

'cantonsrap'

'bslies'

'düstens'

'dem'

'regierungsrat'

'wird'

'für'

'den'

'ersatz'

'und'

'erweiterungsbau'

'des'

'wohnheims'

'mit'

'beschäftigung'

'für'

'menschen'

'mit'

'behinderung'

'der'

'stiftung'

'phoenig'

'schwiez'

'in'

'einsiedeln'

'eine'

'ausgabenbewilligung'

'von'

'elf'

'comma'

'neun'

'null'

'eins'

'millionen'

'franken'

'eingereiht'

'zweitens'

'die'

'ausgambewähligung'

'basiert'

'auf'

'dem'

'zürcher'

'index'

'der'

'wombahpreise'

'von'

'hundertundeins'

'commanz'

'punkten'

'vom'

'ersten'

'april'

'zweitausenddzwanzig'

'in'

'chrammerr'

'basis'

'hehrstadt'

'april'

'zweitusikund'

'siebezer'

'glei'

'hunde'

'punkte'

'chrammergschlosse'

'sie'

'erhöht'

'ad'

'er'

'vermindet'

'sich'

'or'

'maulfällige'

'teurungsbedingte'

'mehr'

'oder'

'minderkosten'

'drittens'

'dieser'

'beschluss'

'unterliegten'

'referendum'

'gemäßparagraphen'

'vierenreis'

'über'

'der'

'fünfunddreißig'

'der'

'cantonsverfassung'

'viertens'

'der'

'regierungsrat'

'wir'

'mit'

'dem'

'vorlzug'

'beauftragtdie'

'san'

'wortmalige'

'dzu'

'das'

'schi'

'nite'

'falzieh'

'des'

'en'

'wir'

'zu'

'schluss'

'abstimmig'

'schrieß'

'ich'

'a'

'rautdrafi'

'dass'

'mar'

'der'

'uskaberbremse'

'unterligt'

'spricht'

'verbruch'

'er'

'dar'

'sacht'

'stimme'

'damit'

'das'

'schraft'

'stands'

'grund'

'ich'

'wärde'

'erste'

'medona'

'vor'

'der'

'bewilfon'

'der'

'ruoscup'

'na'

'un'

'ter'

'hisitamate'

'ableinig'

'wer'

'die'

'umsgautbildigung'

'verkur'

'teilßte'

'sertaste'

'jetzt'

'mit'

'haudzehchen'

'bezügerüher'

'firskwvr'

'wer'

'die'

'aushudigung'

'mitab'

'lehde'

'wird'

'es'

'jetzt'

'mit'

'aunzeicher'

'bezügenu'

'zwei'

'sind'

'der'

'beschluss'

'mit'

'viebedacht'

'zu'

'zwei'

'stämme'

'der'

'häblicherqlat'

'und'

'agno'

'damit'

'gilts'

'rokorativ'

'referandunt'

'gurt'

'mit'

'hensetzt'

'zahb'

'zwölfie'

'drdidatic'

'machker'

'bis'

'maximum'

'halpereis'

'ich'

'wettelsgan'

'provier'

'über'

'das'

'selzkabis'

'programm'

'ei'

'noch'

'ein'

'durrachendrum'

'vetor'

'startagat'

'mit'

'dem'

'dochtord'

'um'

'fünf'

'itathe'

'war'

'seir'

'vraute'

'pur'

'the'

'frau'

'landomeherr'

'präsidentin'

'die'

'ammen'

'und'

'herre'

'der'

'rgierugsrat'

'leigenes'

'gretzkapispogrammen'

'einezwanzig'

'zweizwang'

'zu'

'kloßhasig'

'vor'

'und'

'er'

'stattet'

'brichzefig'

'bricht'

'über'

'die'

'volzug'

'vom'

'xetzgapicsprogramm'

'nünzer'

'zwansk'

'zum'

'selzkapihsproogramm'

'nünze'

'zwanfig'

'vierte'

'rejerigsat'

'der'

'positive'

'bilanz'

'fudenynzexesgabisvorhaber'

'sin'

'priza'

'erfolglich'

'rumsetzt'

'zach'

'sind'

'nuiorbit'

'erfolglichung'

'setz'

'worte'

'nichtarlrevision'

'von'

'stürksetz'

'mit'

'der'

'überführig'

'von'

'bundesgsätze'

'mit'

'stüreforme'

'und'

'darauf'

'auf'

'finanzierig'

'besser'

'bekannt'

'und'

'drapulzig'

'stoff'

'sind'

'attraktiv'

'wie'

'stüdliche'

'ramabedingige'

'für'

'die'

'juristische'

'personen'

'kanton'

'schwizschafe'

'wurde'

'midetarlrevisionen'

'zum'

'secs'

'überde'

'öffentlichkeit'

'für'

'die'

'verwaltug'

'und'

'im'

'datenschutz'

'sind'

'racht'

'wur'

'die'

'betroffene'

'persone'

'gestärkt'

'unde'

'zietgeißerdatenschutz'

'vrankert'

'wurde'

'arect'

'oder'

'motion'

'hemis'

'walksätze'

'revidiert'

'sidem'

'juli'

'zwanfig'

'zwang'

'gestand'

'der'

'rachtliche'

'grundlage'

'das'

'der'

'kanton'

'wie'

'der'

'waltbewirtschaftig'

'ufgabeabforchtbetrieb'

'radelligiere'

'am'

'ersten'

'an'

'ur'

'einundzwanfigis'

'polizei'

'sätz'

'sich'

'hrafttrakter'

'dadmit'

'is'

'betreugsmanagement'

'geführt'

'wurde'

'wo'

'schutzmaßnahme'

'im'

'bereich'

'hüsßle'

'gequalt'

'verbesseret'

'und'

'die'

'polyzeiliche'

'überwachigsmaßnahmen'

'klar'

'reget'

'abefasouegt'

'oder'

'cantonsrat'

'des'

'folksholksets'

'geandert'

'wurde'

'unter'

'stichtag'

'für'

'dischueligun'

'zwelmünut'

'vorverleiht'

'und'

'die'

'aezirksberachtigte'

'hin'

'jetzau'

'as'

'unbürokratisches'

'mitspracherachtdie'

'eindicgseitsgabiksvorhabe'

'en'

'nunithrenen'

'abschlossen'

'werde'

'darbeten'

'am'

'personalun'

'souldec'

'setzig'

'aber'

'sowie'

'fortschritte'

'das'

'nu'

'idemia'

'fürnemlassig'

'kadoicführt'

'werde'

'speelgid'

'doufis'

'planigs'

'und'

'bugsex'

'imsetz'

'ber'

'die'

'integranten'

'ac'

'frriebardige'

'besefflich'

'beschäfigs'

'waser'

'ist'

'vernehmlässige'

'abschlosse'

'und'

'dr'

'kantonsrat'

'hanoidemiad'

'rüber'

'beraute'

'im'

'gesetz'

'über'

'die'

'bevölkriegsschutz'

'ermürse'

'dann'

'wiigr'

'vom'

'bundesgsets'

'abgewartet'

'werden'

'dass'

'sich'

'jetzt'

'sitmäh'

'der'

'januarin'

'kraft'

'ersohl'

'das'

'darbite'

'für'

'de'

'canto'

'nalivolzug'

'reduv'

'cno'

'verde'

'soviel'

'zur'

'bilanz'

'und'

'jetzt'

'bliet'

'die'

'zurkunft'

'der'

'giesrat'

'plant'

'acht'

'sachsetzgabbige'

'oft'

'wewa'

'andrige'

'vür'

'bundesracht'

'oder'

'andere'

'übergeordnete'

'vorgabe'

'nötig'

'mehrere'

'devisionen'

'weden'

'nötig'

'wie'

'sich'

'laggandere'

'tetso'

'zum'

'bispispantionsclassikses'

'binüenvorgabe'

'ist'

'revision'

'oss'

'der'

'reihe'

'von'

'kantonsrat'

'mittels'

'erheblich'

'erklarten'

'vorstoß'

'erleckt'

'wurde'

'der'

'regierungsrat'

'wer'

'ihnen'

'außer'

'ainylas'

'vier'

'totalrevisione'

'und'

'trize'

'teilrevisionen'

'unter'

'breiteras'

'bundesgericht'

'hate'

'is'

'in'

'ihren'

'abstrakte'

'normer'

'kontrolle'

'der'

'paragraphe'

'über'

'die'

'anonyme'

'spande'

'im'

'transparenzkres'

'beausstandet'

'trommieter'

'rgierigsrat'

'im'

'kantonsrat'

'rrechtskonformi'

'regelik'

'unt'

'breiter'

'mit'

'der'

'tahlrevision'

'von'

'bentionscassicsets'

'soll'

'die'

'finanzielle'

'stabilität'

'für'

'die'

'bentionskrasse'

'aubistiegende'

'lappenserwartig'

'und'

'tüfen'

'zensumfalt'

'querleistet'

'werde'

'auh'

'revision'

'von'

'personal'

'und'

'soldis'

'sets'

'wederabgabe'

'wagedenia'

'odnix'

'bus'

'tar'

'bestande'

'ie'

'bundesracht'

'wie'

'tallrevisionen'

'vom'

'kontonalar'

'honixbrötisecs'

'nötig'

'die'

'eine'

'von'

'benahste'

'condons'

'razizi'

'gewetet'

'sie'

'tal'

'revisiomfunk'

'setz'

'über'

'der'

'danzigs'

'leichtige'

'zurauferfa'

'evau'

'berater'

'revision'

'von'

'sres'

'über'

'in'

'kassowil'

'von'

'bevor'

'sie'

'undschosssig'

'für'

'unterhaltsbitrag'

'verscheent'

'isti'

'defenehmlassig'

'um'

'inter'

'den'

'angerieg'

'von'

'sätze'

'ber'

'soziali'

'ir'

'richtige'

'selle'

'kröchte'

'vorageordnete'

'maßnahme'

'von'

'the'

'qeske'

'neu'

'vom'

'kanton'

'und'

'die'

'betroffene'

'kmaindezugrihe'

'teil'

'treit'

'werdeals'

'straßesätze'

'dail'

'revidiert'

'werdelsowrde'

'zur'

'brigerstraße'

'zum'

'autobahnanschluss'

'aus'

'hauptstraße'

'qualifiziert'

'und'

'allfälliger'

'abassiks'

'bedarf'

'fusste'

'überbrüfig'

'vom'

'haupt'

'und'

'verbindugstraßenetz'

'berücksichtigt'

'mit'

'der'

'revision'

'von'

'volksschocksetzend'

'em'

'personal'

'um'

'soltixtets'

'ferlehrpesone'

'wedet'

'notwandige'

'oktualisieriger'

'im'

'volksscholwesser'

'folkno'

'für'

'nemlastik'

'von'

'mitelcholk'

'segt'

'sich'

'abschlosse'

'und'

'lesewe'

'as'

'umwautschutzgsetz'

'unds'

'jagd'

'und'

'wirtschutzssetz'

'aufgrund'

'vorerheblicherklarte'

'vorstöß'

'revidiertwier'

'sho'

'im'

'vergangenen'

'exetzgabix'

'programm'

'beschriebe'

'sind'

'gsets'

'über'

'bevölkergsschutz'

'und'

'der'

'zivilschutz'

'planiks'

'und'

'baugsetz'

'sowie'

'die'

'intergamtonali'

'friebarri'

'übes'

'öffentlich'

'beschäfigswesser'

'awim'

'mew'

'ik'

'sazcapic'

'programme'

'enthalte'

'für'

'de'

'gexrat'

'unterbreitet'

'ihnen'

'auso'

'esxetts'

'gavicks'

'pologramm'

'wo'

'ouf'

'die'

'regierigsprogramm'

'abstimmlich'

'wo'

'devoine'

'erheblicherwat'

'der'

'parlamentarische'

'vorstoß'

'umsetzt'

'vogeziert'

'die'

'anwrige'

'mit'

'augamaß'

'forgsät'

'und'

'die'

'zur'

'überregonal'

'regulärig'

'beatrit'

'und'

'wurfer'

'besserigepring'

'für'

'bevölkericg'

'gemeinde'

'und'

'verschieden'

'die'

'ausspruchsgruppe'

'im'

'kanton'

'der'

'egiergsrad'

'beatra'

'denedademit'

'xetzkamix'

'programm'

'zwangsg'

'einudzwanzig'

'bis'

'zweizwanziggknemiger'

'bishedonc'

'es'

'wurde'

'frie'

'vel'

'fraktionssprechendeherr'

'präsident'

'klätz'

'die'

'damen'

'und'

'herre'

'willegiische'

'voreem'

'stalde'

'für'

'dessp'

'fraktion'

'swolegend'

'glaytese'

'gabix'

'graumn'

'wurde'

'die'

'geerig'

'ihstevorbla'

'und'

'für'

'diora'

'eine'

'zwain'

'scree'

'war'

'ane'

'scros'

'of'

'countanovi'

'sdu'

'vor'

'catesbraun'

'dichtum'

'behandler'

'wo'

'oder'

'wag'

'die'

'vorlag'

'frohch'

'ach'

'gna'

'spricht'

'keine'

'unmittelbare'

'hoschte'

'dass'

'launie'

'cher'

'mit'

'er'

'fraukezeicher'

'unkommentiert'

'starr'

'rückblick'

'wenn'

'magmas'

'spricht'

'dropolgt'

'sehnen'

'das'

'pacetses'

'vorlager'

'nunicga'

'un'

'saubchlose'

'buoutoro'

'blanche'

'sin'

'und'

'schwellnrön'

'daimmr'

'da'

'schreie'

'positiv'

'oder'

'negativ'

'beurdahler'

'obru'

'sere'

'pumbrija'

'nac'

'talanka'

'jediscrats'

'wennige'

'rabanauus'

'goostrig'

'brusebrick'

'gmasbricht'

'geht'

'sie'

'derhör'

'stet'

'daeinige'

'inter'

'scounti'

'cuaation'

'berhondermögte'

'sporreni'

'cait'

'shucegby'

'von'

'und'

'ploomde'

'shavane'

'verstehen'

'dim'

'zweite'

'quorta'

'hofcörth'

'smitsholek'

'sadz'

'sterotisc'

'sded'

'tszeche'

'camalie'

'gecrond'

'teregiono'

'mingevol'

'und'

'po'

'college'

'shwees'

'o'

'der'

'perconal'

'coltic'

'state'

'sur'

'der'

'schule'

'stihwort'

'licherlohn'

'frhindergarder'

'lehrer'

'und'

'primarchual'

'lehrer'

'konkret'

'gautch'

'omarlon'

'ahebig'

'phontrinde'

'gartal'

'beone'

'im'

'vier'

'te'

'korthalische'

'untraundrumstansbraundsceiethschuf'

'der'

'dageseonik'

'tawards'

'und'

'die'

'anonyme'

'sparnendar'

'polytek'

'und'

'portillar'

'swarted'

'alcenovelicontrovasy'

'daemann'

'huhys'

'und'

'durch'

'indenomangi'

'diskussiondezu'

'langerede'

'kurzes'

'forzit'

'der'

'swapeif'

'fraktion'

'nimt'

'das'

'vorlegend'

'chagegarbix'

'programm'

'zur'

'karmnis'

'und'

'wird'

'den'

'so'

'stim'

'donk'

'rehne'

'für'

'duchmerksamkeit'

'wurdedu'

'fürdievheriet'

'e'

'ferauktionssprachendealrets'

'fre'

'präsident'

'hätz'

'e'

'kolleginnen'

'und'

'kollege'

'au'

'gelpewirt'

'dem'

'gsetzgeltprogramm'

'zustimmen'

'ich'

'an'

'aber'

'zwei'

'bemerkririste'

'betrifft'

'transparancsets'

'das'

'sie'

'mehr'

'erstuhnt'

'dass'

'das'

'seizeers'

'verlethzte'

'quortal'

'vor'

'dem'

'jahrersehr'

'behandelt'

'werde'

'als'

'gelt'

'je'

'immeri'

'inen'

'volksentscheid'

'umsetze'

'und'

'glab'

'das'

'verdiedente'

'höhre'

'priorität'

'das'

'im'

'reichwargien'

'geeinigungsbundesgrichth'

'im'

'letschten'

'oktorische'

'entschieder'

'und'

'scolder'

'einkriegsnone'

'um'

'aichlini'

'fragh'

'asochlini'

'frag'

'dievitcha'

'diskussionen'

'geanonym'

'stand'

'as'

'vor'

'demher'

'stune'

'dass'

'das'

'suspar'

'crund'

'der'

'zweitepunkt'

'nicht'

'möch'

'die'

'lupiewiese'

'dass'

'isch'

'eingkriffsbaustuhlanmotionro'

'meerfeld'

'apralondoma'

'hat'

'fordenne'

'erwähnt'

'das'

'kretzgewichtsprogramm'

'eigentlich'

'ali'

'dier'

'vorstößse'

'umfasste'

'wo'

'er'

'hebch'

'erfeuert'

'wurde'

'sind'

'und'

'a'

'umsätze'

'und'

'weima'

'im'

'gesetzgebichsprogramm'

'wois'

'wohletositen'

'acht'

'lurten'

'städte'

'schardedao'

'dass'

'die'

'vorstößmindischen'

'sovizelle'

'bearbeitet'

'wärde'

'das'

'innerhalb'

'vom'

'planig'

'zitrum'

'als'

'antizorjoswansk'

'als'

'vernehmmlals'

'ix'

'verfahreen'

'eröffnet'

'werde'

'was'

'eus'

'damse'

'in'

'feltr'

'mehr'

'fählt'

'es'

'die'

'motion'

'm'

'acht'

'zahünzer'

'als'

'rat'

'zum'

'langsamn'

'verhererens'

'war'

'um'

'finanzierig'

'von'

'langsam'

'verhäerter'

'sich'

'im'

'juni'

'apo'

'lecdyor'

'rebcherkäurt'

'wurde'

'mures'

'auser'

'dem'

'planingstitel'

'um'

'eigntlich'

'umgesetzt'

'werde'

'und'

'berfinde'

'mukran'

'hawis'

'dem'

'zetzkabiz'

'programm'

'das'

'dustautarchch'

'der'

'faulisch'

'und'

'dass'

'das'

'elg'

'emacht'

'wäre'

'dass'

'er'

'stund'

'umso'

'mähert'

'dass'

'es'

'eigentlich'

'an'

'abasig'

'säuger'

'vom'

'straße'

'setzt'

'an'

'die'

'viers'

'kartal'

'eine'

'zwansg'

'bos'

'aa'

'um'

'finanzieerigine'

'foto'

'straße'

'garti'

'karal'

'einfacher'

'krotenadäquate'

'und'

'transparente'

'regelung'

'in'

'bezug'

'auf'

'die'

'finanzierung'

'der'

'straßen'

'die'

'gattunskantonstraßennetzer'

'natzer'

'sehr'

'stache'

'über'

'schneetdige'

'und'

'drom'

'egeseya'

'schwer'

'verstandlich'

'das'

'einze'

'er'

'gemacht'

'werd'

'und'

'uns'

'anderenöt'

'ich'

'an'

'rückfrag'

'frag'

'bem'

'bodiraktor'

'erdmer'

'alreclerd'

'das'

'tregierigmöchtiwart'

'mitmitder'

'lanxambreus'

'schricht'

'bis'

'nationaler'

'wehnerwerksetz'

'in'

'kraft'

'traternichtersicher'

'im'

'acht'

'seinem'

'herrschrafht'

'seine'

'von'

'voll'

'kragnowode'

'vor'

'nemlas'

'sii'

'chem'

'ledghe'

'seram'

'rokschloss'

'wurden'

'und'

'das'

'rond'

'demnekstidie'

'im'

'of'

'ubundaabany'

'engliche'

'ispalo'

'man'

'usakfonbo'

'deracterisch'

'das'

'das'

'nötzogr'

'an'

'sklare'

'schwemritil'

'die'

'langsam'

'resmution'

'worde'

'umsetze'

'im'

'crontonschwiz'

'und'

'datistromnangiesetzgewichsprogramm'

'trindänisch'

'eventuell'

'main'

'de'

'röntistarnasi'

'das'

'das'

'neuess'

'wellowerk'

'seitsgit'

'allerdings'

'findet'

'mattas'

'natülliem'

'selzgewichstprogramm'

'aunani'

'für'

'micr'

'folksystem'

'das'

'mehre'

'zeit'

'i'

'fordere'

'das'

'wählerwerkseits'

'odersosctalt'

'zuminderschewitidahl'

'revigion'

'vom'

'straßesettsiskeitsgerichtsprogramm'

'eines'

'zwanzigsteuer'

'zwananisig'

'u'

'f'

'gno'

'wäredesel'

'dass'

'da'

'tralonda'

'monate'

'das'

'wirkgeräiblich'

'ergeitvorstandrnerungesetzt'

'werde'

'warar'

'das'

'nödhyn'

'riskijermer'

'das'

'navire'

'landesland'

'vitrijaaresland'

'gründ'

'ohne'

'dass'

'ben'

'wahrunsamfreer'

'bisphor'

'vorwärts'

'ga'

'ich'

'möchte'

'ihr'

'demseien'

'ch'

'stütz'

'ufschafthonik'

'von'

'kantonsrabatetraf'

'eines'

'ar'

'obsurt'

'vier'

'modrinen'

'staatus'

'mehr'

'mit'

'dem'

'schlussfahrsig'

'zum'

'seitsgebigsprogramm'

'andrege'

'erganzigen'

'oder'

'strierige'

'empetrage'

'ein'

'artragställer'

'sin'

'art'

'ac'

'nickonzani'

'dommotthias'

'brun'

'un'

'direp'

'as'

'grad'

'o'

'der'

'nyed'

'erer'

'für'

'mirchis'

'egentlich'

'klar'

'krönen'

'änderungen'

'ergänzungen'

'oder'

'streichung'

'beantragt'

'werden'

'und'

'minatragödi'

'remseen'

'wvolgtluter'

'im'

'setzgebichsprogramm'

'ihres'

'vites'

'vorhaber'

'uftsnähe'

'wo'

'die'

'zietgereich'

'die'

'umsatz'

'umseizig'

'vor'

'der'

'motion'

'm'

'acht'

'zarnünzer'

'garantiert'

'das'

'kon'

'im'

'rahmen'

'von'

'erer'

'teilregiun'

'von'

'straßenzet'

'oder'

'durchas'

'ereignislangsamn'

'kässets'

'erfolge'

'icnemarta'

'stautschrieb'

'breize'

'besager'

'dazu'

'warndrockmögische'

'spätehreude'

'zu'

'unterstütze'

'banchenwolichfle'

'vermite'

'e'

'froationssprachendesehr'

'gehrte'

'herr'

'präsident'

'christ'

'die'

'kollegine'

'und'

'kollege'

'genah'

'mie'

'der'

'letzte'

'jahre'

'für'

'düdliches'

'gezgebicgsprogramm'

'wirchelid'

'arkhivik'

'staltix'

'fellefer'

'drecergisch'

'vier'

'zahlvodofhzeit'

'planete'

'vorlage'

'desen'

'achter'

'sibbitz'

'drozant'

'sind'

'den'

'reaktionsübergordigfrachtoder'

'in'

'reaktionen'

'parlamentarische'

'vorstes'

'der'

'gerigsrat'

'hat'

'das'

'dasalobsite'

'nur'

'wie'

'einfünftel'

'vor'

'den'

'programmteil'

'der'

'initiative'

'ergriffen'

'da'

'beginnte'

'biegitophe'

'handlicksfalder'

'woan'

'aktiv'

'estaltig'

'für'

'der'

'gierig'

'möglich'

'wär'

'die'

'zoofils'

'duerl'

'im'

'stulrsichstehen'

'zum'

'slawer'

'for'

'demensch'

'mit'

'tief'

'icrom'

'erliachtrer'

'bezahlbar'

'kinterbetroigsalgebot'

'es'

'gibt'

'er'

'ganz'

'viel'

'biespierleaber'

'statt'

'anursvotumbodquo'

'as'

'büralati'

'letstegsetzgebihsprogram'

'aushocalteheaz'

'wi'

'liter'

'spor'

'a'

'eressiere'

'das'

'hätt'

'sich'

'nie'

'verandert'

'wie'

'dem'

'setzgebicxprogramm'

'tromsvotum'

'der'

'spunit'

'miverve'

'das'

'programm'

'opblehnen'

'wie'

'das'

'nödlichere'

'vorstäle'

'für'

'aktive'

'gestaltig'

'ent'

'spricht'

'obse'

'ich'

'bewusst'

'dass'

'das'

'programm'

'dur'

'durhovirt'

'und'

'zweihiwis'

'wo'

'aut'

'gelterrokgmacht'

'hät'

'dass'

'transparentsitz'

'erst'

'einde'

'jahr'

'selho'

'ist'

'unverstandlich'

'des'

'spielrum'

'ich'

'noch'

'im'

'entscheid'

'vom'

'bundsgericht'

'sehr'

'ang'

'und'

'sichclarsamosaubasse'

'damit'

'bis'

'zar'

'zu'

'gewahleten'

'zweiezwanzig'

'umsetzt'

'isch'

'idws'

'nözlich'

'an'

'teorduran'

'außerdem'

'unterstützen'

'a'

'das'

'arlige'

'von'

'de'

'glp'

'beberretköre'

'dassen'

'artrock'

'hrazi'

'oder'

'efachein'

'hiwiisto'

'und'

'für'

'der'

'regeringte'

'tanksfilmunges'

'word'

'duch'

'wief'

'verwieete'

'raktionssprachendein'

'nitefalzi'

'der'

'ibesou'

'dom'

'juristim'

'jerichsratimmer'

'herr'

'präsident'

'minidarme'

'und'

'herre'

'credoni'

'primerls'

'jurisc'

'a'

'porgan'

'der'

'dael'

'bis'

'zur'

'saconome'

'a'

'zum'

'mapragor'

'gardeus'

'griecheninefort'

'grünle'

'brale'

'zum'

'umsätzig'

'von'

'der'

'remotion'

'berichtig'

'zitiert'

'wurde'

'on'

'contonsra'

'bobenhenscher'

'zweimal'

'über'

'das'

'thema'

'gret'

'ärmenrhäum'

'probiercoclare'

'das'

'aber'

'der'

'vorplar'

'monicons'

'bestimmttisch'

'richtig'

'weeder'

'garme'

'wüste'

'net'

'ganzknaven'

'das'

'bundesseits'

'hund'

'fhrieschenhof'

'verbar'

'as'

'das'

'bundeskriet'

'sossiswederwerg'

'setsvom'

'bund'

'neis'

'veloksez'

'heißt'

'ibem'

'un'

'komfriesten'

'zum'

'hersc'

'dies'

'parlamant'

'die'

'gerchcammer'

'im'

'winterhuf'

'verbod'

'röhrchten'

'sie'

'die'

'zwei'

'commere'

'als'

'geriss'

'zweizwansgeneer'

'bis'

'das'

'bundeskreig'

'start'

'unterglaber'

'sich'

'nachvollzehrbar'

'dass'

'die'

'nymaterie'

'sätzlich'

'nummaterie'

'ermermenlogeweste'

'bunt'

'handhaft'

'wee'

'die'

'vorgabe'

'und'

'funktionen'

'bund'

'wahrnehmt'

'und'

'mehcher'

'mit'

'haimsin'

'stuktie'

'pom'

'renarschlusseets'

'gabe'

'gomendes'

'im'

'frührlich'

'abe'

'nach'

'fortbon'

'hüttenbund'

'eim'

'vorabschitd'

'wird'

'wirds'

'relativ'

'knapp'

'mit'

'dem'

'zweierzwangs'

'ginosme'

'im'

'zweizwanzigen'

'bereits'

'im'

'cantonsratbinder'

'sind'

'un'

'dicahtlemozidiccent'

'die'

'sinder'

'bezogene'

'reperatig'

'ihr'

'tem'

'vortbehalten'

'rendem'

'conpontrat'

'indernich'

'stecentiuste'

'fahrtplan'

'spezi'

'rabbrackseite'

'wenn'

'mökockisch'

'oder'

'mökoccaro'

'sinnvolli'

'strenpen'

'sie'

'straßecksezenena'

'was'

'das'

'intruktionen'

'ofeen'

'wennetzte'

'kantonsrybop'

'rouv'

'namen'

'explizit'

'youvenon'

'von'

't'

'velo'

'm'

'xet'

'beartragte'

'durch'

'das'

'minusrachten'

'soziollastigen'

'nauftragt'

'würsie'

'aber'

'bitte'

'der'

'atsläneweseid'

'relativem'

'trüben'

'inderfischet'

'das'

'marchd'

'casinvo'

'mencrinen'

'und'

'niedmoohosake'

'otuel'

'ird'

'mit'

'das'

'sxe'

'owir'

'die'

'bestämigeber'

'über'

'quelong'

'sinvhollriesis'

'straßteckselte'

'zenehehm'

'odr'

'sinnvoll'

'orieses'

'langsamn'

'vehärfssets'

'macht'

'aber'

'abangig'

'vor'

'te'

'bondesgretzgapig'

'eirnmürdigt'

'sie'

'bet'

'de'

'netz'

'mitdreifach'

'erendino'

'schnell'

'und'

'hypohal'

'eites'

'kret'

'senatur'

'und'

'der'

'biststr'

'stadt'

'duerwo'

'frirch'

'den'

'ondergrund'

'ab'

'langrede'

'kurze'

'sinne'

'sich'

'als'

'programm'

'das'

'gretsgabicx'

'programm'

'wo'

'orientierende'

'charakter'

'stuckrie'

'terheidungnambustrina'

'wennr'

'gründerführen'

'des'

'cabarasi'

'das'

'eiszes'

'rund'

'dem'

'rückblickend'

'racheschaf'

'daritrybrabka'

'das'

'razi'

'da'

'sientarhondorsits'

'nickel'

'kcnawedam'

'fartplon'

'hinrund'

'wenns'

'aber'

'gurt'

'degrüntet'

'rum'

'das'

'nitovaroisch'

'witeaimem'

'sinn'

'würde'

'voolterau'

'prordaktionrenlasti'

'gwenn'

'sie'

'wüllquentrib'

'abstimmen'

'dstels'

'venovarxes'

'oder'

'rasami'

'wissenan'

'edem'

'aulh'

'katcatythe'

'einem'

'dreinenhameder'

'vitier'

'dedatte'

'deede'

'artrok'

'abt'

's'

'lehnen'

'was'

'nit'

'heißt'

'dass'

'mihr'

'nider'

'der'

'motere'

'dra'

'sind'

'wenden'

'da'

'bereits'

'eine'

'dia'

'langsam'

'veherstellen'

'wenn'

'ie'

'das'

'gattenew'

'informativ'

'durchsaal'

'die'

'langsam'

'prersteatzen'

'bou'

'deypartna'

'bu'

'deportemantner'

'memänder'

'bereits'

'was'

'mat'

'dehder'

'verwautigurganmacht'

'sctell'

'auch'

'eine'

'rufstokre'

'dass'

'mit'

'die'

'matedien'

'aber'

'nauu'

'seriös'

'und'

'nu'

'besseren'

'behandler'

'die'

'zur'

'eurkunft'

'dals'

'er'

'dorch'

'an'

'zieh'

'erworden'

'hat'

'das'

'm'

'nithnorabalot'

'pizar'

'gezumena'

'orgiered'

'aber'

'nur'

'einnig'

'das'

'sind'

'sehr'

'höherhe'

'erwarte'

'genomme'

'mit'

'deiner'

'wedermargähm'

'wen'

'mit'

'de'

'zerhmoghent'

'bielondeeigetümg'

'verhandel'

'und'

'sacetork'

'war'

'fal'

'di'

've'

'dam'

'menüer'

'velovagpur'

'befeinte'

'schwerigkeit'

'dartes'

'defizit'

'mit'

'unterschätzet'

'dass'

'das'

'nechztzu'

'wehifach'

'wirt'

'zieht'

'der'

'flechgortnun'

'stellvertratend'

'an'

'nacht'

'prufdrucgebehrofe'

'der'

'sicherheitsberachter'

'd'

'transparant'

'säszischs'

'dormsätsige'

'der'

'verwaltigsinternen'

'mibrichts'

'verfahren'

'im'

'frührebährm'

'end'

'mit'

'der'

'namelate'

'gusega'

'untr'

'wird'

'das'

'im'

'ferlaf'

'vom'

'herbströn'

'we'

'canton'

'snatiur'

'geleitet'

'warsie'

'dürfe'

'jonycont'

'so'

'untershätzend'

'oder'

'die'

'cisponnen'

'au'

'mehn'

'der'

'prozess'

'sossitzkal'

'tegitt'

'beschwader'

'fürdrer'

'oder'

'hrici'

'lythentas'

'vorbondesgericht'

'sorgenund'

'zweier'

'langferzöugern'

'nettrig'

'jerigxsrat'

'das'

'sich'

'durch'

'beschwader'

'verzögert'

'wurde'

'die'

'schetz'

'kanz'

'im'

'denune'

'gebodtete'

'pun'

'gor'

'kyswote'

'des'

'werden'

'dumkgesetzt'

'aber'

'mit'

'dem'

'valdix'

'inteinem'

'mitbrigszfahrer'

'für'

'namahalfs'

'cixofahrer'

'kommissionsberatigungd'

'dekantonsrat'

'bruchs'

'torth'

'abarmonnet'

'aber'

'veseit'

'es'

'wird'

'dals'

'er'

'mortmaßlich'

'die'

'kantounser'

'preccecjhetste'

'cantonswai'

'popisch'

'interpretiere'

'die'

'artag'

'als'

'ein'

'auftrock'

'für'

'den'

'gründegeführen'

'ställe'

'vom'

'revellerwarke'

'setz'

'sich'

'dass'

'sie'

'iem'

'sinnadann'

'verlehzen'

'größte'

'rraunwortjoseit'

's'

'rer'

'präsidentschätzt'

'die'

'kolleginnen'

'und'

'kollege'

'neihts'

'schnück'

'aum'

'zu'

'sorch'

'miczflichtnahmversuche'

'präzisiere'

'übergrundsatzlich'

'gauten'

'und'

'die'

'emotion'

'm'

'acht'

'zairnhünzer'

'und'

'derermotionen'

'grat'

'zum'

'financieri'

'ga'

'sasgar'

'nonik'

'drom'

'das'

'manizagt'

'wurde'

'randwar'

'adha'

'wellowerak'

'anduregard'

'und'

'sgortnaniko'

'mentar'

'chnikenandalisc'

'schwieriger'

'sache'

'sondern'

'skat'

'drom'

'dass'

'die'

'finanzieerigfor'

'einen'

'hufkörper'

'war'

'er'

'mit'

'dem'

'national'

'eceeswetcole'

'das'

'mit'

'ihrem'

'counto'

'schwiz'

'sicher'

'stelltan'

'dass'

'sich'

'eigentlich'

'ter'

'punkt'

'unter'

'artrag'

'strämse'

'in'

'einssitzers'

'neues'

'wailuxzed'

'unregende'

'säypis'

'isselsgewichtsprogrammhuf'

'knovwez'

'und'

'da'

'aartrag'

'ist'

'das'

'im'

'xetzgavigs'

'programm'

'als'

'viters'

'vorhaberufs'

'nähisch'

'wo'

'di'

'zitgerach'

'die'

'umsätzig'

'vor'

'der'

'motion'

'm'

'ochtzer'

'nünzer'

'garantiert'

'das'

'ran'

'dores'

'neus'

'sezi'

'das'

'ron'

'durrethal'

'revisionen'

'vom'

'straße'

'säzt'

'sietäiss'

'ofwetrigärich'

'das'

'norhtenen'

'umsetzt'

'aberder'

'art'

'trage'

'ich'

'dass'

'die'

'motionen'

'itres'

'gesrätsd'

'die'

'omenseitzigfor'

'der'

'motionen'

'was'

'um'

'finanzierigsgade'

'romisch'

'das'

'die'

'uf'

'gnoowees'

'sergsetsgewichtsprogramm'

'den'

'olondischer'

'torbdodrot'

'quermel'

'bis'

'e'

'zursage'

'der'

'konnt'

'onver'

'bot'

'mangsteins'

'wirt'

'scho'

'kompliziert'

'muss'

'de'

'verkandzähnlich'

'sagen'

'um'

'hermn'

'tochno'

'parandri'

'theme'

'auf'

'der'

'erwaltung'

'mit'

'dem'

'camponen'

'als'

'jedes'

'parti'

'programm'

'is'

'es'

'virganeinig'

'seitig'

'die'

'reinig'

'seit'

'das'

'bundessetz'

'vorgabenwehrtmach'

'ramawird'

'stecker'

'merwüßte'

'nidemal'

'ypxco'

'finanzierigi'

'mit'

'dem'

'boldunen'

'kanton'

'ergoshins'

'doc'

'sin'

'und'

'logis'

'sie'

'das'

'mesakemevent'

'warte'

'bis'

'der'

'puntgregelledung'

'der'

'hölmemeer'

'und'

'erimotion'

'compendra'

'wenn'

'mit'

'fakt'

'kann'

'wärem'

'sie'

'zieht'

'durch'

'moche'

'ber'

'sog'

'das'

'nit'

'wystekremberne'

'diedemotion'

'beantworte'

'respektiv'

'umsetzt'

'sbitte'

'sie'

'schätz'

'se'

'kantonsrat'

'das'

'es'

'o'

'zur'

'kammpnissna'

'bratrock'

'opts'

'lehnenot'

'alßmehrenitzternde'

'interpretationsgschicht'

'wenn'

'eir'

'de'

'zuzazsetzmen'

'duselecke'

'und'

'dem'

'normalvermess'

'wurder'

'verkriecht'

'und'

'aus'

'dass'

'iertür'

'und'

'dorwalt'

'ferderendehufer'

'aus'

'dem'

'besigt'

'desetzgaber'

'und'

'das'

'sinzi'

'trubedics'

'abstimbalern'

'yprnatisdolper'

'habt'

'zolastiges'

'unternedes'

'übyrof'

'verbuoder'

'bestritte'

'wenterautra'

'vor'

'ihnen'

'als'

'zulässig'

'deklariert'

'wird'

'die'

'würde'

'men'

'nocher'

'darüber'

'der'

'auter'

'gobstimmeng'

'und'

'system'

'im'

'redeberatra'

'rubeta'

'stimmezeller'

'ist'

'erster'

'mehr'

'wee'

'ich'

'nah'

'dier'

'ofinde'

'der'

'altrag'

'sowest'

'den'

'kantonsart'

'voformulierte'

'sie'

'zulaßig'

'und'

'die'

'el'

'droplene'

'ware'

'dem'

'zweiten'

'mehr'

'deo'

'de'

'dharautoos'

'zolassig'

'dekrarierte'

'tät'

'is'

'mit'

'jetzt'

'bezügetrizezwei'

'uhr'

'vierzig'

'wärder'

'autho'

'aus'

'nicht'

'so'

'lastiger'

'dektoder'

'dass'

'hat'

'das'

'bi'

'jetzst'

'bezügeviertrisk'

'sie'

'and'

'bestimme'

'nicht'

'vilgewecft'

'zu'

'auch'

'die'

'strime'

'das'

'deratrag'

'zulässige'

'wir'

'nc'

'detaberatik'

'über'

'der'

'abstimmung'

'holgadeias'

'vurde'

'mochemre'

'wenn'

'es'

'schot'

'raussehndlicg'

'wort'

'kot'

'außerwerm'

'autolafvon'

'rhothiwop'

'wir'

'sostimme'

'dass'

'das'

'vorhaber'

'esersiegrecht'

'umsetzt'

'weiter'

'noch'

'der'

'emotion'

'ewantet'

'satispitets'

'bezügedreisiebe'

'nut'

'zwans'

'wär'

'das'

'weit'

'ubbplehneert'

'het'

'das'

'bitte'

'jetzt'

'bezügefünftedtrür'

'vierzg'

'zählte'

'altrakbob'

'mit'

'triskezoo'

'auch'

'der'

'rifts'

'stimme'

'abglehnt'

'veraubte'

'm'

'detta'

'beatig'

'die'

'zoitmalige'

'zum'

'rückblick'

'über'

'setzgabis'

'programmnitterfalzeg'

'geht'

'wotmäßige'

'zum'

'seehsberbürgsprogramm'

'zwanfsgeinzwanzig'

'zweiudzwanzig'

'aunit'

'de'

'falzi'

'der'

'überatserkenne'

'bereits'

'abschwimme'

'gibt'

'sich'

'nur'

'irgendwach'

'wie'

'driebotmardige'

'schnittfelde'

'machmer'

'entschluss'

'abstimmig'

'wäre'

'das'

'zetskebx'

'programm'

'rückblick'

'plus'

'usbleckhufswans'

'eine'

'zwandzweiundzwanziggurtheil'

'sowitdricge'

'serbste'

'männer'

'und'

'uplener'

'ist'

'zweitermeer'

'wer'

'das'

'hlombe'

'vultliht'

'vedaune'

'sal'

's'

'bitte'

'jetzt'

'bezügesah'

'wirhtsauch'

'der'

'zwansig'

'weres'

'het'

'opleiner'

'hat'

'das'

'bitte'

'jetzt'

'mit'

'handzeichen'

'bezügenosiebe'

'sird'

'das'

'testkebese'

'programm'

'mit'

'vierr'

'siebelsi'

'zu'

'siebestimme'

'orknu'

'wir'

'machet'

'her'

'ambrece'

'moch'

'mit'

'der'

'rachtorgnan'

'des'

'narmavita'

'chomuno'

'zo'

'mitteilig'

'zum'

'sitix'

'andyder'

'condon'

'trot'

'wollte'

'dusssei'

'der'

'mülzeit'

'febra'

'reine'

'zwanzig'

'gis'

'sundheitlich'

'ergründet'

'sie'

'sowortige'

'rücktritt'

'als'

'kantonsrat'

'mitteilt'

'der'

'walte'

'russ'

'ist'

'zweidussig'

'orh'

'sitz'

'zwei'

'tussegorh'

'das'

'heßwarpriefeberat'

'rustik'

'main'

'frierbach'

'im'

'kantonrrakxie'

'it'

'die'

'staatwirtschaftskommission'

'iter'

'sitzweit'

'dussigocft'

'mitglied'

'und'

'sie'

'zwei'

'tec'

'zwölf'

'bis'

'hede'

'präsident'

'wahrzi'

'nder'

'amtssieht'

'der'

'insgesamt'

'nün'

'spezial'

'kommissionen'

'mitwirkt'

'betrüfer'

'derne'

'auwaitspräsident'

'im'

'namen'

'von'

'kontonsrat'

'dohim'

'behtons'

'fis'

'dis'

'großtes'

'engagement'

'für'

'der'

'comdoin'

'shweads'

'und'

'wünschin'

'ihm'

'roschi'

'und'

'got'

'di'

'beszerikder'

'naxysitzig'

'findet'

'vorursichtlich'

'am'

'werde'

'zwanzig'

'sti'

'märz'

'statt'

'ob'

'dem'

'knauesurwis'

'wird'

'noch'

'der'

'draht'

'leipzig'

'im'

'ausschluss'

'de'

'cantosasiszik'

'entscheidet'

'ratsleite'

'etrifft'

'sich'

'in'

'fünfzehn'

'minuten'

'im'

'kantonsratsaal'

'der'

'hone'

'mitteilig'

'für'

'der'

'kommission'

'boote'

'straßen'

'und'

'anlage'

'der'

'präsident'

'bitte'

'mich'

'in'

'mitdall'

'dass'

'kommission'

'gute'

'straßlage'

'sich'

'in'

'trisgenminute'

'trifft'

'und'

'zwar'

'im'

'amt'

'für'

'militarführen'

'ze'

'viel'

'schulze'

'der'

'schlagstrass'

'sieberdachsgesant'

'haltbach'

'in'

'schwyz'

'für'

'huze'

'kommission'

'sitzig'

'mit'

'eine'

'sing'

'blieb'

'minunno'

'ehner'

'zwünsche'

'dass'

'die'

'sum'

'liebes'

'hatzisgot'

'den'

'schize'

'geschlosse'

'messeoder'

'muss'

'sie'

'diskussieren'

In [47]:
print(len(storage_start_time))

3520


In [48]:
processed_stt_output = pd.DataFrame(
    {'startTime': storage_start_time,
     'endTime': storage_end_time,
     'words': storage_words,
     'confidence': average_probs
    })

In [49]:
print(processed_stt_output)

      startTime  endTime         words  confidence
0          0.00     0.12           ich    0.797649
1          0.12     0.36          mich    0.922934
2          0.36     2.21       ridrale    0.809643
3          2.21     2.44          eire    0.649945
4          2.44     2.84         defte    0.915000
...         ...      ...           ...         ...
3515    2326.57  2327.20    geschlosse    0.992727
3516    2327.20  2344.88     messeoder    0.864784
3517    2344.88  2345.07          muss    0.824691
3518    2345.07  2345.24           sie    0.921515
3519    2345.24  2346.26  diskussieren    0.838446

[3520 rows x 4 columns]


## Language Model
Get the 5-gram german language model from huggingface (https://huggingface.co/aware-ai/wav2vec2-xls-r-1b-5gram-german)

In [50]:
#lm_path = "language_model/wav2vec2-xls-r-1b-german-german-5g.binary"

Instantiate beam search with language model

In [51]:
'''
beam_search_lm = nemo_asr.modules.BeamSearchDecoderWithLM(
    vocab=list(model.decoder.vocabulary),
    beam_width=16,
    alpha=2, beta=1.5,
    lm_path=lm_path,
    num_cpus=max(os.cpu_count(), 1),
    input_tensor=False)
'''

'\nbeam_search_lm = nemo_asr.modules.BeamSearchDecoderWithLM(\n    vocab=list(model.decoder.vocabulary),\n    beam_width=16,\n    alpha=2, beta=1.5,\n    lm_path=lm_path,\n    num_cpus=max(os.cpu_count(), 1),\n    input_tensor=False)\n'

In [52]:
#best_sentence_prediction = beam_search_lm.forward(log_probs = np.expand_dims(stt_probs, axis=0), log_probs_length=None)[0][0][1]

In [53]:
#print(best_sentence_prediction)

## Alignment Procedure

In [54]:
from aligning.sentence_aligner import SentenceAligner
from aligning.stt_reader import NeMoSttOutputReader
from aligning.utils import Word

In [55]:
final_stt_output = []
for i in range(0, len(processed_stt_output)):
    final_stt_output.append(Word(storage_words[i], storage_start_time[i], storage_end_time[i], average_probs[i]))

print(len(final_stt_output))

3520


In [56]:
sentence_aligner = SentenceAligner()

In [57]:
sentence_alignment, alignment_info = sentence_aligner.predict_one(
    truth_sentences, final_stt_output,
    do_length_ratio_full_transcript_filtering=False,
    do_time_correction=False,
)

In [58]:
print(alignment_info.truth_length)

0       180
1        84
2       121
3        30
4        52
       ... 
1649     67
1650     87
1651    264
1652    126
1653      6
Name: truth_length, Length: 1654, dtype: int64


In [59]:
NONE_TIME_STRING_REPRESENTATION = '-1.0'
def transform_start_time(time):
    if time is None:
        return NONE_TIME_STRING_REPRESENTATION
    else:
        return time

def transform_end_time(time):
    if time is None:
        return NONE_TIME_STRING_REPRESENTATION
    else:
        return time

In [60]:
with open("final_output_0224.txt", 'w', encoding='utf-8') as f:
        for aligned_sentence in sentence_alignment:
            f.write(f'{transform_start_time(aligned_sentence.start_time)}\t{transform_end_time(aligned_sentence.end_time)}\t{aligned_sentence.sentence}\n')

## IOU Estimation
With the following features the IOU is estimated:
- Length Ratio
- Alignment Score
- Mean speech recognition confidence
- Chars per second

Given the IOU a threshold is set determining whether the sentence is discarded for training or not. 

In [61]:
normalized_score = alignment_info.score / alignment_info.truth_length
length_ratio = alignment_info.truth_length / alignment_info.stt_length
chars_per_second = alignment_info.truth_length / alignment_info.audio_duration

features = pd.DataFrame(
                        {'confidence': alignment_info.stt_confidence,
                        'score': normalized_score,
                        'length_ratio': length_ratio,
                        'chars_per_second': chars_per_second
                        }
                       )
features['chars_per_second'].replace(np.inf, 0, inplace=True)
print(features)

      confidence     score  length_ratio  chars_per_second
0       0.797649 -0.262142     60.000000       1500.000000
1       0.797649 -0.272974     28.000000          0.000000
2       0.797649 -0.266763     40.333333          0.000000
3       0.797649 -0.309530     10.000000          0.000000
4       0.797649 -0.285471     17.333333          0.000000
...          ...       ...           ...               ...
1649    0.966948 -0.160701      0.930556         13.188976
1650    0.946148 -0.373308      1.129870         18.510638
1651    0.954532 -0.431939      1.168142         15.612064
1652    0.861879 -0.380734      1.340426         20.160000
1653    0.864784 -0.791969      0.666667          0.339367

[1654 rows x 4 columns]


## Audio Splitting
Given the sequences determined by the alignments with sentences, we split up the large audio files into digestable sequences. 
To prepare the sequences for training manifests for NeMo will be built. 

Prepare data for fitting the IOU estimator. First all the features are loaded and possible NAs are dropped from the dataframe. 
The actual IOUs are calculated given the start and end time of the truth sentence alignment and the predicted sentence alignment. 

In [62]:
df_features = features.dropna()

In [63]:
df = df_features.copy()

In [64]:
df = df.drop(df[df.chars_per_second == 0].index)
df = df.iloc[1: , :]

In [65]:
print(df)

      confidence     score  length_ratio  chars_per_second
1366    0.843409 -0.455796      1.562500         11.961722
1367    0.943141 -0.389824      1.106977         14.875000
1368    0.834532 -0.773286      0.517241          3.456221
1369    0.851718 -0.648332      0.566667          3.932151
1370    0.873994 -0.469443      1.073171          8.118081
...          ...       ...           ...               ...
1649    0.966948 -0.160701      0.930556         13.188976
1650    0.946148 -0.373308      1.129870         18.510638
1651    0.954532 -0.431939      1.168142         15.612064
1652    0.861879 -0.380734      1.340426         20.160000
1653    0.864784 -0.791969      0.666667          0.339367

[288 rows x 4 columns]


Get estimated alignments of the audio file provided

In [68]:
time_first_sentences = sentence_alignment[1].start_time
print(time_first_sentences)

0.12


In [69]:
estimated_alignments = [item for item in sentence_alignment if item.start_time != time_first_sentences]

In [111]:
def write_sentence_alignment(sentence_alignment: List[AlignedSentence], path_to_sentence_alignment):
    with open(path_to_sentence_alignment, 'w', encoding='utf-8') as f:
        for aligned_sentence in sentence_alignment:
            f.write(f'{aligned_sentence.start_time}\t{aligned_sentence.end_time}\t{aligned_sentence.sentence}\n')

In [113]:
write_sentence_alignment(estimated_alignments, "data/estimated_timestamps_0224.txt")

In [130]:
print(index_keep)

[1, 6, 7, 9, 10, 12, 13, 14, 15, 16, 18, 19, 21, 22, 23, 24, 28, 29, 30, 31, 34, 35, 36, 37, 38, 41, 43, 44, 45, 46, 48, 52, 53, 54, 55, 57, 59, 60, 62, 63, 64, 70, 74, 77, 78, 80, 81, 82, 84, 85, 86, 87, 88, 90, 91, 92, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 115, 118, 119, 123, 124, 125, 126, 127, 128, 129, 131, 133, 134, 135, 136, 137, 138, 139, 141, 142, 144, 145, 146, 147, 148, 149, 150, 151, 152, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 165, 167, 168, 169, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 183, 184, 185, 187, 193, 195, 196, 198, 199, 200, 201, 202, 203, 204, 205, 206, 207, 208, 209, 210, 211, 212, 214, 215, 216, 217, 218, 219, 220, 221, 222, 223, 224, 225, 228, 230, 231, 236, 237, 238, 239, 240, 241, 242, 243, 244, 245, 248, 249, 250, 251, 252, 253, 254, 255, 256, 257, 258, 259, 260, 261, 269, 270, 276, 277, 278, 279, 280, 281, 282, 283, 284, 285, 286]


In [131]:
high_quality_sentences = [sentence_alignment[i] for i in range(len(sentence_alignment)) if i in index_keep]

In [147]:
AUDIO_FILE = ['data/final_0224.wav']

In [150]:
from pydub import AudioSegment

audio_file = AudioSegment.from_wav(AUDIO_FILE[0])

for i, sentence in enumerate(high_quality_sentences):
    
    # file path for each sentence
    new_file_path = f'data/audio_output_0224/sentence_{i}.wav'

    # splitting - works in miliseconds (*1000)

    start = sentence.start_time * 1000
    end = sentence.end_time * 1000
    
    #new_audio_file = audio_file[start:end]

    # saving
    #new_audio_file.export(new_file_path, format="wav")

Ich begrüsse Sie recht herzlich zur ersten Sitzung im Jahr zweitausendeinundzwanzig.
Er nahm zweitausendsieben bis zum Legislaturwechsel im Sommer zweitausendzwanzig als CVP-Vertreter aus der Gemeinde Arth im Kantonsrat Einsitz.
Von zweitausendzwölf bis zweitausendfünfzehn war er Fraktionspräsident der CVP und von zweitausendsechzehn bis zweitausendachtzehn amtete er als Präsident der Kommission für Bildung und Kultur.
Er sass von eintausendneunhundertzweiundsiebzig bis eintausendneunhundertachtzig als SP-Vertreter aus der Gemeinde Ingenbohl im Kantonsrat.
Am sechster Februar zweitausendeinundzwanzig verstarb alt Kantonsrat Bruno Germann aus Pfäffikon.
Ich bitte Sie, die lieben Verstorbenen in Ihr stilles Gebet einzuschliessen.
Vielen Dank.
Wir sind es uns beinahe gewohnt, hier drin zu tagen.
Erlauben Sie mir trotzdem, die wichtigsten Punkte unseres Sicherheitskonzepts noch einmal kurz erläutern.
Bitte halten Sie heute die Abstands- und die Hygienemassnahmen den ganzen Tag wiederum kon