Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Update DSAlign to 0.7+ #31

Closed
madziszyn opened this issue Jun 12, 2020 · 4 comments
Closed

Update DSAlign to 0.7+ #31

madziszyn opened this issue Jun 12, 2020 · 4 comments
Assignees

Comments

@madziszyn
Copy link

Hi, first of all thank You for this awsome tool.
@tilmankamp have you considered updating DSAlign to DeepSpeech 0.7.3?

@BoneGoat
Copy link
Contributor

Initial support here: https://github.com/BoneGoat/DSAlign

python align/align.py --output-max-cer 15 --loglevel 10 --audio data-sv/audio/6_tyskland_kott_app_25446c3_a96.wav --script data-sv/script/6_tyskland_kott_app_25446c3_a96.txt --aligned data-sv/aligned/aligned.json --tlog data-sv/aligned/transcript.log --stt-model-dir models/sv
DEBUG:root:Start
DEBUG:root:Looking for model files in "models/sv"...

Converting to lowercase and counting word occurrences ...
1it [00:00, 3125.41it/s]

Saving top 500000 words ...

Calculating word statistics ...
  Your text file has 239 words in total
  It has 156 unique words
  Your top-500000 words are 100.0000 percent of all words
  Your most common word "i" occurred 11 times
  The least common word in your top-k is "arndt" with 1 times
  The first word with 2 occurrences is "men" at place 32

Creating ARPA file ...
=== 1/5 Counting and sorting n-grams ===
Reading fd 3
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
****************************************************************************************************
Unigram tokens 239 types 159
=== 2/5 Calculating and sorting adjusted counts ===
Chain sizes: 1:1908 2:1424671872 3:2671259904 4:4274015488 5:6232940032
Substituting fallback discounts for order 2: D1=0.5 D2=1 D3+=1.5
Substituting fallback discounts for order 3: D1=0.5 D2=1 D3+=1.5
Substituting fallback discounts for order 4: D1=0.5 D2=1 D3+=1.5
Statistics:
1 158 D1=0.828947 D2=0.469636 D3+=1.75658
2 229 D1=0.940426 D2=1.59696 D3+=3
3 1/237 D1=0.5 D2=1 D3+=1.5
4 0/237 D1=0.5 D2=1 D3+=1.5
5 0/236 D1=0.5 D2=1 D3+=1.5
Memory estimate for binary LM:
type        B
probing  9672 assuming -p 1.5
probing 11692 assuming -r models -p 1.5
trie     5966 without quantization
trie    11770 assuming -q 8 -b 8 quantization
trie     6015 assuming -a 22 array pointer compression
trie    11818 assuming -a 22 -q 8 -b 8 array pointer compression and quantization
=== 3/5 Calculating and sorting initial probabilities ===
Chain sizes: 1:1896 2:3664 3:20 4:24 5:28
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
####################################################################################################
=== 4/5 Calculating and writing order-interpolated probabilities ===
Chain sizes: 1:1896 2:3664 3:20 4:24 5:28
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100

=== 5/5 Writing ARPA model ===
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100

RSSMax:2574880768 kB	user:0.419857	sys:0.7398	CPU:1.1597	real:1.20873

Filtering ARPA file using vocabulary of top-k words ...
Reading data-sv/script/6_tyskland_kott_app_25446c3_a96.txt.scorer.lm.arpa
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
****************************************************************************************************

Building lm.binary ...
Reading data-sv/script/6_tyskland_kott_app_25446c3_a96.txt.scorer.lm_filtered.arpa
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
****************************************************************************************************
Identifying n-grams omitted by SRI
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
****************************************************************************************************
Quantizing
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
****************************************************************************************************
Writing trie
----5---10---15---20---25---30---35---40---45---50---55---60---65---70---75---80---85---90---95--100
****************************************************************************************************
SUCCESS
156 unique words read from vocabulary file.
Doesn't look like a character based model.
Package created in data-sv/script/6_tyskland_kott_app_25446c3_a96.txt.scorer
DEBUG:root:Loading acoustic model from "models/sv/output_graph.pbmm", alphabet from "models/sv/alphabet.txt" and scorer from "data-sv/script/6_tyskland_kott_app_25446c3_a96.txt.scorer"...
DEBUG:root:Transcribing VAD segments...
INFO:root:VAD splitting
       19 (elapsed: 00:00:00, speed: 352.90 it/s)
TensorFlow: v1.15.0-24-gceb46aae58
DeepSpeech: v0.7.1-0-g2e9c281d
2020-06-20 15:05:32.772552: I tensorflow/core/platform/cpu_feature_guard.cc:142] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
DEBUG:root:Process 67738: Loaded models
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: i tyskland har specialutbildad militär satts in i helgen för att testa över en se personer vid köttfabriken tönnies i delstaten och han westfahlen där över ju under anställda hittills har visat sig bära på coronasmittan
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: slakterifabriken är en av europas största och utbrottet har satt igång en diskussion i tyskland om arbetsförhållandena i hela köttbranschen
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: en till som blir att i tyska som ska har fler och en som i på visat har är de anställda i arndt på fabriken men in i för talet så i till en han en många idag
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: inom däremot von visat satts in
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: i tyskland domineras köttmarknaden av just slaktkoncernen tönnies som har ett i procent av marknadsandelarna här
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: tysklands arbetsmarknadsminister hubertus heil lovar nu att utbrottet på fabriken kommer att få grundläggande konsekvenser för hela branschen det handlar den annat de skärpta kontroller och digitalt reglerad arbetstid
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: han säger till tevekanalen ard att är dramatiskt att så många smittas på fabriken
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: som det se under att så till men in det ett in sitt en
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: det i som i värde de med under en i branschen av om
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: nu i helgen ska som militärer däribland ett med medicinsk utbildning utföra tester för covid inom för att se om ännu fler av de anställda i smittade
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: jordbruksministern i delstaten har westfahlen där fabriken ligger
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: hoppas nu på federala lagar som stoppar kött som säljs långt under sitt värde
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: men kött kunden till för ett kirnse i berlin
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: tror inte på att förbjuda billigt kött
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: men däremot blir ju köttet automatisk dyrare om arbetsförhållandena förbättras
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: säger han
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: det växt för i över på talet i om som det en att för i satts i är och igång har
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: att få sitt testa satt få har en
DEBUG:root:Process 67738: Transcribing...
DEBUG:root:Process 67738: katarina för ett i berlin
DEBUG:root:Excluded 0 empty transcripts
DEBUG:root:Writing transcription log to file "data-sv/aligned/transcript.log"...
INFO:root:Aligning
DEBUG:root:Loading script from data-sv/script/6_tyskland_kott_app_25446c3_a96.txt...
DEBUG:root:Loading transcription log from data-sv/aligned/transcript.log...
INFO:root:Fragment 0: character error rate (CER) too high
DEBUG:root:Fragment 1 aligned with CER: 0.00
DEBUG:root:- T:           "slakterifabriken är en av europas största och utbrottet har satt igång en diskussion i tyskland om arbetsförhållandena i hela köttbranschen"
DEBUG:root:- O: nasmittan |slakterifabriken är en av europas största och utbrottet har satt igång en diskussion i tyskland om arbetsförhållandena i hela köttbranschen| i köttbut
DEBUG:root:Fragment 4 aligned with CER: 5.66
DEBUG:root:- T:           "i tyskland domineras köttmarknaden av just slaktkoncernen tönnies som har ett i procent av marknadsandelarna här"
DEBUG:root:- O: h arbetar |i tyskland domineras köttmarknaden av just slaktkoncernen tönnies som har procent av marknadsandelarna här| det är et
DEBUG:root:Fragment 5 aligned with CER: 2.74
DEBUG:root:- T:           "tysklands arbetsmarknadsminister hubertus heil lovar nu att utbrottet på fabriken kommer att få grundläggande konsekvenser för hela branschen det handlar den annat de skärpta kontroller och digitalt reglerad arbetstid"
DEBUG:root:- O: er länder |tysklands arbetsmarknadsminister hubertus heil lovar nu att utbrottet på fabriken kommer att få grundläggande konsekvenser för hela branschen det handlar bland annat om skärpta kontroller och digitalt reglerad arbetstid| han säger
DEBUG:root:Fragment 6 aligned with CER: 4.71
DEBUG:root:- T:           "han säger till tevekanalen ard att är dramatiskt att så många smittas på fabriken"
DEBUG:root:- O: arbetstid |han säger till tevekanalen ard att det är dramatiskt att så många smittas på fabriken| nu i helg
DEBUG:root:Fragment 9 aligned with CER: 11.03
DEBUG:root:- T:           "nu i helgen ska som militärer däribland ett med medicinsk utbildning utföra tester för covid inom för att se om ännu fler av de anställda i smittade"
DEBUG:root:- O:  fabriken |nu i helgen ska militärer däribland med medicinsk utbildning utföra tester för covid för att se om ännu fler av de anställda är smittade| jordbruks
DEBUG:root:Fragment 10 aligned with CER: 11.27
DEBUG:root:- T:           "jordbruksministern i delstaten har westfahlen där fabriken ligger"
DEBUG:root:- O:  smittade |jordbruksministern i delstaten nordrhein westfahlen där fabriken ligger| hoppas nu
DEBUG:root:Fragment 11 aligned with CER: 0.00
DEBUG:root:- T:           "hoppas nu på federala lagar som stoppar kött som säljs långt under sitt värde"
DEBUG:root:- O: en ligger |hoppas nu på federala lagar som stoppar kött som säljs långt under sitt värde| men kunde
INFO:root:Fragment 12: character error rate (CER) too high
DEBUG:root:Fragment 13 aligned with CER: 0.00
DEBUG:root:- T:           "tror inte på att förbjuda billigt kött"
DEBUG:root:- O:  i berlin |tror inte på att förbjuda billigt kött| men därem
DEBUG:root:Fragment 14 aligned with CER: 0.00
DEBUG:root:- T:           "men däremot blir ju köttet automatisk dyrare om arbetsförhållandena förbättras"
DEBUG:root:- O: ligt kött |men däremot blir ju köttet automatisk dyrare om arbetsförhållandena förbättras| säger han
DEBUG:root:Fragment 15 aligned with CER: 0.00
DEBUG:root:- T:           "säger han"
DEBUG:root:- O: örbättras |säger han| katarina
 1 of 1 : 100.00% (elapsed: 00:00:01, speed: 0.91 it/s, ETA: 00:00:00)
INFO:root:Aligned 10 fragments
INFO:root:Dropped 9 fragments 90.00%:
INFO:root: - character error rate (CER) too high: 2

@tilmankamp tilmankamp self-assigned this Jun 22, 2020
@tilmankamp
Copy link
Contributor

@BoneGoat Great work! Would you like to put up a PR for this?

@BoneGoat
Copy link
Contributor

I have taken some shortcuts to get it working which I would like to clean up. For instance, the scorer is built using modified code from DeepSpeech. As DeepSpeech is a dependency of DSAlign I would much rather use it directly but for now I had to change some stuff get it working. I will try to clean it up and submit a PR.

@tilmankamp
Copy link
Contributor

Solved by #32

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants