speechgen

Speechgen je autoregresivni transformer model treniran da generiše govor srpskog jezika. VQ-VAE komponenta vrši tokenizaciju zvuka, dok je transformer treniran da predviđa sledeći token. Projekat se takođe sadrži i transkripcioni model, čija arhitektura se sastoji iz jednog jednodimenzionog konvolucionog sloja, čija je uloga transkripcija teksta. Ovaj transkripcioni model je treniran na maloj količini podataka, koristeći izlaznu reprezentaciju generativnog modela.

Instrukcije za korišćenje transkripcionog modela

Dependencies

Python 3.9
PyTorch
FuzzyWuzzy
Levenshtein

Težine

Link do težina

Težine staviti u folder transcriber/weights

Trening transkripcionog modela

Za pokretanje treninga transkripcionog modela, koristite train_transcriber.py.

Na vrhu fajla postoji parametar dataset_size koji može biti postavljen na vrednosti 'mini', 'micro' ili 'nano', što određuje veličinu trening skupa.

python train_transcriber.py

Evaluacija transkripcionog modela

Za evaluaciju transkripcionog modela, koristite evaluate_transcriber.py.

python evaluate_transcriber.py

Primeri generisanih zvukova

Zvukovi u folderu generated_examples su dužine 12 sekundi, gde je prvih 8 sekundi ulazni kontekst, dok su naredne 4 sekunde izgenerisane pomoću generatora. Uzeti u obzir da osim konteksta nema nijednog drugog ulaza u transformer - nije mu rečeno šta da kaže, već on slobodno generiše nastavak govora. Model takođe nije treniran na tekstu, tako da je impresivno što je uspeo da nauči neke česte reči samo slušanjem.

Name		Name	Last commit message	Last commit date
Latest commit History 20 Commits
generated_examples		generated_examples
generator		generator
transcriber		transcriber
voice_augmenter		voice_augmenter
vqvae		vqvae
.gitignore		.gitignore
LICENSE		LICENSE
Nenadgledano ucenje reprezentacije govora kroz predikciju zvuka.pdf		Nenadgledano ucenje reprezentacije govora kroz predikciju zvuka.pdf
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

speechgen

Instrukcije za korišćenje transkripcionog modela

Dependencies

Težine

Trening transkripcionog modela

Evaluacija transkripcionog modela

Primeri generisanih zvukova

About

Releases

Packages

Languages

License

igorpetrovicbe/speechgen

Folders and files

Latest commit

History

Repository files navigation

speechgen

Instrukcije za korišćenje transkripcionog modela

Dependencies

Težine

Trening transkripcionog modela

Evaluacija transkripcionog modela

Primeri generisanih zvukova

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages