Utiliza as técnicas x-vector baseadas em RESNET.
autor: Adelino Pinheiro Silva email: adelinocpp@yahoo.com
Inspirado nos trabalhos de Dudans, o SpeakerRecognition_tutorial e de Krishna, o x-vector pytorch
O PLDA foi implementado por [Ravi B. Sojitra] (https://github.com/RaviSoji)
1 - Abrir o arquivo "configure.py" e indicar os caminhos dos arquivos de treinamento na variável "TRAIN_WAV_DIR" e de testes na variável "TEST_WAV_DIR".
Em cada diretório (TRAIN_WAV_DIR e TEST_WAV_DIR) os subdiretorios serão interpretados como chaves de identificação de locutores. Dentro de cada subdiretório devem ser armazenados os arquivos "*.wav" (utterances) de um mesmo locutor. Exemplo do diretório de treinamento
/training_dir
/0001
/utterance_01.wav
/utterance_02.wav
/utterance_03.wav
...
/1005
/utterance_01.wav
/utterance_02.wav
/utterance_03.wav
Sugiro utilizar o nome dos subdiretórios dos locutores como números únicos para cada locutor. Fique atento, se um mesmo locutor estiver no diretório de treinamento e de teste eles precisam ter a mesma chave (nome/número de diretório) ou serão considerados como locutores diferentes (o que pode ser um problema na modelagem LDA).
O nome do arquivo dentro do diretório não tem tanta importância. Utilize o arquivo de áudio com extensão wav, codificação PCI em 8 kHz e 16 bits.
Em construção...