Este trabalho está sendo financiado pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPq pela Universidade Federal do Amazonas.
Em diversos sistemas de Speech-to-Text, sentenças são geradas, na maioria das vezes, sem tratamento em relação a pontuações, capitalização e contexto. Entretanto pontuação em textos é importante tanto para o entendimento dos mesmos para leitores e para pós-processamento de sistemas de NLP. Mais recentemente há um crescimento na utilização de sistemas que dependem primariamente da interação por voz, como assistentes virtuais, smartspeakers, etc e por conta disso há espaço para melhorias neste espaço.
Este trabalho busca explorar técnicas de restauração de pontuação em textos não pontuados utilizando a combinação de Embeddings pré-treinados em diversos níveis.
A inspiração deste trabalho se dá em parte pelo meu interesse em trabalhar com áudio (especificamente música) no contexto de Deep Learning e este ser um ponto próximo de trabalho atual.
Artigos influentes até o momento:
- Adversarial Transfer Learning for Punctuation Restoration
- Joint word-and character-level embedding CNN-RNN models for punctuation restoration
- Sequence-to-sequence models for punctuated transcription combining lexical and acoustic features
- Self-attention Based Model for Punctuation Prediction Using Word and Speech Embeddings
- Experiments in Character-Level Neural Network Models for Punctuation