01 Introdução

arnonvs edited this page May 27, 2012 · 11 revisions

Introdução

Ao longo da história da computação diversos tipos de computadores, sistemas e periféricos foram construídos, sendo que enquanto alguns caíram em desuso, outros se consolidaram e persistem até hoje.

Sendo os mais utilizados, esses dispositivos influenciam como as aplicações são projetadas. Um sistema de eye tracking por exemplo, é projetado para ser utilizado em um computador com câmera.

Algumas vezes, dois ou mais desses periféricos ou tecnologias são combinados para criar uma aplicação mais interessante. Um editor de texto por exemplo, é desenvolvido tendo-se em mente que ele será utilizado em um ambiente com interface gráfica, teclado e mouse, combinando os recursos que esses dispositivos oferecem.

Da mesma forma, o foco deste trabalho é combinar algumas tecnologias existentes para dar ao usuário a possibilidade de interagir com o computador de uma outra maneira, através de comandos de voz.

1.1 - Objetivo

O objetivo principal deste trabalho é criar um sistema que receba uma entrada de voz através de um microfone, decodifique o sinal de áudio, reconheça possíveis comandos e então os encaminhe para o sistema operacional.

Não é proposto nenhum tipo inovador de interação, apenas uma forma complementar para entrada de dados e comandos através do uso da voz.

1.2 - Metodologia

Para atingir o seu objetivo, este trabalho solucionará o problema em duas etapas: o reconhecimento da fala e a execução dos comandos.

A primeira etapa será realizada por um componente que vai encapsular um reconhecedor de fala. Dado um sinal de áudio como entrada, é produzido como saída um texto que melhor represente o que foi dito.

Em seguida, um segundo componente receberá como entrada o texto produzido anteriormente sobre o qual será feita uma análise para encontrar comandos conhecidos e então executá-los.

1.3 - Desafios

O primeiro desafio apresenta-se no momento da captura da fala, no qual as condições ambientais e os equipamentos utilizados podem influenciar significativamente na qualidade do sinal de áudio utilizado como entrada do sistema (Seltzer, 2003).

O segundo concentra-se na maneira de como a fala é gerada, por exemplo, se for realizada de forma planejada - com o uso de comandos previamente determinados - os sistemas de reconhecimento automático tendem a obter uma maior eficiência. Já no caso de um discurso espontâneo - como em um diálogo - existe uma degradação significativa na qualidade do reconhecimento (Nedel, 2004).

O terceiro está relacionado com a estrutura básica das palavras, os fonemas. Dependendo do sotaque e do usuário, os fonemas podem ter a sua duração modificada em relação ao que o sistema está preparado para reconhecer (Nedel, 2004).

Outro grande problema é definir o escopo de comandos que o sistema aceitará. Não há como saber antecipadamente, quais programas estão instalados na máquina do usuário, suas versões e capacidades. Isso afeta a forma como a arquitetura do sistema será desenhada.

Além disso, para serem compatíveis, as aplicações existentes atualmente precisam ter sido desenvolvidas com a capacidade de aceitar comandos externos de alguma forma. Isso impõe um limitador na abrangência do sistema proposto.

1.4 - Potencial de uso

Conforme citado anterirormente, este trabalho propõe uma forma de entrada de dados complementar, não tendo portanto a pretensão de ser um esforço especificamente nas áreas de acessibilidade ou usabilidade. Entretanto é notável que os principais beneficiados por esta tecnologia serão as pessoas com alguns tipos de inabilidades motoras e/ou visuais.

De acordo com os dados do último censo, cerca de 14,5% da população brasileira se declara portadora de alguma deficiência física ou mental, o que em números absolutos representa mais de 24,5 milhões de pessoas. Proporcionalmente, a maior incidência está nas regiões Norte e Nordeste. Além disso, em 75,1% dos casos as deficiências são físicas, motoras ou de visão.

Para essa parcela da população, tarefas corriqueiras como enviar um email, ou digitar uma carta tornam-se desafios muito mais complexos do que deveriam, pois, atualmente as interfaces mais comuns entre um usuário e um computador são baseadas na interação entre teclado, mouse e monitor.

Ainda que o uso destes periféricos seja razoavelmente simples para a maioria das pessoas, para alguém com tetraplergia, por exemplo, operar um teclado ou mouse diretamente é algo no mínimo improvável. Da mesma forma, uma pessoa com dificuldades visuais tem problemas para interagir com pequenos widgets e ícones, ou ainda com telas que usam esquemas de cores com pouco contraste.

A expectativa é que embora não seja um projeto especificamente voltado para pessoas com essas dificuldades, este trabalho possa ser bem aproveitado por elas ajudando a melhorar a sua qualidade de vida.

1.5 - Referências do Capítulo

Nedel, J. P. Duration Normalization for Robust Recognition of Spontaneos Speech via Missing Feature Methods, Ph.D. Thesis, Carnegie Mellon University, April 2004.

Sletzer, L. M. Microphone Array Processing for Robust Speech Recognition, Ph.D. Thesis, Carnegie Mellon University, Julho 2003.