Reality TCC #003 – Processamento digital de sinais para reconhecimento por voz
Seguindo com o reality tcc, este final de semana foi a vez do resumo sobre técnicas de processamento digital de sinais para reconhecimento de voz, o texto de origem tem cada fórmula uma mais louca que a outra, no entanto o texto é muito bom, mas acho que ainda terei que ler muito para conseguir desenvolver essa “pequena” solução.
Atualmente encontramos dois tipos de soluções para reconhecimento de voz, uma é RAV (Reconhecimento Automática de Voz) utilizada em celulares, veículos e URAs (unidade de resposta audível) de 0800, e a outra é o RAL (Reconhecimento Automático de Locutores) encontrada em sistema seguranças, onde é necessário a identificação da pessoa que a produziu o som.
O texto também fala sobre as etapas de pré-processamento, que consistem em pré-ênfase, divisão do sinal em frames e janelamento. A utlização dos coeficientes cepstrais e mel-cepstrais para redução do volume de dados sem perda da informação útil. e por último o processo de classificação em três etapas distintas através da quantização vetorial, que são a geração de codebook, a quantização de um padrão desconhecido e a comparação ou medida de distorção.
O próximo será um resumo técnico sobre os ferramentas de gerenciamento de identidade da Sun e IBM.
Fonte: UFCG
Posts Relacionados:
You can follow any responses to this entry through the RSS 2.0 feed. You can leave a response, or trackback from your own site.