Os robôs já conseguem escutar e transcrever o que as pessoas dizem tão bem quando um ouvido humano comum. Foi este o resultado do esforço da Microsoft, que revelou que uma equipe de engenheiros na área de pesquisa em inteligência artificial desenvolveu um sistema de reconhecimento de voz com o mesmo índice de erros que uma pessoa normal.
Para avaliar a qualidade do algoritmo, foi usada a métrica WER (sigla em inglês para “taxa de erros de palavras”), que mede a capacidade de um sistema de reconhecer a voz e transcrevê-la de forma precisa. O software em questão foi capaz de obter uma taxa de erros de apenas 5,9%, que foi aproximadamente igual ao obtido por pessoas que receberam a tarefa de transcrever a mesma conversa.
Compreensivelmente, os pesquisadores da Microsoft ficaram empolgados com o resultado, declarando uma marca histórica. “Alcançamos a paridade humana”, comemora Xuedong Huang, chefe de cientistas da fala na companhia. No entanto, os cientistas explicam que a marca é importante, mas ainda está longe de ser perfeita, porque os humanos não são perfeitos.
As pesquisas para chegar até este ponto foram extensas e duraram décadas, mas o ritmo de evolução se intensificou nos últimos tempos. No mês passado, o sistema também já havia atingido uma marca importante, com uma pontuação de 6,3 WER, que ficou ainda um pouco atrás das capacidades humanas. Neste mês, a meta foi alcançada.
Este nível de precisão usou redes neurais que armazenam volumes enormes de informações, que são usados para treinar o sistema. Com isso, a inteligência artificial consegue reconhecer padrões de voz para conseguir transcrever a fala para texto.
O próximo passo é melhorar ainda mais o sistema e garantir que ele funcione em situações do mundo real, que vão muito além do que um laboratório pode proporcionar. É importante que o algoritmo seja capaz de reconhecer o que é dito também em restaurantes com barulho de fundo, em ruas movimentadas e em ventos fortes.
A conquista é importantíssima para o futuro da Microsoft, já que a grande aposta do mercado de tecnologia é que a inteligência artificial pode substituir os apps em um futuro não muito distante. Em vez de abrir um aplicativo para realizar uma função, dê um comando de voz para uma assistente virtual (no caso da Microsoft, a Cortana) realizar a ação por você; para este futuro se concretizar, o sistema tem que ficar cada vez melhor em entender comandos de voz. Xbox, Office, Windows também se beneficiam diretamente disso.
No entanto, para chegar a um ponto perfeito da tecnologia, a IA terá que ir além do simples reconhecimento de fala e chegar ao ponto da compreensão da fala. É significativamente mais fácil transformar sons que saem da boca das pessoas em letras do que extrair significado do que é dito e compreender contextos. É só quando as máquinas realmente entenderem o que é dito, e não apenas transcreverem, é que elas serão realmente capazes de realizar as tarefas que se espera de um futuro da inteligência artificial.