O Google anunciou nesta terça-feira, 12, uma novidade importante para usuários do Gboard para o Android, o aplicativo de teclado da empresa. A partir de agora, a ferramenta de ditado de texto ficará mais eficaz na hora de processar a voz offline, trazendo reconhecimento de fala totalmente baseado em inteligência artificial operando totalmente dentro do dispositivo. A novidade é válida, por enquanto, apenas para celulares da linha Pixel e com o idioma inglês dos EUA.

A empresa de Mark Zuckerberg aponta uma “revolução” no reconhecimento de fala que começou em 2012 graças a melhorias significativas na precisão. O foco principal do desenvolvimento era reduzir o tempo que a fala de um usuário precisa para ser transcrita — a latência. 

publicidade

Ao tocar no recurso do pequeno microfone de ditado na tela, ele funcionará completamente offline. Até então, o método mais eficaz de transcrição de fala era online, com a transmissão da voz para a nuvem, onde ela era processada remotamente; o texto então chegava ao celular por meio da internet. O ditado offline já existia, mas era menos capaz sem internet. Com o novo sistema do Google, a tecnologia de inteligência artificial de reconhecimento de texto é incorporada diretamente no dispositivo, o que significa que não é necessário que o áudio seja processado remotamente.

Boa parte dessa conquista se deve à simplificação do algoritmo, que antigamente ocupava 2 GB, o que tornava seu uso local, dentro do dispositivo, proibitivo, mas depois de algum tempo passou a ocupar apenas 450 MB e agora chegou a 85 MB. Além disso, a novidade ocupa 85MB de tamanho — os modelos anteriores tinham 2GB e mais tarde 450MB.

O modelo funciona na mesma velocidade da fala do usuário: conforme você fala, ele gera palavras caractere por caractere — utilizando o reconhecedor denominado RNN-T. É como se alguém estivesse digitando realmente. Os espaços serão inseridos quando apropriado. 

Reprodução

O avanço de hoje se deve a vários componentes do sistema de reconhecimento de fala sendo mesclados em um. Uma única rede neural “mapeia diretamente uma forma de onda de áudio de entrada e já define sua saída”.

A nova digitação de voz no dispositivo está lançada agora nos aparelhos Pixel, Pixel 2 e Pixel 3, definidos como inglês americano. Para ativar, vá para Configurações do Gboard> Digitação de voz> Digitação de voz mais rápida. O Google espera que isso aconteça em mais idiomas e, posteriormente, em outros casos de uso.