Imagine que você recebe dois arquivos. O primeiro deles é uma planilha do Excel que contém, em uma coluna, campos como “Nome”, “Idade” e “Endereço” e, na coluna vizinha, as informações referentes a uma pessoa (João da Silva, por exemplo). O segundo é uma entrevista em vídeo com esse mesmo João da Silva, na qual ele menciona as mesmas informações do que as que estão contidas na planilha.
Em termos de informação, pode parecer que há pouca diferença entre os dois arquivos. Afinal, todos dados sobre João que estão presentes na planilha são mencionados por ele em algum momento do vídeo. Mas num segundo momento, é fácil entender que o vídeo contém também uma série de outras informações que a planilha não seria capaz de incluir.
Por exemplo: como vemos João falando conosco, percebemos sua expressão facial ao nos dar cada informação. Vemos, aliás, o seu rosto – algo que uma planilha com apenas números e letras jamais poderia mostrar. Notamos também a expressão corporal de João, e disso podemos depreender se ele é tímido ou extrovertido, se ele está à vontade com a entrevista ou receoso por causa dela.
Finalmente, além de João notamos também o local da entrevista, e isso nos dá uma série de informações sobre aquele momento. Se ele aconteceu na casa de João, por exemplo, teremos uma ideia de sua condição social. Uma planilha que incluísse apenas os dados “brutos” de João, por outro lado, jamais seria capaz de nos dar insights desse tipo.
Infelizmente, no entanto, há outra diferença profunda entre os dois arquivos. A planilha pode facilmente ser lida e interpretada por uma máquina, que a partir do arquivo pode organizar todas as informações sobre João. O vídeo, por sua vez, embora contenha ainda mais informações, não seria compreendido pela máquina. Com isso, os dados contido nele acabariam passando em branco – ao menos por enquanto.
Computadores que vêem
De maneira geral, o exemplo acima ilustra a diferença entre “dados estruturados” (a planilha) e “dados não estruturados” (o vídeo). Os dados estruturados são bem organizados, facilmente legíveis por uma máquina e facilmente indexáveis, o que faz com que seja fácil encontrá-los em buscas. Os dados não estruturados, por sua vez, são menos organizados e legíveis por máquinas; por isso, são difíceis de indexar, e acabam não aparecendo mesmo em buscas relevantes.
É fácil perceber que isso representa um grande problema para empresas e serviços que dependem de dados para o seu bom funcionamento. Sem dúvida, a internet está cheia de dados – nunca houve, na história, uma biblioteca tão vasta de informações. Mas quantos desses dados estão organizados de uma maneira que nos permita encontrá-los?
Felizmente, a tecnologia já está em um ponto que nos permite contornar essa situação. Graças a sistemas de inteligência artificial e recursos como aprendizagem de máquina, os computadores estão entrando cada vez mais na “era cognitiva” – um momento em que os dados “não estruturados” serão, para eles, tão claro quanto as tradicionais planilhas do Excel.
Alguns exemplos disso já podem ser observados nas APIs do Watson, o sistema de computação cognitiva da IBM. Por meio delas, é possível criar sistemas capazes de detectar emoções em vídeos (com base em expressões faciais) ou arquivos de áudio (baseando-se no tom de voz), e até mesmo em textos. Demandas mais tradicionais – como compreender as informações que uma pessoa transmite e indexá-la para que ela apareça em buscas futuras – são ainda mais simples de se incorporar.
Vendo mais do que nós
Com essas tecnologias, o problema que os dados não estruturados apresentam hoje para empresas e serviços que dependem de Big Data deve se tornar algo do passado. E por incrível que pareça, isso pode ser apenas o primeiro passo em uma revolução na maneira como lidamos com a informação.
Isso porque treinar um sistema para que ele extraia as mesmas informações de um vídeo que nós extraímos é só o começo. É possível continuar a refinar os algoritmos de aprendizagem da máquina para que ela se torne capaz de perceber ainda mais informações do que nós somos capazes de perceber.
Exemplos disso já existem no mundo real. Empresas como Microsoft, Google e a própria IBM já estão aplicando recursos de inteligência artificial para identificar e tratar doenças com mais precisão, rapidez e eficiência. Tudo isso é feito com a ajuda dos dados: após analisar milhões de exames de pacientes com câncer (que incluem imagens, gravações e outros dados complexos), os sistemas conseguem detectar os padrões que sinalizam a doença em outros pacientes – muitas vezes com precisão superior à de médicos.
Se interessou pelo assunto? A IBM vai promover um evento ao vivo no dia 24 de outubro (terça-feira) sobre esse assunto. Nele, a empresa vai mostrar como as ferramentas de inteligência artificial podem ser usadas criar análises e extrair insights. Trata-se de um evento gratuito que exige apenas inscrição prévia. A inscrição pode ser realizada por meio deste link.