Esta IA pode dizer o que você está digitando com base no som

blog

LarLar / blog / Esta IA pode dizer o que você está digitando com base no som

Aug 11, 2023

Esta IA pode dizer o que você está digitando com base no som

Este artigo faz parte de nossa série exclusiva IEEE Journal Watch em parceria com IEEE Xplore. As mensagens que você digita podem ser decodificadas pelo simples som dos seus dedos tocando nas teclas, de acordo com

Este artigo faz parte de nossa série exclusiva IEEE Journal Watch em parceria com IEEE Xplore.

As mensagens que você digita podem ser decodificadas pelo simples som de seus dedos batendo nas teclas, de acordo com um artigo recente de pesquisadores das Universidades de Durham e Surrey e da Universidade de Londres.

Os pesquisadores treinaram dois modelos de aprendizado de máquina para reconhecer os cliques distintos de cada tecla do teclado de um laptop Apple. Os modelos foram treinados em áudio coletado de duas fontes: um smartphone colocado próximo e uma videochamada realizada pelo Zoom. Eles relatam uma precisão de 95% para o modelo de áudio do smartphone e 93% para o modelo de chamada Zoom.

Esses modelos podem tornar possível o que é conhecido como ataque acústico de canal lateral. Embora a técnica apresentada neste artigo se baseie em técnicas contemporâneas de aprendizagem automática, tais ataques remontam pelo menos à década de 1950, quando os serviços de inteligência britânicos registaram sub-repticiamente dispositivos mecânicos de encriptação utilizados pelo governo egípcio.

Um ataque acústico de canal lateral de laptop estima quais teclas foram pressionadas e em que ordem, a partir de gravações de áudio de uma pessoa que as utilizou. Esses ataques podem revelar informações confidenciais do usuário, como PINs bancários, senhas de contas ou credenciais governamentais.

Os modelos da equipe são construídos em torno de redes neurais convolucionais, ou CNNs. Assim como essas redes podem reconhecer rostos numa multidão, também podem reconhecer padrões num espectrograma, o gráfico de um sinal de áudio. O programa isola o áudio de cada pressionamento de tecla, transforma sua forma de onda em um espectrograma, extrai dele os padrões de frequência de cada clique e calcula a probabilidade relativa de uma determinada tecla ter sido pressionada.

“Consideramos os dados acústicos como uma imagem para a CNN”, diz Ehsan Toreini, coautor do relatório. “Acho que essa é a principal razão pela qual nosso método funciona tão bem.”

Um ataque acústico de canal lateral depende de estimativas de quais teclas foram pressionadas e em que ordem, para reconstruir informações confidenciais.

O ataque apresentado no artigo tem escopo limitado. Os dois modelos de decodificação de áudio foram treinados e avaliados com base em dados coletados do mesmo usuário digitando em um único laptop. Além disso, o processo de treinamento usado exige que os sons principais sejam combinados com rótulos principais. Resta saber quão eficaz esse ataque seria se usado em outros modelos de laptop em diferentes ambientes de áudio e com diferentes usuários. Além disso, a necessidade de dados de treinamento rotulados impõe limites à extensão da implantação do modelo.

Ainda assim, existem cenários plausíveis em que um invasor teria acesso a dados de áudio rotulados de uma pessoa digitando. Embora possa ser difícil recolher dados secretamente, uma pessoa pode ser coagida a fornecê-los. Em uma entrevista recente no podcast Smashing Security, Toreini e a coautora Maryam Mehrnezhad descrevem um cenário hipotético em que uma empresa exige que novos funcionários forneçam esses dados para que possam ser monitorados posteriormente. Numa entrevista ao IEEE Spectrum, Mehrnezhad disse que “outro exemplo seria a violência entre parceiros íntimos. Um ex-parceiro ou parceiro atual pode ser um mau ator nesse cenário.”

A equipe de pesquisa apresenta diversas maneiras de mitigar os riscos desse ataque. Por um lado, você pode simplesmente digitar rápido: a digitação por toque pode misturar pressionamentos de teclas individuais e complicar o isolamento e a decodificação das teclas digitadas. Mudanças sistêmicas também ajudariam. Serviços de videochamada como o Zoom podem introduzir ruído de áudio ou perfis de distorção nas gravações, o que impediria que os modelos de aprendizado de máquina combinassem facilmente o áudio com os caracteres digitados.

“A comunidade de cibersegurança e privacidade deve apresentar soluções mais seguras e que preservem a privacidade, que permitam às pessoas utilizar tecnologias modernas sem risco e medo”, afirma Mehrnezhad. “Acreditamos que há espaço para a indústria e os decisores políticos encontrarem melhores soluções para proteger o utilizador em diferentes contextos e aplicações.”

Os pesquisadores apresentaram seu artigo no recente Simpósio Europeu IEEE de 2023 sobre Workshops de Segurança e Privacidade.