A Microsoft não permitirá que você use sua nova ferramenta de voz de IA

É tão bom que não é seguro para você usar.

Não é segredo que a IA está ficando bem realista: empresas como a OpenAI estão criando ferramentas que podem replicar imagens, áudio e vídeos de maneiras que estão se tornando cada vez mais difíceis de identificar como tal na hora. Mas, embora seja ruim o suficiente que alguns desses programas já estejam disponíveis ao público, é preocupante ouvir sobre uma ferramenta que é tão boa que está sendo escondida do resto de nós.Vall-E 2 pode roubar sua voz

Conforme relatado pelo TechSpot , a Microsoft criou uma nova versão do seu “modelo de linguagem de codec neural”, Vall-E, apropriadamente agora chamado de Vall-E 2. A Microsoft detalhou os avanços do Vall-E 2 em uma postagem de blog , destacando alguns marcos importantes com este último modelo. Principalmente, o Vall-E 2 atinge a “paridade humana”, o que parece ser uma maneira elegante de dizer: “As saídas do nosso modelo soam como humanos reais”. Tenha medo.

O Vall-E 2 aparentemente alcança dois aprimoramentos importantes sobre o Vall-E: O novo modelo não tem um problema de “loop infinito” que o original tinha ao processar tokens repetidos. O novo modelo considera tokens repetidos e, portanto, é capaz de decodificar uma amostra que os contém. Além disso, o Vall-E 2 encurta o comprimento de uma determinada sequência agrupando códigos de codec, o que a Microsoft diz que aumenta a velocidade de interferência e ignora problemas que surgem da modelagem de sequências longas.

Se tudo isso é um pouco técnico, talvez isso não seja: o Vall-E 2 melhora o Vall-E em “robustez da fala, naturalidade e similaridade do falante” e, de acordo com a Microsoft, é o primeiro de sua classe a atingir paridade humana nessas categorias. Na verdade, a empresa diz, “o VALL-E 2 pode gerar fala precisa e natural na voz exata do falante original, comparável ao desempenho humano.”

Não é só teoria

Você não precisa apenas ler sobre o Vall-E 2 para acreditar o quão bom ele é: a Microsoft oferece exemplos de como o Vall-E 2 pode pegar uma gravação de amostra de uma voz e replicá-la quando solicitado com um novo texto. A empresa também forneceu exemplos do modelo completando uma frase após receber segmentos de uma gravação de amostra, em blocos de três, cinco e 10 segundos. Isso demonstra a capacidade do modelo de pegar um exemplo muito curto de uma voz e replicá-lo com um texto que não aparece na gravação de amostra original.

Ainda há muitas peculiaridades que você esperaria encontrar em qualquer modelo de texto para fala (pronúncias incorretas, fala gaguejada, etc.), mas não há dúvida de que os exemplos do Vall-E 2 não são apenas frequentemente realistas, mas correspondem bem de perto à voz da amostra original. Ele se sai especialmente bem quando recebe uma gravação mais longa de uma voz: se receber três segundos de uma gravação, a saída ainda é impressionante, mas quando recebe uma gravação de cinco ou, especialmente, 10 segundos, a saída pode ser notavelmente realista.

Se você clicar nos exemplos, confira como o Vall-E 2 corresponde bem à gravação de 10 segundos ao recitar “Minha vida mudou muito” em “Amostras VCTK”. Não tenho experiência com treinamento de sistemas de IA, mas, para meu ouvido, o modelo acerta a voz rouca do falante na amostra, especialmente depois de receber o clipe completo de 10 segundos. É chocante ouvir o falante original lendo uma determinada frase e, em seguida, ouvir o modelo falar uma nova frase em uma voz que essencialmente corresponde à do falante.Riscos do Vall-E 2

Mas se você está um pouco assustado com tudo isso, você não está sozinho. A Microsoft está ciente de que seu modelo pode ser perigoso se usado maliciosamente: em uma declaração de ética no final da postagem, a empresa reconhece que, embora o Vall-E 2 possa ser usado para uma variedade de tarefas positivas, ele também pode ser usado para personificar uma pessoa específica. A Microsoft diz que o modelo deve ser usado com usuários consentidos que entendam que sua voz está sendo replicada, e que o modelo deve ter um protocolo para verificar o consentimento antes de processar uma solicitação. Dito isso, não parece que tal protocolo realmente exista agora, o que é provavelmente o motivo pelo qual a Microsoft atualmente não tem “nenhum plano para incorporar o VALL-E 2 em um produto ou expandir o acesso ao público”.

Os exemplos aqui são baseados em amostras de voz dos conjuntos de dados LibriSpeech e VCTK, não de amostras que a própria Microsoft gravou. Como tal, como um observador externo, não está claro como esse modelo realmente funcionaria se fossem dadas gravações de, digamos, o presidente Biden, Elon Musk ou seu chefe. No entanto, se assumirmos que o Vall-E 2 pode gerar uma saída realista quando dada uma amostra de 10 segundos, imagine o quão realista sua saída poderia ser quando alimentada com horas de amostras. Junte isso a um modelo de vídeo de IA sólido e você terá a tempestade perfeita para gerar desinformação, bem a tempo para as temporadas eleitorais em todo o mundo.