Las herramientas para detectar audio deepfakes están en carrera con la tecnología: NPR
5 de abril de 2024

Las herramientas para detectar audio deepfakes están en carrera con la tecnología: NPR

Por La redacción

La inteligencia artificial está potenciando los deepfakes de audio, y las alarmas suenan en áreas que van desde la política hasta el fraude financiero.

El gobierno federal ha prohibido las llamadas automáticas que utilizan voces generadas por IA y ofrece un premio en efectivo en busca de soluciones para mitigar los daños causados ​​por los fraudes de clonación de voz. Al mismo tiempo, los investigadores y el sector privado se apresuran a desarrollar software para detectar clones de voz, y las empresas a menudo los comercializan como herramientas de detección de fraude.

Las apuestas son altas. Un software de detección que se equivoque puede tener graves consecuencias.

«Si etiquetamos un audio real como falso, digamos, en un contexto político, ¿qué significa eso para el mundo? Perdemos confianza en todo», dice Sarah Barrington, investigadora forense y de inteligencia artificial de la Universidad de California, Berkeley.

«Y si etiquetamos los audios falsos como reales, entonces se aplica lo mismo. Podemos lograr que cualquiera haga o diga cualquier cosa y distorsionar completamente el discurso de lo que es la verdad».

A medida que la tecnología de generación de deepfake mejora y deja cada vez menos señales reveladoras en las que los humanos puedan confiar, los métodos computacionales de detección se están convirtiendo en la norma.

Pero un experimento de NPR indicó que las soluciones tecnológicas no son una solución milagrosa para el problema de detectar voces generadas por IA.

¿Probablemente si? Probablemente no

NPR identificó tres proveedores de detección de audio deepfake: Seguridad Pindrop, IA o no y Detector de voz AI. La mayoría afirma que sus herramientas tienen una precisión superior al 90% a la hora de diferenciar entre audio real y audio generado por IA. Pindrop solo funciona con empresas, mientras que los demás están disponibles para uso individual.

NPR envió 84 clips de cinco a ocho segundos a cada proveedor. Aproximadamente la mitad de los clips eran fragmentos de historias de radio reales de tres reporteros de NPR. El resto eran voces clonadas de los mismos reporteros diciendo las mismas palabras que en los clips auténticos.

Los clones de voz fueron generados por la empresa de tecnología PlayHT. Para clonar cada voz, NPR envió cuatro clips de audio de 30 segundos: un fragmento de una historia de radio previamente transmitida de cada reportero y una grabación realizada para este propósito.

Nuestro experimento reveló que el software de detección a menudo no lograba identificar clips generados por IA, o identificaba erróneamente voces reales como generadas por IA, o ambas cosas. La herramienta de Pindrop Security obtuvo todas las muestras correctas excepto tres. La herramienta de AI or Not se equivocó aproximadamente a la mitad y no pudo capturar la mayoría de los clips generados por AI.

Leer también:  La renuncia del presidente de Harvard muestra problemas en la regulación de la escritura académica: NPR

Los veredictos que ofrecen estas empresas no son sólo un sí o un no binario. Dan sus resultados en forma de probabilidades entre 0% y 100%, lo que indica la probabilidad de que el audio haya sido generado por IA.

El director ejecutivo de AI Voice Detector, Abdellah Azzouzi, dijo a NPR en una entrevista que si el modelo predice que un clip tenía un 60% o más de probabilidades de ser generado por IA, entonces considera que el clip fue generado por IA. Según esta definición, la herramienta identificó erróneamente 20 de las 84 muestras enviadas por NPR.

AI Voice Detector actualizó su sitio web después de la entrevista. Si bien los porcentajes de probabilidad para la mayoría de los clips probados anteriormente siguen siendo los mismos, ahora incluyen una nota adicional que establece una nueva forma de interpretar esos resultados. Los clips marcados como 80% o más ahora se consideran «muy probablemente generados por IA». Aquellos que obtienen entre 20% y 80% son «no concluyentes». Los clips con una puntuación inferior a 20 tienen «altas probabilidades de ser reales».

En un correo electrónico a NPR, la compañía no respondió a las preguntas de NPR sobre por qué cambiaron los umbrales, pero dice que «siempre está actualizando nuestros servicios para ofrecer lo mejor a quienes confían en nosotros». La compañía también eliminó de su sitio web la afirmación de que la herramienta tenía una precisión superior al 90%.

Según estas definiciones revisadas, la herramienta AI Voice Detector obtuvo errores en cinco de los clips que NPR envió y arrojó resultados no concluyentes para 32 clips.

Si bien los otros proveedores también proporcionan resultados como probabilidades, no proporcionaron resultados marcados como no concluyentes.

Usando IA para atrapar IA

Si bien el experimento anecdótico de NPR no es una prueba formal ni un estudio académico, destaca algunos desafíos en el complicado negocio de la detección de deepfake.

Las tecnologías de detección a menudo implican el entrenamiento de modelos de aprendizaje automático. Dado que el aprendizaje automático y la inteligencia artificial son prácticamente la misma tecnología, la gente también llama a este enfoque «usar IA para detectar IA».

Barrington probó varios métodos de detección y desarrolló uno con su equipo. Los investigadores seleccionan un conjunto de datos de audio real y audio falso, transformando cada uno en una serie de números que se introducen en la computadora para analizarlos. Luego, la computadora encuentra los patrones que los humanos no pueden ver para distinguir los dos.

Leer también:  Los teléfonos inteligentes de Oppo encuentran el éxito en México

«Cosas como en el dominio de la frecuencia, o diferencias muy pequeñas entre las señales de audio y el ruido, y cosas que no podemos oír excepto en una computadora, son en realidad bastante obvias», dice Barrington.

Amit Gupta, jefe de producto de Pindrop Security, dice que una de las cosas que hace su algoritmo al evaluar una pieza de audio es aplicar ingeniería inversa al tracto vocal (las propiedades físicas reales del cuerpo de una persona) que serían necesarias para producir el sonido. . Llamaron a la voz de un estafador que atraparon «El hombre jirafa».

«Cuando escuchas la secuencia de sonido de ese estafador, sólo es posible para un tracto vocal donde un humano tenía un cuello de 7 pies de largo», dice Gupta. «Las máquinas no tienen tracto vocal… Y ahí es donde cometen errores».

Anatoly Kvitnitsky, director ejecutivo de AI or Not, dice que su empresa entrena su modelo de aprendizaje automático en función de los casos de uso específicos de los clientes. Como resultado, dijo, el modelo de uso general al que tiene acceso el público no es tan preciso.

«El formato es un poco diferente dependiendo de si es una llamada telefónica… si es un video de YouTube. Si es una canción de Spotify o un video de TikTok. Todos esos formatos dejan un tipo diferente de rastro».

Si bien a menudo son mejores que las personas para detectar audio falso, los modelos de aprendizaje automático pueden quedar perplejos fácilmente en la naturaleza. La precisión puede disminuir si el audio está degradado o contiene ruido de fondo. Los fabricantes de modelos deben entrenar sus detectores en cada nuevo generador de audio de IA del mercado para detectar las diferencias sutiles entre ellos y las personas reales. Con nuevos modelos deepfake que se lanzan con frecuencia y modelos de código abierto disponibles para que todos puedan modificarlos y usarlos, es un juego de golpear al topo.

Después de que NPR le dijera a AI or Not qué proveedor utilizaba para generar los clips de audio deepfake, la compañía lanzó un modelo de detección actualizado que arrojó mejores resultados. Captó la mayoría de los clips de IA, pero también identificó erróneamente más voces reales como IA. Su herramienta no puede procesar algunos otros clips y devuelve mensajes de error.

Es más, todos estos índices de precisión solo se refieren al audio en inglés. Los modelos de aprendizaje automático necesitan analizar muestras de audio reales y falsas de cada idioma para diferenciarlas.

Si bien parece haber una carrera armamentista entre los generadores de voz deepfake y los detectores de voz deepfake, Barrington dice que es importante que las dos partes trabajen juntas para mejorar la detección.

Leer también:  El calor: Cumbre del G77 + China

ElevenLabs, cuya tecnología se utilizó para crear el audio de la llamada automática falsa de Biden, tiene una herramienta disponible públicamente que detecta su propio producto. Anteriormente, el sitio web afirmaba que la herramienta también detecta audio generado por otros proveedores, pero investigación independiente ha mostrado malos resultados. PlayHT dice que aún se está desarrollando una herramienta para detectar voces de IA, incluida la suya propia.

La detección a escala aún no ha llegado

Los gigantes tecnológicos, incluidas las principales empresas de redes sociales como Meta, TikTok y X, han expresado su interés en «desarrollar tecnología para marcar con agua, detectar y etiquetar contenido realista creado con inteligencia artificial». Los esfuerzos de la mayoría de las plataformas parecen centrarse más en el vídeo, y no está claro si eso incluiría el audio, dice Katie Harbath, directora de asuntos globales de Duco Experts, una consultora sobre confianza y seguridad.

En marzo, YouTube Anunciado que requeriría que los creadores de contenido autoetiquetaran algunos videos creados con IA generativa antes de subirlos. Esto sigue pasos similares de Tik Tok. Meta dice que también implementará etiquetas en Facebook e Instagram, utilizando marcas de agua de empresas que producen contenido generativo de IA.

Barrington dice que algoritmos específicos podrían detectar falsificaciones de líderes mundiales cuyas voces son bien conocidas y documentadas, como el presidente Biden. Ese no será el caso de las personas menos conocidas.

«Con lo que la gente debería tener mucho cuidado es con la posibilidad de que se produzca audio deepfake en las elecciones negativas», dice Harbath. Con menos periodismo local y con verificadores de datos al máximo de su capacidad, los deepfakes podrían causar perturbaciones.

En cuanto a las llamadas fraudulentas que se hacen pasar por seres queridos, no existe una detección de alta tecnología que las detecte. Usted y su familia pueden idear preguntas un estafador no sabría la respuesta de antemano, y la FTC recomienda volver a llamar para asegurarse de que la llamada no haya sido suplantada.

«Cualquiera que diga ‘aquí hay un algoritmo’, simplemente un complemento de navegador web, le dirá sí o no; creo que eso es enormemente engañoso», dice Barrington.