/ miércoles 28 de septiembre de 2022

Deepfakes: Una amenaza que no está lejos

Las falsificaciones tanto de audio como de video ya son posibles con el desarrollo de tecnologías de aprendizaje automático y no está lejos el día en que las personas puedan ser víctimas de este tipo de ilícitos

Imagina el siguiente escenario. Suena un teléfono. Un oficinista responde y escucha a su jefe, quien le dice que olvidó transferir dinero a un cliente y que necesita que él lo haga. Así que le dan la información de la transferencia bancaria, la cual realiza inmediatamente.

Unos minutos después, el mismo empleado observa cómo su jefe entra por la puerta. Y resulta que la voz al otro lado de la llamada no era su jefe. De hecho, ni siquiera era un humano, sino una muestra de audio generada por una máquina diseñada para sonar exactamente como su jefe.

Puede interesarte: ¿Qué es la Valija del Tesoro, la nueva modalidad de ciberestafa?

Ya se han producido ataques como este que utilizan audio grabado, y es posible que las falsificaciones profundas de audio conversacional no estén muy lejos.

Los llamados Deepfakes, tanto de audio como de video, solo han sido posibles con el desarrollo de tecnologías sofisticadas de aprendizaje automático en los últimos años.

Esto ha traído consigo un nuevo nivel de incertidumbre en torno a los medios digitales. Para detectar falsificaciones profundas, muchos investigadores han recurrido al análisis de artefactos visuales (fallas mínimas e inconsistencias) que se encuentran en las falsificaciones profundas de video.

Sin embargo, los deepfakes de audio potencialmente representan una amenaza aún mayor, ya que las personas a menudo se comunican verbalmente sin video, por ejemplo, a través de llamadas telefónicas, radio y grabaciones de voz. Estas comunicaciones de solo voz amplían en gran medida las posibilidades de que los atacantes utilicen deepfakes.

Para detectar falsificaciones profundas de audio, nosotros y nuestros colegas investigadores de la Universidad de Florida hemos desarrollado una técnica que mide las diferencias acústicas y dinámicas de fluidos entre las muestras de voz creadas orgánicamente por hablantes humanos y las generadas sintéticamente por computadoras.

Voces orgánicas contra sintéticas

Los seres humanos vocalizan forzando el aire sobre las diversas estructuras del tracto vocal, incluidas las cuerdas vocales, la lengua y los labios. Al reorganizar estas estructuras, altera las propiedades acústicas de su tracto vocal, lo que le permite crear más de 200 sonidos o fonemas distintos.

Es posible que las "falsificaciones profundas" de audio conversacional no estén muy lejos de nosotros / Cortesía | PEXELS

Sin embargo, la anatomía humana limita fundamentalmente el comportamiento acústico de estos diferentes fonemas, lo que da como resultado una gama relativamente pequeña de sonidos correctos para cada uno.

Por el contrario, las falsificaciones profundas de audio se crean permitiendo primero que una computadora escuche las grabaciones de audio de un hablante de la víctima objetivo.

Dependiendo de las técnicas exactas que se utilicen, es posible que la computadora necesite escuchar tan solo de 10 a 20 segundos de audio. Este audio se utiliza para extraer información clave sobre los aspectos únicos de la voz de la víctima.

El atacante selecciona una frase para que hable el deepfake y luego, utilizando un algoritmo modificado de texto a voz, genera una muestra de audio que suena como si la víctima dijera la frase seleccionada. Este proceso de creación de una sola muestra de audio falsificada se puede lograr en cuestión de segundos, lo que potencialmente permite a los atacantes suficiente flexibilidad para usar la voz falsa en una conversación.

Detección de deepfakes de audio

El primer paso para diferenciar el habla producida por humanos del habla generada por deepfakes es comprender cómo modelar acústicamente el tracto vocal. Afortunadamente, los científicos tienen técnicas para estimar cómo sonaría alguien, o algún ser como un dinosaurio, en función de las mediciones anatómicas de su tracto vocal.

Hicimos al revés. Al invertir muchas de estas mismas técnicas, pudimos extraer una aproximación del tracto vocal de un hablante durante un segmento del habla. Esto nos permitió observar de manera efectiva la anatomía del hablante que creó la muestra de audio.

➡️ Suscríbete a nuestro Newsletter y recibe las notas más relevantes en tu correo

A partir de aquí planteamos la hipótesis de que las muestras de audio deepfake no estarían limitadas por las mismas limitaciones anatómicas que tienen los humanos. En otras palabras, el análisis de muestras de audio falsificadas simulaba formas del tracto vocal que no existen en las personas.

Por qué importa todo esto

El mundo de hoy está definido por el intercambio digital de medios e información. Todo, desde noticias hasta entretenimiento y conversaciones con seres queridos, generalmente ocurre a través de intercambios digitales. Incluso en su infancia, los videos y audios falsos socavan la confianza que las personas tienen en estos intercambios, limitando efectivamente su utilidad.

Si el mundo digital va a seguir siendo un recurso crítico para la información en la vida de las personas, las técnicas efectivas y seguras para determinar la fuente de una muestra de audio son cruciales.

* Informática y Ciencias de la Información e Ingeniería de la Universidad de Florida.

Lee también otros contenidos de Normal ⬇️

Imagina el siguiente escenario. Suena un teléfono. Un oficinista responde y escucha a su jefe, quien le dice que olvidó transferir dinero a un cliente y que necesita que él lo haga. Así que le dan la información de la transferencia bancaria, la cual realiza inmediatamente.

Unos minutos después, el mismo empleado observa cómo su jefe entra por la puerta. Y resulta que la voz al otro lado de la llamada no era su jefe. De hecho, ni siquiera era un humano, sino una muestra de audio generada por una máquina diseñada para sonar exactamente como su jefe.

Puede interesarte: ¿Qué es la Valija del Tesoro, la nueva modalidad de ciberestafa?

Ya se han producido ataques como este que utilizan audio grabado, y es posible que las falsificaciones profundas de audio conversacional no estén muy lejos.

Los llamados Deepfakes, tanto de audio como de video, solo han sido posibles con el desarrollo de tecnologías sofisticadas de aprendizaje automático en los últimos años.

Esto ha traído consigo un nuevo nivel de incertidumbre en torno a los medios digitales. Para detectar falsificaciones profundas, muchos investigadores han recurrido al análisis de artefactos visuales (fallas mínimas e inconsistencias) que se encuentran en las falsificaciones profundas de video.

Sin embargo, los deepfakes de audio potencialmente representan una amenaza aún mayor, ya que las personas a menudo se comunican verbalmente sin video, por ejemplo, a través de llamadas telefónicas, radio y grabaciones de voz. Estas comunicaciones de solo voz amplían en gran medida las posibilidades de que los atacantes utilicen deepfakes.

Para detectar falsificaciones profundas de audio, nosotros y nuestros colegas investigadores de la Universidad de Florida hemos desarrollado una técnica que mide las diferencias acústicas y dinámicas de fluidos entre las muestras de voz creadas orgánicamente por hablantes humanos y las generadas sintéticamente por computadoras.

Voces orgánicas contra sintéticas

Los seres humanos vocalizan forzando el aire sobre las diversas estructuras del tracto vocal, incluidas las cuerdas vocales, la lengua y los labios. Al reorganizar estas estructuras, altera las propiedades acústicas de su tracto vocal, lo que le permite crear más de 200 sonidos o fonemas distintos.

Es posible que las "falsificaciones profundas" de audio conversacional no estén muy lejos de nosotros / Cortesía | PEXELS

Sin embargo, la anatomía humana limita fundamentalmente el comportamiento acústico de estos diferentes fonemas, lo que da como resultado una gama relativamente pequeña de sonidos correctos para cada uno.

Por el contrario, las falsificaciones profundas de audio se crean permitiendo primero que una computadora escuche las grabaciones de audio de un hablante de la víctima objetivo.

Dependiendo de las técnicas exactas que se utilicen, es posible que la computadora necesite escuchar tan solo de 10 a 20 segundos de audio. Este audio se utiliza para extraer información clave sobre los aspectos únicos de la voz de la víctima.

El atacante selecciona una frase para que hable el deepfake y luego, utilizando un algoritmo modificado de texto a voz, genera una muestra de audio que suena como si la víctima dijera la frase seleccionada. Este proceso de creación de una sola muestra de audio falsificada se puede lograr en cuestión de segundos, lo que potencialmente permite a los atacantes suficiente flexibilidad para usar la voz falsa en una conversación.

Detección de deepfakes de audio

El primer paso para diferenciar el habla producida por humanos del habla generada por deepfakes es comprender cómo modelar acústicamente el tracto vocal. Afortunadamente, los científicos tienen técnicas para estimar cómo sonaría alguien, o algún ser como un dinosaurio, en función de las mediciones anatómicas de su tracto vocal.

Hicimos al revés. Al invertir muchas de estas mismas técnicas, pudimos extraer una aproximación del tracto vocal de un hablante durante un segmento del habla. Esto nos permitió observar de manera efectiva la anatomía del hablante que creó la muestra de audio.

➡️ Suscríbete a nuestro Newsletter y recibe las notas más relevantes en tu correo

A partir de aquí planteamos la hipótesis de que las muestras de audio deepfake no estarían limitadas por las mismas limitaciones anatómicas que tienen los humanos. En otras palabras, el análisis de muestras de audio falsificadas simulaba formas del tracto vocal que no existen en las personas.

Por qué importa todo esto

El mundo de hoy está definido por el intercambio digital de medios e información. Todo, desde noticias hasta entretenimiento y conversaciones con seres queridos, generalmente ocurre a través de intercambios digitales. Incluso en su infancia, los videos y audios falsos socavan la confianza que las personas tienen en estos intercambios, limitando efectivamente su utilidad.

Si el mundo digital va a seguir siendo un recurso crítico para la información en la vida de las personas, las técnicas efectivas y seguras para determinar la fuente de una muestra de audio son cruciales.

* Informática y Ciencias de la Información e Ingeniería de la Universidad de Florida.

Lee también otros contenidos de Normal ⬇️

Local

Llega la Navidad en SLRC; viveros ya cuentan con flores de nochebuena

Los sanluisinos están adquiriendo las diferentes variedades de flores de nochebuena para decorar sus casas y centros de trabajo, ya que es una flor que se asocia con la Navidad

Policiaca

Noche violenta en El Golfo: Acribillan a un hombre y localizan una cabeza en boulevard

Hasta el poblado pesquero se movilizaron peritos de la Fiscalía del Estado así como elementos de la Agencia Ministerial de Investigación Criminal para iniciar indagaciones

Local

Productores locales ya pueden reinscribirse en el Programa de Energía Agrícola

El programa está dirigido a personas físicas y morales con actividades agrícolas y que utilicen energía eléctrica en el bombeo y re bombeo de agua para uso de riego

Policiaca

Agentes de la policía municipal son capacitados sobre violencia familiar

Debido al aumento de este delito, los agentes están apoyando en la atención a los reportes en coordinación con la Agencia Ministerial de Investigación Criminal

Local

Sanluisinos esperan que rutas de "peseras" cubra zonas alejadas

Habría que esperar la reacción de la ciudadanía, una vez que se pongan en funcionamiento esas diez unidades

Local

La Banda de Música de la Secundaria 30 va rumbo a Acapulco

En estos momentos, 62 estudiantes que integran la Banda de Música, acompañados de 15 maestros y un agente de viajes, se dirigen a Guerrero para participar en el AcaFest