Ciberseguridad desde el Sur

Chiquito-Alcalde, de lo anecdótico a la amenaza de los 'deepfakes'

El resultado de esta fusión, al margen de lo anecdótico, nos ayuda a reflexionar sobre la amenaza que puede representar un mal uso de esta tecnología

BERNARDO QUINTEROGoogle Security Engineer Manager

Este vídeo es solo una pequeña prueba de concepto de la generación de 'deepfakes', también llamados vídeos ultra-falsos, donde se suplanta o fusiona la cara de una persona con otra. En esta ocasión se han utilizado dos figuras relevantes de Málaga, como son Chiquito de la Calzada y Francisco de la Torre, para probar la efectividad de esta técnica aun partiendo de las peores condiciones: baja resolución de los vídeos de origen, diferente iluminación y tonos de piel o el uso de gafas por parte del suplantador. El resultado de la fusión, al margen de lo anecdótico, nos ayuda a reflexionar sobre la amenaza que puede representar un mal uso de esta tecnología.

El término 'deepfake' proviene de la combinación de 'fake' (falsificación) y 'deep learning' (aprendizaje profundo). A efectos prácticos se trata de una técnica informática que hace uso de algoritmos de aprendizaje automático, para crear modelos de rostros en el caso que nos ocupa. Durante el entrenamiento, en el que algoritmo descompone y reconstruye los rostros multitud de veces, se consigue ir mejorando el reconocimiento y la generación de expresiones faciales basada en las diferentes fuentes. Una vez finalizado el entrenamiento, que es el proceso que requiere mayor potencia de computación para alcanzar un alto grado de realismo, el vídeo es editado para suplantar o fusionar los rostros simulando las mismas expresiones. Estamos ante el imitador perfecto.

Esta técnica de generación de vídeos falsos se ha vuelto viral en Internet, con numerosos ejemplos más o menos curiosos, y a veces inquietantes, que no dejan de ser anecdóticos. Sin embargo la amenaza se deja entrever con los primeros abusos, especialmente en casos de acoso, difamación y extorsión donde se incrustan los rostros de las víctimas en videos pornográficos. Y esto es solo el principio.

Esta misma tecnología está siendo utilizada para emular la voz de las personas, son los llamados 'deepfakes' de audio. Es decir, tomando de partida un pequeño fragmento de la conversación de una persona, es posible usar el aprendizaje profundo para crear un modelo de la voz. A efectos prácticos, una vez entrenado el modelo, es posible generar cualquier frase o conversación con la voz de un tercero. Fue de esta forma como se estafaron recientemente 220.000 euros a una compañía energética en el Reino Unido. Los atacantes llamaron por teléfono haciéndose pasar por el jefe, imitando su voz generada por ordenador y solicitando una transferencia a la cuenta bancaria de un supuesto proveedor. Funcionó.

La optimización de este tipo de técnicas y su combinación representan importantes desafíos para el futuro inmediato. Ya es posible producir un vídeo realista donde se genera el rostro de una persona y emula su voz de forma totalmente sincronizada. Todo apunta a que sufriremos casos de noticias falsas, viralizadas a través de las redes sociales, donde lo que veamos y escuchemos sea solo una simulación generada por ordenador que no podremos discernir de la realidad de forma sencilla. Elecciones y campañas políticas en el punto de mira.

La buena noticia es que estamos trabajando en la detección automática de este tipo de falsificaciones. Google ha publicado recientemente una colección de 'deepfakes' de audio y vídeo, que están disponibles para su descarga gratuita, con el fin de facilitar al resto de la comunidad investigadora el desarrollo y entrenamiento de nuevas técnicas que permitan identificar y prevenir este tipo de fraude.

Al margen de las soluciones tecnológicas, un par de consejos:

- Usar fuentes confiables y de calidad para informarse.

- Actitud crítica, de manera especial en las redes sociales y con los contenidos que nos comparten.

De la Torre y Chiquito Así se hizo Chiquito-Alcalde

Para realizar esta pequeña prueba de concepto se tomaron como muestras dos vídeos de YouTube. El primero, también denominado fuente, es un mensaje de navidad de Francisco de la Torre. El segundo, conocido como destino, es este otro de Chiquito de la Calzada.

Lo ideal es utilizar vídeos de alta resolución, 4k es lo más indicado, y no se recomienda menos de 1080p. En el caso de los vídeos de YouTube utilizados se descargaron a solo 480p. Para obtener los mejores resultados posibles también se recomienda tener tomas desde múltiples ángulos y diferentes expresiones faciales, así como intentar que la forma de la cara, las condiciones de iluminación y el color de piel sean similares, evitando accesorios como las gafas. La fase de entrenamiento para obtener resultados profesionales puede durar desde días hasta semanas, pero en esta ocasión se invirtieron menos de 2 horas en todo el proceso. Las condiciones de partida eran muy pobres, pero la idea era explorar hasta qué punto han avanzado estas técnicas incluso en escenarios tan poco favorables.

El hardware también importa. Para cualquier entrenamiento de aprendizaje profundo resulta muy recomendable contar con al menos una GPU (unidad de procesamiento gráfico), cuya arquitectura en paralelo permite acortar mucho los tiempos de proceso. En este caso utilicé una NVIDIA Tesla P100, donde se entrenó el modelo durante algo más de 1 hora, pero otras GPUs más económicas son igualmente válidas.

A decir verdad este experimento no tuvo ningún tipo de coste, ya que se configuró una máquina en Google Cloud Platform aprovechando que ahora ofrecen 300 dólares de crédito para disfrutar de sus productos. Amazon, Microsoft u OVH, entre otros proveedores de cloud, también suelen tener ofertas y configuraciones optimizadas para ejecutar este tipo de tareas.

El software utilizado tiene algunas particularidades propietarias, pero existen excelentes herramientas gratuitas de código abierto. Una de las más conocidas para vídeo, y con la que se consiguen resultados profesionales, es DeepFaceLab. Si se quiere experimentar con el clonado de voces podemos probar con Real-Time-Voice-Cloning.

Por favor, recuerda siempre hacer un uso responsable de la tecnología.