Los investigadores en visión computarizada de NVIDIA acaban de desarrollar la Compresión de Video IA (AI VIDEO COMPRESSION). Básicamente reemplaza un códec de video por una red neuronal que reduce el consumo de ancho de banda exponencialmente. Con más de 10 millones de transmisiones de video que se estima que están en vivo en todo momento, la videoconferencia es el nuevo desafío de conectividad para muchos.
El mecanismo detrás de las videollamadas asistidas por inteligencia artificial es simple: un remitente primero transmite una imagen de referencia a la persona que llama al igual que los sistemas actuales que generalmente usan un flujo de video comprimido, luego, en lugar de enviar un flujo grueso de imágenes llenas de píxeles, envía datos sobre las ubicaciones de puntos faciales clave alrededor de los ojos de sus ojos, nariz y boca. Una red generativa adversaria ( o “GAN”) en el lado del receptor, luego utiliza la imagen inicial y los puntos clave para reconstruir las imágenes posteriores.
Un efecto similar al que se produce en nuestro cerebro cuando La visión se produce en condiciones de mala iluminación. Tomamos puntos de referencia y completamos la fisonomía con imágenes que ya conocemos. Con la diferencia que, en nuestro analógico caso, terminamos viendo parecidos en todos lados o confundiendo personas.
Como resultado de la aplicación de la IA, se envían muchos menos datos a través de la red. Las conexiones lentas a Internet y el ancho de banda limitado ya no afectarían la calidad de las videoconferencias.
En una comparación en paralelo del estándar de compresión h.264 a la izquierda y la compresión de video nvidia ai a la derecha.
Además del consumo de ancho de banda, también se puede ver la calidad visual obvia al proporcionar ahorros de costos significativos para las transferencias de datos en la nube La reducción del consumo de ancho de banda mejora significativamente la experiencia de videoconferencia para los usuarios finales que pueden disfrutar de más funciones mientras transmiten menos datos en sus dispositivos locales.
Esto proporciona una mejor experiencia para las comunicaciones de video con inteligencia artificial, por lo que incluso las personas que solo tienen acceso a un ancho de banda extremadamente bajo pueden actualizar de voz a videollamadas.
La técnica funciona incluso cuando las personas usan una máscara, auriculares, sombrero o incluso anteojos. También permite ajustar automáticamente la posición de la cara del interlocutor, facilitando el contacto visual y eliminando el problema común de los usuarios que parecen estar mirando fuera de la pantalla o necesitan mirar una cámara sobre su monitor para simular una mirada directamente.
Como curiosidad de despedida dejo este video que se pueden ver en el twit de @automeme, Autome.me, sobre una máscara digital de DEEPFAKE instantánea. Vamos despidiendonos del “ver para creer”
.