Así es como la inteligencia artificial va a revolucionar la captura y reproducción de vídeo

El reconocimiento de objetos es uno de los campos en los que está despuntando la inteligencia artificial aplicada a la fotografía y el vídeo. Ya hemos podido ver algunos ejemplos muy claros de ello en las crecientemente complejas y cada vez más efectivas smart cities, facilitando la búsqueda de niños perdidos o dando con delincuentes a la fuga, pero igual de importante es cómo la IA puede mejorar la propia grabación y reproducción.

De hecho, el uso de técnicas avanzadas de IA en las propias tecnologías de captura, reproducción y difusión permite augurar cambios revolucionarios en materia de calidad de imagen e incluso en la facilidad de uso de futuros dispositivos. Desde reconstruir detalles perdidos a grabar vídeos de calidad cinematográfica con un móvil, las posibilidades son inmensas.

La reconstrucción de píxeles al estilo CSI ya es una realidad, también en vídeo

La reconstrucción de imágenes a través de la inteligencia artificial no es nada nuevo. De hecho, ya hemos hablado de los métodos utilizados para regenerar los detalles perdidos en fotografías a baja resolución, pero estas técnicas rara vez funcionan con imágenes en movimiento. El motivo es obvio: no es lo mismo procesar una fotografía que los 24 fotogramas por segundo de un vídeo estándar.

Este desafío se ha hecho aún más presente con la llegada de los primeros televisores 8K y el hecho de que la inmensa mayoría de los contenidos aún esté en Full HD o (en el mejor de los casos) 4K.

Tomemos por ejemplo la típica película de superhéroes. El protagonista vuela con su traje a reacción, esquivando explosiones y torres de cristal mientras los malos le persiguen. Entre los edificios aparecen varios carteles publicitarios con el logotipo de una compañía; Huawei, por ejemplo.

En un televisor Full HD de 40 pulgadas la secuencia será espectacular, pero si la escalamos a 8K en una pantalla de 90 pulgadas, vamos a tener problemas para identificar el logo. De repente, todos esos píxeles mal definidos pero que no molestaban en su resolución original se van a convertir en un enorme borrón.

Los televisores 8K y los estudios de producción encargados de remasterizar contenidos originales ya utilizan técnicas de inteligencia artificial para reconstruir esos detalles perdidos. Entrenando sistemas de aprendizaje profundo y redes neuronales con millones de imágenes, una IA dedicada a la reconstrucción de vídeo puede tomar el logotipo de rojo en cuestión e identificar correctamente las letras H, U e I para deducir adecuadamente que se trata de un letrero de Huawei.

A continuación, y respetando tanto el cromatismo como la disposición de los píxeles escalados para evitar introducir objetos aberrantes, sustituirá las manchas pixeladas correspondientes a la A y la W con las letras correspondientes, generando el nombre completo de la compañía.

Donde antes había un borrón vagamente identificable por el espectador como el logotipo de Huawei por su forma y color, ahora hay una imagen mucho mejor definida. Y todo gracias a una IA que ha hecho exactamente lo mismo que nuestro cerebro: identificar patrones borrosos y asociarlos a información ya conocida para recrear un concepto visual.

¿Suena a episodio de CSI? Nada más lejos de la realidad. La mayoría de los televisores 8K ya incorporan esta tecnología, mientras que los grandes estudios sin los recursos para digitalizar el material original a 8K utilizarán un upscaling vitaminado con IA para producir sus futuros remasters.

Visión nocturna a todo color

Pero si recuperar el detalle perdido es una vieja aspiración tecnológica, la capacidad para ver en la oscuridad tiene que ser uno de los sueños más antiguos de la humanidad. Y aunque hoy en día hay numerosas técnicas que lo hacen posible (infrarrojos, amplificación de luz estelar, visión térmica…), ninguna de ellas es capaz de reproducir los colores ocultospor el manto de la noche. Algo que está a punto de cambiar gracias a la inteligencia artificial.

Firmas como la alemana BrighterAI trabajan en sistemas de aprendizaje automatizado para vehículos autónomos, cuyos cerebros electrónicos son alimentados actualmente con los datos visuales capturados por cámaras de infrarrojos monocromáticas y con un alcance reducido. Utilizando redes generativas antagónicas (GAN), los investigadores han logrado dar color a la noche parar mejorar su capacidad de percepción.

Básicamente, el sistema enfrenta a dos redes neuronales, una generadora y otra discriminadora, hasta que la primera logra engañar a la segunda. La red generadora envía falsas imágenes diurnas de una calle (por ejemplo) a la discriminadora, que las va descartando según las detecta.

Al final solo quedan las imágenes más realistas, aquellas que logran pasar por auténticas. Por último, una inteligencia artificial se encarga de usar esta información para componer secuencias de vídeo diurnas a partir de la información nocturna capturada por las cámaras.

Los fundamentos tecnológicos utilizados para que un coche (o su conductor pasivo) pueda circular con seguridad de noche también pueden emplearse de otras formas. Por ejemplo, eliminando en tiempo real capas de niebla e incluso pixelando los rostros de los viandantes para garantizar el anonimato de las personas grabadas por un sistema de conducción autónoma.

Las tecnologías de visión artificial serán de especial utilidad para compañías como Audi, que está enfrascada en el desarrollo de sus propios vehículos autónomos a través de una colaboración con Huawei.

El primer fruto de esta alianza fue un Audi Q7 apto para circular en entornos urbanos gracias a la plataforma Mobile Data Center del fabricante chino, que combina los procesadores, el sistema operativo y las herramientas para procesar tanto la información de tráfico como regular el funcionamiento de los sensores de un coche sin conductor.

Más datos para ver otro capítulo en el móvil

Tal vez menos visible es el papel que juega la inteligencia artificial durante la reproducción de tu serie favorita. No hablamos ya del upscaling a 8K, sino de la maquinaria que hay detrás de plataformas como Huawei Video.

Como han podido descubrir estas empresas a través de sus propios sondeos, un retraso de dos segundos en la reproducción de un vídeo conlleva la pérdida de espectadores. Introduce interrupciones a mitad de episodio y te encontrarás con una masa de clientes insatisfechos. Es necesario optimizar el ancho de banda para evitar este tipo de problemas, y ahí es donde la inteligencia artificial entra para atajar lo que no puede resolver elbitrate variable por sí solo.

Con esta idea en mente, científicos del laboratorio de inteligencia artificial del MIT han desarrollado una red neural que envía el stream de vídeo desde los servidores no de forma continua y estable, sino en fragmentos con bitrates distintos en base a las observaciones realizadas sobre las condiciones de reproducción de vídeo de los usuarios.

El sistema, que recibe el nombre de Pensieve, no utiliza datos preprogramados. En lugar de ello, aprende a adaptarse a distintos entornos y circunstancias de congestión para tomar las decisiones más adecuadas. Dicho de otra forma, identifica las necesidades de cada vídeo y usuario, la situación de la red y los requisitos necesarios para seguir reproduciendo los fragmentos subsiguientes para comprimirlos de la forma más eficiente. El resultado es una reducción del buffering de entre el 10% y el 30% en comparación con otros métodos.

El uso de este tipo de técnicas permitirá reducir los gastos en ancho de banda e infraestructura a las plataformas de streaming. Pero también el consumo de datos de los propios usuarios, y hasta el gasto de la batería de los dispositivos móviles. Algo importante si se considera que la reproducción de contenidos multimedia tiene un impacto importante en la autonomía de cualquier smartphone.

Estas tecnologías se pueden combinar con estándares abiertos como VMAF, que optimiza el espacio ocupado en los servidores. VMAF utiliza machine learning para aprender qué constituye una buena calidad de imagen a partir de patrones seleccionados por seres humanos, ajustando la compresión del vídeo final para obtener el mejor resultado.

Puesto que las expectativas de los espectadores van creciendo conforme aumenta el ancho de banda y la resolución de las pantallas, sistemas de aprendizaje automatizado como VMAF son entrenados de forma continua con muestras de más y más calidad, pensando tanto en la reproducción en televisores de gran formato como en teléfonos móviles.

Una revolución que en muchos aspectos empieza en la palma de tu mano

Precisamente hablando de teléfonos móviles, el smartphone se ha convertido en una de las mejores plataformas a la hora de plasmar el potencial de la inteligencia artificial aplicada al procesamiento de la imagen. Ya lo habíamos visto antes con el reconocimiento de objetos y escenas en un contexto fotográfico, pero la introducción de unidades de procesamiento neuronal secundarias (NPU) en teléfonos como elHuawei Mate20 Pro están abriendo nuevos horizontes.

Así como ya estamos habituados a las mejoras en el contraste de una fotografía identificando la escena, la capacidad de procesamiento de las NPU de Huawei hace posible identificar los objetos en movimiento en una grabación para realizar un zoom inteligente sobre los mismos y mantenerlos enfocados.

Imaginemos por ejemplo que estamos visitando un acuario y queremos hacer zoom sobre un pez concreto. Ya no hace falta hacer un gesto de ampliación y mantener el pulso: tocando directamente sobre el pez en cuestión el teléfono se encargará de realizar y mantener un zoom automático. Ni siquiera habrá que mover el teléfono mientras esté delante, puesto que el propio móvil se encarga de hacer el barrido.

Esta prestación se añade a otras como la estabilización de la imagen del Mate20 Pro, que combina un sistema óptico tradicional (OIS) con un estabilizador basado en inteligencia artificial (AIS). Mitigando las trepidaciones del sensor y analizando no solo los contornos sino el propio contenido de la escena, el teléfono genera vídeos con gran cantidad de movimiento pero muy nítidos, totalmente desprovistos del «efecto gelatina» habitual en la estabilización por software.

El procesamiento de vídeo en tiempo real mediante inteligencia artificial, como decíamos, no es un trabajo precisamente ligero. Si ha llegado a convertirse en realidad en los móviles de Huawei es gracias al uso de unidades de procesamiento específicas que aligeran la carga de la CPU, haciéndose cargo de labores muy específicas y con un peso oneroso para cualquier otro móvil.

Suena impresionante, y sin embargo es solo un pequeño avance de lo que nos espera. Hoy en día todos caminamos con una pequeña cámara de vídeo en nuestro bolsillo, lo que unido a la creciente capacidad de procesamiento de los chipsets, hace pensar en una revolución similar a la vivida cuando los teléfonos móviles desplazaron a las cámaras compactas.

Imágenes / iStock/gorodenkoff / BrighterAI / Pixabay / Huawei

Vídeos / [Let’s Enhance (HD) / MITCSAIL