Ad

header ads

Publicidad

header ads


Cómo la investigación de la IA está permitiendo los códecs de próxima generación

Imagen: Qualcomm – 2021

El mundo se está volviendo digital. Con el aumento de la demanda de multimedia junto con las tendencias crecientes de AI, IOT y 5G, se está produciendo una enorme cantidad de datos que deben comprimirse para comunicaciones eficientes. Por ejemplo, la escala de datos de video y voz que se crean y consumen es enorme. Se gastan un total de 15 mil millones de minutos de conversación por día en llamadas de WhatsApp, y se predice que el 82% de todo el tráfico de Internet de los consumidores será video en línea para 2022 1. Para hacer esto posible, las técnicas de compresión de datos se han incrementado a pasos agigantados a lo largo de los años debido a la innovación técnica, como la reducción aproximada de 1000x en el tamaño del archivo de video con compresión VVC en comparación con un archivo sin formato. Sin embargo, la demanda de más datos no se detendrá en el corto plazo, por lo que la necesidad de avanzar en la tecnología de compresión es tan importante hoy como siempre. Esta publicación de blog explora algunas de nuestras últimas investigaciones de compresión basadas en inteligencia artificial para video y voz.
 
Por qué la IA para la compresión
 
Quizás una de las preguntas claves es cómo encaja la IA en la compresión. Qualcomm ha estado realizando una investigación profunda de modelos generativos para el aprendizaje no supervisado, que es una poderosa técnica de inteligencia artificial que toma datos de entrenamiento sin etiquetar y genera nuevas muestras a partir de la misma distribución. Esta técnica es ampliamente aplicable a muchos casos de uso, pero se puede utilizar para aplicaciones de compresión y descompresión, ya que el propio modelo extrae y aprende una representación de características de baja dimensión de los datos de entrada. Descubrimos que la compresión basada en inteligencia artificial tiene muchos beneficios convincentes sobre los códecs convencionales.
 
Por ejemplo, la compresión basada en IA puede ofrecer una mejor compensación de velocidad-distorsión, lo que significa que para el video puede proporcionar el mismo nivel de calidad visual con menos bits. Esta es una métrica clave en la que se evalúan los códecs, ya que el objetivo final es reducir los datos tanto como sea posible y al mismo tiempo poder decodificarlos a su estado original. Otro beneficio es que es más fácil actualizar, estandarizar e implementar nuevos códecs de IA, ya que el último y mejor modelo aprendido se entrena en un período de tiempo relativamente corto y no requiere hardware de propósito especial que no sea la aceleración de IA para su implementación. Además, para nuevas modalidades como nubes de puntos, video omnidireccional y configuraciones de múltiples cámaras, los códecs neuronales son más fáciles de desarrollar.
 
Ultima investigación sobre compresión de IA para voz
 
Qualcomm ha aplicado modelos generativos profundos para lograr una compresión de voz de última generación. En nuestra investigación, hemos utilizado un codificador automático variacional recurrente de retroalimentación para la compresión de voz de extremo a extremo para lograr una tasa de bits más baja que los códecs convencionales. Un resultado del que estamos realmente orgullosos es que con nuestra solución de inteligencia artificial logramos una mejora de 2.6x en la tasa de bits en relación con el códec de voz EVS, que ya comprime la voz de manera significativa.
 
Última investigación sobre compresión de IA para video
También se han aplicado modelos generativos profundos para lograr una compresión de video de última generación. En lugar de utilizar algoritmos diseñados por humanos que intentan comprimir las cantidades significativas de redundancia espacial y temporal que se encuentran en los fotogramas de imágenes fijas cercanas de un video, utilizamos el aprendizaje profundo de extremo a extremo. Hemos realizado varios avances en la compresión de IA tanto para imágenes como para videos, como:
 
Codificación neuronal de fotograma B : un fotograma B, o fotograma bidireccional, codifica los cambios en el video en función de los fotogramas anteriores y siguientes. Esto requiere un cálculo y una coordinación más complejos, pero mejora la tasa de compresión. Los métodos de investigación de IA existentes tienen fallas al intentar implementar un códec de marco B, pero nuestra nueva solución permite que el códec comparta pesos y sea más eficiente al tiempo que proporciona resultados de distorsión de velocidad de última generación.
Sobreajuste mediante compresión de video adaptativa a instancias : hay escenarios en los que el tipo de imágenes en un video que se espera que se vean son bastante estrechos, por lo que es posible sobre ajustar el códec AI y proporcionar un flujo de bits codificado aún más comprimido. Imagine el beneficio de tener un códec neuronal para una popular serie de Netflix que se puede transmitir a una tasa de bits significativamente menor. Nuestra investigación logró resultados de vanguardia, incluido un ahorro de BD del 24% en comparación con el códec neuronal líder de Google. Es importante destacar que nuestra solución es compatible con dispositivos móviles, ya que la complejidad de la decodificación se puede reducir en un 72% mientras se mantienen los resultados de SOTA.
Compresión de imagen de tasa de bits variable: debido a las limitaciones en el hardware o las condiciones de la red, los videos y las imágenes a menudo se codifican en una variedad de tasas de bits. La compresión de imágenes de tasa de bits variable ofrece una implementación más sencilla. Hay una variedad de soluciones para lograr tasas de bits variables, pero en última instancia, nos gustaría que un solo modelo produjera un solo flujo de bits que incorpore todas las tasas de bits. La solución de Qualcomm solución de compresión de imágenes neuronales progresivas de tasa de bits variable logra un rendimiento comparable al de HEVC Intra, pero utiliza un solo modelo y un solo flujo de bits.
Compresión de imágenes con conciencia semántica: para las regiones de interés en una imagen, nos gustaría asignar más bits para aumentar la calidad visual. La compresión de imágenes con conciencia semántica mejora la calidad de la imagen al hacer exactamente eso. Nuestra solución proporciona resultados de vanguardia para la compensación de la velocidad y la distorsión de las imágenes, y nuestro siguiente paso es extender esta técnica al video.
Códecs basados ​​en GAN: para crear un buen códec de imagen, optimizamos la tasa de bits más baja mientras reducimos la distorsión de la imagen y aumentamos la calidad de percepción. Aunque esto a menudo conduce a muchas compensaciones, las redes generativas de confrontación (GAN) pueden producir mejores imágenes en comparación con los códecs tradicionales, ya que la GAN creará algo visualmente atractivo incluso cuando haya muy poca información. Nuestros resultados son bastante convincentes, como se puede ver en la imagen a continuación.

Publicar un comentario

0 Comentarios