El mundo se está volviendo digital. Con el aumento de la demanda de multimedia junto con las tendencias crecientes de AI, IOT y 5G, se está produciendo una enorme cantidad de datos que deben comprimirse para comunicaciones eficientes. Por ejemplo, la escala de datos de video y voz que se crean y consumen es enorme. Se gastan un total de 15 mil millones de minutos de conversación por día en llamadas de WhatsApp, y se predice que el 82% de todo el tráfico de Internet de los consumidores será video en línea para 2022 1. Para hacer esto posible, las técnicas de compresión de datos se han incrementado a pasos agigantados a lo largo de los años debido a la innovación técnica, como la reducción aproximada de 1000x en el tamaño del archivo de video con compresión VVC en comparación con un archivo sin formato. Sin embargo, la demanda de más datos no se detendrá en el corto plazo, por lo que la necesidad de avanzar en la tecnología de compresión es tan importante hoy como siempre. Esta publicación de blog explora algunas de nuestras últimas investigaciones de compresión basadas en inteligencia artificial para video y voz.
También se han aplicado modelos generativos profundos para lograr una compresión de video de última generación. En lugar de utilizar algoritmos diseñados por humanos que intentan comprimir las cantidades significativas de redundancia espacial y temporal que se encuentran en los fotogramas de imágenes fijas cercanas de un video, utilizamos el aprendizaje profundo de extremo a extremo. Hemos realizado varios avances en la compresión de IA tanto para imágenes como para videos, como:
Sobreajuste mediante compresión de video adaptativa a instancias : hay escenarios en los que el tipo de imágenes en un video que se espera que se vean son bastante estrechos, por lo que es posible sobre ajustar el códec AI y proporcionar un flujo de bits codificado aún más comprimido. Imagine el beneficio de tener un códec neuronal para una popular serie de Netflix que se puede transmitir a una tasa de bits significativamente menor. Nuestra investigación logró resultados de vanguardia, incluido un ahorro de BD del 24% en comparación con el códec neuronal líder de Google. Es importante destacar que nuestra solución es compatible con dispositivos móviles, ya que la complejidad de la decodificación se puede reducir en un 72% mientras se mantienen los resultados de SOTA.
Compresión de imagen de tasa de bits variable: debido a las limitaciones en el hardware o las condiciones de la red, los videos y las imágenes a menudo se codifican en una variedad de tasas de bits. La compresión de imágenes de tasa de bits variable ofrece una implementación más sencilla. Hay una variedad de soluciones para lograr tasas de bits variables, pero en última instancia, nos gustaría que un solo modelo produjera un solo flujo de bits que incorpore todas las tasas de bits. La solución de Qualcomm solución de compresión de imágenes neuronales progresivas de tasa de bits variable logra un rendimiento comparable al de HEVC Intra, pero utiliza un solo modelo y un solo flujo de bits.
Compresión de imágenes con conciencia semántica: para las regiones de interés en una imagen, nos gustaría asignar más bits para aumentar la calidad visual. La compresión de imágenes con conciencia semántica mejora la calidad de la imagen al hacer exactamente eso. Nuestra solución proporciona resultados de vanguardia para la compensación de la velocidad y la distorsión de las imágenes, y nuestro siguiente paso es extender esta técnica al video.
Códecs basados en GAN: para crear un buen códec de imagen, optimizamos la tasa de bits más baja mientras reducimos la distorsión de la imagen y aumentamos la calidad de percepción. Aunque esto a menudo conduce a muchas compensaciones, las redes generativas de confrontación (GAN) pueden producir mejores imágenes en comparación con los códecs tradicionales, ya que la GAN creará algo visualmente atractivo incluso cuando haya muy poca información. Nuestros resultados son bastante convincentes, como se puede ver en la imagen a continuación.
0 Comentarios