Últimas 15minutos

Meta lanza AudioCraft, una IA que transforma texto en música

Aunque estos modelos han generado expectación y demostrado "habilidades excepcionales", no hay el mismo interés por la IA generativa de audio

Meta admitió que "generar audio a partir de señales sin procesar es un desafío" (DPA/EP/Meta)

15 minutos. Meta creó una herramienta de Inteligencia Artificial (IA) generativa llamada AudioCraft, diseñada para producir audio y música a partir de entradas de texto y que se entrena con señales de audio sin procesar.

AudioCraft engloba 3 modelos de lenguaje: EnCodec, AudioGen y MusicGen, siendo esta última la que presentó en junio como un modelo simple de lenguaje desarrollado bajo un enfoque de una sola etapa de patrones de tokens eficientes entrelazados.

Meta recordó que MusicGen es un modelo entrenado con música propiedad de la compañía y con licencia específica que genera música a partir de entradas basadas en texto.

Fines de investigación

AudioGen, por su parte, se entrenó con efectos de sonido de uso público y genera audio a partir de entradas de usuario basadas en texto.

Finalmente, el decodificador EnCodec permite "generar música de mayor calidad con menos artificios". Todos estos modelos están disponibles para fines de investigación.

Según Meta, si bien los modelos de lenguaje de IA generativa han generado expectación y demostrado "habilidades excepcionales", no se ha mostrado el mismo interés por la IA generativa de audio.

Esto podría deberse a "que la música es el tipo de audio más difícil de generar porque se compone de patrones locales y de largo alcance, desde un conjunto de notas hasta una estructura musical global con múltiples instrumentos", según el anuncio de AudioCraft.

Con consistencia a largo plazo

Además, los enfoques con los que se ha abordado su creación a través de IA generativa han sido "incapaces de captar completamente los matices expresivos y los elementos estilísticos".

En este sentido, la familia de modelos AudioCrafy es capaz de producir audio de alta calidad con consistencia a largo plazo. De hecho, ofrece una interfaz "natural" con un diseño simplificado para mejorar la experiencia de usuario.

Esta herramienta de IA generativa de música y sonido de código abierto, que también ofrece la capacidad de compresión, permite que los usuarios trabajen sobre la misma base de código.

De ese modo, los creadores pueden ampliar estos modelos y adaptarlos a sus casos de uso para la investigación. Para ello, Meta ofrece "posibilidades casi ilimitadas".

Aspecto realista

Meta admitió que "generar audio a partir de señales sin procesar es un desafío"; requiere modelar secuencias "extremadamente largas". Como respuesta a este desafío, la compañía emplea tokens de audio sin procesar utilizando EnCodec, que le brinda un nuevo vocabulario para las muestras de música.

"Luego, podemos entrenar modelos de lenguaje autorregresivos sobre estos tokens de audio discretos para generar nuevos tokens y nuevos sonidos y música al convertirlos nuevamente al espacio de audio con el decodificador", aclaró la compañía.

La empresa utiliza un solo modelo de lenguaje autorregresivo para modelar los tokens de audio y los entrelaza, modelando así "eficientemente las secuencias de audio, capturando simultáneamente las dependencias a largo plazo en el audio", lo que le permite generar sonido de alta calidad.

AudioGen, por su parte, genera el sonido ambiental correspondiente a la descripción del texto, con aspecto realista. MusicGen se encarga de generar las pistas de música, que son más complejas que los sonidos ambientales que ofrece AudioGen.

Meta precisó que AudioCraft es una herramienta de código abierto que responde a su concepto de innovación responsable. "No puede ocurrir de forma aislada" y debe garantizar que todos los investigadores tengan acceso a ella.

Más Vistas

Ver más