AudioCraft: Meta lança IA generativa para criação de áudio e música realistas

A Meta, anteriormente conhecida como Facebook, está ampliando seu alcance no campo da inteligência artificial generativa ao introduzir o AudioCraft, um novo framework de código aberto projetado para gerar áudio e música de alta qualidade.

Por

Felipe Victor

4 de agosto de 2023

Comumente, tecnologias de IA generativa são utilizadas para criar imagens estáticas e trechos de texto, mas a Meta reconhece a necessidade de trazer essa capacidade para a área do áudio. Embora já existam algumas soluções no mercado, elas costumam ser complicadas, pouco acessíveis e fechadas em termos de experimentação.

O AudioCraft foi desenvolvido como uma biblioteca PyTorch, oferecendo três componentes-chave: MusicGen, AudioGen e EnCodec. O MusicGen permite gerar música com base em instruções de texto fornecidas pelo usuário, enquanto o AudioGen é responsável por criar efeitos de áudio. Já o EnCodec, lançado em 2022, é um codificador poderoso capaz de “hipercomprimir” fluxos de áudio.

Um dos destaques do AudioCraft é o MusicGen AI, que é capaz de gerar músicas envolventes e originais a partir do zero. A Meta compartilha exemplos de músicas geradas a partir de prompts de texto, como “uma faixa de dança pop com melodias cativantes, percussões tropicais e ritmos otimistas, perfeita para momentos na praia” ou “uma composição com tons terrosos, ambientalmente consciente, com infusão de ukulele, harmonias suaves e instrumentação orgânica, perfeita para relaxar”.

Já o AudioGen pode ser utilizado para criar efeitos de áudio de fundo, como o som de um cão latindo ou uma sirene se aproximando e passando pelo ouvinte. E o EnCodec, aprimorado em relação à versão de 2022, permite gerar músicas de maior qualidade com menos artefatos indesejados.

Audiocraft AudioCraft: Meta lança IA generativa para criação de áudio e música realistas 2023 08 03 image 2 p 1024x576 — Imagem mostra como funciona o AudioCraft da Meta. Reprodução.

O lançamento do AudioCraft representa uma abordagem simplificada para a geração de áudio, uma tarefa que sempre foi desafiadora. A criação de áudio de alta qualidade requer a modelagem de sinais e padrões complexos em diversas escalas. Segundo a Meta, a música é especialmente desafiadora de se gerar, pois envolve padrões locais e de longo alcance. Abordagens anteriores utilizavam representações simbólicas como MIDI ou rolos de piano, mas essas técnicas não conseguem capturar todas as nuances expressivas e elementos estilísticos presentes na música.

A Meta afirma que o MusicGen foi treinado em aproximadamente 400.000 gravações, além de descrições de texto e metadados. O modelo se baseou em mais de 20.000 horas de música de propriedade direta da empresa ou licenciada especificamente para esse fim. Ao lançar o AudioCraft, a Meta demonstra um compromisso em evitar controvérsias de licenciamento e possíveis problemas legais relacionados a práticas de treinamento antiéticas.

Com o framework AudioCraft, a Meta espera abrir novas possibilidades criativas no campo da geração de áudio e música, facilitando o acesso a essa tecnologia e promovendo uma experiência de usuário mais envolvente e exclusiva.

S-Pen do Galaxy S24 Ultra cheira queimado? Entenda o motivo

Motorola Razr 50 Ultra, sucessor poderoso e dobrável tem especificações vazadas

Moto G64 5G da Motorola pode ampliar linha Moto G

Espanha suspende Telegram após acusações de violação de direitos autorais

Motorola Razr 50 Ultra, sucessor poderoso e dobrável tem especificações vazadas

Moto G64 5G da Motorola pode ampliar linha Moto G

Truecaller é um aplicativo excelente para fugir de robocalls e ligações comerciais indesejadas

Motorola Prepara Lançamento do Edge 50 Pro com Chipset Snapdragon de Última Geração

Justiça dos EUA enfrenta Apple em ação antitruste sobre monopólio em smartphones

iPhone 17: Apple pode adotar vidro antirreflexo da Samsung em 2025

Apple adia o lançamento do seu iPhone dobrável e prepara novidades na linha iPad

Apple vs. Epic Games: Confronto sobre a loja de aplicativos no iOS gera tensão com reguladores da UE

ISS vai receber impressora 3D para reparar peças no espaço

Betavolt: Bateria nuclear pode durar 50 anos com uma única carga

Os maiores avanços tecnológicos de 2023

Geladeira da Samsung possui IA que analisa alimentos e recomenda pratos

AudioCraft: Meta lança IA generativa para criação de áudio e música realistas