# GAN Audio
Este código Python mostra como utilizar os pipelines AudioLDMPipeline e AudioLDM2Pipeline do pacote Diffusers para gerar áudio a partir de texto.

Vamos analisar as partes principais:

1. Importamos os pipelines AudioLDMPipeline e AudioLDM2Pipeline do pacote Diffusers.

2. O AudioLDMPipeline utiliza o modelo LDM (Language Diffusion Model) original para geração de áudio condicional. Já o AudioLDM2Pipeline utiliza a versão LDM 2, mais recente e poderosa.

3. Também importamos torch para trabalhar com tensores e scipy para manipulação de dados do áudio.

4. Após instanciar um desses pipelines, podemos chamar o método .process() passando um texto com a descrição do áudio desejado.

5. O pipeline então handle automaticamente a geração do áudio, tokenização do texto, aplicação do modelo LDM treinado e pós-processamento.

6. Como saída obtemos os dados de áudio brutos que podem ser salvos em um arquivo WAVE para ser reproduzido.

7. O SciPy fornece funções úteis para tratamento do áudio, como normalização do volume, remoção de ruído, etc.


In [None]:
!pip install diffusers transformers accelerate safetensors

In [None]:
from diffusers import AudioLDMPipeline, AudioLDM2Pipeline
import torch
import scipy

The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.


0it [00:00, ?it/s]

## AudioLDM



In [None]:
prompt = '''high quality Classic 80s heavy metal sound with high-pitched vocals,
            fast guitar riffs, and a pounding rhythm section'''
rate = 32000
num_inference_steps = 500
audio_length_in_s = 10.0

pipeline = AudioLDMPipeline.from_pretrained(
    pretrained_model_name_or_path="cvssp/audioldm-s-full-v2",torch_dtype=torch.float16).to("cuda")

In [None]:
audio = pipeline(prompt, num_inference_steps=num_inference_steps, audio_length_in_s=audio_length_in_s).audios[0]
scipy.io.wavfile.write("heavymetal.wav", rate=rate, data=audio)

  0%|          | 0/500 [00:00<?, ?it/s]

## AudioLDM 2

In [None]:
#quantos gerar, salvar apenas melhor (indíce zero)
num_waveforms_per_prompt = 3

# audioldim2  / audioldm2-music
pretrained_model_name_or_path = "cvssp/audioldm2-large"
prompt = '''Generate a high-quality audio clip of a
         waterfall. The sound should be soothing, continuous.'''
num_inference_steps = 500
audio_length_in_s=10.0

In [None]:
pipeline = AudioLDM2Pipeline.from_pretrained(pretrained_model_name_or_path=pretrained_model_name_or_path,
                                             torch_dtype=torch.float16).to("cuda")

audio = pipeline( prompt=prompt, num_inference_steps=num_inference_steps,
    audio_length_in_s=audio_length_in_s,num_waveforms_per_prompt=num_waveforms_per_prompt
).audios


In [None]:
scipy.io.wavfile.write("waterfall.wav", rate=32000, data=audio[0])