<a href="https://colab.research.google.com/github/michaelconsigli/Tesi/blob/main/Speech2RIR.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [13]:
!git clone https://github.com/anton-jeran/Speech2RIR
%cd Speech2RIR/
!bash download_model.sh

Cloning into 'Speech2RIR'...
remote: Enumerating objects: 237, done.[K
remote: Counting objects: 100% (237/237), done.[K
remote: Compressing objects: 100% (228/228), done.[K
remote: Total 237 (delta 55), reused 0 (delta 0), pack-reused 0 (from 0)[K
Receiving objects: 100% (237/237), 214.23 KiB | 7.65 MiB/s, done.
Resolving deltas: 100% (55/55), done.
/content/Speech2RIR/Speech2RIR
Downloading...
From (original): https://drive.google.com/uc?id=1CcF1c9i76-MVPJ-PGoBwvaVtOUBPD57y
From (redirected): https://drive.google.com/uc?id=1CcF1c9i76-MVPJ-PGoBwvaVtOUBPD57y&confirm=t&uuid=cf4f5262-0e27-4cda-8604-6666afb1cbff
To: /content/Speech2RIR/Speech2RIR/checkpoint-1040000steps.pkl
100% 3.38G/3.38G [00:46<00:00, 72.1MB/s]
Downloading...
From (original): https://drive.google.com/uc?id=1TrnXjR-vrCrub_RY6kdEBqA0D4hGiIp3
From (redirected): https://drive.google.com/uc?id=1TrnXjR-vrCrub_RY6kdEBqA0D4hGiIp3&confirm=t&uuid=4aa381d3-a805-411f-bf96-b27e4f98fe14
To: /content/Speech2RIR/Speech2RIR/checkpo


CARICO IL MODELLO:

- Importa le librerie — carica il codice di PyTorch e della rete (modello) specifico che userai.

- Istanzia il modello — crea una nuova rete (modello) usando il codice della classe Generator. Qui devi specificare le stesse dimensioni e parametri con cui la rete è stata addestrata, altrimenti i pesi non ci entreranno bene.

- Carica i pesi del modello — apre il checkpoint (file con dati salvati) e legge i pesi nella parte giusta del file (checkpoint['model']['generator']).

- Inserisci i pesi nel modello — qui è il punto critico: se le dimensioni del modello e dei pesi non combaciano esce errore.

- Metti il modello in modalità valutazione — prepara il modello per fare previsioni (usare il modello, non addestrarlo).

- Stampa messaggio di conferma.


I pesi verranno utilizzati nella funzione forward del generator, in particolare nell'encoder e nel decoder. Questi due usano pesi interni es.

*conv = torch.nn.Conv1d(in_channels=1, out_channels=1, kernel_size=3*)

- Prima di caricare pesi, i valori dei filtri (kernel) sono casuali.

- Dopo conv.load_state_dict(...) con pesi addestrati, quei valori cambiano e diventano precisi per rilevare certe caratteristiche nell'input.

- Quando passi un input x a conv(x), il risultato riflette le trasformazioni con quei pesi.

In [14]:
# 1️⃣ Import delle librerie
import torch
from models.autoencoder.AudioDec import Generator

# 2️⃣ Crea il modello (con i parametri di default)
# Parametri dal file di configurazione YAML
model = Generator(
    input_channels=1,
    output_channels_rir=1,
    encode_channels=16,
    decode_channels=16,
    code_dim=128,
    codebook_num=64,
    codebook_size=8192,
    bias=True,
    combine_enc_ratios=[],
    combine_enc_strides=[],
    seperate_enc_ratios_rir=[2, 4, 8, 12, 16, 32],
    seperate_enc_strides_rir=[2, 2, 3, 5, 5, 5],
    rir_dec_ratios=[256, 128, 64, 32, 32, 32, 16],
    rir_dec_strides=[5, 5, 2, 2, 2, 1, 1],
    mode='causal',
    codec='audiodec',
    projector='conv1d',
    quantier='residual_vq',
)

# 3️⃣ Carica i pesi pre-addestrati
checkpoint_path = "exp/autoencoder/symAD_vctk_48000_hop300/checkpoint-1900000steps.pkl"
checkpoint = torch.load(checkpoint_path, map_location='cpu')

# Carica nello stato del modello solo la parte 'generator' dentro 'model'
model.load_state_dict(checkpoint['model']['generator'])

# 4️⃣ Metti il modello in modalità "valutazione"
model.eval()

print("✅ Modello caricato correttamente!")




✅ Modello caricato correttamente!


- carico e preparo l'audio
- stimo la RIR
- salvo

In [15]:
import torch
import torchaudio

# 1️⃣ Carica l’audio
audio_path = "/content/Tests/example 1/Reverb/impulseresponseheslingtonchurch-006_sing.mp3"
waveform, sr = torchaudio.load(audio_path)

# 2️⃣ Porta il sample rate a 48000 Hz se serve
if sr != 48000:
    waveform = torchaudio.functional.resample(waveform, sr, 48000)
    sr = 48000

# 3️⃣ Converte in mono (il modello accetta 1 canale)
if waveform.shape[0] > 1:
    waveform = torch.mean(waveform, dim=0, keepdim=True)

# 4️⃣ Aggiungi dimensione batch (B, C, T)
waveform = waveform.unsqueeze(0)

# 5️⃣ Stima la RIR
with torch.no_grad():
    estimated_rir = model(waveform)

# 6️⃣ Risultato
print("✅ RIR stimata!")
print("Shape:", estimated_rir.shape)


✅ RIR stimata!
Shape: torch.Size([1, 1, 79200])


Faccio il confronto con una RIR reale

In [16]:
# Carica la RIR reale da file (sostituisci con il percorso corretto)
rir_reale_path = "/content/Tests/example 1/RIR_reale/impulseresponseheslingtonchurch-006.wav"
rir_reale, sr_rir = torchaudio.load(rir_reale_path)

# Assicurati sample rate 48000 Hz
if sr_rir != 48000:
    rir_reale = torchaudio.functional.resample(rir_reale, sr_rir, 48000)
    sr_rir = 48000

# Converti in mono se necessario
if rir_reale.shape[0] > 1:
    rir_reale = torch.mean(rir_reale, dim=0, keepdim=True)

# Aggiungi dimensione batch (B, C, T)
rir_reale = rir_reale.unsqueeze(0)

# Assicurati che la dimensione temporale (lunghezza) corrisponda esattamente a quella stimata
min_len = min(rir_reale.shape[-1], estimated_rir.shape[-1])
rir_reale = rir_reale[:, :, :min_len]
estimated_rir = estimated_rir[:, :, :min_len]

# Calcola errore L2 (mean squared error)
mse_loss = torch.nn.MSELoss()
errore = mse_loss(estimated_rir, rir_reale)

print("Errore MSE tra RIR stimata e reale:", errore.item())


Errore MSE tra RIR stimata e reale: 0.005334637127816677
