# Analisi degli Spettrogrammi di Immagini Audio

In questo notebook, eseguiremo un'analisi sugli spettrogrammi di alcune immagini audio. Il nostro obiettivo è estrarre informazioni utili dagli spettrogrammi e rappresentarle graficamente. 

## Importazione delle Librerie Necessarie

Per prima cosa, importiamo tutte le librerie necessarie per l'analisi e la visualizzazione dei dati.
Oltre quelle già viste durante il corso, andiamo a utilizzare scipy per estrarre le informazioni dagli audio, e os per muoverci all'interno delle directory del computer


In [1]:
import pandas as pd
import numpy as np
import os, random
from scipy import signal
from scipy.io import wavfile
import matplotlib.pyplot as plt

# Importiamo una serie di liberie che ci serviranno durante la nostra analisi. 

## Funzioni Utilizzate 

Andiamo a creare delle funzioni che ci serviranno durante la nostra analisi. 

La prima funzione è wav_to_spectr, che si occupa di trasformare i file audio, i quali hanno un formato .wav, in spettrogrammi. 
Per farlo passiamo alla funzione il nome della classe che da cui vogliamo estrarre l'immagine. Andiamo a utilizzare delle funzioni di scipy che, come precedentemente detto, ci permettono di estrarre le informazioni che ci servono ovvero un array di frequenze espresse in Hz, un array con la durata in secondi e lo spettrogramma. Infine restituisce questi valori, da quale file audio sono stati estratti e in quale cartella era presente quel file.

In [2]:
def wav_to_spectr(arg1):
    dir = "./tensorflow-speech-recognition-challenge/train/audio/" # creiamo una variabile con il percorso del nostro dataset
    os.chdir(dir)
    dir_audio = arg1  
    os.chdir(dir_audio) # entriamo in quella directory 
    audio = random.choice(os.listdir()) # scegliamo in modo randomico un audio all'interno della nostra cartella
    sample_rate, samples = wavfile.read(audio) # legge il file audio
    frequencies, times, spectrogram = signal.spectrogram(samples, sample_rate) # creare lo spettrogramma
    os.chdir("../../../../") # torniamo alla libreria dove è situato il nostro file jupyter
    return frequencies, times, spectrogram, audio, dir_audio

La seconda funzione racchiude tutti i comandi utili per la visualizzazione dei dati. Quando chiamata utilizza la funzione vista prima per estrarre le informazioni di quattro audio diversi.

In [4]:
def plot_spectrograms():
    # usiamo la funzione definita prima per andare a creare 4 spettrogrammi, 2 per label cosi da analizzare le differenze
    frequencies_right1, times_right1, spectrogram_right1, audio_right1, dir_audio_right1 = wav_to_spectr('right') 
    frequencies_right2, times_right2, spectrogram_right2, audio_right2, dir_audio_right2 = wav_to_spectr('right')
    frequencies_tree1, times_tree1, spectrogram_tree1, audio_tree1, dir_audio_tree1 = wav_to_spectr('tree')
    frequencies_tree2, times_tree2, spectrogram_tree2, audio_tree2, dir_audio_tree2 = wav_to_spectr('tree')
    
    fig, ax = plt.subplots(2, 2, figsize=(12, 8))  # aumenta la dimensione della figura
    fig.tight_layout(pad=3.0)  # aggiungi padding tra i subplot
    
    # Primo spettrogramma
    ax[0, 0].pcolormesh(times_right1, frequencies_right1, np.log(spectrogram_right1))
    ax[0, 0].set_ylabel('Frequency [Hz]') 
    ax[0, 0].set_xlabel('Time [sec]')
    ax[0, 0].set_title(audio_right2 + " dentro: " + dir_audio_right2)
    
    # Secondo spettrogramma
    ax[0, 1].pcolormesh(times_right2, frequencies_right2, np.log(spectrogram_right2))
    ax[0, 1].set_ylabel('Frequency [Hz]') 
    ax[0, 1].set_xlabel('Time [sec]')
    ax[0, 1].set_title(audio_right2 + " dentro: " + dir_audio_right2)
    
    # Terzo spettrogramma
    ax[1, 0].pcolormesh(times_tree1, frequencies_tree1, np.log(spectrogram_tree1))
    ax[1, 0].set_ylabel('Frequency [Hz]') 
    ax[1, 0].set_xlabel('Time [sec]')
    ax[1, 0].set_title(audio_tree2 + " dentro: " + dir_audio_tree2)
    
    # Quarto spettrogramma
    ax[1, 1].pcolormesh(times_tree2, frequencies_tree2, np.log(spectrogram_tree2))
    ax[1, 1].set_ylabel('Frequency [Hz]') 
    ax[1, 1].set_xlabel('Time [sec]')
    ax[1, 1].set_title(audio_tree2 + " dentro: " + dir_audio_tree2)

    plt.show()

In [None]:
plot_spectrograms()

Mostriamo gli spettrogrammi di due label diverse. Possiamo notare, anche a occhio, come gli audio con la stessa label abbiano frequenze simili 