# Preparazione ambiente

Inizialmente ho ripetuto tutto ciò che ho già fatto e spiegato nel notebook con i samples completi, quindi:

- Installato spark e parselmouth
- Montato il drive
- Aggiunto le funzioni utili
- Aggiunto i percorsi delle cartelle

In [1]:
#Installazione spark

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget https://downloads.apache.org/spark/spark-3.5.5/spark-3.5.5-bin-hadoop3.tgz
!tar xf spark-3.5.5-bin-hadoop3.tgz
!pip install -q findspark
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.5.5-bin-hadoop3"
import findspark
findspark.init()
import pyspark
print(pyspark.version)
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()
sc=spark.sparkContext

--2025-03-06 19:17:02--  https://downloads.apache.org/spark/spark-3.5.5/spark-3.5.5-bin-hadoop3.tgz
Resolving downloads.apache.org (downloads.apache.org)... 135.181.214.104, 88.99.208.237, 2a01:4f8:10a:39da::2, ...
Connecting to downloads.apache.org (downloads.apache.org)|135.181.214.104|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 400724056 (382M) [application/x-gzip]
Saving to: ‘spark-3.5.5-bin-hadoop3.tgz’


2025-03-06 19:17:16 (26.6 MB/s) - ‘spark-3.5.5-bin-hadoop3.tgz’ saved [400724056/400724056]

<module 'pyspark.version' from '/content/spark-3.5.5-bin-hadoop3/python/pyspark/version.py'>


In [2]:
#Installazione parselmouth

!pip install praat-parselmouth

Collecting praat-parselmouth
  Downloading praat_parselmouth-0.4.5-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.9 kB)
Downloading praat_parselmouth-0.4.5-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (10.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.8/10.8 MB[0m [31m38.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: praat-parselmouth
Successfully installed praat-parselmouth-0.4.5


In [3]:
#Montaggio drive con audio e trascrizioni

from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
#Funzioni utili

import librosa
import librosa.feature
import numpy as np
import parselmouth
from parselmouth.praat import call
from sklearn.feature_extraction.text import TfidfVectorizer

# Funzione per estrarre feature audio con librosa
def extract_audio_features(audio_path, sr=22050, n_mfcc=13):
    y, sr = librosa.load(audio_path, sr=sr)

    # Estrae MFCC
    mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=n_mfcc)
    mfccs_mean = np.mean(mfccs, axis=1)  # Media per stabilizzare i dati

    # Estrae RMSE (Energy)
    rms = librosa.feature.rms(y=y)
    rms_mean = np.mean(rms)

    return np.concatenate((mfccs_mean, [rms_mean]))

# Funzione per estrarre il pitch con Parselmouth
def extract_pitch(audio_path):
    snd = parselmouth.Sound(audio_path)
    pitch = call(snd, "To Pitch", 0.0, 75, 600)
    mean_pitch = call(pitch, "Get mean", 0, 0, "Hertz")  # Media del pitch

    return np.array([mean_pitch])

# Funzione per ottenere la rappresentazione testuale con TF-IDF
def extract_text_features(text, vectorizer):
    return vectorizer.transform([text]).toarray()[0]

# Funzione per estrarre le trascrizioni dal file txt
def load_transcriptions(txt_file):
    transcriptions = {}
    with open(txt_file, "r", encoding="utf-8") as f:
        lines = f.read().strip().split("\n\n")  # Divide il file in blocchi separati da una riga vuota

    for block in lines:
        lines = block.split("\n")  # Ogni blocco contiene nome file + trascrizione
        if len(lines) >= 2:
            filename = lines[0].strip()  # Prima riga: nome del file audio
            transcript = " ".join(lines[1:]).strip()  # Tutto il resto è la trascrizione
            transcriptions[filename] = transcript  # Aggiungi al dizionario

    return transcriptions

In [5]:
import pandas as pd

# Percorsi delle cartelle
audio_folder = "/content/drive/MyDrive/audiozzi"
transcriptions_file = "/content/drive/MyDrive/audiozzi/Trascrizioni.txt"

# Creazione samples

In seguito ho creato 2 set di samples:

- 1 utilizzando solo Librosa e Parselmouth per estrarre le feature dagli audio.
- 1 utilizzando solo TF-IDF per estrarre le feature dalle trascrizioni.

I samples in entrambi i casi sono stati salvati sui file pkl per poter essere utilizzati nella fase successiva.

In [6]:
# Creazione samples con solo Librosa e Parselmouth

# Lista per contenere i dati finali
datasetlp = []

# Loop su tutti i file audio nella cartella
for file in os.listdir(audio_folder):
    if file.endswith(".mp3"):  # Filtra solo i file audio
        audio_path = os.path.join(audio_folder, file)

        # Determina l'etichetta (1 = Urgente, 0 = Normale) (sfrutto il fatto che ho rinominato i file)
        label = 1 if file.endswith("u.mp3") else 0

        # Estrae feature audio
        audio_features = extract_audio_features(audio_path)
        pitch_feature = extract_pitch(audio_path)

        # Concatena tutte le feature
        sample = np.concatenate((audio_features, pitch_feature))

        # Salva i dati
        datasetlp.append({
            "filename": file,
            "features": sample,
            "label": label  # Etichetta aggiunta
        })

# Converte in DataFrame per salvataggio
dflp = pd.DataFrame(datasetlp)
dflp.to_pickle("/content/drive/MyDrive/audiozzi/samplesSoloLibrosaParselmouth.pkl")  # Salva in formato binario
#df.to_csv("/content/drive/MyDrive/audiozzi/sss.csv", index=False)

print(f"{len(dflp)} campioni salvati.")

300 campioni salvati.


In [8]:
# Creazione samples con solo TF-IDF

# Carica le trascrizioni
transcriptions = load_transcriptions(transcriptions_file)

# Crea il vettorizzatore TF-IDF e lo adatta su tutte
vectorizer = TfidfVectorizer()
vectorizer.fit(list(transcriptions.values()))

# Lista per contenere i dati finali
datasettf = []

# Loop su tutti i file audio nella cartella
for file in os.listdir(audio_folder):
    if file.endswith(".mp3"):  # Filtra solo i file audio
        audio_path = os.path.join(audio_folder, file)

        # Determina l'etichetta (1 = Urgente, 0 = Normale) (sfrutto il fatto che ho rinominato i file)
        label = 1 if file.endswith("u.mp3") else 0

        # Recupera la trascrizione corrispondente
        transcript = transcriptions.get(file, None)
        if transcript is None:
            print(f"Nessuna trascrizione trovata per {file}, skippato.")
            continue

        # Estrae feature testuali
        sample = extract_text_features(transcript, vectorizer)

        # Salva i dati
        datasettf.append({
            "filename": file,
            "features": sample,
            "transcript": transcript,
            "label": label  # Etichetta aggiunta
        })

# Converte in DataFrame per salvataggio
dftf = pd.DataFrame(datasettf)
dftf.to_pickle("/content/drive/MyDrive/audiozzi/samplesSoloTFIDF.pkl")  # Salva in formato binario
#dftf.to_csv("/content/drive/MyDrive/audiozzi/ssssssss.csv", index=False)

print(f"{len(dftf)} campioni salvati.")

300 campioni salvati.


# Test modelli e confronto

Infine ho recuperato i samples dai file binari e ci ho addestrato e testato i modelli per confrontare i risultati.

### Solo Librosa e Parselmouth

In [10]:
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.ml.linalg import DenseVector
from pyspark.sql import Row

# Carica il dataset, pescando il file binario
dflp = pd.read_pickle("/content/drive/MyDrive/audiozzi/samplesSoloLibrosaParselmouth.pkl")

# Converte in un DataFrame Spark con DenseVector
spark_df = spark.createDataFrame([
    Row(filename=row["filename"],
        features=DenseVector(row["features"]),  # Converti in DenseVector
        label=int(row["label"]))  # Controllo label int
    for _, row in dflp.iterrows()
])

#Divido training e test set in proporzione 80-20

train_df_lp, test_df_lp = spark_df.randomSplit([0.8, 0.2], seed=42)

In [11]:
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.classification import GBTClassifier

# Definisce il modello di Random Forest
rf_lp = RandomForestClassifier(featuresCol="features", labelCol="label", numTrees=50)

# Addestra il modello sui dati di training
model = rf_lp.fit(train_df_lp)

# Genera le previsioni sul dataset di test
predictions = model.transform(test_df_lp)

#predictions.select("features", "label", "prediction").show(10)

# Definisce l'evaluator per l'accuratezza
evaluator = MulticlassClassificationEvaluator(labelCol="label", predictionCol="prediction", metricName="accuracy")

# Calcola l'accuratezza
accuracy = evaluator.evaluate(predictions)
print(f"Accuratezza del modello Random Forest: {accuracy * 100:.2f}%")



# Definisce il modello di regressione logistica
lr_lp = LogisticRegression(featuresCol="features", labelCol="label")

# Addestra il modello
lr_model = lr_lp.fit(train_df_lp)

# Fa le previsioni
lr_predictions = lr_model.transform(test_df_lp)

# Valutazione
evaluator = MulticlassClassificationEvaluator(labelCol="label", predictionCol="prediction", metricName="accuracy")
lr_accuracy = evaluator.evaluate(lr_predictions)
print(f"Accuratezza Logistic Regression: {lr_accuracy * 100:.2f}%")



# Definisci il modello Gradient Boosted Trees
gbt_lp = GBTClassifier(featuresCol="features", labelCol="label", maxIter=50)

# Addestra il modello
gbt_model = gbt_lp.fit(train_df_lp)

# Fai le previsioni
gbt_predictions = gbt_model.transform(test_df_lp)

# Valutazione
gbt_accuracy = evaluator.evaluate(gbt_predictions)
print(f"Accuratezza Gradient-Boosted Trees: {gbt_accuracy * 100:.2f}%")

Accuratezza del modello Random Forest: 94.23%
Accuratezza Logistic Regression: 98.08%
Accuratezza Gradient-Boosted Trees: 98.08%


### Solo TF-IDF

In [12]:
# Carica il dataset, pescando il file binario
dftf = pd.read_pickle("/content/drive/MyDrive/audiozzi/samplesSoloTFIDF.pkl")

# Converte in un DataFrame Spark con DenseVector
spark_df = spark.createDataFrame([
    Row(filename=row["filename"],
        features=DenseVector(row["features"]),  # Converti in DenseVector
        label=int(row["label"]))  # Controllo label int
    for _, row in dftf.iterrows()
])

#Divido training e test set in proporzione 80-20

train_df_tf, test_df_tf = spark_df.randomSplit([0.8, 0.2], seed=42)

In [13]:
# Definisce il modello di Random Forest
rf_tf = RandomForestClassifier(featuresCol="features", labelCol="label", numTrees=50)

# Addestra il modello sui dati di training
model = rf_tf.fit(train_df_tf)

# Genera le previsioni sul dataset di test
predictions = model.transform(test_df_tf)

#predictions.select("features", "label", "prediction").show(10)

# Definisce l'evaluator per l'accuratezza
evaluator = MulticlassClassificationEvaluator(labelCol="label", predictionCol="prediction", metricName="accuracy")

# Calcola l'accuratezza
accuracy = evaluator.evaluate(predictions)
print(f"Accuratezza del modello Random Forest: {accuracy * 100:.2f}%")



# Definisce il modello di regressione logistica
lr_tf = LogisticRegression(featuresCol="features", labelCol="label")

# Addestra il modello
lr_model = lr_tf.fit(train_df_tf)

# Fa le previsioni
lr_predictions = lr_model.transform(test_df_tf)

# Valutazione
evaluator = MulticlassClassificationEvaluator(labelCol="label", predictionCol="prediction", metricName="accuracy")
lr_accuracy = evaluator.evaluate(lr_predictions)
print(f"Accuratezza Logistic Regression: {lr_accuracy * 100:.2f}%")



# Definisci il modello Gradient Boosted Trees
gbt_tf = GBTClassifier(featuresCol="features", labelCol="label", maxIter=50)

# Addestra il modello
gbt_model = gbt_tf.fit(train_df_tf)

# Fai le previsioni
gbt_predictions = gbt_model.transform(test_df_tf)

# Valutazione
gbt_accuracy = evaluator.evaluate(gbt_predictions)
print(f"Accuratezza Gradient-Boosted Trees: {gbt_accuracy * 100:.2f}%")

Accuratezza del modello Random Forest: 100.00%
Accuratezza Logistic Regression: 100.00%
Accuratezza Gradient-Boosted Trees: 90.38%
