## Transcribing

In [None]:
import os
import csv
from pathlib import Path
import torch
from stable_whisper import load_model

# === SETTINGS ===
root_dir = r"..."
output_csv = r"..."  # ✅ Save here
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"🚀 Using device: {device}")

# === LOAD MODEL ===
model = load_model("large-v3", device=device)

# === HELPER FUNCTION ===
def transcribe_audio_files(directory):
    results = []

    # Walk through all subdirectories
    for root, dirs, files in os.walk(directory):
        for filename in files:
            if filename.lower().endswith(".wav"):
                filepath = os.path.join(root, filename)
                print(f"🎧 Transcribing: {filepath}")

                try:
                    result = model.transcribe(filepath, language="az")
                    text = result.text.strip()  # ✅ Access object attribute, not dict

                    if text:  # Skip empty transcriptions
                        results.append([text, 1])  # Dummy label '1'
                except Exception as e:
                    print(f"⚠️ Failed to transcribe {filename}: {e}")
    return results

# === PROCESS ===
transcriptions = transcribe_audio_files(root_dir)

# === SAVE TO CSV ===
if transcriptions:
    os.makedirs(os.path.dirname(output_csv), exist_ok=True)  # ✅ Ensure output dir exists

    with open(output_csv, mode='w', newline='', encoding='utf-8') as file:
        writer = csv.writer(file)
        writer.writerow(["Transcription", "Label"])  # Header
        writer.writerows(transcriptions)

    print(f"✅ Transcriptions saved to {output_csv}")
else:
    print("❌ No transcriptions were generated.")

### Single-Audio Transcrabing

In [None]:
import os
import csv
import torch
from stable_whisper import load_model

# === SETTINGS ===
audio_path = r".wav"
output_csv = r".csv"
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"🚀 Using device: {device}")

# === LOAD MODEL ===
model = load_model("large-v3", device=device)

# === TRANSCRIBE SINGLE AUDIO ===
try:
    print(f"🎧 Transcribing: {audio_path}")
    result = model.transcribe(audio_path, language="az")
    text = result.text.strip()

    if text:
        # === SAVE TO CSV ===
        with open(output_csv, mode='w', newline='', encoding='utf-8') as file:
            writer = csv.writer(file)
            writer.writerow(["Transcription", "Label"])  # Header
            writer.writerow([text, 1])  # Dummy label

        print(f"✅ Transcription saved to {output_csv}")
    else:
        print("⚠️ Transcription is empty.")
except Exception as e:
    print(f"❌ Error during transcription: {e}")

In [None]:
import pandas as pd

df = pd.read_csv(r".csv")
display(df)
print()
display(df['Transcription'].iloc[0])

## Data Preprocessing & Preparation

In [None]:
import pandas as pd

df = pd.read_csv(r".csv")
display(df)
print()
display(df['Transcription'].iloc[0])

In [None]:
display(df['Transcription'].iloc[97])

In [None]:
import pandas as pd

# Existing DataFrame
df_transcripts = pd.read_csv(r".csv")

# Pasting synthetic transcriptions here as a list of strings
negative_samples = [
    "alo salam mən xaricə getmək üçün məhküm olmamağım barədə sənəd lazım olduğunu dedilər onu asan xidmətdən ala bilərəmmi salam xanım bu məsələyə biz baxmırıq deyəsən başqa yerdə verirlər belə sənədləri məncə siz notariusa yaxınlaşın amma deyiblər ki asan verir elə sənədi məncə əvvəllər verirdi indi dəyişib dəqiq bilmirəm bir dəqiqə zəhmət olmasa gözləyin alo səsiniz gəlmir zəifdi mən də yaxşı başa düşmürəm nə istəyirsiz sənədi bir də zəng edin bəlkə başqa əməkdaş cavab verə bilər",
    "salam mənim şəxsiyyət vəsiqəmin müddəti keçib onu dəyişmək üçün nə etməliyəm salam buyurun sizə deyiblər biz dəyişirik deyəsən amma indi olmur elə şey bizdə yəni məlumat yoxdur məndə sənəd lazımdı amma nə sənədi bilmirəm dəqiq belə deyiblər sadəcə şəxsiyyət vəsiqəsi üçün adı dəyişib deyiblər onda notarius baxar deyəsən bizdə olmur sənəd vermə proseduru mənlik deyil zəhmət olmasa sonra zəng edin başqa əməkdaş bilər",
    "salam mən ev üçün qeydiyyat arayışı almaq istəyirdim deyiblər asan xidmətdən alınır xanım o qeydiyyatla bağlı sənədlər biz vermirik məncə icra hakimiyyəti baxır ona yox mən konkret soruşuram siz vermirsinizsə deyin mən gedim başqa yerə baxın google yazın görün hardan verilir bizdə olmur bu gün o sənəd deyəsən çıxarılmır sistemdə problem var başqa sualınız varsa buyurun",
    "alo salam mən mehkum olmamağım barədə arayış almaq istəyirəm çünki xaricə sənəd təqdim etməliyəm onu haradan ala bilərəm salam xanım dəqiq deyə bilmərəm vallah bizdə olmur məncə ədliyyə baxır o sənədlərə bəlkə ora gedəsiniz amma bu asan xidmət deyilmi siz verməlisiz axı məncə əvvəllər verilirdi indi necədi bilmirəm zəng edin soruşun ya başqa əməkdaşa yönləndirilsin bir dəqiqə alo səs kəsilir sonra zəng edin yaxşı",
    "salam mən uşağın doğum haqqında şəhadətnaməsini almaq istəyirəm onlayn müraciət etmişdim amma alınmadı onu necə ala bilərəm salam bizdə o sistem işləmir deyəsən indi siz gedin notariusa bəlkə onlar kömək edə bilər onlayn alınmadısa bəlkə sistemdə nasazlıq var mən burada heç nə görə bilmirəm yəni siz deyirsiniz ki asan xidmət vermir məncə əvvəllər verirdi amma indi dəqiq bilmirəm sizə düzgün deyə bilmərəm",
    "alo salam mən xaricə getmək üçün sənədlər toplamalıyam və məhküm olmamağım barədə arayış lazımdır onu necə ala bilərəm salam xanım belə sənədləri biz vermirik deyəsən yəni siz deyirsiniz heç vermirsiniz əvvəllər demişdilər sizdə olurdu indi yox deyəsən dəyişib sistemdə görünmür mənlik deyil siz gedin notariusa ora verə bilər amma dəqiq deyə bilmərəm yaxşı başa düşmədim indi siz verirsiniz ya yox yox yox deyəsən biz vermirik zəhmət olmasa sonra zəng edin bəlkə başqa əməkdaş bilər",
    "salam mənə şəxsiyyət vəsiqəsi üçün qeydiyyat arayışı lazımdır internetdə yazılıb asan xidmətdən götürülür buyurun xanım mən bir şey bilmirəm o arayış bəlkə bələdiyyədən alınır yəni bu barədə məlumatım yoxdur bizdə olmur məncə amma siz deyirsiniz ki internetdə yazılıb bura verilir bəli amma mənlik deyil yəni sistemdə baxmıram mən indi sənədi hardan alım deyirsiniz heç bilmirsiniz zəng edin sabah soruşun mən dəqiq deyə bilmirəm",
    "alo mən vərəsəliklə bağlı sənəd almaq istəyirdim buyurun salam xanım bu barədə heç məlumatım yoxdur vərəsəlik dediniz notarius baxır bizdə olmur sənədi necə ala bilərəm deyirlər bura yaxınlaşmaq lazımdır yox xanım o prosedur bizlik deyil deyəsən məhkəməyə aidiyyatı var zəng edin məhkəməyə bura belə şeylərlə məşğul olmur",
    "salam mənim adım dəyişib şəxsiyyət vəsiqəsini dəyişmək istəyirəm hansı sənədlər lazımdır xanım siz yəqin qeydiyyat yerinə getməlisiniz bizdə olmur sənəd yəni məlumatım yoxdur belə şeylərlə biz baxmırıq əvvəlcə deyirdilər burdan alınır indi yox notarius bəlkə bilir zəhmət olmasa ora gedin mənlik deyil",
    "salam mən xaricə sənəd göndərmək istəyirəm və sənədi təsdiqlətməliyəm buyurun amma xanım bu məsələ ilə məşğul olmuruq belə təsdiq üçün siz başqa yerdə təsdiq alın bəlkə konsulluğa zəng edin bu işlər bizlik deyil",
    "salam mən şəxsiyyət vəsiqəmi itirmişəm və yeni sənəd almaq istəyirəm bu mümkünmü xanım itkin sənədlə bağlı biz məlumat vermirik polisə müraciət edin o sənəd bizlik deyil yəni siz heç nə edə bilmirsiniz yox xanım keçin bölməyə",
    "alo salam mən ailə vəziyyətimlə bağlı sənəd istəyirəm deyiblər asan verir onu xanım mən bilmirəm belə şeylər üçün notarius var deyəsən ailə arayışları biz vermirik valla məlumatım yoxdur zəng edin başqa yerə",
    "salam mənim uşağım üçün doğum şəhadətnaməsini bərpa etdirmək istəyirəm sistemdə görünmür xanım biz belə məlumatlara baxmırıq siz qeydiyyat şöbəsinə getməlisiniz bizdə olmur sənəd mən də buradan nə edə bilərəm",
    "salam mən ev sənədimi təsdiqlətmək istəyirəm yəni alqı-satqı üçün lazımdır buyurun amma xanım bizdə belə şeylər olmur o sənədi siz ya notariusdan alın ya daşınmaz əmlak ofisinə yaxınlaşın asan baxmır bu tip şeylərə",
    "salam mən özümə vasiqə çıxartmaq istəyirəm amma deyiblər bəzi sənədlər lazımdır nə lazımdır deyə bilərsiniz xanım bu məsələyə mən baxmıram ümumiyyətlə nadir işdir deyəsən siz başqa yerə gedin",
    "salam mən müvəqqəti qeydiyyat üçün sənəd almaq istəyirəm çünki evimi dəyişmişəm xanım bu qeydiyyat məsələsi bizlik deyil icra hakimiyyətinə getməlisiniz biz heç nə etmirik belə məsələdə",
    "salam mən şəxsiyyət vəsiqəmi itirmişəm ona görə bank sənədi ala bilmirəm nə etməliyəm buyurun bu barədə heç nə deyə bilmərəm xanım bəlkə banka zəng edin biz burda belə sənədlə kömək edə bilmirik",
    "salam mən mehkum olmamaq arayışı almaq istəyirəm deyiblər sənəd hazırdır amma hələ zəng gəlməyib xanım biz burdan belə məlumatları vermirik gözləyin zəng edərlər mənlik deyil",
    "salam mən ailə vəziyyətimlə bağlı sənəd təqdim etməliyəm əcnəbi vətəndaş üçün bu asan xidmətdə olurmu xanım bilmirəm valla əcnəbilərlə bağlı çox şey dəyişib siz miqrasiya xidmətinə zəng edin bu bizlik deyil",
    "salam şəxsiyyət vəsiqəmi dəyişdirməliyəm çünki evlənmişəm və soyadım dəyişib xanım onu biz etmirik deyəsən evlilik aktı lazım olacaq notarius ya qeydiyyat yerinə yaxınlaşın bizdə olmur",
]

# Create a DataFrame from the synthetic data
df_negatives = pd.DataFrame({
    "Transcription": negative_samples,
    "Label": 0
})

# Append to your original DataFrame
df_combined = pd.concat([df_transcripts, df_negatives], ignore_index=True)

# Optional: Check class balance
print(df_combined['Label'].value_counts())

# Optional: Save to CSV
df_combined.to_csv(".csv", index=False)

In [None]:
import pandas as pd

df = pd.read_csv(r".csv")
display(df)
print()
display(df['Transcription'].iloc[0])

In [None]:
display(df['Transcription'].iloc[110])

## Feature Extraction

In [None]:
from transformers import AutoTokenizer, AutoModelForMaskedLM

# Model size: 561M params; Tensor type: F32
tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-large')
model = AutoModelForMaskedLM.from_pretrained("xlm-roberta-large")

# prepare input
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')

# forward pass
output = model(**encoded_input)

In [None]:
from transformers import BertTokenizer, BertModel

# Model size: 168M params; Tensor type: F32
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-uncased')
model = BertModel.from_pretrained("bert-base-multilingual-uncased")

# text = "Replace me by any text you'd like."
text = df['Transcription'].iloc[0]
encoded_input = tokenizer(text, return_tensors='pt')

output = model(**encoded_input)

In [None]:
output

In [None]:
embedding = output.pooler_output.detach().numpy().squeeze()
embedding

In [None]:
import pandas as pd

df = pd.read_csv(r".csv")
display(df)
df.info()

In [None]:
print(df.duplicated().sum())

In [None]:
df = df.drop_duplicates().reset_index(drop=True)
display(df)
df.info()

In [None]:
print(df.duplicated().sum())

In [None]:
import torch
import numpy as np
from transformers import BertTokenizer, BertModel

# Check for GPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"🚀 Using device: {device}")

# Load model and tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-uncased')
model = BertModel.from_pretrained('bert-base-multilingual-uncased').to(device)
model.eval()

embeddings = []

for text in df['Transcription']:
    # Tokenize and move to device
    encoded = tokenizer(text, return_tensors='pt', truncation=True, padding=True).to(device)

    with torch.no_grad():
        output = model(**encoded)
        cls_embedding = output.pooler_output.detach().cpu().numpy().squeeze()  # move back to CPU for numpy
        embeddings.append(cls_embedding)

X = np.vstack(embeddings)  # Feature matrix
y = df['Label'].values      # Labels

In [None]:
import pandas as pd
import numpy as np
import os

# Combine embeddings and labels into a DataFrame
df_embeddings = pd.DataFrame(X)
df_embeddings["Label"] = y  # Append label column

# Define output path
output_path = r".csv"

# Ensure directory exists
os.makedirs(os.path.dirname(output_path), exist_ok=True)

# Save to CSV
df_embeddings.to_csv(output_path, index=False)

print(f"✅ Embeddings saved to: {output_path}")

In [None]:
import pandas as pd

df = pd.read_csv(r".csv")
display(df)
print()
#display(df['Transcription'].iloc[0])

## Model Training

In [None]:
import pandas as pd

df = pd.read_csv(r".csv")
#display(df)
print(df.duplicated().sum())

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

# Load your dataset
df = pd.read_csv(r".csv")

# Features and labels
X = df.drop(columns=["Label"]).values
y = df["Label"].values

# Train-test split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, stratify=y, random_state=42)

# Define models to evaluate
models = {
    "Logistic Regression": Pipeline([
        ("scaler", StandardScaler()),
        ("clf", LogisticRegression(max_iter=1_000, random_state=42))
    ]),
    "SVM (RBF)": Pipeline([
        ("scaler", StandardScaler()),
        ("clf", SVC(random_state=42))
    ]),
    "K-NN": Pipeline([
        ("scaler", StandardScaler()),
        ("clf", KNeighborsClassifier())
    ]),
    # RandomForest, GradientBoosting and GaussianNB often work fine without scaling
    "Random Forest": RandomForestClassifier(random_state=42),
    "Gradient Boosting": GradientBoostingClassifier(random_state=42),
    "Naive Bayes": GaussianNB()
}

# Train and evaluate each model
for name, model in models.items():
    print(f"\n🔍 Evaluating: {name}")
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    acc = accuracy_score(y_test, y_pred)
    print(f"✅ Accuracy: {acc:.4f}")
    print(classification_report(y_test, y_pred))

In [None]:
import joblib

# Access your trained model from the pipeline
knn_model = models["K-NN"]

# Save to file
joblib.dump(knn_model, "/knn_model.pkl")
print("✅ K-NN model saved.")

## Inference

In [None]:
import torch
from transformers import BertTokenizer, BertModel
import joblib
import numpy as np

# === Load tokenizer and model ===
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-uncased')
model = BertModel.from_pretrained('bert-base-multilingual-uncased')
model.eval()

# === Load your trained K-NN model pipeline ===
knn_model = joblib.load("../knn_model.pkl")

# === Your custom input text ===
input_text = "alo salam mən sənəd almaq istəyirəm xaricə getmək üçün məhküm olmamağım barədə"

# === Step 1: Lowercase (same as training) ===
input_text = input_text.lower()

# === Step 2: Generate BERT [CLS] embedding ===
encoded = tokenizer(input_text, return_tensors='pt', truncation=True, padding=True)
with torch.no_grad():
    output = model(**encoded)
    embedding = output.pooler_output.detach().numpy().squeeze()

# === Step 3: Predict using your trained model ===
predicted_label = knn_model.predict([embedding])[0]

print(f"🔍 Prediction: {'Yaxşı cavab' if predicted_label == 1 else 'Pis cavab'}")

In [None]:
import os
import uuid
import torch
import shutil
import numpy as np
import torchaudio
import joblib
from denoiser import pretrained
from denoiser.dsp import convert_audio
from stable_whisper import load_model as load_sw_model
from transformers import BertTokenizer, BertModel
import gradio as gr

# ========== Device Setup ==========
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# ========== Denoising Model ==========
denoise_model = pretrained.dns64().to(device)
DEBUG_DIR = "debug/"
os.makedirs(DEBUG_DIR, exist_ok=True)

def denoise_audio(audio_path):
    wav, sr = torchaudio.load(audio_path)
    wav = convert_audio(wav, sr, denoise_model.sample_rate, denoise_model.chin)
    with torch.no_grad():
        enhanced = denoise_model(wav.to(device))
    enhanced = enhanced.squeeze(0).cpu()
    out_path = os.path.join(DEBUG_DIR, f"denoised_{uuid.uuid4().hex}.wav")
    torchaudio.save(out_path, enhanced, denoise_model.sample_rate)
    return out_path

# ========== Whisper Model ==========
sw_model = load_sw_model("large-v3", device=device)

# ========== BERT + K-NN Setup ==========
tokenizer = BertTokenizer.from_pretrained("bert-base-multilingual-uncased")
bert_model = BertModel.from_pretrained("bert-base-multilingual-uncased")
bert_model.eval()

knn_model = joblib.load("../knn_model.pkl")

def classify_transcription(text):
    text = text.lower()
    encoded = tokenizer(text, return_tensors='pt', truncation=True, padding=True)
    encoded = {k: v.to(device) for k, v in encoded.items()} # work on both GPU and CPU.
    with torch.no_grad():
        output = bert_model(**encoded)
        embedding = output.pooler_output.detach().numpy().squeeze()
    
    encoded = {k: v.to(device) for k, v in encoded.items()}
    with torch.no_grad():
        output = bert_model(**encoded)

    
    prediction = knn_model.predict([embedding])[0]
    label = "Yaxşı cavab ✅" if prediction == 1 else "Pis cavab ❌"
    return label

# ========== Full Processing Pipeline ==========
def process_audio_and_classify(audio_path):
    # 1. Save original
    raw_copy = os.path.join(DEBUG_DIR, f"original_{uuid.uuid4().hex}.wav")
    shutil.copy(audio_path, raw_copy)

    # 2. Denoise
    denoised_path = denoise_audio(audio_path)

    # 3. Transcribe
    result = sw_model.transcribe(denoised_path, language="azerbaijani", word_timestamps=False)
    full_text = result.text.strip()

    # 4. Classify
    label = classify_transcription(full_text)

    # 5. Build HTML output
    html = f"""
    <h3>🔊 Denoised Audio</h3>
    <audio controls src='{denoised_path}' style='width:100%; margin-bottom:16px;'></audio>
    <h3>📄 Transcription</h3>
    <div style='white-space: pre-wrap; border:1px solid #ccc; padding:8px;'>{full_text}</div>
    <h3>🤖 Model Prediction</h3>
    <div style='font-size: 1.2em; font-weight: bold; color: {"green" if "Yaxşı" in label else "red"}'>{label}</div>
    """
    return html

# ========== Gradio UI ==========
with gr.Blocks() as demo:
    gr.Markdown("## PoC: Evaluating Call Center Operator Performance via Call Analysis")
    audio_input = gr.Audio(type="filepath", label="Upload WAV audio")
    output_html = gr.HTML()
    run_button = gr.Button("Process and Classify")

    run_button.click(
        fn=process_audio_and_classify,
        inputs=audio_input,
        outputs=output_html
    )

demo.launch()