---
# Audio upgrade

In [14]:
import audio2numpy as a2n

def get_audio_sample(path):
    x,sr=a2n.audio_from_file(path)
    
    return dict({
        'path': path,
        'array': x,
        'sampling_rate': sr
    })

In [16]:
from pedalboard.io import AudioFile
from pedalboard import *
import noisereduce as nr

sr = 8000
with AudioFile('../train_RZHD_AnalizatorPeregovorov/29к_874 КВ - 02.05.2024 01_08_44.mp3').resampled_to(sr) as f:
    audio = f.read(f.frames)

reduced_noise = nr.reduce_noise(y=audio, sr=sr, stationary=True, prop_decrease=1.0)

board = Pedalboard([
    NoiseGate(threshold_db=-30, ratio=3, release_ms=250),
    Compressor(threshold_db=-16, ratio=2.5),
    LowShelfFilter(cutoff_frequency_hz=700, gain_db=10, q=1),
    Gain(gain_db=10)
])

effected = board(reduced_noise, sr)


with AudioFile('../train_RZHD_AnalizatorPeregovorov/29к_874 КВ - 02.05.2024 01_08_44_enhanced.mp3', 'w', sr, effected.shape[0]) as f:
    f.write(effected)

In [15]:
from IPython.display import Audio

sample = get_audio_sample('../train_RZHD_AnalizatorPeregovorov/29к_874 КВ - 02.05.2024 01_08_44.mp3')
Audio(sample["array"], rate=sample["sampling_rate"])

In [17]:
from IPython.display import Audio

sample = get_audio_sample('../train_RZHD_AnalizatorPeregovorov/29к_874 КВ - 02.05.2024 01_08_44_enhanced.mp3')
Audio(sample["array"], rate=sample["sampling_rate"])

---
# Whisper inference

In [1]:
import torch 

from transformers import WhisperForConditionalGeneration
from transformers import WhisperFeatureExtractor
from transformers import WhisperTokenizer
from transformers import pipeline

device = "cuda:0" if torch.cuda.is_available() else "cpu"

model_id3 = "openai/whisper-large-v3"


feature_extractor = WhisperFeatureExtractor.from_pretrained(model_id3)
tokenizer = WhisperTokenizer.from_pretrained(model_id3, language="russian", task="transcribe")

model = WhisperForConditionalGeneration.from_pretrained(model_id3)
forced_decoder_ids = tokenizer.get_decoder_prompt_ids(language="russian", task="transcribe")

asr_pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    feature_extractor=feature_extractor,
    tokenizer=tokenizer,
    chunk_length_s=30,
    stride_length_s=(4, 2),
    device=device
)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [3]:
%%time
asr_pipe(inputs="../train_RZHD_AnalizatorPeregovorov/29к_874 КВ - 02.05.2024 01_08_44.mp3")['text']

CPU times: user 3.14 s, sys: 115 ms, total: 3.25 s
Wall time: 2.98 s


' 2422 машинист Карабин на перегоне Красногвардии, З-2 погромная. 2422, Карабинль слушает вас. Здравствуйте, машинист, не затягивайтесь, хорошо, до станции Сорочинская проедьте, пожалуйста. По ТОЦКО по первому пути будете ехать до НС Бахтинова. Понятно, ТОЦКО по первому пути. До станции Сорочинская по первому пути мы следуем Бахтинова, корабль. Понятно, понял. Thank you.'

---
# Audio diarization

In [7]:
from pyannote.audio import Pipeline

diarization_pipeline = Pipeline.from_pretrained(
    "pyannote/speaker-diarization-3.1", use_auth_token="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"
)

  torchaudio.set_audio_backend("soundfile")


In [9]:
from speechbox import ASRDiarizationPipeline

pipeline = ASRDiarizationPipeline(
    asr_pipeline=asr_pipe, diarization_pipeline=diarization_pipeline
)

In [10]:
sample = get_audio_sample('../train_RZHD_AnalizatorPeregovorov/29к_874 КВ - 02.05.2024 01_08_44.mp3')

In [11]:
sample['array']

array([ 0.0000000e+00,  0.0000000e+00,  0.0000000e+00, ...,
       -8.8500977e-04, -3.0517578e-05, -3.0517578e-05], dtype=float32)

In [12]:
from IPython.display import Audio

Audio(sample["array"], rate=sample["sampling_rate"])

In [13]:
pipeline(sample)

[{'speaker': 'SPEAKER_00',
  'text': ' ЗВОНОК ТЕЛЕФОНА День 422, корабль слушает вас.',
  'timestamp': (0.0, 28.76)},
 {'speaker': 'SPEAKER_01',
  'text': ' Здравствуйте, машинист, не затягивайтесь.',
  'timestamp': (29.82, 31.82)},
 {'speaker': 'SPEAKER_00',
  'text': ' Хорошо, до станции Сорочинская проедьте, пожалуйста. По ТОЦКО по первому пути будете ехать до НС Бахтинова. Понятно, ТОЦКО по первому пути.',
  'timestamp': (32.0, 43.88)},
 {'speaker': 'SPEAKER_02',
  'text': ' До станции Сорочинская по первому пути мы следуем Бахтинова, корабль.',
  'timestamp': (46.38, 50.18)},
 {'speaker': 'SPEAKER_01',
  'text': ' Я его понял. Thank you.',
  'timestamp': (51.12, 82.84)}]

---
# Huggingface local LLM inference

In [1]:
import torch 

from langchain.llms import HuggingFacePipeline
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline, AutoModelForSeq2SeqLM, BitsAndBytesConfig

model_id = 'IlyaGusev/saiga_llama3_8b'
quantization_config = BitsAndBytesConfig(load_in_8bit=True,
                                         llm_int8_threshold=200.0)

tokenizer = AutoTokenizer.from_pretrained(model_id, )
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=quantization_config,
    device_map='auto',
    # torch_dtype=torch.bfloat16
)

pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
)

local_llm = HuggingFacePipeline(pipeline=pipeline)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

In [2]:
from langchain_core.prompts import PromptTemplate

prompt_template = PromptTemplate.from_template(
    "<|begin_of_text|><|start_header_id|>system<|end_header_id|> \
{llm_instructions} {context}<|eot_id|><|start_header_id|>user<|end_header_id|> \
{question} <|eot_id|><|start_header_id|>assistant<|end_header_id|>"
)

In [3]:
class Prompt:
    def __init__(self, llm_instructions, context, question):
        self.llm_instructions= llm_instructions
        self.context = context
        self.question = question 
        self.prompt = prompt_template.format(llm_instructions=llm_instructions, context=context, question=question)

In [4]:
prompts = []

prompts.append(Prompt(llm_instructions="",
                      context="Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им.", 
                      question="Коротко объясни, как работает фотосинтез?"))
prompts.append(Prompt(llm_instructions="",
                     context="Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им.", 
                     question="Коротко объясни, как работает закон архимеда?"))

Sigle LLM inference

In [5]:
%%time

prompt_len = len(prompt_1)
local_llm(prompt_1)[prompt_len:]

prompt_len = len(prompt_2)
local_llm(prompt_2)[prompt_len:]

  warn_deprecated(


CPU times: user 1min 3s, sys: 351 ms, total: 1min 4s
Wall time: 1min 4s


'\n\nЗакон Архимеда - это физическая концепция, которая описывает взаимодействие между телами в жидкости или газе. Он утверждает, что при погружении тела в жидкость или газ, оно будет подниматься до тех пор, пока вес погруженного объема тела не будет равен весу жидкости или газа, который был вытеснен из-под тела.\n\nВ более простых словах, если вы погрузите объект в воду, он начнет подниматься, когда объем воды, который вытеснил из-под объекта, станет равным весу самого объекта. Это происходит потому, что вода "помнит" о своем первоначальном положении и пытается вернуться к нему, создавая силу, которая помогает поднять объект.\n\nЗакон Архимеда имеет множество применений в различных областях науки и технологий, включая кораблестроение, аэродинамику и даже в космической индустрии для управления движением спутников и ракет.'

Multiple prompts LLM inference

In [None]:
%%time
local_llm.generate([prompt_1, prompt_2]).generations

---
# Langfuse LLM calls tracing

In [5]:
from langfuse import Langfuse

langfuse = Langfuse(
    secret_key="sk-lf-8b25f1cf-eb14-4676-85aa-ad163b91582c",
    public_key="pk-lf-dfb47137-da23-46fd-a273-e99deb59fb32",
    host="http://localhost:3000"
)

In [None]:
trace = langfuse.trace(name="LLM inference")
span =  trace.span(
        name="Span",
    )

for prompt in prompts:
    answer = local_llm(prompt.prompt)[len(prompt.prompt):]
    span.generation(
        name="generation",
        input={'question': prompt.question, 'contexts': prompt.context},
        output={'answer': answer}
    )

langfuse.flush()

---
# Create json file

JSON file keys:
* filename
* text (transcribed text)
* errors: {error: {error_type: "some error" text:"sfsdfsf"}}

In [18]:
prompts = []

prompts.append(Prompt(llm_instructions="Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им. \
ты получаешь на вход транскрибированный текст переговоров машиниста с диспетчером. В их диалоге не должно присутствовать слов 'Здравствуйте', 'Спасибо', 'Пожалуйста'. \
Проанализируй заданный текст на наличие таких слов и выдай ответ в формате {'error_name': 'Нарушены правила служебных переговоров', 'text' : 'example string'}, где \
где поле text заменено на отрывок из текста, где была допущена ошибка",
                     context="", 
                     question="Коротко объясни, как работает фотосинтез?"))
prompts.append(Prompt(llm_instructions="Ты — Сайга, русскоязычный автоматический ассистент. Ты разговариваешь с людьми и помогаешь им.",
                     context="", 
                     question="Коротко объясни, как работает закон архимеда?"))

SyntaxError: unterminated string literal (detected at line 4) (3918246072.py, line 3)

In [None]:
def get_json(files, prompts):
    for file in files:
        transcribed_text = asr_pipe(inputs="../train_RZHD_AnalizatorPeregovorov/29к_874 КВ - 02.05.2024 01_08_44.mp3")['text']
        