In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
!pip freeze > requirements.txt

In [None]:
!pip install pydub ffmpeg datasets transformers librosa noisereduce pymorphy2 SpeechRecognition accelerate -U

Collecting pydub
  Downloading pydub-0.25.1-py2.py3-none-any.whl (32 kB)
Collecting ffmpeg
  Downloading ffmpeg-1.4.tar.gz (5.1 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting datasets
  Downloading datasets-2.19.1-py3-none-any.whl (542 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m542.0/542.0 kB[0m [31m12.0 MB/s[0m eta [36m0:00:00[0m
Collecting transformers
  Downloading transformers-4.41.0-py3-none-any.whl (9.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.1/9.1 MB[0m [31m80.3 MB/s[0m eta [36m0:00:00[0m
Collecting noisereduce
  Downloading noisereduce-3.0.2-py3-none-any.whl (22 kB)
Collecting pymorphy2
  Downloading pymorphy2-0.9.1-py3-none-any.whl (55 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m55.5/55.5 kB[0m [31m6.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting SpeechRecognition
  Downloading SpeechRecognition-3.10.4-py2.py3-none-any.whl (32.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━

In [None]:
#блок 1
import pandas as pd
from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments
from datasets import Dataset
from pathlib import Path
import librosa
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC

#агрузка данных из Excel без заголовков столбцов
df = pd.read_excel('/content/drive/MyDrive/rzd/norm.csv.xlsx', header=None)
transcriptions = df.iloc[:, :-1].apply(lambda x: ' '.join(x.dropna().astype(str)), axis=1).tolist()
labels = df.iloc[:, -1].astype(int).tolist()

#в формат Dataset
data = Dataset.from_dict({'text': transcriptions, 'label': labels})

# Токенизация данных
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')
def tokenize_function(examples):
    return tokenizer(examples['text'], padding='max_length', truncation=True, max_length=512)
tokenized_data = data.map(tokenize_function, batched=True)

#Разделение данных на обучающую и тестовую выборки
train_dataset = tokenized_data.shuffle().select(range(int(0.8 * len(tokenized_data))))
test_dataset = tokenized_data.shuffle().select(range(int(0.8 * len(tokenized_data)), len(tokenized_data)))

#шаг 2: Обучение модели
model = BertForSequenceClassification.from_pretrained('bert-base-multilingual-cased', num_labels=2)
training_args = TrainingArguments(
    output_dir='/results',
    num_train_epochs=3,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=64,
    warmup_steps=500,
    weight_decay=0.01,
    logging_dir='/logs',
    logging_steps=10,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=test_dataset
)

trainer.train()

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]



config.json:   0%|          | 0.00/625 [00:00<?, ?B/s]

Map:   0%|          | 0/28 [00:00<?, ? examples/s]

model.safetensors:   0%|          | 0.00/714M [00:00<?, ?B/s]

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-multilingual-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
# шанс

import speech_recognition as sr
from pathlib import Path
from transformers import BertTokenizer, BertForSequenceClassification
import torch
import re

#Инициализация распознавателя
recognizer = sr.Recognizer()

def transcribe_google(audio_path):
    with sr.AudioFile(audio_path) as source:
        audio_data = recognizer.record(source)
        text = recognizer.recognize_google(audio_data, language='ru-RU')
    return text

# Загрузка предобученной модели BERT для классификации текста
tokenizer_bert = BertTokenizer.from_pretrained('bert-base-multilingual-cased')
model_bert = BertForSequenceClassification.from_pretrained('bert-base-multilingual-cased', num_labels=2)

#для классификации транскрипции
def classify_transcription(transcription, tokenizer, model):
    inputs = tokenizer(transcription, return_tensors="pt", padding=True, truncation=True, max_length=512)
    outputs = model(**inputs)
    predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
    return torch.argmax(predictions, dim=-1).item()

#анализа транскрипции
def analyze_transcription(transcription):
  violations = []

  CRITERIA = {
       1: [
          # {"pattern": r'\b[А-Я][а-я]*[ов|ев|ин|ский|цкий|ая|яя|ой|ий]+\b', "meaning": "Отсутствие фамилии"},
           {"pattern": r'\bпозывной\b', "meaning": "Отсутствие упоминания позывного"},
           {"pattern": r'\bсокращение\b', "meaning": "Использование нестандартных сокращений не допускается"},
           {"pattern": r'\bсветофор\b', "meaning": "Не переданы показания светофоров по маршруту следования"}
       ],
       2: [
           {"pattern": r'\bпередача команды\b', "meaning": "Передача команды не лаконично"},
           {"pattern": r'\bздравствуйте|добрый день|пожалуйста|хорошо|до свидания|спасибо\b', "meaning": "Использование лишних слов"},
           {"pattern": r'\bверно\b', "meaning": "Отсутствие подтверждения правильности восприятия команды"}
       ],
       3: [
           {"pattern": r'\bрасстоянии до сцепления\b', "meaning": "Не передано сообщение о расстоянии до сцепления с вагонами"},
           {"pattern": r'\bизъятие тормозных башмаков\b', "meaning": "Передача разрешения на изъятие тормозных башмаков без доклада от машиниста"}
       ]
   }

  # Проверка на отсутствие фамилии
  if not re.search(r'\b[А-Я][а-я]*[ов|ев|ин|ский|цкий|ая|яя|ой|ий]+\b', transcription):
    violations.append((1, "Отсутствие фамилии"))

  # Критерий для использования лишних слов
#  extra_words_pattern = r'\b(здравствуйте|добрый день|пожалуйста|хорошо|до свидания|спасибо)\b'
 # if re.search(extra_words_pattern, transcription, re.IGNORECASE):
  #  violations.append((2, "Использование лишних слов"))

  for degree, criteria_list in CRITERIA.items():
       for criterion in criteria_list:
           if re.search(criterion['pattern'], transcription, re.IGNORECASE):
               violations.append((degree, criterion['meaning']))
  return violations

# Путь к папке с аудиофайлами
audio_folder_path = "/content/drive/My Drive/rzd/wav"
audio_files = list(Path(audio_folder_path).glob('*.wav'))

# Транскрибирование и классификация аудиофайлов
for audio_file in audio_files:
    transcription = transcribe_google(str(audio_file))
    classification = classify_transcription(transcription, tokenizer_bert, model_bert)
    violations = analyze_transcription(transcription)
    print(f"Файл: {audio_file.name}")
    print(f"Транскрипция: {transcription}")
    print(f"Классификация: {'Нарушение' if classification == 0 else 'Соответствие'}")
    if violations:
        for degree, meaning in violations:
            print(f"Нарушение степени {degree}: {meaning}")
    else:
        print("Транскрипция соответствует стандартам разговора.")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-multilingual-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Файл: 66к_832 КВ - 02.05.2024 05_57_50.wav
Транскрипция: 2675 или даже Сибирская кравца Здравствуйте поездной диспетчер поездов
Классификация: Соответствие
Нарушение степени 2: Использование лишних слов
Файл: AUD-20240418-WA0001.wav
Транскрипция: на второй путь на выходе два закрыт на стоянку 2008 на 2 числа закрыт
Классификация: Соответствие
Нарушение степени 1: Отсутствие фамилии
Файл: AUD-20240418-WA0003.wav
Транскрипция: Фёдоров Здравствуйте Ракова прибывает на четвёртой свободный путь 107 Новатор
Классификация: Соответствие
Нарушение степени 2: Использование лишних слов
Файл: AUD-20240418-WA0004.wav
Транскрипция: 2822 негабарит 2200 Локомотив 4162200 8724 года
Классификация: Соответствие
Транскрипция соответствует стандартам разговора.
Файл: 57к_879 КВ - 02.05.2024 07_07_13.wav
Транскрипция: 4 392/3
Классификация: Нарушение
Нарушение степени 1: Отсутствие фамилии
Файл: 63к_824 КВ - 02.05.2024 04_21_45.wav
Транскрипция: 376 с одного 9766
Классификация: Соответствие
Нарушение степен