# File conversions

In [22]:
import ffmpeg

In [72]:
def preprocess_video(input_file, output_file):
    try:
        (
            ffmpeg
            .input(input_file)
            .output(output_file,
                    vcodec='libx264',
                    crf=23,
                    vprofile='baseline',
                    level='3.0',
                    pix_fmt='yuv420p',
                    acodec='aac',
                    ac=2,
                    audio_bitrate='128k',
                    movflags='faststart',
                    )
            .overwrite_output()
            .run()
        )
        print(f"Conversion successful: {output_file}")
    except ffmpeg.Error as e:
        print(f"Error during conversion: {e.stderr.decode()}")

def preprocess_audio(input_file, output_file):
    try:
        (
            ffmpeg
            .input(input_file)
            .output(output_file,
                    # vn=True,  # Disable video stream
                    acodec='pcm_s16le',
                    ar=44100,
                    )
            .overwrite_output()
            .run()
        )
        print(f"Audio extraction successful: {output_file}")
    except ffmpeg.Error as e:
        print(f"Error during audio extraction: ", e)

# Example usage
# preprocess_video('../data/HY_2024_film_01.mp4', '../data_processed/output.mp4')

# Pipelines

In [79]:
import speech_recognition as sr

In [80]:
# list all absolute filenames in ../data dir
import os
from pathlib import Path

PATH =  Path('../data')
TEST_FILENAMES = sorted([Path(PATH / p).absolute() for p in os.listdir(PATH)])
TEST_FILENAMES

[PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_01.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_02.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_03.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_04.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_05.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_06.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_07.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_08.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_09.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_10.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_11.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_12.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_f

In [116]:
AUDIO_FILE = str(TEST_FILENAMES[0])

# 1. Preprocess audio
preprocess_audio(AUDIO_FILE, 
                 '../data_processed/output.wav')

Audio extraction successful: ../data_processed/output.wav


ffmpeg version 4.4.2-0ubuntu0.22.04.1 Copyright (c) 2000-2021 the FFmpeg developers
  built with gcc 11 (Ubuntu 11.2.0-19ubuntu1)
  configuration: --prefix=/usr --extra-version=0ubuntu0.22.04.1 --toolchain=hardened --libdir=/usr/lib/x86_64-linux-gnu --incdir=/usr/include/x86_64-linux-gnu --arch=amd64 --enable-gpl --disable-stripping --enable-gnutls --enable-ladspa --enable-libaom --enable-libass --enable-libbluray --enable-libbs2b --enable-libcaca --enable-libcdio --enable-libcodec2 --enable-libdav1d --enable-libflite --enable-libfontconfig --enable-libfreetype --enable-libfribidi --enable-libgme --enable-libgsm --enable-libjack --enable-libmp3lame --enable-libmysofa --enable-libopenjpeg --enable-libopenmpt --enable-libopus --enable-libpulse --enable-librabbitmq --enable-librubberband --enable-libshine --enable-libsnappy --enable-libsoxr --enable-libspeex --enable-libsrt --enable-libssh --enable-libtheora --enable-libtwolame --enable-libvidstab --enable-libvorbis --enable-libvpx --enab

In [117]:
# 2. Feed recognizer
r = sr.Recognizer()
with sr.AudioFile("../data_processed/output.wav") as source:
    audio = r.record(source)  # read the entire audio file

In [120]:
# 3. Recodnize speech
prompt = "Glossary: wzmożonej, wzmożona, wzmożony, Polska"

try:
    output = r.recognize_whisper(
        model="large",
        audio_data=audio, 
        language="polish",
        word_timestamps=False,
        show_dict=False,
        prompt=prompt,
        )
except sr.UnknownValueError:
    print("could not understand audio")
except sr.RequestError as e:
    print("error; {0}".format(e))

100%|█████████████████████████████████████| 2.88G/2.88G [05:02<00:00, 10.2MiB/s]


OutOfMemoryError: CUDA out of memory. Tried to allocate 26.00 MiB. GPU 0 has a total capacity of 7.75 GiB of which 31.31 MiB is free. Including non-PyTorch memory, this process has 6.11 GiB memory in use. Of the allocated memory 5.64 GiB is allocated by PyTorch, and 320.94 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

In [119]:
output

' Ałdytem objęliśmy 96 podmiotów, a już na kwota badanej środków publicznych to około 100 miliardów złotych. Wtoku działy stwierdziliśmy między innymi niegospodalne i niecelowe wydatkowanie środków publicznych, udzielenie dotacji podmiotów, które nie spełniały kryteriów konkursowych, które nie spełniały do wydawnia. To już nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowa'