# File conversions

In [22]:
import ffmpeg

In [72]:
def preprocess_video(input_file, output_file):
    try:
        (
            ffmpeg
            .input(input_file)
            .output(output_file,
                    vcodec='libx264',
                    crf=23,
                    vprofile='baseline',
                    level='3.0',
                    pix_fmt='yuv420p',
                    acodec='aac',
                    ac=2,
                    audio_bitrate='128k',
                    movflags='faststart',
                    )
            .overwrite_output()
            .run()
        )
        print(f"Conversion successful: {output_file}")
    except ffmpeg.Error as e:
        print(f"Error during conversion: {e.stderr.decode()}")

def preprocess_audio(input_file, output_file):
    try:
        (
            ffmpeg
            .input(input_file)
            .output(output_file,
                    # vn=True,  # Disable video stream
                    acodec='pcm_s16le',
                    ar=44100,
                    )
            .overwrite_output()
            .run()
        )
        print(f"Audio extraction successful: {output_file}")
    except ffmpeg.Error as e:
        print(f"Error during audio extraction: ", e)

# Example usage
# preprocess_video('../data/HY_2024_film_01.mp4', '../data_processed/output.mp4')

# Pipelines

In [79]:
import speech_recognition as sr

In [80]:
# list all absolute filenames in ../data dir
import os
from pathlib import Path

PATH =  Path('../data')
TEST_FILENAMES = sorted([Path(PATH / p).absolute() for p in os.listdir(PATH)])
TEST_FILENAMES

[PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_01.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_02.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_03.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_04.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_05.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_06.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_07.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_08.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_09.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_10.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_11.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_film_12.mp4'),
 PosixPath('/home/szymon/repos/hy_ai/notebooks/../data/HY_2024_f

In [116]:
AUDIO_FILE = str(TEST_FILENAMES[0])

# 1. Preprocess audio
preprocess_audio(AUDIO_FILE, 
                 '../data_processed/output.wav')

Audio extraction successful: ../data_processed/output.wav


ffmpeg version 4.4.2-0ubuntu0.22.04.1 Copyright (c) 2000-2021 the FFmpeg developers
  built with gcc 11 (Ubuntu 11.2.0-19ubuntu1)
  configuration: --prefix=/usr --extra-version=0ubuntu0.22.04.1 --toolchain=hardened --libdir=/usr/lib/x86_64-linux-gnu --incdir=/usr/include/x86_64-linux-gnu --arch=amd64 --enable-gpl --disable-stripping --enable-gnutls --enable-ladspa --enable-libaom --enable-libass --enable-libbluray --enable-libbs2b --enable-libcaca --enable-libcdio --enable-libcodec2 --enable-libdav1d --enable-libflite --enable-libfontconfig --enable-libfreetype --enable-libfribidi --enable-libgme --enable-libgsm --enable-libjack --enable-libmp3lame --enable-libmysofa --enable-libopenjpeg --enable-libopenmpt --enable-libopus --enable-libpulse --enable-librabbitmq --enable-librubberband --enable-libshine --enable-libsnappy --enable-libsoxr --enable-libspeex --enable-libsrt --enable-libssh --enable-libtheora --enable-libtwolame --enable-libvidstab --enable-libvorbis --enable-libvpx --enab

In [117]:
# 2. Feed recognizer
r = sr.Recognizer()
with sr.AudioFile("../data_processed/output.wav") as source:
    audio = r.record(source)  # read the entire audio file

In [120]:
# 3. Recodnize speech
prompt = "Glossary: wzmożonej, wzmożona, wzmożony, Polska"

try:
    output = r.recognize_whisper(
        model="large",
        audio_data=audio, 
        language="polish",
        word_timestamps=False,
        show_dict=False,
        prompt=prompt,
        )
except sr.UnknownValueError:
    print("could not understand audio")
except sr.RequestError as e:
    print("error; {0}".format(e))

100%|█████████████████████████████████████| 2.88G/2.88G [05:02<00:00, 10.2MiB/s]


OutOfMemoryError: CUDA out of memory. Tried to allocate 26.00 MiB. GPU 0 has a total capacity of 7.75 GiB of which 31.31 MiB is free. Including non-PyTorch memory, this process has 6.11 GiB memory in use. Of the allocated memory 5.64 GiB is allocated by PyTorch, and 320.94 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)

In [119]:
output

' Ałdytem objęliśmy 96 podmiotów, a już na kwota badanej środków publicznych to około 100 miliardów złotych. Wtoku działy stwierdziliśmy między innymi niegospodalne i niecelowe wydatkowanie środków publicznych, udzielenie dotacji podmiotów, które nie spełniały kryteriów konkursowych, które nie spełniały do wydawnia. To już nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowałem, że nie spowodowa'

In [2]:
import numpy as np
DATA = {'text': ' W pierwszej połowie lipca przeprowadziliśmy ogólnopolską akcję z możonej kontroli przesyłek pocztowych oraz kurierskich. Funkcjonariusze przeprowadzili kontrolę w 18 punktach w całej Polsce. Wrześniowa zmiana warunków o prezentowanie obligacji oszczędnościowych wynika z potrzeby ich do stosowania do bieżących realiów rynkowych.', 'segments': [{'id': 0, 'seek': 0, 'start': np.float64(11.26), 'end': np.float64(17.84), 'text': ' W pierwszej połowie lipca przeprowadziliśmy ogólnopolską akcję z możonej kontroli przesyłek pocztowych oraz kurierskich.', 'tokens': [50364, 343, 27623, 16920, 714, 1221, 13998, 8280, 496, 30829, 1892, 345, 89, 43912, 5360, 15741, 77, 19946, 5161, 1611, 9308, 41960, 710, 705, 1427, 546, 73, 14373, 340, 2081, 6541, 17823, 1221, 916, 714, 66, 2682, 19605, 28905, 10072, 4890, 48349, 13, 51264], 'temperature': 0.0, 'avg_logprob': -0.1916964572408925, 'compression_ratio': 1.251572327044025, 'no_speech_prob': 0.1463223397731781, 'words': [{'word': ' W', 'start': np.float64(11.26), 'end': np.float64(12.1), 'probability': np.float64(0.5698226094245911)}, {'word': ' pierwszej', 'start': np.float64(12.1), 'end': np.float64(12.38), 'probability': np.float64(0.9487821459770203)}, {'word': ' połowie', 'start': np.float64(12.38), 'end': np.float64(12.68), 'probability': np.float64(0.9906543095906576)}, {'word': ' lipca', 'start': np.float64(12.68), 'end': np.float64(13.06), 'probability': np.float64(0.9368249475955963)}, {'word': ' przeprowadziliśmy', 'start': np.float64(13.06), 'end': np.float64(13.76), 'probability': np.float64(0.9441170692443848)}, {'word': ' ogólnopolską', 'start': np.float64(13.76), 'end': np.float64(14.64), 'probability': np.float64(0.9867760439713796)}, {'word': ' akcję', 'start': np.float64(14.64), 'end': np.float64(15.04), 'probability': np.float64(0.9540346264839172)}, {'word': ' z', 'start': np.float64(15.04), 'end': np.float64(15.24), 'probability': np.float64(0.3761863708496094)}, {'word': ' możonej', 'start': np.float64(15.24), 'end': np.float64(15.66), 'probability': np.float64(0.7619297727942467)}, {'word': ' kontroli', 'start': np.float64(15.66), 'end': np.float64(16.0), 'probability': np.float64(0.9575576583544413)}, {'word': ' przesyłek', 'start': np.float64(16.0), 'end': np.float64(16.46), 'probability': np.float64(0.932153508067131)}, {'word': ' pocztowych', 'start': np.float64(16.46), 'end': np.float64(16.94), 'probability': np.float64(0.8892597407102585)}, {'word': ' oraz', 'start': np.float64(16.94), 'end': np.float64(17.2), 'probability': np.float64(0.9945045113563538)}, {'word': ' kurierskich.', 'start': np.float64(17.2), 'end': np.float64(17.84), 'probability': np.float64(0.5722627540429434)}]}, {'id': 1, 'seek': 0, 'start': np.float64(18.48), 'end': np.float64(22.1), 'text': ' Funkcjonariusze przeprowadzili kontrolę w 18 punktach w całej Polsce.', 'tokens': [51264, 45285, 45677, 27440, 1381, 30829, 1892, 345, 89, 2312, 14373, 6623, 1274, 261, 2443, 39561, 608, 261, 47631, 73, 35567, 13, 51464], 'temperature': 0.0, 'avg_logprob': -0.1916964572408925, 'compression_ratio': 1.251572327044025, 'no_speech_prob': 0.1463223397731781, 'words': [{'word': ' Funkcjonariusze', 'start': np.float64(18.48), 'end': np.float64(19.14), 'probability': np.float64(0.9015735387802124)}, {'word': ' przeprowadzili', 'start': np.float64(19.14), 'end': np.float64(19.74), 'probability': np.float64(0.9885730385780335)}, {'word': ' kontrolę', 'start': np.float64(19.74), 'end': np.float64(20.28), 'probability': np.float64(
    0.9620071450869242)}, {'word': ' w', 'start': np.float64(20.28), 'end': np.float64(20.5), 'probability': np.float64(0.9940767288208008)}, {'word': ' 18', 'start': np.float64(20.5), 'end': np.float64(20.88), 'probability': np.float64(0.8836477994918823)}, {'word': ' punktach', 'start': np.float64(20.88), 'end': np.float64(21.44), 'probability': np.float64(0.9814630448818207)}, {'word': ' w', 'start': np.float64(21.44), 'end': np.float64(21.58), 'probability': np.float64(0.8968337774276733)}, {'word': ' całej', 'start': np.float64(21.58), 'end': np.float64(21.78), 'probability': np.float64(0.845725029706955)}, {'word': ' Polsce.', 'start': np.float64(21.78), 'end': np.float64(22.1), 'probability': np.float64(0.9987391829490662)}]}, {'id': 2, 'seek': 2210, 'start': np.float64(23.92), 'end': np.float64(34.28), 'text': ' Wrześniowa zmiana warunków o prezentowanie obligacji oszczędnościowych wynika z potrzeby ich do stosowania do bieżących realiów rynkowych.', 'tokens': [50414, 10159, 1381, 1788, 3722, 5528, 17020, 8497, 1516, 3197, 3901, 277, 659, 14185, 22028, 9270, 13152, 3003, 43771, 6298, 16438, 19605, 31936, 5439, 710, 28577, 2322, 1893, 360, 43581, 21308, 360, 272, 414, 1427, 1611, 31306, 957, 72, 3901, 367, 2534, 74, 19605, 13, 50964], 'temperature': 0.0, 'avg_logprob': -0.0932230645037712, 'compression_ratio': 1.16, 'no_speech_prob': 0.7557427287101746, 'words': [{'word': ' Wrześniowa', 'start': np.float64(23.92), 'end': np.float64(24.92), 'probability': np.float64(0.903934383392334)}, {'word': ' zmiana', 'start': np.float64(24.92), 'end': np.float64(25.18), 'probability': np.float64(0.9688734412193298)}, {'word': ' warunków', 'start': np.float64(25.18), 'end': np.float64(25.64), 'probability': np.float64(0.8291892608006796)}, {'word': ' o', 'start': np.float64(25.64), 'end': np.float64(25.74), 'probability': np.float64(0.46443796157836914)}, {'word': ' prezentowanie', 'start': np.float64(25.74), 'end': np.float64(26.4), 'probability': np.float64(0.5724625786145529)}, {'word': ' obligacji', 'start': np.float64(26.4), 'end': np.float64(26.94), 'probability': np.float64(0.9240777790546417)}, {'word': ' oszczędnościowych', 'start': np.float64(26.94), 'end': np.float64(27.78), 'probability': np.float64(0.9448558926582337)}, {'word': ' wynika', 'start': np.float64(27.78), 'end': np.float64(28.3), 'probability': np.float64(0.9895245134830475)}, {'word': ' z', 'start': np.float64(28.3), 'end': np.float64(28.66), 'probability': np.float64(0.9921225905418396)}, {'word': ' potrzeby', 'start': np.float64(28.66), 'end': np.float64(30.6), 'probability': np.float64(0.991420179605484)}, {'word': ' ich', 'start': np.float64(30.6), 'end': np.float64(30.94), 'probability': np.float64(0.9871218800544739)}, {'word': ' do', 'start': np.float64(30.94), 'end': np.float64(31.28), 'probability': np.float64(0.9535501003265381)}, {'word': ' stosowania', 'start': np.float64(31.28), 'end': np.float64(31.88), 'probability': np.float64(0.9964969158172607)}, {'word': ' do', 'start': np.float64(31.88), 'end': np.float64(32.18), 'probability': np.float64(0.978425145149231)}, {'word': ' bieżących', 'start': np.float64(32.18), 'end': np.float64(32.98), 'probability': np.float64(0.9854720234870911)}, {'word': ' realiów', 'start': np.float64(32.98), 'end': np.float64(33.8), 'probability': np.float64(0.9118917187054952)}, {'word': ' rynkowych.', 'start': np.float64(33.8), 'end': np.float64(34.28), 'probability': np.float64(0.9939918965101242)}]}], 'language': 'pl'}


In [18]:
for segment in DATA["segments"]:
    seg_start = segment["start"]
    seg_end = segment["end"]
    for word in segment["words"]:
        word_start = word["start"]
        word_end = word["end"]
        word_text = word["word"]
        print(word_text, word_start, word_end, sep="\t")
        

from typing import List, Tuple

def get_word_timestamps(data) -> List[Tuple[str, float, float]]:
    timestamps = []
    for segment in data["segments"]:
        for word in segment["words"]:
            text = word["word"]
            timestamps.append((text, word["start"], word["end"]))
    return timestamps

get_word_timestamps(DATA)

 W	11.26	12.1
 pierwszej	12.1	12.38
 połowie	12.38	12.68
 lipca	12.68	13.06
 przeprowadziliśmy	13.06	13.76
 ogólnopolską	13.76	14.64
 akcję	14.64	15.04
 z	15.04	15.24
 możonej	15.24	15.66
 kontroli	15.66	16.0
 przesyłek	16.0	16.46
 pocztowych	16.46	16.94
 oraz	16.94	17.2
 kurierskich.	17.2	17.84
 Funkcjonariusze	18.48	19.14
 przeprowadzili	19.14	19.74
 kontrolę	19.74	20.28
 w	20.28	20.5
 18	20.5	20.88
 punktach	20.88	21.44
 w	21.44	21.58
 całej	21.58	21.78
 Polsce.	21.78	22.1
 Wrześniowa	23.92	24.92
 zmiana	24.92	25.18
 warunków	25.18	25.64
 o	25.64	25.74
 prezentowanie	25.74	26.4
 obligacji	26.4	26.94
 oszczędnościowych	26.94	27.78
 wynika	27.78	28.3
 z	28.3	28.66
 potrzeby	28.66	30.6
 ich	30.6	30.94
 do	30.94	31.28
 stosowania	31.28	31.88
 do	31.88	32.18
 bieżących	32.18	32.98
 realiów	32.98	33.8
 rynkowych.	33.8	34.28


[(' W', np.float64(11.26), np.float64(12.1)),
 (' pierwszej', np.float64(12.1), np.float64(12.38)),
 (' połowie', np.float64(12.38), np.float64(12.68)),
 (' lipca', np.float64(12.68), np.float64(13.06)),
 (' przeprowadziliśmy', np.float64(13.06), np.float64(13.76)),
 (' ogólnopolską', np.float64(13.76), np.float64(14.64)),
 (' akcję', np.float64(14.64), np.float64(15.04)),
 (' z', np.float64(15.04), np.float64(15.24)),
 (' możonej', np.float64(15.24), np.float64(15.66)),
 (' kontroli', np.float64(15.66), np.float64(16.0)),
 (' przesyłek', np.float64(16.0), np.float64(16.46)),
 (' pocztowych', np.float64(16.46), np.float64(16.94)),
 (' oraz', np.float64(16.94), np.float64(17.2)),
 (' kurierskich.', np.float64(17.2), np.float64(17.84)),
 (' Funkcjonariusze', np.float64(18.48), np.float64(19.14)),
 (' przeprowadzili', np.float64(19.14), np.float64(19.74)),
 (' kontrolę', np.float64(19.74), np.float64(20.28)),
 (' w', np.float64(20.28), np.float64(20.5)),
 (' 18', np.float64(20.5), np.floa

In [24]:
def get_text(data) -> str:
    return "".join(segment["text"] for segment in data["segments"])

In [28]:
TEXT = get_text(DATA)

In [60]:
from readability import Readability


def duplicate_sample(sample: str):
    """
    Output sample must have more than 100 words.
    """
    no_words = len(sample.split())
    no_words_expected = 100
    multiply = (no_words_expected // no_words + 1) 
    return sample * multiply

t = duplicate_sample(TEXT)
r = Readability(t)
gf = r.gunning_fog()
print(gf.score)
print(gf.grade_level)




# 17	College graduate
# 16	College senior
# 15	College junior
# 14	College sophomore
# 13	College freshman
# 12	High school senior
# 11	High school junior
# 10	High school sophomore
# 9	High school freshman
# 8	Eighth grade
# 7	Seventh grade
# 6	Sixth grade

21.333333333333336
college_graduate


In [34]:
import nltk
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /home/szymon/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


True

In [75]:
DATA

{'text': ' W pierwszej połowie lipca przeprowadziliśmy ogólnopolską akcję z możonej kontroli przesyłek pocztowych oraz kurierskich. Funkcjonariusze przeprowadzili kontrolę w 18 punktach w całej Polsce. Wrześniowa zmiana warunków o prezentowanie obligacji oszczędnościowych wynika z potrzeby ich do stosowania do bieżących realiów rynkowych.',
 'segments': [{'id': 0,
   'seek': 0,
   'start': np.float64(11.26),
   'end': np.float64(17.84),
   'text': ' W pierwszej połowie lipca przeprowadziliśmy ogólnopolską akcję z możonej kontroli przesyłek pocztowych oraz kurierskich.',
   'tokens': [50364,
    343,
    27623,
    16920,
    714,
    1221,
    13998,
    8280,
    496,
    30829,
    1892,
    345,
    89,
    43912,
    5360,
    15741,
    77,
    19946,
    5161,
    1611,
    9308,
    41960,
    710,
    705,
    1427,
    546,
    73,
    14373,
    340,
    2081,
    6541,
    17823,
    1221,
    916,
    714,
    66,
    2682,
    19605,
    28905,
    10072,
    4890,
    483

In [112]:
with open("../odm.txt") as f:
    odm = f.read()
    odm = [word.lower().replace(",", "").strip() for word in odm.split() if len(word) > 4 and word[0] == "p"]
    with open("out.txt", "w") as ff:
        ff.write("\n".join(odm))

In [125]:
with open("./slowa.txt") as f:
    odm = f.read()
    odm = [word.strip() for word in odm.split()]

"odważyła" in odm

True

In [135]:
with open("../words2.txt") as f:
    a = [w for w in f.read().lower().splitlines() if len(w) > 5]
a.sort()

In [137]:
def binary_search(arr, target):
    low = 0
    high = len(arr) - 1

    while low <= high:
        mid = (low + high) // 2

        # Check if the target is at mid
        if arr[mid] == target:
            return mid
        # If target is smaller than mid, ignore the right half
        elif arr[mid] > target:
            high = mid - 1
        # If target is greater than mid, ignore the left half
        else:
            low = mid + 1

    # If the target is not present in the array
    return -1

In [139]:
binary_search(a, "robić")

-1