In [None]:
import soundfile as sf
from espnet2.bin.s2t_ctc_align import CTCSegmentation
from espnet_model_zoo.downloader import ModelDownloader

# Download model first
d = ModelDownloader()
downloaded = d.download_and_unpack("espnet/owsm_ctc_v4_1B")

aligner = CTCSegmentation(
    **downloaded,
    fs=16000,
    ngpu=1,
    batch_size=32,    # batched parallel decoding; reduce it if your GPU memory is smaller
    kaldi_style_text=True,
    time_stamps="auto",     # "auto" can be more accurate than "fixed" when converting token index to timestamp
    lang_sym="<pol>",
    task_sym="<asr>",
    context_len_in_secs=2,  # left and right context in buffered decoding
)

speech, rate = sf.read(
    "z-wichrow.wav"
)
print(f"speech duration: {len(speech) / rate : .2f} seconds")
text = """
utt1 jan kasprowicz
utt2 krzak dzikiej róży w ciemnych smreczynach
utt3 żonie poświęcam
utt4 w ciemnosmreczyńskich skał zwaliska
utt5 gdzie pawiookie drzemią stawy
utt6 krzak dzikiej róży pąs swój krwawy
utt7 na plamy szarych złomów ciska
utt8 u stóp mu bujne rosną trawy
utt9 bokiem się piętrzy turnia śliska
utt10 kosodrzewiny wężowiska
utt11 poobszywały głaźne ławy
utt12 samotny senny zadumany
utt13 skronie do zimnej tuli ściany
utt14 jakby się lękał tchnienia burzy
utt15 cisza
utt16 o liście wiatr nie trąca
utt17 a tylko limba próchniejąca
utt18 spoczywa obok krzaku róży
utt19 słońce w niebieskim lśni krysztale
utt20 światłością stały się granity
utt21 ciemnosmreczyński las spowity
utt22 w blado błękitne wiewne fale
utt23 szumna siklawa mknie po skale
utt24 pas rozwijając srebrnolity
utt25 a przez mgły idą przez błękity
utt26 jakby wzdychania jakby żale
utt27 w skrytych załomach w cichym schronie
utt28 między graniami w słońcu płonie
utt29 zatopion w szum krzak dzikiej róży
utt30 do ścian się tuli jakby we śnie
utt31 a obok limbę toczą pleśnie
utt32 limbę zwaloną tchnieniem burzy
utt33 lęki wzdychania rozżalenia
utt34 przenikające nieświadomy
utt35 bezmiar powietrza
utt36 hen na złomy
utt37 na blaski turnic na ich cienia
utt38 stado się kozic rozprzestrzenia
utt39 nadziemskich lotów ptak łakomy
utt40 rozwija skrzydeł swych ogromy
utt41 świstak gdzieś świszcze spod kamienia
utt42 a między zielska i wykroty
utt43 jak lęk jak żal jak dech tęsknoty
utt44 wtulił się krzak tej dzikiej róży
utt45 przy nim ofiara ach zamieci
utt46 czerwonym próchnem limba świeci
utt47 na wznak rzucona świstem burzy
utt48 o rozżalenia o wzdychania
utt49 o tajemnicze dziwne lęki
utt50 ziół zapachniały świeże pęki
utt51 od niw liptowskich od krywania
utt52 w dali echowe słychać grania
utt53 jakby nie z tego świata dźwięki
utt54 płyną po rosie co hal miękki
utt55 aksamit w wilgną biel osłania
utt56 w seledyn stroją się niebiosy
utt57 wilgotna biel wieczornej rosy
utt58 błyszczy na kwieciu dzikiej róży
utt59 a cichy powiew krople strąca
utt60 na limbę co tam próchniejąca
utt61 leży zwalona wiewem burzy
"""

segments = aligner(speech, text)
print(segments)

utt1 utt 0.28 1.41 -0.6811 jan kasprowicz
utt2 utt 1.41 3.54 -0.2275 krzak dzikiej róży w ciemnych smreczynach
utt3 utt 3.83 5.12 -0.2424 żonie poświęcam
utt4 utt 7.06 9.39 -0.5340 w ciemnosmreczyńskich skał zwaliska
utt5 utt 9.40 11.38 -0.5765 gdzie pawiookie drzemią stawy
utt6 utt 11.38 13.65 -0.5816 krzak dzikiej róży pąs swój krwawy
utt7 utt 13.65 15.16 -0.4884 na plamy szarych złomów ciska
utt8 utt 15.52 17.85 -0.4092 u stóp mu bujne rosną trawy
utt9 utt 18.07 20.11 -0.5713 bokiem się piętrzy turnia śliska
utt10 utt 20.41 22.25 -0.5137 kosodrzewiny wężowiska
utt11 utt 22.25 23.76 -0.6983 poobszywały głaźne ławy
utt12 utt 24.26 27.34 -0.7228 samotny senny zadumany
utt13 utt 27.63 29.54 -0.1710 skronie do zimnej tuli ściany
utt14 utt 29.54 31.39 -0.4050 jakby się lękał tchnienia burzy
utt15 utt 32.30 32.91 -0.7185 cisza
utt16 utt 33.40 34.97 -0.4393 o liście wiatr nie trąca
utt17 utt 35.33 37.10 -0.6508 a tylko limba próchniejąca
utt18 utt 37.10 38.75 -0.3763 spoczywa obok krzaku róży
utt19 utt 39.59 41.98 -0.6915 słońce w niebieskim lśni krysztale
utt20 utt 42.00 43.91 -0.6874 światłością stały się granity
utt21 utt 43.91 45.90 -0.7934 ciemnosmreczyński las spowity
utt22 utt 45.90 47.90 -0.4381 w blado błękitne wiewne fale
utt23 utt 48.74 50.92 -0.6702 szumna siklawa mknie po skale
utt24 utt 51.14 52.92 -0.2959 pas rozwijając srebrnolity
utt25 utt 53.00 55.32 -0.3030 a przez mgły idą przez błękity
utt26 utt 55.41 57.39 -0.2061 jakby wzdychania jakby żale
utt27 utt 57.82 60.48 -0.3662 w skrytych załomach w cichym schronie
utt28 utt 60.50 62.68 -0.2181 między graniami w słońcu płonie
utt29 utt 62.70 65.36 -0.3059 zatopion w szum krzak dzikiej róży
utt30 utt 65.86 67.84 -0.4529 do ścian się tuli jakby we śnie
utt31 utt 68.13 70.11 -0.2787 a obok limbę toczą pleśnie
utt32 utt 70.40 72.65 -0.5491 limbę zwaloną tchnieniem burzy
utt33 utt 73.49 75.47 -0.2408 lęki wzdychania rozżalenia
utt34 utt 75.47 76.78 -0.6478 przenikające nieświadomy
utt35 utt 76.78 77.67 -0.5714 bezmiar powietrza
utt36 utt 78.38 79.32 -0.0552 hen na złomy
utt37 utt 79.32 80.97 -0.4503 na blaski turnic na ich cienia
utt38 utt 80.97 82.69 -0.6454 stado się kozic rozprzestrzenia
utt39 utt 83.33 85.38 -0.4039 nadziemskich lotów ptak łakomy
utt40 utt 85.39 87.30 -0.3264 rozwija skrzydeł swych ogromy
utt41 utt 87.32 89.57 -1.1375 świstak gdzieś świszcze spod kamienia
utt42 utt 89.65 91.50 -0.3665 a między zielska i wykroty
utt43 utt 91.72 94.59 -0.2535 jak lęk jak żal jak dech tęsknoty
utt44 utt 94.59 96.58 -0.3212 wtulił się krzak tej dzikiej róży
utt45 utt 97.43 99.20 -0.4592 przy nim ofiara ach zamieci
utt46 utt 99.20 101.12 -0.4070 czerwonym próchnem limba świeci
utt47 utt 101.14 103.12 -1.0187 na wznak rzucona świstem burzy
utt48 utt 104.44 106.62 -0.1870 o rozżalenia o wzdychania
utt49 utt 106.64 108.41 -0.2805 o tajemnicze dziwne lęki
utt50 utt 108.43 110.41 -0.2291 ziół zapachniały świeże pęki
utt51 utt 110.41 112.33 -0.4827 od niw liptowskich od krywania
utt52 utt 112.62 114.46 -0.3438 w dali echowe słychać grania
utt53 utt 114.55 116.25 -0.3593 jakby nie z tego świata dźwięki
utt54 utt 116.25 118.18 -0.6886 płyną po rosie co hal miękki
utt55 utt 118.18 119.76 -0.9251 aksamit w wilgną biel osłania
utt56 utt 119.78 121.62 -0.1644 w seledyn stroją się niebiosy
utt57 utt 121.70 123.54 -0.3638 wilgotna biel wieczornej rosy
utt58 utt 123.54 125.19 -0.9129 błyszczy na kwieciu dzikiej róży
utt59 utt 126.17 128.49 -0.2362 a cichy powiew krople strąca
utt60 utt 128.49 130.62 -0.5689 na limbę co tam próchniejąca
utt61 utt 130.62 132.55 -1.1901 leży zwalona wiewem burzy

In [None]:
import sys
import torch
import torchaudio
from espnet2.bin.s2t_inference_ctc import Speech2TextGreedySearch

# Ensure torchaudio uses the ffmpeg backend for MP3
torchaudio.set_audio_backend("ffmpeg")

if len(sys.argv) < 2:
    print("Usage: python script.py <audio_file>")
    sys.exit(1)

audio_path = sys.argv[1]

context_len_in_secs = 4  # left and right context when doing buffered inference
batch_size = 1          # depends on the GPU memory

# Load the model
s2t = Speech2TextGreedySearch.from_pretrained(
    "espnet/owsm_ctc_v4_1B",
    device='cuda' if torch.cuda.is_available() else 'cpu',
    generate_interctc_outputs=False,
    lang_sym='<pol>',
    task_sym='<asr>',
)

# Load audio file (MP3, WAV, etc.)
waveform, sample_rate = torchaudio.load(audio_path)

target_rate = 16000
if sample_rate != target_rate:
    resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=target_rate)
    waveform = resampler(waveform)
    sample_rate = target_rate

# Convert stereo to mono if necessary
if waveform.shape[0] > 1:
    waveform = torch.mean(waveform, dim=0, keepdim=True)

# ESPnet expects a 1D NumPy array for `speech`
speech = waveform.squeeze().numpy()

# Decode
text = s2t.decode_long_batched_buffered(
    speech,
    batch_size=batch_size,
    context_len_in_secs=context_len_in_secs,
)

print(text)

Anton Czechow żarcik słoneczne zimowe południe jest silny trzaskającym rz i kędziorki na skriach oraz puzek na górnejwardze na dzięki, która trzyma mnie pod rękę pokrywają się z rewżystym szeronym stoimy na wysokiej górze. U naszych stóp ściele się pochyła płaszczyzna, w której słońce przegląda się jak w lustrze. Obok nas małe saneczki, obita jasno czerwonym suknem. Zjeddźmy na dół, Najeżd do Pietrowna błagam. Tylko raz jeden. Zapewnnia Panią, że nic nam się nie stanie. Ale nadzinka boi się. Cała przestrzeń od jej malutkich kaloszy do końca glodowej góry wydaje się straszną, niezmiernie głęboką przepaścią. Skoro tylko proponują jej, by wsiadła do saneczek, serce zamiera i oddech się zapiera już wówczas, kiedy spogląda na dół. A cóż dopiero byłoby, gdyby zaryzykowała polecieć w przepaść? Umarłaby, zwariowała. Błagam panią, M mówiwię: Nie trzeba się bać. Zrozum pani, że to jest tłurzstwo, brak charakteru. Na dzięka nareszcie ustępuje. i po jej twarzy widzę, że ustępuje z narażeniem życia. Wsadzam ją bladą, drżącą do sanek, obejmuje ręką. i razem z nią staczam się w przepaść. Sanki pędzą jak strzała. Rozcinane powietrze bie po twarzy, Wyje, szumi w uszach, szarpie, szczypie boleśnie, chce zerwać nam głowy. Pęd powietrza zapiera nam oddech, zda się, że szzatan porwał nas w sweje objęcia i zwyciem ciągnie do piekła. taczające przedmioty zlewają się w jedną długą niepowstrzymanie biegnącą linię. jeszczee jedna chwila i zdaje się zginiemy. Kocham cię nadził, mówię półgłosem Sanki zaczynają zwalniać biegu, wycie wiatru i skrzypienie płozów nie są już tak straszne. Oech przestaje zamierać i jesteśmy nareszcie na dole. Pomagam jej wstać. Za nic w świecie więcej nie pojadę, mówi patrząc na mnie szerokimi pełnymi przerażenia oczyma: Za nic w świecie, o mało nie umarłam. Po pewnym czasie przychodzi do siebie i już zagląda mi w oczy pytająco: Czy powiedziałem owewe trzy słowa? Czy też przywidziały się jej w szumie wiatru? A ja stoję obok pale papierosa i uważnie przyglądam się mojej rękawiczce. Bierzem mnie pod rękę i długo przechadzamy się koło góry. Zaadka widocznie nie daje jej spokoju. Czy te słowa zostały powiedziane czy nie? Tak, czy nie? Tak, czy nie? Jest to kwestia ambicji, honoru, życia, szczęścia, kwea niezwykle ważna, najważniejsza w świecie. Nadja żałośnie przenikliwie zagląda mi w oczy. Odpowiada ni w 5ęć, ni w 10s. czeka czy nie zacznę mówić ach co zagra uczuć na jej twarzy co zagra widdzę że walczy ze sobą, że chce jej się coś powiedzieć o coś zapytać, ale nie znajduje słów jest jej niesojo strasznie przeszkadza jej radość wie pan co mówi nie patrząc na mnie Co? zapytuje Przejedźmy się jeszcze raz Wchodzimy na górę po schodach Znowu sadzam drżącą, bladą na dzieńkę do sanek znowu pędzimy w straszną przepaść znowu wiatr wyjej i skrzypią płozy i znowu przy najsilniejszym najchałaśliwszym rozpęie sanek mówię półgłosem kocham cię na dzieńko kiedy sanki się zatrzymują nadzia ogarnia wzrokiem górę po której dopiero co pędziliśmy potem długo przygląda się mojej twarzy wsłuchuje się w mój obojętny spokojny głos i cała cała ona nawet jej mówka baszłyk cała jej postać wyrażają niezwykłe zdumienie na twarzy jej jest napisane co to jest kto powiedział te słowa czy on czy też przywidziało mi się tylko ta niepewność pozbawia ją spokoju wytrąca z równowagi biedna dziewczyna nie odpowiada na pytania twarz jej się chmurzy gotowa się rozpłakać czy nie czas do domu? zapytuje. A mnie... mnie się podoba ta jazda, mówi rumieniąc się. Czybyśmy się nie przejechali jeszcze raz? Jej podoba się ta jazda. A gdy siada do sanek jest blada, ledwo dyszy ze strachu, Drży. Zjeżdżamy po raz trzeci. I ja widzę, jak ona patrzy mi w twarz. Śledzi ruchy moich wark, ale przykładam chustkę do ust, kaszle i gdy dosięgamy środka góry, mówię: „Kcham cię nadził. I zagadka zostaje zagadką. Nadzia milczy, myśli o czymś. Odprowadzam ją domu, stara się iść nieprędko, Zwalnia kroku i wciąż oczekuje, czy nie wypowiem tych słów. I widzę, jak cierpi jej dusza, jak czyni nad sobą wysiłek by nie powiedzieć: niemożliwe, żeby to mówił wiatr, ja nie chcę, żeby to mówił wiatr. Na drugi dzień rano otrzymuje liścik. Jeżeli pan pójdzie dziś na saneczki, to niech pan po mnie wstąpi n. I od tego dnia zaczynamy co dzień chodzić z naziją na saneczki i pędząc na dół za każdym razem wymawiam półgłosem te same słowa: „Kcham cię nadził. Wkrótce nadja przyzwyczaiła się do tego frazesu jak do wódki albo morfiny. Nie może żyć bez niego. Prawda, Lecieć z góry jest w dalszym ciągu straszną rzeczą, ale obecnie strach i niebezpieczeństwo nadają szczególnego urooku słowom miłości, które wciąż są jeszcze zagadką i dręczą dusze. Podejrzenie wciąż jeszcze pada na dwoje, na mnie i na wiatr. Kto z nas dwójka wyznaje jej miłość? Nie wie, ale jest to jej już widocznie obojętne. Wszystko jedno z jakiego pić naczynia, byle być pijanym. Pewnego razu udałem się na torsaneczkowi sam jeden, zmieszawszy się z tłumem, widzę jak ku górze podchodzi nadzja, jak szuka mnie oczyma. Potem lękliwie wchodzi po schodach na górę. Strasznie jest jechać samej oj jak strasznie jestest blada jak śnieg, drży, idzie jakby na stracenie, ale idzie, nie oglądając się stanowczo. Widocznie zdecydowała się nareszcie spróbować. Czy dadzą się słyszeć te cudowne, słodkie słowa, kiedy mnie nie będzie? Widzę, jak blada z rozwartymi z przerażenia oczyma siada do sanek. Zamyka oczy i pożegnawszy się na wieki z ziemią rusza z miejsca.s skrzypią płozy, czy nadjaz słysszę o we słowa? Nie wiem, widzę tylko, że wstaje sanek wyczerpa osłabiona i znać po jej twarzy, że sama nie wie czy coś słyszała, czy też nie podczas gdy pędziła na dół strach pozbawił ją zdolności słyszenia rozróżniania dźwięków, rozumienia, ale oto następuje wiosenny miesiąc marzec. Słońce staje się łaskawsze. Nasza lodowa góra ciemniej, traci blask i topnieje wreszcie. Przestajemy saneczkować. Biedna nadzieńka już nie ma gdzie słyszeć tych słów, bo wiatr ucichu, a ja wyjeżdżam do Petersburga, na długo, może na zawsze. Dwa dni przed wyjazdem o zmroku siedzę w ogródku oddzielonym wysokim paranem od podwórka domów, w którym mieszka na dzieńka jeszcze jest dość chłodno pod nawozem jeszcze leży śnieg drzewa są martwe, ale już pachnie wiosną i gawrony układając się do snu krzyczą głośno zbliżam się do parkanu i długo patrzrzeę przez szczelinę widdzę jak na dzieńka wychodzi na ganek i kieruje smutne tęskne spojrzenia na niebo. Wiosenny wiatr dmie jej wprost w bladą ponurą twarz. Przypomina jej o tamtym wietrze, który huczał wtedy na górze, kiedy słyszała o we trzy słowa. I twarz jej staje się smutna, smutna, a po twarzy spływał za. I biedna dziewczyna wyciąga obie ręce, jakby prosząc wiatru, żeby przyniósł jej jeszcze raz te słowa. A ja doczekawszy się powiewu wiatru, mówię półgłosem: Kocham cię nadził. Boże drogi, co staje się z nadzią? Wydaje okrzyk, uśmiecha się całą twarzą i wyciąga ręce ku wiatrowi radosna szczęśliwa taka ładna, a ja idę pakować się do drogi to było już dawno teraz na dzieęńka jest już mężadką, czy wydanoją czy sama wyszła za drobnego urzędnika to nie ma znaczenia ma troje dzieci, a tego jakiśmy chodzili na saneczki, jak wiatr przynosił jej słowa kocham cię na dzieńko, nie zapomniała jest to dla niej teraz najszczęśliwsze najtkliwsze i najpiękniejsze wspomnienie całego życia, a ja sam teraz kiedy jestem starszy, już nie rozumiem po co mówił owe we słowa, pocom żartował