# Long-form audio transcription using Hugging Face Transformers
Source: https://github.com/machinelearnear/long-audio-transcription-spanish

In [1]:
import time
from os.path import exists as path_exists
from pathlib import Path

In [2]:
if not path_exists('transcripts'):
    !mkdir transcripts

## Download audio from YouTube video

In [3]:
YouTubeID = 'q0Zq5DKKZWs' # ¿Qué es la enfermedad de Crohn y cómo detectarla?
OutputFile = 'test_audio_youtube.m4a'

In [4]:
if not path_exists(OutputFile):
    !youtube-dl -o $OutputFile $YouTubeID --extract-audio --restrict-filenames -f 'bestaudio[ext=m4a]'

[youtube] q0Zq5DKKZWs: Downloading webpage
[youtube] q0Zq5DKKZWs: Downloading MPD manifest
[download] Destination: test_audio_youtube.m4a
[K[download] 100% of 6.50MiB in 01:2595KiB/s ETA 00:004
[ffmpeg] Correcting container in "test_audio_youtube.m4a"
[ffmpeg] Post-process file test_audio_youtube.m4a exists, skipping


## End to End Automatic Speech Recognition

Choose best models from this list: https://huggingface.co/spaces/speech-recognition-community-v2/FinalLeaderboard

In [5]:
model_name = "jonatasgrosman/wav2vec2-xls-r-1b-spanish"

In [6]:
def save_to_file(transcript, text=None):
    with open(f'transcripts/transcribed_speech_{text}.txt', "w") as f:
        f.write(transcript)

### Process long audio file directly with `Pipelines`

In [7]:
import librosa
from transformers import pipeline

  "class": algorithms.Blowfish,


In [8]:
pipe = pipeline(model=model_name)

Downloading:   0%|          | 0.00/4.48k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/3.59G [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/314 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/370 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/85.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/260 [00:00<?, ?B/s]

Could not load the `decoder` for jonatasgrosman/wav2vec2-xls-r-1b-spanish. Defaulting to raw CTC. Try to install `pyctcdecode` and `kenlm`: (`pip install pyctcdecode`, `pip install https://github.com/kpu/kenlm/archive/master.zip`): Error: No module named 'kenlm'


In [9]:
speech, sample_rate = librosa.load(OutputFile,sr=16000)

  return f(*args, **kwargs)


In [10]:
stime = time.time()
transcript = pipe(speech, chunk_length_s=10, stride_length_s=(4,2))
print(f'total time: {time.time()-stime:.2f} seconds')

total time: 665.79 seconds


In [11]:
print(transcript['text'])
save_to_file(transcript['text'],text='hf_pipelines')

estamos con marcelo ferre es gastro enterólogo cómo le va a doctor buenas noches unasa ver hoy charlaba con nuestros compañeros de trabajo y decía no pero murió de un cáncer y había otra enfermedad previa y cómo es estocuéntenos la enfermedad de croncque esla enfermedad de cron correcto fernando la enfermedad de cron es una enfermedad inflamatoria del intestino sque entra dentro del grupo de las enfermedades inflamatorias intestinales que son enfermedades crónicas son autoinmunes tienen una base genética son raras en el sentido del diagnóstico son poco frecuentes hay pacientes en todo el país empacientes con esta enfermedad nada más nada más en todo el país o al menos diagnosticados se diagnosticado y conocido sicon algún seguimiento por parte de sus médicos uno cada chabitantes puede tener esta enfermedad aunque no la diagnostiquemos tan frecuentemente y en realidadcuesta diagnosticarla en el sentido al no verla y al no estar en contacto con ellos el diagnóstico es de difícil acceso e

## References

- [Making automatic speech recognition work on large files with Wav2Vec2 in Transformers](https://huggingface.co/blog/asr-chunking)
- [Boosting Wav2Vec2 with n-grams in Transformers](https://huggingface.co/blog/wav2vec2-with-ngram)
- https://huggingface.co/jonatasgrosman/wav2vec2-xls-r-1b-spanish
- https://huggingface.co/jonatasgrosman/wav2vec2-large-xlsr-53-spanish
- https://huggingface.co/spaces/speech-recognition-community-v2/FinalLeaderboard