In [None]:
from fpdf import FPDF
import whisper

class AudioToPdf:
    def __init__(self) -> None:
        self._model = whisper.load_model("turbo")

    def transcribe(self, audio_path):
        result = self._model.transcribe(audio_path)
        text = result["text"]
        pdf = FPDF()
        pdf.add_page()
        pdf.set_font("Arial", size=12)
        pdf.set_left_margin(10)
        pdf.set_right_margin(10)
        pdf.multi_cell(0, 10, text)

        output_path = audio_path.split("/")[-1]
        output_filename = f"output/{output_path.rsplit('.', maxsplit=1)[0]}.pdf"
        pdf.output(output_filename)

In [3]:
transcriber = AudioToPdf()

100%|█████████████████████████████████████| 1.51G/1.51G [04:41<00:00, 5.74MiB/s]


In [5]:
transcriber.transcribe("VID-20240530-WA0013.mp4")

In [15]:
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline


device = "cuda:0" if torch.cuda.is_available() else "cpu"
device = "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "openai/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch_dtype,
    device=device,
)


result = pipe("media/audio_1.mp3", return_timestamps=True, generate_kwargs={"language": "portuguese"})
print(result)

Device set to use cpu
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


{'text': ' Eu fui o maior físico e matemático que a história já presenciou, e tive ideias geniais que mudaram o rumo da humanidade. Sou Albert Einstein, o grande autor da teoria mais famosa do mundo, a teoria da relatividade, e vou te contar minha incrível história. O GPS que você utiliza, as tomografias da medicina, a ressonância magnética, os satélites, a engenharia espacial e energia nuclear, são invenções que existem graças à minha teoria. Nasci em 1879, no dia 14 de março, em Jum, na Alemanha. Mas em 1880 me mudei com minha família para a cidade de Munique. Eu tive uma infância difícil. Tive muitos problemas de comunicação na infância. Eu só comecei a falar por volta dos 3 ou 4 anos de idade. Essa dificuldade me perseguiu até os 7 anos, quando eu nem mesmo era alfabetizado direito e sempre ensaiava antes de falar com alguém. Hoje, a maioria dos especialistas...', 'chunks': [{'timestamp': (0.0, 3.64), 'text': ' Eu fui o maior físico e matemático que a história já presenciou,'}, {'t

In [4]:
import requests

# For the basic example
# files = {'audio_file': open('media/audio_1.mp3', 'rb')}
response = requests.post('http://localhost:8000/auth/', data={'username': 'admin', 'password': 'admin'})
print(response.json())

eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzdWIiOiJhZG1pbiJ9.Xuae94z8TgirLrK_u2DbX-Qg_5y1Qzo29JLjpY47HU0


In [5]:
import requests

# For the basic example
files = {'audio_file': open('media/audio_1.mp3', 'rb')}
headers = {
    "Authorization": f"Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzdWIiOiJhZG1pbiJ9.Xuae94z8TgirLrK_u2DbX-Qg_5y1Qzo29JLjpY47HU0"
}
response = requests.post('http://localhost:8000/transcription/', files=files, headers=headers)
print(response.json())

{'filename': 'audio_1.mp3', 'transcription': ' Eu fui o maior físico e matemático que a história já presenciou, e tive ideias geniais que mudaram o rumo da humanidade. Sou Albert Einstein, o grande autor da teoria mais famosa do mundo, a teoria da relatividade, e vou te contar minha incrível história. O GPS que você utiliza, as tomografias da medicina, a ressonância magnética, os satélites, a engenharia espacial e energia nuclear, são invenções que existem graças à minha teoria. Nasci em 1879, no dia 14 de março, em Jum, na Alemanha. Mas em 1880 me mudei com minha família para a cidade de Munique. Eu tive uma infância difícil. Tive muitos problemas de comunicação na infância. Eu só comecei a falar por volta dos 3 ou 4 anos de idade. Essa dificuldade me perseguiu até os 7 anos, quando eu nem mesmo era alfabetizado direito e sempre ensaiava antes de falar com alguém. Hoje, a maioria dos especialistas...'}


In [2]:
from passlib.context import CryptContext

pwd_context = CryptContext(schemes=["bcrypt"], deprecated="auto")
pwd_context.hash("password")

'$2b$12$Jys3SJJ5mYB4YbgVt4eOJemiRAn8Ze5BD6sgRi3oIeUcDmarefLTe'

In [3]:
pwd_context.verify("password", "$2b$12$LgBKPuRkjjCB/Zu8vj.h7ebJ8Jk1fFg2qX9l3mG0PEnWPevzWdcxW")

True

In [1]:
import os
os.getcwd()

'/home/samcbk/Documents/transcription'

In [2]:
import json

with open("users.json", "r") as file:
    data = json.load(file)
data

{'admin': 'admin'}