In [5]:
import torch
import ollama
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline

# print("Number of GPU: ", torch.cuda.device_count())
# print("GPU Name: ", torch.cuda.get_device_name())


# device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
# print('Using device:', device)

In [None]:
device = "cuda" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "openai/whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch_dtype,
    device=device,
)


result = pipe("./test_audio.mp3", return_timestamps=True)
print(result["text"])


Device set to use cuda


 முரியாயில் ஜாவியாயில் अलड़की ब्यूटी फुल्ल कर गई चुल गई चुल अलड़की ब्यूटी फुल्ल कर गई चुल देख तेरा रंग सावला हुआ बावला लड़की नहीं है तुए गरम मामला बोलती गंद मिली कहूं क्या बला कुछ भी कहा नहीं जा पादिशाह की मततने मारी, ठड़के तरपे करू गूड सवारी, चांस चोलक मिल जाए मेरे चन्नाच तुगली हिले है लंडन, मटक मटक जजर रवीन धन्न, आग लगाने आई है वंधन, गोडी चलगी धाए तरिया तरी जवानी करती है मनमानी, तेरे तुमें उंगली मेरे मुँ में हापानी, मेरे समझे इशारित लगती सियानी विवी अरद राएं, बाएं, कैसे कमर तुझ जुलाएं, तुसिक समझ नहीं आएं अरण लड़की लुटी भुल दरगे रजाएं, जाएं, देख रहां नहीं जाएं, साप सचे से डस जाएं अरण लड़की लुटी भुल दरगे कोई बचालो, मुझे सवालो, अरे शे बठालो अनलणकी प्यूटी पुल कर गयी चकल लाएगी देरी पेज दरी पेज दरी जात गे जाले मेरो फोटो शोटो करंग वश्ती थोडी थोडी साथ लियत तिन फ्रेंड भी होतो तेकोरवायो थारी बाबी निकर वाली करगी करबी ससुरी दीगी करगी करगी करगी अलड़ की ब्यूटी फुल कर गे जूट अलड़ की ब्यूटी फुल कर गे जूट अलड़ की ब्यूटी फुल कर गे जूट अलड़ की ब्यूटी फुल कर गे जूट कैसे कमर तु जुलाए फिसिक समझ नहीं आए अल

In [9]:
def get_response(prompt):
    response = ollama.chat( model="llama3.2", 
                            messages=[{"role": "user", "content": prompt}])
    return response["message"]["content"]

In [11]:
get_response("What is the capital of Austraila?")

'The capital of Australia is Canberra.'

In [12]:
import sounddevice as sd
import numpy as np
import scipy.io.wavfile as wav
from pydub import AudioSegment
import os

def record_audio(filename, duration=5, samplerate=16000):
    print(f"Recording for {duration} seconds...")
    
    # Create a temporary WAV file
    temp_wav = "temp_recording.wav"
    
    # Record audio
    audio = sd.rec(int(duration * samplerate), samplerate=samplerate, channels=1, dtype='int16')
    sd.wait()
    
    # Save temporary WAV file
    wav.write(temp_wav, samplerate, audio)
    
    # Convert to MP3
    audio_segment = AudioSegment.from_wav(temp_wav)
    audio_segment.export(filename, format="mp3")
    
    # Clean up temporary WAV file
    os.remove(temp_wav)
    
    print(f"Audio saved to {filename}")

# Example usage:
record_audio("test_recording.mp3", duration=5)

Recording for 5 seconds...
Audio saved to test_recording.mp3


In [13]:
def transcribe_audio(file_path):
    result = pipe(file_path, return_timestamps=True)
    return result["text"]

transcribe_audio("test_audio.mp3")



' முரியாயில் ஜாவியாயில் अलड़की ब्यूटी फुल्ल कर गई चुल गई चुल अलड़की ब्यूटी फुल्ल कर गई चुल देख तेरा रंग सावला हुआ बावला लड़की नहीं है तुए गरम मामला बोलती गंद मिली कहूं क्या बला कुछ भी कहा नहीं जा पादिशाह की मततने मारी, ठड़के तरपे करू गूड सवारी, चांस चोलक मिल जाए मेरे चन्नाच तुगली हिले है लंडन, मटक मटक जजर रवीन धन्न, आग लगाने आई है वंधन, गोडी चलगी धाए तरिया तरी जवानी करती है मनमानी, तेरे तुमें उंगली मेरे मुँ में हापानी, मेरे समझे इशारित लगती सियानी विवी अरद राएं, बाएं, कैसे कमर तुझ जुलाएं, तुसिक समझ नहीं आएं अरण लड़की लुटी भुल दरगे रजाएं, जाएं, देख रहां नहीं जाएं, साप सचे से डस जाएं अरण लड़की लुटी भुल दरगे कोई बचालो, मुझे सवालो, अरे शे बठालो अनलणकी प्यूटी पुल कर गयी चकल लाएगी देरी पेज दरी पेज दरी जात गे जाले मेरो फोटो शोटो करंग वश्ती थोडी थोडी साथ लियत तिन फ्रेंड भी होतो तेकोरवायो थारी बाबी निकर वाली करगी करबी ससुरी दीगी करगी करगी करगी अलड़ की ब्यूटी फुल कर गे जूट अलड़ की ब्यूटी फुल कर गे जूट अलड़ की ब्यूटी फुल कर गे जूट अलड़ की ब्यूटी फुल कर गे जूट कैसे कमर तु जुलाए फिसिक समझ नहीं आए अ

In [None]:
record_audio()
prompt = transcribe_audio("test_recording.mp3")
get_response(prompt)