In [2]:
import os
import wave
import json
from vosk import Model, KaldiRecognizer
from pydub import AudioSegment

def convert_audio_to_wav(audio_path):
    audio = AudioSegment.from_file(audio_path)
    wav_path = audio_path.rsplit('.', 1)[0] + '.wav'
    audio = audio.set_channels(1).set_frame_rate(16000)
    audio.export(wav_path, format='wav')
    return wav_path

def transcribe_audio_chunk(model, audio_chunk):
    rec = KaldiRecognizer(model, audio_chunk.getframerate())
    results = []
    
    while True:
        data = audio_chunk.readframes(4000)
        if len(data) == 0:
            break
        if rec.AcceptWaveform(data):
            results.append(json.loads(rec.Result()))
    
    results.append(json.loads(rec.FinalResult()))
    transcription = " ".join([result.get("text", "") for result in results])
    return transcription

def transcribe_audio(audio_path, output_path, chunk_length_ms=15000):
    model_path = "/home/harshit/Desktop/Pclub/Up_police_hindi/model/vosk-model-hi-0.22"  # Update this path with the correct model path
    model = Model(model_path)
    wav_path = convert_audio_to_wav(audio_path)

    audio = AudioSegment.from_wav(wav_path)
    
    full_transcription = ""
    
    for i in range(0, len(audio), chunk_length_ms):
        chunk = audio[i:i + chunk_length_ms]
        chunk_path = f"chunk_{i}.wav"
        chunk.export(chunk_path, format="wav")
        
        with wave.open(chunk_path, "rb") as wf:
            transcription = transcribe_audio_chunk(model, wf)
            full_transcription += transcription + " "
        
        os.remove(chunk_path)  
    
    with open(output_path, "w", encoding="utf-8") as file:
        file.write(full_transcription.strip())
    
    print("Transcription: ", full_transcription.strip())

if __name__ == "__main__":

    audio_path = "/home/harshit/Desktop/Pclub/Up_police_hindi/atal-bihari-vajpayee-greatest-speech-ever-in-indian-parliament-manastars-128-ytshorts.savetube.me.wav"  # wav would be better than mp3
 
    output_path = "vosk_atal.txt"  
    
    transcribe_audio(audio_path, output_path)


LOG (VoskAPI:ReadDataFiles():model.cc:213) Decoding params beam=13 max-active=7000 lattice-beam=6
LOG (VoskAPI:ReadDataFiles():model.cc:216) Silence phones 1:2:3:4:5:11:12:13:14:15
LOG (VoskAPI:RemoveOrphanNodes():nnet-nnet.cc:948) Removed 0 orphan nodes.
LOG (VoskAPI:RemoveOrphanComponents():nnet-nnet.cc:847) Removing 0 orphan components.
LOG (VoskAPI:ReadDataFiles():model.cc:248) Loading i-vector extractor from /home/harshit/Desktop/Pclub/Up_police_hindi/model/vosk-model-hi-0.22/ivector/final.ie
LOG (VoskAPI:ComputeDerivedVars():ivector-extractor.cc:183) Computing derived variables for iVector extractor
LOG (VoskAPI:ComputeDerivedVars():ivector-extractor.cc:204) Done.
LOG (VoskAPI:ReadDataFiles():model.cc:279) Loading HCLG from /home/harshit/Desktop/Pclub/Up_police_hindi/model/vosk-model-hi-0.22/graph/HCLG.fst
LOG (VoskAPI:ReadDataFiles():model.cc:297) Loading words from /home/harshit/Desktop/Pclub/Up_police_hindi/model/vosk-model-hi-0.22/graph/words.txt
LOG (VoskAPI:ReadDataFiles():

Transcription:  है  मैं कुछ सपने लेकर भरकर जीवों में आशाएं दिल में है और मांग गई कुछ कर जाएं कुछ रहे हैं सूरज सूरज नहीं मुझमें दीपक जलता देखो सूरज नहीं मुझमें दीपक अपने रोशन करने से तुम मुझको तुम झूठ  भरोसे का वृक्ष नहीं जिसको नदियों में सींचा है  उस माटी का वृक्ष नहीं जिसको नदियों में सींचा है बंजर मोती में पल कर मैंने मृत्यु से जीवन खींचा है मैं पत्थर पर लिखी इबारत मैं पत्थर पर लिखी इबारत हूं कब तक दोगे बेचनेवाला में नाम नहीं तो मुझको कब तक रोकोगे तुम मुझको कब तक   इतने जुल्म नहीं उतने सहने की ताकत है चकमक जितने जुल्म नहीं होते सहने की ताकत है तानों के शोर में रहकर सच कहने की आदत है मैं सागर से भी गहरा हूं मैं सागर से से भी गहरा तुम कितने कंकरों को चुन चुनकर आगे पढूंगा तुम मुझको तो मुझको   झुक झुक कर सीधा अब फिर सूखने का शौक नहीं झुक झुककर सीधा खड़ा हुआ अब झुकने का शौक नहीं अपने ही अर्थ और रजा स्वयं तुमसे मिटने का खौफ नहीं तुम हालातों की भट्टी में जब जब भी मुझको झोकों का तुम मुझको कब तक तुम मुझको कब तक रोकोगे मुझको कब तक
