In [1]:
from TTS.api import TTS
from pydub import AudioSegment
import os
from tqdm import tqdm

In [2]:
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2", progress_bar=True)

 > tts_models/multilingual/multi-dataset/xtts_v2 is already downloaded.


  from .autonotebook import tqdm as notebook_tqdm


 > Using model: xtts


In [3]:
def split_text(text, max_len=200):
    paragraphs = text.split("\n")
    chunks = []
    for paragraph in paragraphs:
        sentences = paragraph.split(".")
        chunk = ""
        for sentence in sentences:
            sentence = sentence.strip()
            if len(sentence) == 0:
                continue
            sentence += "."
            if len(chunk) + len(sentence) <= max_len:
                chunk += " " + sentence
            else:
                if len(sentence) > max_len:
                    for i in range(0, len(sentence), max_len):
                        sub_sentence = sentence[i:i+max_len]
                        if sub_sentence[-1] != ".":
                            sub_sentence += "."
                        chunks.append(sub_sentence)
                else:
                    chunks.append(chunk.strip())
                    chunk = sentence
        if chunk:
            chunks.append(chunk.strip())
    return chunks

def gen_speech(text, name='output', out_fmt="mp3", language="en", **kwargs):
    audio = AudioSegment.empty()
    outfilename = f"{name}_{language}"
    for ind, chunk in enumerate(tqdm(split_text(text))):
        file_path=f"./processed_audio/{outfilename}_chunk_{ind}.wav"
        tts.tts_to_file(text=chunk,
            file_path=file_path,
            language=language
            **kwargs
        )
        
        audio_chunk = AudioSegment.from_file(file_path)
        audio += audio_chunk
    
    audio.export(f"./processed_audio/{outfilename}.{out_fmt}", format=out_fmt)
    
    # remove the chunk audio files
    # for ind in range(len(split_text(text))):
    #     file_path=f"{name}_{language}_chunk_{ind}.wav"
    #     os.remove(file_path)
    return audio

In [6]:
with open("./inputs/meluha_text_en.txt", "r") as f:
    text_en = f.read()

# gen_speech(text_en, name="meluha", language="en", speaker="Ana Florence")

In [5]:
with open("./inputs/meluha_text_hi.txt", "r") as f:
    text_hi = f.read()

# gen_speech(text_hi, name="meluha", language="hi", speaker="Ana Florence")
text_hi

'शिव ने नारंगी आकाश की ओर देखा। मानसरोवर के ऊपर मंडरा रहे बादल अस्त होते सूर्य को दिखाने के लिए अभी-अभी छंट चुके थे। जीवन का प्रतिभाशाली दाता एक बार फिर अपने दिन का आह्वान कर रहा था। शिव ने अपनी इक्कीस वर्ष की आयु में कुछ सूर्योदय देखे थे। लेकिन सूर्यास्त! उसने कोशिश की कि कभी भी सूर्यास्त न छूटे! किसी भी अन्य दिन, शिव ने सूर्य और हिमालय की शानदार पृष्ठभूमि के सामने विशाल झील का दृश्य देखा होगा, जहां तक \u200b\u200bआंख देख सकती थी। लेकिन आज नहीं।\n\nवह झील के ऊपर फैली संकरी कगार पर बैठ गया और अपना गठीला, मांसल शरीर बना लिया। उसकी त्वचा पर युद्ध के अनगिनत निशान पानी की झिलमिलाती परावर्तित रोशनी में चमक रहे थे। शिव को अपने बचपन के अल्हड़ दिन अच्छी तरह याद थे। उन्होंने झील की सतह से उछलकर आने वाले कंकड़ फेंकने की कला में महारत हासिल कर ली थी। उन्होंने अभी भी अपने समुदाय में सबसे अधिक बाउंस: सत्रह का रिकॉर्ड कायम रखा है।\n\nएक सामान्य दिन में, शिव अपने हँसमुख अतीत को याद करके मुस्कुरा देते थे जो वर्तमान के संताप से अभिभूत हो गया था। लेकिन आज वह बिना किसी खुशी के वापस अपने गांव की ओर मुड़ ग

In [None]:
gen_speech(text_hi, name="meluha_cloned", language="hi", speaker="Ana Florence")