<a href="https://colab.research.google.com/github/DevilUpperCase/Galeria/blob/main/kokoro_voice_es.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# 1️⃣ Install kokoro
!pip install -q kokoro>=0.7.11 soundfile
# 2️⃣ Install espeak, used for English OOD fallback and some non-English languages
!apt-get -qq -y install espeak-ng > /dev/null 2>&1
# 🇪🇸 'e' => Spanish es
# 🇫🇷 'f' => French fr-fr
# 🇮🇳 'h' => Hindi hi
# 🇮🇹 'i' => Italian it
# 🇧🇷 'p' => Brazilian Portuguese pt-br


In [3]:
# 3️⃣ Initalize a pipeline
from kokoro import KPipeline
from IPython.display import display, Audio
import soundfile as sf
import torch
# 🇺🇸 'a' => American English, 🇬🇧 'b' => British English
# 🇯🇵 'j' => Japanese: pip install misaki[ja]
# 🇨🇳 'z' => Mandarin Chinese: pip install misaki[zh]
pipeline = KPipeline(lang_code='e') # <= make sure lang_code matches voice

# This text is for demonstration purposes only, unseen during training
text = '''
El cielo sobre el puerto era del color de la televisión, sintonizada en un canal muerto.
"No es que esté consumiendo", escuchó Case que alguien decía mientras se abría paso entre la multitud que rodeaba la puerta del Chat. "Es como si mi cuerpo hubiera desarrollado una enorme deficiencia de drogas".
Era una voz de Sprawl y una broma de Sprawl. El Chatsubo era un bar para expatriados profesionales; uno podía beber allí durante una semana y no oír ni dos palabras en japonés.

Estas decisiones tendrían un enorme impacto, no sólo porque estaban asociadas con Constantino, sino también porque, como en tantas otras áreas, las decisiones tomadas por Constantino (o en su nombre) tendrían una gran importancia para los siglos venideros. Una de las cuestiones principales era la forma que debían adoptar las iglesias cristianas, ya que, aparentemente, no existía una tradición de edificios eclesiásticos monumentales cuando Constantino decidió ayudar a la iglesia cristiana a construir una serie de estructuras verdaderamente espectaculares. La forma principal que adoptaron estas iglesias fue la de la basílica, una estructura rectangular multiusos, basada en última instancia en la stoa griega anterior, que se podía encontrar en la mayoría de las grandes ciudades del imperio. El cristianismo, a diferencia del politeísmo clásico, necesitaba un gran espacio interior para la celebración de sus servicios religiosos, y la basílica cubría adecuadamente esa necesidad. Naturalmente, no sabemos hasta qué punto el emperador participó en el diseño de nuevas iglesias, pero es tentador relacionarlo con la basílica secular que Constantino completó en el foro romano (la llamada Basílica de Majencio) y la que probablemente construyó en Tréveris, en relación con su residencia en la ciudad en un momento en que todavía era césar.

[Kokoro](/kˈOkəɹO/) es un modelo TTS de peso abierto con 82 millones de parámetros. A pesar de su arquitectura liviana, ofrece una calidad comparable a los modelos más grandes, al tiempo que es significativamente más rápido y más rentable. Con pesos con licencia Apache, [Kokoro](/kˈOkəɹO/) se puede implementar en cualquier lugar, desde entornos de producción hasta proyectos personales.
'''
# text = '「もしおれがただ偶然、そしてこうしようというつもりでなくここに立っているのなら、ちょっとばかり絶望するところだな」と、そんなことが彼の頭に思い浮かんだ。'
# text = '中國人民不信邪也不怕邪，不惹事也不怕事，任何外國不要指望我們會拿自己的核心利益做交易，不要指望我們會吞下損害我國主權、安全、發展利益的苦果！'
# text = 'Los partidos políticos tradicionales compiten con los populismos y los movimientos asamblearios.'
# text = 'Le dromadaire resplendissant déambulait tranquillement dans les méandres en mastiquant de petites feuilles vernissées.'
# text = 'ट्रांसपोर्टरों की हड़ताल लगातार पांचवें दिन जारी, दिसंबर से इलेक्ट्रॉनिक टोल कलेक्शनल सिस्टम'
# text = "Allora cominciava l'insonnia, o un dormiveglia peggiore dell'insonnia, che talvolta assumeva i caratteri dell'incubo."
# text = 'Elabora relatórios de acompanhamento cronológico para as diferentes unidades do Departamento que propõem contratos.'

# 4️⃣ Generate, display, and save audio files in a loop.
generator = pipeline(
    text, voice='af_heart', # <= change voice here
    speed=1, split_pattern=r'\n+'
)

# Alternatively, load voice tensor directly:
# voice_tensor = torch.load('path/to/voice.pt', weights_only=True)
# generator = pipeline(
#     text, voice=voice_tensor,
#     speed=1, split_pattern=r'\n+'
# )

for i, (gs, ps, audio) in enumerate(generator):
    print(i)  # i => index
    print(gs) # gs => graphemes/text
    print(ps) # ps => phonemes
    display(Audio(data=audio, rate=24000, autoplay=i==0))
    sf.write(f'{i}.wav', audio, 24000) # save each audio file

af_heart.pt:   0%|          | 0.00/523k [00:00<?, ?B/s]

0
El cielo sobre el puerto era del color de la televisión, sintonizada en un canal muerto.
el θjˈelo sˌoβɾe el pwˈeɾto ˈeɾa ðel kolˈoɾ ðe la tˌeleβisjˈon, sˌintoniθˈaða en ˈun kanˈal mwˈeɾto.


1
"No es que esté consumiendo", escuchó Case que alguien decía mientras se abría paso entre la multitud que rodeaba la puerta del Chat. "Es como si mi cuerpo hubiera desarrollado una enorme deficiencia de drogas".
"nˈo ˈes ke estˈe kˌonsumjˈɛndo", ˌeskuʧˈo kˈase ke ˈalɣjen deθˈia mjˌentɾas se aβɾˈia pˈaso ˌentɾe la mˌultitˈud ke ɾɾˌoðeˈaβa la pwˈeɾta ðel ʧˈat. "ˈes kˌomo si mi kwˈeɾpo uβjˈeɾa ðˌesaɾɾoʎˈaðo ˈuna enˈoɾme ðˌefiθjˈɛnθja ðe ðɾˈoɣas".


2
Era una voz de Sprawl y una broma de Sprawl. El Chatsubo era un bar para expatriados profesionales; uno podía beber allí durante una semana y no oír ni dos palabras en japonés.
ˈeɾa ˈuna βˈoθ ðe spɾˈawl i ˈuna βɾˈoma ðe spɾˈawl. el ʧatsˈuβo ˈeɾa ˈum bˈaɾ pˌaɾa ˌekspatɾiˈaðos pɾˌofesjonˈales; ˈuno poðˈia βeβˈeɾ aʎˈi ðuɾˈante ˈuna semˈana i nˈo oˈiɾ nˈi ðˈos palˈaβɾas en xˌaponˈes.


3
Estas decisiones tendrían un enorme impacto, no sólo porque estaban asociadas con Constantino, sino también porque, como en tantas otras áreas, las decisiones tomadas por Constantino (o en su nombre) tendrían una gran importancia para los siglos venideros. Una de las cuestiones principales era la forma que debían adoptar las iglesias cristianas, ya que, aparentemente, no existía una tradición de edificios eclesiásticos monumentales cuando Constantino decidió ayudar a la iglesia cristiana a construir una serie de estructuras verdaderamente espectaculares. La forma principal que adoptaron estas iglesias fue la de la basílica, una estructura rectangular multiusos, basada en última instancia en la stoa griega anterior, que se podía encontrar en la mayoría de las grandes ciudades del imperio. El cristianismo, a diferencia del politeísmo clásico, necesitaba un gran espacio interior para la celebración de sus servicios religiosos, y la basílica cubría adecuadamente esa necesidad. Naturalmen



4
[Kokoro](/kˈOkəɹO/) es un modelo TTS de peso abierto con 82 millones de parámetros. A pesar de su arquitectura liviana, ofrece una calidad comparable a los modelos más grandes, al tiempo que es significativamente más rápido y más rentable. Con pesos con licencia Apache, [Kokoro](/kˈOkəɹO/) se puede implementar en cualquier lugar, desde entornos de producción hasta proyectos personales.
[kokˈoɾo](bˈara kˈa stɹˈɛs o kˈa ʃwˈɑː tˈɜːndˈɑː o βˈara) ˈes ˈun moðˈelo tˌetˌeˈɛse ðe pˈeso aβjˈeɾto kon oʧˌɛntaiðˈos miʎˈones ðe paɾˈametɾos. a pesˈaɾ ðe su ˌaɾkitektˈuɾa liβjˈana, ofɾˈeθe ˈuna kˌaliðˈad kˌompaɾˈaβle a los moðˈelos mˈas ɣɾˈandes, al tjˈempo ke ˈes sˌiɡnifˌikatˈiβamˈente mˈas ɾɾˈapiðo i mˈas ɾɾentˈaβle. kom pˈesos kon liθˈɛnθja apˈaʧe, [kokˈoɾo](bˈara kˈa stɹˈɛs o kˈa ʃwˈɑː tˈɜːndˈɑː o βˈara) se pwˈeðe ˌimplementˈaɾ en kwalkjˈeɾ luɣˈaɾ, dˌesðe entˈoɾnos ðe pɾˌoðukθjˈon ˌasta pɾojjˈektos
