In [1]:
import sys
import os

# Agregar la ruta del directorio donde están los módulos
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)

from text import cleaners  # Importa tu archivo de cleaners
from text.symbols import symbols  # Importa los símbolos
from text import text_to_sequence, sequence_to_text  # Importa las funciones que convertiste

from text.cmudict import Spanish_CMUDict
from text import symbols, _symbols_to_sequence
# Cargar el diccionario fonético
cmu_dict = Spanish_CMUDict(file_or_path="spanish_cmudict.dict")


In [None]:
test_texts = [
    "El Dr. Pérez vive en la Av. Siempre Viva.",
    "Tengo 1000 pesos y 3.14 en mi bolsillo.",
    "Este es un texto con caracteres especiales como ñ y á.",
    "El Sr. García cumplió 25 años el 3 de mayo."
]

In [11]:
def transcribir_oracion(oracion):
    """
    Convierte una oración en su versión fonética utilizando el diccionario fonético.
    
    Args:
        oracion (str): La oración en español.
        
    Returns:
        str: La transcripción fonética de la oración.
    """
    palabras = oracion.split()  # Dividimos la oración en palabras
    transcripcion_fonetica = []
    
    for palabra in palabras:
        # Buscar la transcripción fonética de la palabra en el diccionario
        transcripcion = cmu_dict.lookup(palabra)
        if transcripcion:
            # Si se encuentra, agregar la transcripción de la palabra
            transcripcion_fonetica.append(''.join(transcripcion[0]))
        else:
            # Si no se encuentra, mantener la palabra tal cual (o manejar el caso)
            transcripcion_fonetica.append(palabra)
    
    # Unir la transcripción fonética de todas las palabras
    return ' - '.join(transcripcion_fonetica)


Transcripción fonética de la oración: o l a - m u n d̪ o - p e r o - k o m p u t̪ a ð o ɾ a


In [16]:
for text in test_texts:
    print(f"Texto original: {text}")
    cleaned = cleaners.spanish_cleaners(text)
    print(f"Texto limpiado: {cleaned}")
    seq = text_to_sequence(cleaned, ["spanish_cleaners"])
    print(f"Transcripción fonética de la oración: {transcripcion_fonetica}")
    transcripcion_fonetica = transcribir_oracion(cleaned)
    print(f"Secuencia: {seq}")
    recon = sequence_to_text(seq)
    print(f"Texto reconstruido: {recon}")




Texto original: El Dr. Pérez vive en la Av. Siempre Viva.
Texto limpiado: el doctor pérez vive en la avenida siempre viva.
Transcripción fonética de la oración: e l - s e ɲ o ɾ - ɡ a r c i a - k u m p l j o - b e i n t̪ i s i ŋ k o - a ɲ o s - e l - t̪ ɾ e s - d̪ e - mayo.
Secuencia: [42, 49, 11, 41, 52, 40, 57, 52, 55, 11, 53, 65, 55, 42, 63, 11, 59, 46, 59, 42, 11, 42, 51, 11, 49, 38, 11, 38, 59, 42, 51, 46, 41, 38, 11, 56, 46, 42, 50, 53, 55, 42, 11, 59, 46, 59, 38, 7]
Texto reconstruido: el doctor pérez vive en la avenida siempre viva.
Texto original: Tengo 1000 pesos y 3.14 en mi bolsillo.
Texto limpiado: tengo mil pesos y tres punto catorce en mi bolsillo.
Transcripción fonética de la oración: e l - d̪ o ɣ t̪ o ɾ - p e r e s - b i β e - e n - l a - a β e n i ð a - s j e m p ɾ e - viva.
Secuencia: [57, 42, 51, 44, 52, 11, 50, 46, 49, 11, 53, 42, 56, 52, 56, 11, 62, 11, 57, 55, 42, 56, 11, 53, 58, 51, 57, 52, 11, 40, 38, 57, 52, 55, 40, 42, 11, 42, 51, 11, 50, 46, 11, 39, 52, 49, 5