# **Procesamiento del habla**

Version 1.0

## Funcionalidades desbloqueadas por version:

*Version 1.0:*

- Entrada de consulta para un producto por vez
- Recomendacion para el cliente:
    - Algoritmo de ordenamiento basado en preferencias del usuario (dentro de la estructura gramatical)
    - Deteccion de precio
    - Caracteristicas particulares del producto

*Version 1.3*
- Entrada de consulta para mas de un producto
- Recomendaciones basadas en analisis de sentimiento

## Estructura de sub-etapas

---

```
├── Reconocimiento del lenguaje
│   ├── Captura de texto
│   └── Captura de audio
├── Procesamiento del lenguaje
│   ├── Preprocesamiento de texto
│   └── Analisis de texto
├── Gestion de respuesta
│   ├── Gestion del estado
│   ├── Motor de respuesta
│   └── Personalizacion
├── texto a voz
│   └── Conversion texto a voz

```


#### _Estructura operativa para cada sub-etapa:_

Se utilizaran las siguientes principales librerias por etapas, speechrecognition para reconocimiento de voz, pydub para transcripcion a texto, spacy para el procesamiento y analisis de texto y Google Text-to-Speech para la conversion de texto a voz.

Para la entrega de la recomendacion se tomaran los tokens lematizados (filtrados por adjetivos, sustantivos y proposiciones) de la entrada del usuario y de la columna de productos del dataframe, y se recorrera token por token entre cada una, para comprobar la similitud, entregando por ultimo, un diccionario con el indice del producto en la tabla original y el grado de considencia.

### Librerias y paquetes

#### *Entorno virtuales*

In [149]:
# Create and activate virtual env for speech processing stage
!python3 -m venv proc_habla
!source proc_habla/bin/activate

#### *Instalacion*

In [150]:
# Librerias de preprocesamiento
!pip3 install sounddevice
!pip3 install scipy
!pip3 install pydub

# Librerias de reconocimiento de voz
!pip3 install pocketsphinx
!pip3 install SpeechRecognition

# Librerias de generacion de voz
!pip3 install gtts
# Librerias de analisis linguistico
!pip3 install spacy



In [151]:
!python3 -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m691.7 kB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


#### *Importacion*

In [152]:
# Librerías para reconocimiento de voz y procesamiento de audio
import speech_recognition as sr
import sounddevice as sd
from scipy.io.wavfile import write
import queue
import threading
from pydub import AudioSegment

# Librerías para manipulación de archivos y compresión
import wave
import zipfile
import os
import subprocess
import io

# Librerías para procesamiento de datos y análisis
import numpy as np
import pandas as pd
import spacy
import re

# Librería para generación de voz
from gtts import gTTS

# Importación de funciones comunes a otros cuadernos
from funciones_comunes import common_functions

### Lectura de datos

In [153]:
# Defino el diccionario donde se almacenara la informacion de entrada y salida de la consulta
consulta_dict = {}

In [154]:
# Lectura y almacenado del dataframe
path_csv_rutas_verduras = '../datos/procesaodos/VerdurasporSupermercado.csv'
df_frutas_verduras = pd.read_csv(path_csv_rutas_verduras)

## 1. Reconocimiento del Habla

___

### a. Captura de entradas de texto

In [155]:
# Conexion con api de fast-api
# aqui iria la conexion con un script encargado de conectar con la api de fast-api

In [156]:
# Funcion tentativa para recibir la entrada de texto desde fast-api

def entrada_texto(texto):
    texto = input('Ingresa brevemete el producto que deseas comprar y sus caracteristicas: ')
    return texto

### b. Captura de Audio

In [157]:
# Ruta del archivo zip descargado del modelo de pydub
ruta_modelo_comprimido_pocketsphinx_esp = "../datos/brutos/modelos_proc_habla/modelo_esp.zip"

# Directorio donde se colocarán los archivos descomprimidos del modelo en español de pydub
ruta_modelo_descomprimido_pocketsphinx_esp = "/Library/Frameworks/Python.framework/Versions/3.11/lib/python3.11/site-packages/speech_recognition/pocketsphinx-data/es-ES/"

# Descomprimir el archivo zip
with zipfile.ZipFile(ruta_modelo_comprimido_pocketsphinx_esp, 'r') as zip_ref:
    zip_ref.extractall(ruta_modelo_descomprimido_pocketsphinx_esp)

print("Archivos descomprimidos en:", ruta_modelo_descomprimido_pocketsphinx_esp)

Archivos descomprimidos en: /Library/Frameworks/Python.framework/Versions/3.11/lib/python3.11/site-packages/speech_recognition/pocketsphinx-data/es-ES/


In [158]:
# instalacion de conversor de audio a formatos compatibles para librerias de transcripcion del texto

try:
    subprocess.run(["sudo", "apt-get", "install", "ffmpeg"])
    print("FFmpeg instalado exitosamente en sistemas basados en Debian.")
except Exception as e:
    print("Error al instalar FFmpeg:", e)
try:
    subprocess.run(["brew", "install", "ffmpeg"])
    print("FFmpeg instalado exitosamente en macOS utilizando Homebrew.")
except Exception as e:
    print("Error al instalar FFmpeg:", e)

sudo: a terminal is required to read the password; either use the -S option to read from standard input or configure an askpass helper
sudo: a password is required


FFmpeg instalado exitosamente en sistemas basados en Debian.
FFmpeg instalado exitosamente en macOS utilizando Homebrew.


To reinstall 7.0.1, run:
  brew reinstall ffmpeg


In [159]:
# Parametros para la grabacion del audio de entrada
SAMPLE_RATE = 44100  # Tasa de muestreo
DURATION = 10 # Duración de la grabación en segundos
AUDIO_FILES_PATH = "../datos/brutos/audios_proc_habla/" # direccion local del audio grabado
FILENAME = "output"  # Nombre del archivo de salida
EXTENCION_ENTRADA = '.wav' # extension de entrada del audio grabado
ruta_audio_entrada = AUDIO_FILES_PATH + FILENAME + EXTENCION_ENTRADA # ruta de entrada del audio grabado

# Parametros para la conversion del audio
EXTENCION_SALIDA = '.aiff' # extension de salida del audio tras convertir
ruta_audio_entrada_convertido = AUDIO_FILES_PATH + 'waw_conv_' + FILENAME + EXTENCION_SALIDA # ruta donde se almacenara el audio convertido

In [160]:
def record_audio(audio_file_path = AUDIO_FILES_PATH, filename = FILENAME, duration = DURATION, sample_rate = SAMPLE_RATE):
    # Grabacion de audio con 1 canal
    recording = sd.rec(int(duration * sample_rate), samplerate=sample_rate, channels=1)
    sd.wait()  # Esperar a que termine la grabación
    write(ruta_audio_entrada, sample_rate, recording)
    return filename

In [161]:
def convert_to_wav(input_file = ruta_audio_entrada, output_file = ruta_audio_entrada_convertido):
    sound = AudioSegment.from_file(input_file)
    sound.export(output_file, format="aiff")

#### Reconocimiento del Habla (ASR - Automatic Speech Recognition):

In [162]:
recognizer = sr.Recognizer()

In [163]:
# Forma 1 con sphinx

def recognize_speech():
    recognizer = sr.Recognizer()

    try:
        with sr.AudioFile(ruta_audio_entrada_convertido) as source:
            audio_data = recognizer.record(source)
            texto = recognizer.recognize_sphinx(audio_data, language="es-ES")
            print("texto reconocido:", texto)
    except sr.UnknownValueError:
        print("No se pudo entender el audio")
    except sr.RequestError as e:
        print("Error al solicitar resultados de reconocimiento de voz; {0}".format(e))

In [164]:
# Forma 2 con recognize_gogle

def transcribe_audio(ruta_audio_entrada = ruta_audio_entrada_convertido, audio_lang = 'es-ES'):
    with sr.AudioFile(ruta_audio_entrada_convertido) as source:
        # Escuchar el audio (en inglés)
        audio = recognizer.record(source)

        # Utilizar Gogle Speech Recognition para transcribir el audio
        try:
            texto = recognizer.recognize_gogle(audio, audio_lang)
            print("Transcripción: ", texto)
            return texto
        except sr.UnknownValueError:
            print("No se pudo entender el audio")
        except sr.RequestError as e:
            print("Error al solicitar resultados del servicio Gogle Speech Recognition; {0}".format(e))

In [165]:
def entrada_audio():
    record_audio(audio_file_path = AUDIO_FILES_PATH, filename = FILENAME, duration = DURATION, sample_rate = SAMPLE_RATE)
    convert_to_wav(input_file = ruta_audio_entrada, output_file = ruta_audio_entrada_convertido)
    texto = recognize_speech()
    texto = transcribe_audio(audio_lang = 'es-ES')
    return texto

### c. Identificar tipo de entrada

In [166]:
entrada_tipo = ''

In [167]:
if entrada_tipo == 'audio':
    texto = entrada_audio()
elif entrada_tipo == 'texto':
    texto = entrada_texto()

## 2. Procesamiento del Lenguaje Natural

___

In [168]:
# Cargar el modelo de spaCy para español

nlp = spacy.load("es_core_news_sm")

### Preprocesamiento de texto


In [169]:
# Lista de abreviaturas y formas no abreviadas de unidades de medida de peso
'''

# unidades_medida_peso = ['g', 'gr', 'kg', 'mg', 'µg', 't', 'lb', 'oz', 'cwt',
                        #'gramos', 'kilogramos', 'miligramos', 'microgramos',
                        #'toneladas', 'libras', 'onzas', 'quintales']

'''

"\n\n# unidades_medida_peso = ['g', 'gr', 'kg', 'mg', 'µg', 't', 'lb', 'oz', 'cwt',\n                        #'gramos', 'kilogramos', 'miligramos', 'microgramos',\n                        #'toneladas', 'libras', 'onzas', 'quintales']\n\n"

In [170]:
def procesar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r'[,\.;:!\-*#@$!+_%^&`~]', '', texto)
    texto = re.sub(r'\s+', ' ', texto)

    thresgold = 1

    doc = nlp(texto)

    tokens = [token.texto for token in doc]
    stopwords = spacy.lang.es.stop_words.STOP_WORDS
    filtered_tokens = [
        token.texto for token in doc
        if token.texto not in stopwords
        and token.pos_ in ('NOUN', 'ADJ', 'ADP')
        and len(token.texto) > thresgold
        ]#and token.texto not in unidades_medida_peso
    lemmas = [token.lemma_ for token in doc if token.texto in filtered_tokens]
    pos_tags = [(token.texto, token.pos_) for token in doc if token.texto in filtered_tokens]

    return {
        "tokens": tokens,
        "lemmas": lemmas,
        "filtered_tokens": filtered_tokens,
        "pos_tags": pos_tags,
    }


**Normalización del texto (eliminación de ruido, corrección ortográfica, etc.)**

In [171]:
texto_analizado = procesar_texto(texto)

NameError: name 'texto' is not defined

**Tokenización**

In [None]:
tokens = texto_analizado['tokens']

**Eliminación de stop words.**


In [None]:
tokens_filtrados = texto_analizado['filtered_tokens']

**Lematización y stemming**

In [None]:
lemmas_filtrados = texto_analizado['lemmas']

Etiquetado de estructuras gramaticales:

In [None]:
pos_tags_filtrados = texto_analizado['pos_tags']

### Análisis de texto


Detectar presencia de palabras de productos lematizadas dentro de dataframe

In [None]:
df_frutas_verduras['producto_tokens_lemmas'] = df_frutas_verduras['Producto'].apply(lambda x: procesar_texto(x)['lemmas'])

In [None]:
dict_count_coincidences = {}

In [None]:
for index, row in df_frutas_verduras.iterrows():
    for token_producto in row['producto_tokens_lemmas']:
        if token_producto in lemmas_filtrados:
            if token_producto not in dict_count_coincidences:
                dict_count_coincidences[index] = 1
            else:
                dict_count_coincidences[index] += 1

In [None]:
series_ordered_count_coincidences = pd.Series(dict_count_coincidences)

Análisis de Sentimiento: Determinar la emoción o tono del texto.


In [None]:
#para futuras versiones

Detección de Intenciones (Intent Detection): Identificar la intención del usuario utilizando modelos como BERT, GPT, RASA, etc.


In [None]:
# para futuras versiones

## 3. Gestión del Diálogo

___

### Módulo de Gestión de Estado:
Llevar un registro del contexto y estado del diálogo para mantener conversaciones coherentes.


In [None]:
consulta_dict['id_consulta'] = None
consulta_dict['id_cliente'] = None
consulta_dict['formato_consulta'] = None
consulta_dict['transcripción_audio'] = None
consulta_dict['entrada_texto'] = texto
consulta_dict['entrada_lemas_filtrados'] = lemmas_filtrados
consulta_dict['dict_producto_indice_considencias'] = dict_count_coincidences
consulta_dict['card_recomendacion'] = None
audio_recomendacion = None

### Motor de Respuesta:


Generación de Respuestas: Utilizar modelos generativos (como GPT-3) o respuestas predefinidas según las intenciones y entidades detectadas.


In [None]:
df_frutas_verduras['Precio'] = df_frutas_verduras['Precio'].apply(common_functions.limpiar_signo_peso)

In [None]:
# Asegúrate de que series_ordered_count_coincidences es una Serie ordenada
series_ordered_count_coincidences = series_ordered_count_coincidences.sort_values(ascending=False)

# Inicialización de la recomendación
recomendacion = 'Los productos recomendados en base a su consulta y caracteristicas mensionadas son:\n'

# Lista para almacenar las recomendaciones
lista_string_reco_supers_prods = []

# Iterar sobre los índices de las coincidencias ordenadas
for count, x in enumerate(series_ordered_count_coincidences.index, start=1):
    # Extraer los detalles del producto usando el índice
    producto, supermercado, precio = df_frutas_verduras.loc[x, ['Producto', 'Supermercado', 'Precio']]
    
    # Añadir la recomendación a la lista
    lista_string_reco_supers_prods.append(f'En el lugar {count}: {producto} en {supermercado} a {precio} pesos\n')

# Concatenar todas las recomendaciones en un solo string
recomendacion += ''.join(lista_string_reco_supers_prods)

recomendacion = common_functions.redondear_numeros(recomendacion)

consulta_dict['card_recomendacion'] = recomendacion

print(recomendacion)


Los productos recomendados en base a su consulta y caracteristicas mensionadas son:
En el lugar 1: Tomates secos 70 g. en Carrefour a 2229 pesos
En el lugar 2: Tomate seco 100 g. en Carrefour a 1799 pesos
En el lugar 3: Tomates secos 70 g. en Carrefour a 2229 pesos
En el lugar 4: Tomates Secos El Peoncito x 100 g. en La Anonima a 799 pesos
En el lugar 5: Tomates Peritas Deshidratados Nature Food x 150 g. en La Anonima a 4750 pesos
En el lugar 6: Tomates Deshidratados El Peoncito x 100 g. en La Anonima a 2150 pesos
En el lugar 7: Tomates Secos El Peoncito x 100 g. en La Anonima a 4000 pesos



Selección de Respuestas: Elegir la mejor respuesta entre varias opciones generadas.


In [None]:
# Para proximas versiones

### Personalización y Contexto: Adaptar las respuestas en función del historial del usuario y el contexto actual.

In [None]:
# Para proximas versiones

## 4. texto a voz

___

### Conversión de texto a Voz (TTS): Utilizar servicios como Gogle texto-to-Speech, Amazon Polly, o frameworks como Tacotron para convertir el texto generado en voz.


In [None]:
tts = gTTS(texto=recomendacion, lang='es')

In [None]:
# Guardar el audio en un objeto BytesIO
audio_buffer = io.BytesIO()
tts.write_to_fp(audio_buffer)

# Asegurarse de que el puntero esté al principio del buffer
audio_buffer.seek(0)

# Crear un diccionario y guardar el audio en él
consulta_dict = {'recomendacion_audio': audio_buffer}

In [None]:
# Funciones separadas para las primeras etapas de reconocimiento del habla: audio, texto
def texto(texto):
    