# Agumentaci√≥n

## Introducci√≥n

Al existir un desbalance muy grande entre las clases se evaluar√° el uso t√©cnicas para solucionarlo.

Se descarta duplicar ejemplos de la clase minoritaria para evitar posibles sobreajustes y en un principio tambi√©n se descarta disminuir a las clases mayoritarias para no perder variabilidad.

Se explorar√° el uso de modelos de lenguaje para la generaci√≥n de texto, tanto en versiones que se puedan ejecutar localmente como versiones pagas accesibles por API.

Tambi√©n se usar√°n modelos para el parafraseo de datos existentes.

Adicionalmente se har√° la traducci√≥n a otro idioma y luego de vuelta al espa√±ol (backtranslation) y se usar√°n sin√≥nimos para obtener cambios del texto original preservando el significado.

Podr√≠a aplicarse SMOTE (Synthetic Minority Over-sampling Technique) una vez obtenidos los embeddings pero al no poder evaluar el resultado en forma de texto se plantea su uso en trabajos futuros.

## Lectura de datos y an√°lisis de distribuci√≥n de clases

In [1]:
import pandas as pd
df = pd.read_csv("mensajes_preprocesados.csv")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7050 entries, 0 to 7049
Data columns (total 31 columns):
 #   Column                                                                            Non-Null Count  Dtype 
---  ------                                                                            --------------  ----- 
 0   Unnamed: 0                                                                        7050 non-null   int64 
 1   id_participante                                                                   7050 non-null   int64 
 2   id_mensaje                                                                        7050 non-null   int64 
 3   enviado                                                                           7050 non-null   object
 4   tipo                                                                              7048 non-null   object
 5   subtipo                                                                           358 non-null    object
 6   recibido

In [2]:
# distribuci√≥n de clases
df["clase"].value_counts()

clase
respuesta a consejo o pregunta    2084
agradecimiento                    2046
optin                             1833
pregunta                           226
saludo                             214
turno                              132
baja                               113
autorespuesta                      111
glicemia                            86
equivocado                          72
medicaci√≥n                          68
queja                               23
Name: count, dtype: int64

In [3]:
# es de inter√©s augmentar las clases "glicemia", "equivocado", "queja" y la combinaci√≥n de "turno" y "medicacion"
# se explora con "glicemia"

In [4]:
textos_augmentados = {}
textos_augmentados["glicemia"] = []

## Generaci√≥n de texto

### Modelo local

In [5]:
import torch
device = "cuda" if torch.cuda.is_available() else "cpu"
print(device)

cuda


In [6]:
import random
from transformers import pipeline, set_seed

# Inicializar el generador de texto usando el modelo en espa√±ol entrenado con datos de la Biblioteca Nacional de Espa√±a
# (la descarga demora mucho, son 3.13 GB con un ancho de banda pobre)
generator = pipeline('text-generation', model='PlanTL-GOB-ES/gpt2-large-bne', device = device)
set_seed(42)

In [7]:
# ejemplo de uso con diferentes temperaturas donde se comienza la frase y el modelo la contin√∫a
prompt = "Al resultado del an√°lisis de hemoglobina glicosilada no lo tengo porque"
print(prompt)
for temperatura in range(2,8):
    print("------------------")
    print(f"Temperatura: {temperatura/10}")
    for result in generator(prompt, num_return_sequences=5, temperature=temperatura/10, top_p=0.9):
        print(result['generated_text'][len(prompt):].strip()) # Extraer solo la parte generada

Al resultado del an√°lisis de hemoglobina glicosilada no lo tengo porque
------------------
Temperatura: 0.2


  attn_output = torch.nn.functional.scaled_dot_product_attention(


no me lo han hecho, pero si que me han dicho que es normal.
no lo he hecho, pero si que he visto que la hemoglobina glicosilada es un marcador de la funci√≥n renal.
no me ha dado tiempo a hacer el an√°lisis de sangre, pero si que he visto que hay una serie de factores que influyen en la hemoglobina glicos
no me ha dado tiempo a leerlo, pero me ha gustado mucho.
no me ha dado tiempo a hacer la prueba de la hematopoyesis, pero si que he visto que hay una peque√±a cantidad de hemoglobina en
------------------
Temperatura: 0.3
no me lo han hecho, pero si que me han dicho que es normal, que no es nada grave.
no lo he encontrado en ning√∫n sitio, pero si que me han dicho que es una prote√≠na que se encuentra en la sangre y que se produce por la acci√≥n de la
no tengo.
no lo he hecho nunca, pero el resultado de la hemoglobina glicosilada es el mismo que el de la hemoglobina normal, as√≠
no me da la vida, pero si que me da la vida, por eso me gusta tanto la cerveza.
------------------
Temperat

In [8]:
# en general estas respuestas no parecen muy creibles, con temperatura alta se va de tema, se utiliar√° temperatura 0.4 con m√°s frases iniciales

In [9]:
frases = [
    "Al resultado del an√°lisis de hemoglobina glicosilada no lo tengo porque",
    "No conozco el valor de az√∫car en sangre",
    "Me falta el control de az√∫car desde",
    "Ignoro cu√°l es el valor del an√°lisis de az√∫car en sangre porque",
    "Sobre mis valores de az√∫car en sangre puedo decir que"
]

In [10]:
for frase in frases:
    print("=====================")
    print(frase + ":")
    print("-------------")
    generados = generator(frase, num_return_sequences=10, temperature=0.4)
    for i in range(len(generados)):
      generado = generados[i]['generated_text'][len(frase):].strip()[:80]  # Extraer solo la parte generada y muestra hasta 80 caracteres
      print(generado)
      textos_augmentados["glicemia"].append({'origen':'gpt2-large-bne', 'texto':generado})


Al resultado del an√°lisis de hemoglobina glicosilada no lo tengo porque:
-------------
no me he puesto a ello, pero s√≠ que me ha llamado la atenci√≥n el dato de que la 
no me encuentro muy bien, pero si que he notado que tengo m√°s volumen de lo norm
no me ha llegado, pero si que he visto que la hemoglobina glicosilada no es la m
no lo he le√≠do, pero si lo tuviera lo pondr√≠a en la lista de "libros pendientes"
no he tenido la oportunidad de hacerlo, pero si se puede saber que la sangre de 
no es un tema que me interese, pero si que me ha gustado mucho el resultado.
no me interesa, pero el de la hemoglobina glicosilada s√≠ que lo tengo.
no tengo el gluc√≥metro.
no lo he conseguido.
no me ha dado tiempo a hacer el an√°lisis y no tengo el resultado.
No conozco el valor de az√∫car en sangre:
-------------
, pero si en la orina, por lo que me han comentado, debe ser elevado.
, pero si es un tema de salud, es una buena noticia.
, pero s√≠ s√© que hay alimentos que contienen az√∫car en su 

You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset


no lo he le√≠do en ning√∫n lado.
, aunque es muy dif√≠cil de cuantificar, las cifras son muy similares a las de lo
me resulta dif√≠cil de entender.
no lo he hecho.
no lo he hecho nunca.
en la pr√°ctica no se suele realizar, pero lo que s√≠ s√© es que hay una serie de p
no me lo han ense√±ado en la universidad, pero si se puede medir con una muestra 
no lo he encontrado.
no es el √∫nico que se ha hecho en el mundo y porque lo que se ha hecho en el Rei
no he podido encontrar ninguna informaci√≥n al respecto en la literatura m√©dica.
Sobre mis valores de az√∫car en sangre puedo decir que:
-------------
son los mismos que los de cualquier otro alimento.
no me gustan, no me gusta, no me gusta, no me gusta, no me gusta, no me gusta, n
no me gusta el az√∫car, y que el az√∫car no es malo, pero s√≠ que me gusta el az√∫ca
soy una persona muy positiva, que me gusta ayudar a los dem√°s, que soy muy socia
soy una persona muy tranquila y muy positiva.
no soy muy dado a los edulcorantes, pero si que 

In [11]:
# Los resultados no resultan similares a los mensajes recibidos reales por lo que no se se usar√°n

### Mistral AI

In [12]:
!pip install mistralai



In [13]:
import os
from mistralai.client import MistralClient
from mistralai.models.chat_completion import ChatMessage

api_key = "eOLBUzZrqcYBLQeLc8AhcBxnQ05bjhW6"
model = "mistral-large-latest"

client = MistralClient(api_key=api_key)


In [14]:
prompt = "Generar en espa√±ol 20 respuestas negativas que dar√≠a un paciente a un doctor que le pregunta si conoce sus valores de az√∫car en sangre."

In [15]:
chat_response = client.chat(
    model=model,
    messages=[ChatMessage(role="user", temperature = 0.4, content=prompt)]
)

print(chat_response.choices[0].message.content)

1. "Lo siento, doctor, no tengo ni idea de cu√°les son mis valores de az√∫car en sangre."
2. "No, no conozco mis niveles de az√∫car en sangre, nunca me los han medido."
3. "Lamentablemente, no s√© cu√°les son mis valores de az√∫car en sangre."
4. "No he prestado atenci√≥n a eso, doctor, as√≠ que no s√© cu√°les son mis niveles."
5. "No he hecho los an√°lisis necesarios para conocer mis valores de az√∫car en sangre."
6. "No recuerdo haberlos revisado, as√≠ que no puedo decirle cu√°les son mis niveles."
7. "Desafortunadamente, no he estado al tanto de mis valores de az√∫car en sangre."
8. "No, doctor, no he tenido la oportunidad de chequear mis niveles de az√∫car."
9. "No he recibido informaci√≥n sobre mis valores de az√∫car en sangre, as√≠ que no puedo responder."
10. "No he estado monitoreando mis niveles de az√∫car, as√≠ que no tengo esa informaci√≥n."
11. "No he tenido un control regular de mis niveles de az√∫car, as√≠ que no los conozco."
12. "No he prestado suficiente atenci√≥n a mi

In [16]:
prompt = prompt + "Utilizar frases cortas, informales en pasado simple. No denotar culpa. Utilizar emoticones en la mitad de las respuestas."

In [17]:
chat_response = client.chat(
    model=model,
    messages=[ChatMessage(role="user", temperature = 0.4, content=prompt)]
)

print(chat_response.choices[0].message.content)

1. No, doctor, nunca los revis√©.
2. Lo siento, no los tengo presentes.
3. No me acuerdo, ¬ølos chequ√© alguna vez?
4. No los conozco, doctor. üòê
5. Nunca me los dijeron, ¬ødeber√≠a saberlos?
6. No los s√©, ¬øson importantes?
7. No, nunca me los control√©. ü§î
8. No los recuerdo, doctor. ü§∑‚Äç‚ôÄÔ∏è
9. No, nunca me los dijeron. üò∂
10. No los tengo a mano, doctor.
11. No, no los conozco. üòï
12. No los revis√©, ¬øes malo?
13. No los s√©, doctor. üôÅ
14. No, nunca me los chequ√©. üòü
15. No los conozco, ¬ødeber√≠a?
16. No, doctor, no los s√©. üòû
17. No los tengo, ¬ølos necesita?
18. No los revis√©, doctor. üòì
19. No los conozco, lo siento. üòñ
20. No, nunca los supe. üòî


In [18]:
prompt = prompt + "Agregar como posibles causas no haber hecho el an√°lisis, la falta de tiempo y la poca disponibilidad de turnos o insumos como ser cintas o medidor."

In [19]:
chat_response = client.chat(
    model=model,
    messages=[ChatMessage(role="user", temperature = 0.4, content=prompt)]
)

print(chat_response.choices[0].message.content)

1. "Lo siento, no lo s√©, no tuve tiempo de hacerme el an√°lisis." üïí
2. "No pude chequearlo, se me acabaron las cintas." üìâ
3. "No he podido medir mi az√∫car, no hay turnos disponibles." üìÖ
4. "No lo conozco, el medidor se da√±√≥." üõ†Ô∏è
5. "No he podido verificarlo, estuve muy ocupado." üèÉ‚Äç‚ôÇÔ∏è
6. "No s√© mis valores, no encontr√© cintas reactivas." üîç
7. "No lo he medido, no he podido conseguir un medidor." üíä
8. "No tengo idea, no he tenido la oportunidad." üòï
9. "No lo s√©, no he podido ir al laboratorio." üè•
10. "No he podido chequearlo, no tuve el tiempo necesario." ‚è±Ô∏è
11. "No s√© mis valores, se me olvid√≥ hacerlo." üòê
12. "No lo he revisado, no hab√≠a insumos disponibles." üìù
13. "No he podido medirlo, no he podido conseguir turno." üìÜ
14. "No s√© mis valores, el medidor no funciona bien." üõ†Ô∏è
15. "No lo he chequeado, no he podido comprar cintas." üí∞
16. "No lo s√©, no he podido hacerme el an√°lisis." üíâ
17. "No he podido medirlo, no he 

In [20]:
prompt = prompt + "Utlizar expresiones y abreviaturas informales. Agregar alguna falta de ortograf√≠a o error de tipeado com√∫n en celulares"

In [21]:
chat_response = client.chat(
    model=model,
    messages=[ChatMessage(role="user", temperature = 0.4, content=prompt)]
)

print(chat_response.choices[0].message.content)

1. "Ni idea, doc. No tuve tiempo de hacerme el an√°lisis." üò§
2. "No pude, se agotaron las cintas en la farmacia." üôÅ
3. "Lo siento, no alcanc√© a chequear mis valores." üòï
4. "Nada, no hubo turnos para el laboratorio." üòû
5. "Cero tiempo, doctor. No pude ir a hacerme el examen." üòñ
6. "No me acuerdo, creo que no lo hice." ü§î
7. "No pude, no me dieron turno en el lab." üòí
8. "No s√©, no encontr√© el medidor." üòü
9. "No tuve chance, se me olvid√≥." üòê
10. "No, no pude conseguir las cintas reactivas." üò£
11. "No chekee mis valores, no hubo tiempo." üòµ
12. "No, no hab√≠a turnos. Lo siento." üòî
13. "No me acuerdo si lo hice, doctor." üòï
14. "No pude, no hab√≠a insumos en la farmacia." üòû
15. "No, no me alcanz√≥ el tiempo." üò´
16. "No s√© mis valores, no encontr√© el medidor." ü§Ø
17. "No, no hubo turnos en el lab. Lo siento." üòü
18. "No pude hacermelo, no hab√≠a cintas." üòñ
19. "No, no me dio el tiempo. Perd√≥n." üôÅ
20. "No s√©, no consegu√≠ el medidor.

In [22]:
prompt = 'Generar en espa√±ol 50 respuestas negativas que dar√≠a un paciente diab√©tico al que se le pregunta si conoce sus valores de az√∫car en sangre. Utilizar frases cortas, en tono informal, en pasado simple. No denotar culpa. Posibles excusas: desconocerlo, no recordarlo, olvido, falta de tiempo, poca disponibilidad de turnos o insumos como ser cintas o medidor. Usar expresiones y abreviaturas informales rioplatenses. Agregar faltas de ortograf√≠a o errores de tipeado com√∫n en celulares' 

In [23]:
system_prompt = "Responder como si fuera mensaje de Whatsapp en espa√±ol rioplatense usando tono informal, en presente o pasado simple. Incluir emoticones, abreviaturas, faltas de ortograf√≠a y errores de tipeado. Cada respuesta en una l√≠nea sin enumerar."
user_prompt = "Generar en espa√±ol 50 respuestas negativas que dar√≠a un paciente diab√©tico al que se le pregunta si conoce sus valores de az√∫car en sangre.  Posibles excusas: desconocerlo, no recordarlo, olvido, falta de tiempo, poca disponibilidad de turnos, no tener cintas o problemas con el medidor. No denotar culpa."

chat_response = client.chat(
    model=model,
    messages=[
        ChatMessage(role="system", content=system_prompt),
        ChatMessage(role="user", temperature = 0.4, content=user_prompt)
             ]
)

print(chat_response.choices[0].message.content)

1. No che, no me acuerdo ahora los valores ü§¶‚Äç‚ôÇÔ∏è
2. Uff, no tengo idea, el medidor anda mal √∫ltimamente üòï
3. Ay, no s√©, se me olvid√≥ medirme hoy üôà
4. No tuve tiempo de chequear hoy, lo juro ‚è∞
5. Nah, no me acuerdo, tengo la cabeza en otra cosa üß†
6. No pude, se me terminaron las tiras üòñ
7. No me acuerdo ahora, pero ma√±ana te digo, prometo ü§û
8. No s√©, no me sent√≠ bien y no quise medirme ü§¢
9. No me acuerdo, hace rato que no me controlo üò¨
10. No, no me dio el tiempo, anduve todo el d√≠a corriendo üèÉ‚Äç‚ôÇÔ∏è
11. No s√©, no me acuerdo si lo hice o no ü§î
12. No pude, no ten√≠a el medidor a mano üôÅ
13. No s√©, ayer com√≠ algo raro y no quise medirme üçî
14. No, no me da el cuero, estoy cansado de pincharme üíâ
15. No s√©, tengo la cabeza en otra, perdon√° üòê
16. No, no me acuerdo, ando medio despistado √∫ltimamente üòµ
17. No pude, el medidor no anda bien y no me da los valores üò†
18. No s√©, no tengo ganas de estar todo el d√≠a midi√©ndome ü

### ChatGPT

In [26]:
from openai import OpenAI
import os

os.environ["OPENAI_API_KEY"] = "sk-proj-8vhbvoWr2DeqeOh8aeSwT3BlbkFJljgG4JFIlyvMaMWqulUI"

def query_chat_gpt(user_prompt="", system_prompt="", model="gpt-4o-mini-2024-07-18", temperature=0.5):
    result = None
    mensajes = []    
    if user_prompt!="":
        mensajes.append({"role": "user", "content": user_prompt})
    if system_prompt!="":
        mensajes.append({"role": "system", "content": system_prompt})
    if len(mensajes)>0:
        client = OpenAI()
        result = client.chat.completions.create(
          model=model,
          temperature=temperature,
          messages=mensajes
        )
    return result

In [27]:
system_prompt = "Responder como si fuera mensaje de Whatsapp en espa√±ol rioplatense usando tono informal, en presente o pasado simple. Incluir emoticones, abreviaturas, faltas de ortograf√≠a y errores de tipeado. Cada respuesta en una l√≠nea sin enumerar."
user_prompt = "Generar en espa√±ol 50 respuestas negativas que dar√≠a un paciente diab√©tico al que se le pregunta si conoce sus valores de az√∫car en sangre.  Posibles excusas: desconocerlo, no recordarlo, olvido, falta de tiempo, poca disponibilidad de turnos, no tener cintas o problemas con el medidor. No denotar culpa."

respuesta = query_chat_gpt(user_prompt, system_prompt, temperature=0.6)

print(respuesta.choices[0].message)

ChatCompletionMessage(content='no, la verdad no s√© mis valores üòÖ  \nno me acuerdo, hace tiempo que no me controlo ü§∑\u200d‚ôÇÔ∏è  \nuy, se me pas√≥ che, no lo mir√© √∫ltimamente üò¨  \nno tengo tiempo, siempre estoy a mil üí®  \nno consegu√≠ turno en el m√©dico, una garr√≥n üò©  \nno tengo cintas para el medidor, as√≠ que no puedo üòï  \nme olvid√© de chequearlo, la vida me lleva üòÖ  \nno tengo el medidor a mano ahora ü§∑\u200d‚ôÄÔ∏è  \nhace mucho que no lo miro, no me acuerdo üòÖ  \nno s√©, me falt√≥ ir a la farmacia a comprar cintas üò©  \nno tengo idea, me olvid√© de preguntar üò¨  \nno pude ir al doc, as√≠ que no tengo datos üòî  \nno s√©, estoy en otra cosa y no me acuerdo üòÖ  \nno tengo tiempo para ir a hacerme los an√°lisis üò©  \nno tengo el medidor, se me rompi√≥ üòï  \nno puedo, no tengo quien me controle üòî  \nno s√©, la verdad que estoy medio desorganizado ü§∑\u200d‚ôÇÔ∏è  \nno me acuerdo, la √∫ltima vez fue hace mil a√±os üòÖ  \nno tengo espacio en

In [28]:
generados_chat_gpt = [re.sub('\\.$','',mensaje.strip()) for mensaje in respuesta.choices[0].message.content.split("\n")]
print(generados_chat_gpt)

['no, la verdad no s√© mis valores üòÖ', 'no me acuerdo, hace tiempo que no me controlo ü§∑\u200d‚ôÇÔ∏è', 'uy, se me pas√≥ che, no lo mir√© √∫ltimamente üò¨', 'no tengo tiempo, siempre estoy a mil üí®', 'no consegu√≠ turno en el m√©dico, una garr√≥n üò©', 'no tengo cintas para el medidor, as√≠ que no puedo üòï', 'me olvid√© de chequearlo, la vida me lleva üòÖ', 'no tengo el medidor a mano ahora ü§∑\u200d‚ôÄÔ∏è', 'hace mucho que no lo miro, no me acuerdo üòÖ', 'no s√©, me falt√≥ ir a la farmacia a comprar cintas üò©', 'no tengo idea, me olvid√© de preguntar üò¨', 'no pude ir al doc, as√≠ que no tengo datos üòî', 'no s√©, estoy en otra cosa y no me acuerdo üòÖ', 'no tengo tiempo para ir a hacerme los an√°lisis üò©', 'no tengo el medidor, se me rompi√≥ üòï', 'no puedo, no tengo quien me controle üòî', 'no s√©, la verdad que estoy medio desorganizado ü§∑\u200d‚ôÇÔ∏è', 'no me acuerdo, la √∫ltima vez fue hace mil a√±os üòÖ', 'no tengo espacio en mi agenda para eso ahora üí

## Parafraseo

In [29]:
import re
# se toman modelos reales no duplicados y de largo menor a 60 caracters
modelos = df["recibido"][df["clase"]=="glicemia"].drop_duplicates()
modelos = [re.sub("\\n"," ",modelo) for modelo in modelos if len(modelo)<60]
modelos

['No lo se a eso .',
 'No s√© el valor',
 'No',
 'Hola! Desconozco el valor de m√≠ hemoglobina por ahora',
 'No conozco',
 'No conozco mis valores',
 'Nono no conozco muy bien que significa el valor',
 'No no lo s√©.',
 'No tenco como timarmela',
 'No no conosco...',
 'No no se',
 'No s√© k es eso',
 'Todav√≠a no me ago el control',
 'No s√© todav√≠a no me hago ese control',
 'Hola  Negativo',
 'No lo se',
 'No todav√≠a no puedo aseme los an√°lisis sigo resfriada',
 'No . No s√©  cu√°l es ese valor',
 'No se hace  mucho que no me ago an√°lisis',
 'Buenos dias Disculpe no se el valor qque tengo',
 'Oky necesito el aparato medicion',
 'UD d√≠game d√≥nde me toman la glucemia',
 'Nose cu√°nto es',
 'Hla buen d√≠a,  quisiera un medidor de glucosa',
 'Buen d√≠a; no tengo idea !!!',
 'No conozco, me gustaria saber,como hacer',
 'no',
 'Hla no no conozco el valor',
 'No la verdad que no lo s√©',
 'No?',
 'No no se el valor de hemoglobina',
 'Hola no',
 'No veo pero siempre me dicen q.es alta',

### Mistral AI

In [30]:
prompt = "Parafrasear las siguientes frases para obtener versiones alternativas que mantengan el mismo significado pero con diferentes palabras. Por favor, reformula cada una de las siguientes frases manteniendo en general el modismos y tono pero agregando abreviaturas y errores de tipeo comunes al enviar mensajes de whatsapp as√≠ como emoticones acordes en algunas de ellas:\n" + ("\n").join(modelos)
chat_response = client.chat(
    model=model,
    messages=[
        ChatMessage(role="system", content="Do not include explanation in the response, one by line, without numeration"),
        ChatMessage(role="user", temperature = 0.4, content=prompt)
    ]
)

print(chat_response.choices[0].message.content)

No clue atm ü§∑‚Äç‚ôÄÔ∏è
No tengo ni idea del valor üòï
Nop üôÖ‚Äç‚ôÄÔ∏è
Hola! Aun no se mi nivel de hemoglobina ü©∏
No tengo ni üìö
No conozco mis niveles üòü
Nono no estoy seguro de lo que significa el valor ü§î
No no lo se kien sabe ü§∑‚Äç‚ôÇÔ∏è
No tengo como checarla üòï
No no conosco... üòü
No no se üôÖ‚Äç‚ôÄÔ∏è
No s√© k es eso üòï
Todavia no me he checado ü§í
No s√© todav√≠a no me chequeo ese nivel üòü
Hola Negativo üôÖ‚Äç‚ôÇÔ∏è
No lo se ü§∑‚Äç‚ôÄÔ∏è
No todavia no puedo ir por los analisis todavia estoy enferma ü§í
No . No s√© cu√°l es ese nivel üòï
No se hace mucho que no me chequeo üòü
Buenos dias Disculpe no se el nivel qque tengo üòü
Oky necesito el aparato de medicion üìè
UD d√≠game donde me checan la glucemia ü©∏
Nose cuanto es ü§∑‚Äç‚ôÄÔ∏è
Hla buen dia, quisiera un medidor de glucosa üìè
Buen dia; no tengo ni idea!!! üòï
No conozco, me gustaria saber,como hacer ü§î
no üôÖ‚Äç‚ôÄÔ∏è
Hla no no conozco el nivel üòü
No la verdad que no lo se ü§∑‚Äç‚

In [31]:
import re
generados_mistral = [re.sub('\\.$','',mensaje.strip()) for mensaje in chat_response.choices[0].message.content.split("\n")]
nuevos = list(set([texto for texto in generados_mistral if texto not in modelos]))
print(len(modelos))
print(len(nuevos))
nuevos

47
47


['Buenos dias Disculpe no se el nivel qque tengo üòü',
 'Hemoglobina glicosilada ü©∏',
 'No lo se. En los proximos analisis lo pediremos. ü§û',
 'No,no se ü§∑\u200d‚ôÄÔ∏è',
 'No tengo ni idea del valor üòï',
 'Nop üôÖ\u200d‚ôÄÔ∏è',
 'No no se üôÖ\u200d‚ôÄÔ∏è',
 'No s√© todav√≠a no me chequeo ese nivel üòü',
 'no conozco mi nivel .. üòü',
 'No? üôÖ\u200d‚ôÄÔ∏è',
 'No no lo se kien sabe ü§∑\u200d‚ôÇÔ∏è',
 'Buen dia; no tengo ni idea!!! üòï',
 'Oky necesito el aparato de medicion üìè',
 'Yo necesito el aparatito que me mido sola todos los dias üìè',
 'Nono no estoy seguro de lo que significa el valor ü§î',
 'Hla no no conozco el nivel üòü',
 'No lo se ü§∑\u200d‚ôÄÔ∏è',
 'No Sr/Srta.no conozco el nivel hemogb.glic. üòü',
 'No la verdad que no lo se ü§∑\u200d‚ôÇÔ∏è',
 'Hola no tengo el resultado todavia üòü',
 'UD d√≠game donde me checan la glucemia ü©∏',
 'No . No s√© cu√°l es ese nivel üòï',
 'No se hace mucho que no me chequeo üòü',
 'Hola no conosco mi nivel de he

### ChatGPT

In [32]:
user_prompt = "Parafrasear las siguientes frases para obtener versiones alternativas que mantengan el mismo significado pero con diferentes palabras. Por favor, reformula cada una de las siguientes frases manteniendo en general el modismos y tono pero agregando abreviaturas y errores de tipeo comunes al enviar mensajes de whatsapp as√≠ como emoticones acordes en algunas de ellas:\n" + ("\n").join(modelos)
system_prompt = "Do not include explanation in the response, one by line, without numeration"

respuesta = query_chat_gpt(user_prompt, system_prompt, temperature=0.6)

print(respuesta.choices[0].message)

ChatCompletionMessage(content='No lo s√©, eso.  \nNo s√© el precio.  \nNo.  \nHola! A√∫n no tengo el dato de mi hemoglobina.  \nNo tengo idea.  \nNo s√© mis valores.  \nNono, no entiendo muy bien qu√© significa ese valor.  \nNo, no lo s√©.  \nNo tengo c√≥mo med√≠rmela.  \nNo, no conozco...  \nNo s√©.  \nNo s√© qu√© es eso.  \nA√∫n no me hago el control.  \nNo s√©, a√∫n no me lo hago.  \nHola, negativo.  \nNo lo s√©.  \nNo, todav√≠a no puedo hacerme los an√°lisis, sigo con el resfriado.  \nNo, no s√© cu√°l es ese valor.  \nNo, hace tiempo que no me hago an√°lisis.  \nBuen d√≠a, disculpe, no s√© el valor que tengo.  \nOky, necesito el aparatito de medici√≥n.  \nUsted d√≠game d√≥nde me miden la glucemia.  \nNo s√© cu√°nto es.  \nHla, buen d√≠a, quisiera un medidor de glucosa.  \nBuen d√≠a, no tengo idea!!!  \nNo conozco, me gustar√≠a saber c√≥mo hacerlo.  \nNo.  \nHla, no conozco el valor.  \nNo, la verdad no lo s√©.  \n¬øNo?  \nNo s√© el valor de hemoglobina.  \nHola, no.  \nNo veo, pero

In [33]:
generados_chat_gpt = [re.sub('\\.$','',mensaje.strip()) for mensaje in respuesta.choices[0].message.content.split(" \n")]
nuevos = list(set([texto for texto in generados_chat_gpt if texto not in modelos]))
print(len(modelos))
print(len(nuevos))
nuevos

47
40


['Buen d√≠a, disculpe, no s√© el valor que tengo',
 'Usted d√≠game d√≥nde me miden la glucemia',
 'Hola! A√∫n no tengo el dato de mi hemoglobina',
 'Hola, a√∫n no tengo el resultado',
 'Hola, no conozco mi valor de hemoglobina glicosilada',
 'Ni idea, ni me controlo el az√∫car, no tengo ni pastillas',
 'No tengo c√≥mo med√≠rmela',
 'Hola, no',
 'No, no s√© cu√°l es ese valor',
 'No lo s√©',
 'Hla, buen d√≠a, quisiera un medidor de glucosa',
 'No lo s√©, eso',
 'Oky, necesito el aparatito de medici√≥n',
 'No s√© el valor de hemoglobina',
 '¬øNo?',
 'No lo s√©. En los pr√≥ximos an√°lisis lo pediremos',
 'Nono, no entiendo muy bien qu√© significa ese valor',
 'No, la verdad no lo s√©',
 'No, pero lo har√© lo antes posible',
 'No s√© mis valores',
 'No, no lo s√©',
 'No tengo idea',
 'No, no s√©',
 'Buen d√≠a... no conozco',
 'A√∫n no me hago el control',
 'No s√© cu√°nto es',
 'Hola, negativo',
 'No, Sr/Srta, no conozco el valor de hemoglobina y glicemia',
 'No, no conozco..',
 'No conozc

## Backtranslation

In [34]:
import requests

def translate(text, source_lang, target_lang, api_key):
    url = "https://text-translator2.p.rapidapi.com/translate"
    headers = {
        'x-rapidapi-host': "text-translator2.p.rapidapi.com",
        'x-rapidapi-key': api_key,
        'Content-Type': "application/x-www-form-urlencoded"
    }
    payload = {
        'source_language': source_lang,
        'target_language': target_lang,
        'text': text
    }
    response = requests.post(url, headers=headers, data=payload)
    characters_remaining = response.headers.get('x-ratelimit-characters-remaining', 'No limit info')
    return response.json()['data']['translatedText'], characters_remaining

def back_translate(text, intermediate_lang, api_key):
    # Traducir de Espa√±ol a otro idioma
    translated_text, limit_intermediate = translate(text, source_lang='es', target_lang=intermediate_lang, api_key=api_key)
    
    # Traducir de vuelta al Espa√±ol
    back_translated_text, limit_back = translate(translated_text, source_lang=intermediate_lang, target_lang='es', api_key=api_key)
    
    return back_translated_text, limit_back

# Ejemplo de uso
api_key = '09d7b40403msh510b48d970ae036p193760jsned3c5571439e'
original_text = "Hola, necesito ayuda para con mi proyecto."
back_translated_text, characters_remaining = back_translate(original_text, intermediate_lang='en', api_key=api_key)
print("Original:", original_text)
print("Back-translated:", back_translated_text)
print("Characters Remaining:", characters_remaining)


Original: Hola, necesito ayuda para con mi proyecto.
Back-translated: Hola, necesito ayuda con mi proyecto.
Characters Remaining: 95234


In [35]:
# se toman modelos reales no duplicados a partir de corregidos y de largo menor a 60 caracters
modelos_corregidos = df["recibido_corregido"][df["clase"]=="glicemia"].drop_duplicates()
modelos_corregidos = [re.sub("\\n"," ",modelo) for modelo in modelos_corregidos if len(modelo)<60]
modelos_corregidos

['no lo se a eso ',
 'no s√© el valor',
 'no',
 'hola desconozco el valor de m√≠ hemoglobina por ahora',
 'no conozco',
 'no conozco mis valores',
 'nono no conozco muy bien que significa el valor',
 'no no lo s√© ',
 'no tenco como timarmela',
 'no no conozco ',
 'no no se',
 'no s√© que es eso',
 'todav√≠a no me hago el control',
 'no s√© todav√≠a no me hago ese control',
 'hola negativo',
 'no lo se',
 'no todav√≠a no puedo hacerme los an√°lisis sigo resfriada',
 'no no s√© cu√°l es ese valor',
 'no se hace mucho que no me hago an√°lisis',
 'buenos dias disculpe no se el valor que tengo',
 'ok necesito el aparato medicion',
 'usted d√≠game d√≥nde me toman la glucemia',
 'nose cu√°nto es',
 'hola buen d√≠a quisiera un medidor de glucosa',
 'buen d√≠a no tengo idea ',
 'no conozco me gustaria saber como hacer',
 'hola no no conozco el valor',
 'no la verdad que no lo s√©',
 'no ',
 'no no se el valor de hemoglobina',
 'hola no',
 'no veo pero siempre me dicen que es alta',
 'buen d√≠a

In [36]:
resultado_backtranslation = []
for modelo in modelos_corregidos:
    back_translated_text, characters_remaining = back_translate(modelo, intermediate_lang='en', api_key=api_key)
    resultado_backtranslation.append(back_translated_text)
print(resultado_backtranslation)
print(characters_remaining)

['No s√© eso', 'No s√© el valor', 'No', 'Hola, no s√© el valor de mi hemoglobina por ahora', 'No s√©', 'No conozco mis valores', 'No s√© muy bien lo que significa el valor', 'No, no lo se', 'No tengo timel de m√≠', 'No s√©', 'no no, no lo s√©', 'No se que es eso', 'Todav√≠a no controlo', 'A√∫n no lo s√©, hago ese control', 'Hola negativo', 'No s√©', 'Todav√≠a no puedo hacer el an√°lisis, soy un resfriado', 'No s√© cu√°l es ese valor', 'No hago mucho que no hago an√°lisis', 'Buenos d√≠as, no s√© el valor que tengo', 'Ok necesito el dispositivo de medici√≥n', 'Dime a d√≥nde llevan glucemia', 'No s√© mucho que sea', 'Hola buen d√≠a me gustar√≠a un medidor de glucosa', 'Buenos d√≠as no tengo idea', 'No s√© que me gustar√≠a saber c√≥mo hacer', 'Hola, no s√© el valor', 'Realmente no lo s√©', 'No', 'No conozco el valor de hemoglobina', 'Hola no', 'No veo pero siempre me dicen que est√° alto', 'Buen d√≠a no lo s√©', 'No Sr. Sra. No conozco el Glyc de ValueHemogb', 'No s√©', 'Hola, no conozco m

In [37]:
# nuevos
nuevos = list(set([texto for texto in resultado_backtranslation if texto not in modelos_corregidos]))
print(len(modelos_corregidos))
print(len(nuevos))
nuevos

44
39


['No s√© mucho que sea',
 'No s√© que me gustar√≠a saber c√≥mo hacer',
 'No s√©',
 'no no, no lo s√©',
 'No lo conozco',
 'Necesito el aparato que me mido solo todos los d√≠as',
 'No s√© muy bien lo que significa el valor',
 'No Sr. Sra. No conozco el Glyc de ValueHemogb',
 'No s√© el valor',
 'ni EDEA ni controlar el az√∫car no tengo p√≠ldor',
 'Hola, no conozco mi valor de hemoglobina glucosilada',
 'No, no lo se',
 'Todav√≠a no controlo',
 'Hola no',
 'Todav√≠a no puedo hacer el an√°lisis, soy un resfriado',
 'Buenos d√≠as, no s√© el valor que tengo',
 'A√∫n no lo s√©, hago ese control',
 'no, pero lo har√© lo antes posible',
 'Hola, no s√© el valor de mi hemoglobina por ahora',
 'No hago mucho que no hago an√°lisis',
 'Hola, todav√≠a no tengo el resultado',
 'No veo pero siempre me dicen que est√° alto',
 'Buen d√≠a no lo s√©',
 'Ok necesito el dispositivo de medici√≥n',
 'No conozco mi valor',
 'No conozco mis valores',
 'No se que es eso',
 'Hola, no s√© el valor',
 'Hola negativ

## Uso de sin√≥nimos

In [38]:
!pip install spacy
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
     ---------------------------------------- 0.0/12.9 MB ? eta -:--:--
     ---------------------------------------- 0.1/12.9 MB 3.3 MB/s eta 0:00:04
     - -------------------------------------- 0.4/12.9 MB 4.9 MB/s eta 0:00:03
     -- ------------------------------------- 0.7/12.9 MB 5.4 MB/s eta 0:00:03
     --- ------------------------------------ 1.0/12.9 MB 5.6 MB/s eta 0:00:03
     ---- ----------------------------------- 1.3/12.9 MB 5.9 MB/s eta 0:00:02
     ---- ----------------------------------- 1.3/12.9 MB 5.0 MB/s eta 0:00:03
     ----- ---------------------------------- 1.7/12.9 MB 5.3 MB/s eta 0:00:03
     ----- ---------------------------------- 1.9/12.9 MB 5.2 MB/s eta 0:00:03
     ------ --------------------------------- 2.0/12.9 MB 5.0 MB/s eta 0:00:03
     ------ --------------------------

In [39]:
!pip install nltk
!python -m nltk.downloader omw-1.4



[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\aciga\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


In [40]:
# Importar la biblioteca NLTK
import nltk

nltk.download('omw-1.4')
nltk.download('wordnet')

from nltk.corpus import wordnet as wn

[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\aciga\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\aciga\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


In [41]:
!python -m spacy download es_core_news_md

Collecting es-core-news-md==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_md-3.7.0/es_core_news_md-3.7.0-py3-none-any.whl (42.3 MB)
     ---------------------------------------- 0.0/42.3 MB ? eta -:--:--
     ---------------------------------------- 0.2/42.3 MB 4.7 MB/s eta 0:00:09
     ---------------------------------------- 0.5/42.3 MB 5.4 MB/s eta 0:00:08
      --------------------------------------- 0.8/42.3 MB 5.9 MB/s eta 0:00:08
     - -------------------------------------- 1.1/42.3 MB 6.0 MB/s eta 0:00:07
     - -------------------------------------- 1.4/42.3 MB 6.1 MB/s eta 0:00:07
     - -------------------------------------- 1.7/42.3 MB 6.0 MB/s eta 0:00:07
     - -------------------------------------- 1.8/42.3 MB 5.5 MB/s eta 0:00:08
     - -------------------------------------- 2.0/42.3 MB 5.6 MB/s eta 0:00:08
     -- ------------------------------------- 2.1/42.3 MB 5.2 MB/s eta 0:00:08
     -- ------------------------------

In [42]:
import spacy
import random
from nltk.corpus import wordnet as wn

# Cargar el modelo en espa√±ol de spaCy
nlp = spacy.load('es_core_news_sm')
###############

def obtener_sinonimos_con_similitud(palabra, pos_spacy):
    wordnet_pos = {'NOUN': 'n', 'VERB': 'v', 'ADJ': 'a', 'ADV': 'r'}.get(pos_spacy, None)
    if wordnet_pos is None:
        return []

    palabra_nlp = nlp(palabra)       
    synsets = wn.synsets(palabra, pos=wordnet_pos, lang='spa')
            
    sinonimos_con_similitud = []

    for synset in synsets:
        for lemma in synset.lemma_names('spa'):
            lemma_nlp = nlp(lemma)
            if lemma_nlp.vector_norm and palabra_nlp.vector_norm:  # Asegurarse de que ambos tengan vectores v√°lidos
                similitud = palabra_nlp.similarity(lemma_nlp)
                sinonimos_con_similitud.append((lemma, round(similitud, 2)))

    return sinonimos_con_similitud


# Funci√≥n para procesar una frase y sustituir palabras aleatoriamente con sin√≥nimos
def sustituir_con_sinonimos(frase, umbral = 0.5, agregar_por_lemma = False):
    doc = nlp(frase)
    palabras_procesadas = []
    for token in doc:
        sinonimos_con_similitud = obtener_sinonimos_con_similitud(token.text, token.pos_)
        if agregar_por_lemma:
            token_lemma = token.lemma_
            print("lemma",token_lemma)
            palabra_nlp = nlp(token_lemma)[0]                      
            sinonimos_con_similitud = sinonimos_con_similitud + obtener_sinonimos_con_similitud(palabra_nlp.text, palabra_nlp.pos_)
        
        sinonimos = list(set([sinonimo for sinonimo, similitud in sinonimos_con_similitud if similitud >= umbral]))
        print(token,sinonimos_con_similitud, sinonimos)
        if sinonimos:
            palabra_sustituta = random.choice(sinonimos)
            palabras_procesadas.append(palabra_sustituta)
        else:
            palabras_procesadas.append(token.text)
    return ' '.join(palabras_procesadas)

# Aplicar sin√≥nimos
frases_con_sinonimos = [sustituir_con_sinonimos(frase, umbral = 0.5, agregar_por_lemma = True) for frase in modelos_corregidos]
for original, modificada in zip(modelos_corregidos, frases_con_sinonimos):
    print(f"Original: {original}")
    print(f"Modificada: {modificada}\n")


lemma no
no [] []
lemma √©l
lo [] []
lemma √©l
se [] []
lemma a
a [] []
lemma ese
eso [] []
lemma no
no [] []
lemma saber
s√© [('conocer', 0.41), ('saber', 1.0), ('saber', 1.0), ('conocer', 0.41), ('saber', 1.0), ('saber', 1.0), ('saber', 1.0), ('sentir', 0.54), ('conocer', 0.41), ('saber', 1.0)] ['sentir', 'saber']
lemma el
el [] []


  similitud = palabra_nlp.similarity(lemma_nlp)


lemma valor
valor [('bravura', 0.17), ('coraje', 0.43), ('intrepidez', 0.25), ('osad√≠a', -0.1), ('valor', 1.0), ('coraje', 0.43), ('fuerza', 0.17), ('valor', 1.0), ('√°nimo', 0.19), ('atrevimiento', 0.35), ('audacia', 0.28), ('cara', 0.31), ('cara_dura', 0.32), ('osad√≠a', -0.1), ('valor', 1.0), ('coraje', 0.43), ('entereza', 0.34), ('valent√≠a', -0.03), ('valor', 1.0), ('valor', 1.0), ('coraje', 0.43), ('valor', 1.0), ('valor', 1.0), ('agallas', -0.11), ('coraje', 0.43), ('discernimiento', 0.31), ('nervio', 0.56), ('sangre_fr√≠a', 0.02), ('valor', 1.0), ('valor', 1.0), ('precio', 0.43), ('valor', 1.0), ('valor', 1.0), ('valor', 1.0), ('coraje', 0.43), ('valor', 1.0), ('valor', 1.0), ('valor', 1.0), ('valor_del_tiempo', 0.33), ('bravura', 0.17), ('coraje', 0.43), ('intrepidez', 0.25), ('osad√≠a', -0.1), ('valor', 1.0), ('coraje', 0.43), ('fuerza', 0.17), ('valor', 1.0), ('√°nimo', 0.19), ('atrevimiento', 0.35), ('audacia', 0.28), ('cara', 0.31), ('cara_dura', 0.32), ('osad√≠a', -0.1),