# Ambiente

## Instalar Librer√≠as

In [1]:
# pip install --user -r ./requirements.txt -q

In [2]:
# pip show langchain

In [3]:
# pip install --upgrade langchain -q

## Configurar dotenv

In [28]:
import os
from dotenv import load_dotenv, find_dotenv
load_dotenv(find_dotenv(), override=True)

True

## Imports

In [5]:
import pandas as pd
import numpy as np
import time
# Creaci√≥n de domuentos
from langchain_core.documents import Document

# Crear √≠ndice en pinecone
from pinecone import Pinecone
from pinecone import ServerlessSpec

# Encodear y guardar documentos
from langchain_openai import OpenAIEmbeddings
from langchain_pinecone import PineconeVectorStore

# Chain respuesta a query
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI

# Vectorizaci√≥n
from concurrent.futures import ThreadPoolExecutor

import matplotlib.pyplot as plt
import seaborn as sns

In [7]:
# model_llm = "gpt-3.5-turbo"
model_llm = 'gpt-4o'

# Documento

In [8]:
df_documentos = pd.read_excel('FAQS Preguntas frecuentes Abril 2024-1.xlsx', engine='openpyxl')
columnas = df_documentos.columns
df_documentos[columnas[0]] = df_documentos[columnas[0]].ffill()

In [9]:
df_documentos.head(12)

Unnamed: 0,Catalogo de respuestas frecuentes,PREGUNTA FRECUENTE,Respuesta Chat GPT
0,Portal de Servicios en L√≠nea,¬øC√≥mo accedo al portal de Servicios en L√≠nea?,üåü ¬°Hola! Estamos encantados de que est√©s aqu√≠....
1,Portal de Servicios en L√≠nea,¬øC√≥mo puedo consultar el Bolet√≠n / Boleta de C...,üåü ¬°Hola! Estamos emocionados de poder ayudarte...
2,Portal de Servicios en L√≠nea,¬øC√≥mo puedo consultar mi Horario?,üåü ¬°Hola! ¬°Estamos aqu√≠ para ayudarte! üòä Si nec...
3,Portal de Servicios en L√≠nea,¬øC√≥mo puedo recuperar mi contrase√±a de acceso ...,"üåü ¬°Hola! Si necesitas recuperar tu contrase√±a,..."
4,Becas,¬øC√≥mo accedo al portal de Becas?,üåü ¬°Hola! Estamos encantados de ayudarte. üòä Par...
5,Becas,¬øC√≥mo puedo consultar mi dictamen?,üìß Recibir√°s una notificaci√≥n en tu correo inst...
6,Becas,¬øC√≥mo registrar un caso especial de beca?,"üéì Para solicitar una beca por caso especial, s..."
7,Becas,¬øC√≥mo puedo recuperar mi contrase√±a de acceso ...,"üîí Si olvidaste tu contrase√±a, no te preocupes...."
8,Becas,¬øCu√°l es el promedio m√≠nimo para conservar la ...,"üéì Para licenciatura, es importante mantener un..."
9,Becas,¬øCu√°les son los requisitos del proceso de reno...,üìù El proceso de renovaci√≥n de beca consta de d...


# Generar Respuesta

In [10]:
# No podemos entregarle el documento completo por escrito a la API debido al m√°ximo de tokens, por lo que solo considerermos las primeras filas
sub_df = 100

In [11]:
# Generar el contexto a partir del DataFrame
contexto = ""
for _, row in df_documentos[:sub_df].iterrows():
    contexto += f"Categor√≠a: {row['Catalogo de respuestas frecuentes']}\nPregunta: {row['PREGUNTA FRECUENTE']}\nRespuesta: {row['Respuesta Chat GPT']}\n\n"

In [12]:
from openai import OpenAI
client = OpenAI(
    api_key=os.environ.get("OPENAI_API_KEY"),
)

In [13]:
def obtener_respuesta(pregunta_nueva):    
    respuesta = client.chat.completions.create(
        model=model_llm,
        messages = [
        {"role": "system", "content": "Eres un asistente √∫til que responde preguntas basadas en un conjunto de datos de preguntas y respuestas."},
        {"role": "user", "content": contexto},
        {"role": "user", "content": f"Pregunta nueva: {pregunta_nueva}\nRespuesta:"}
        ],
        n=1,
        temperature=1
    )
    
    return respuesta.choices[0].message.content

In [14]:
pregunta_nueva = "Como recupero contra?"
respuesta = obtener_respuesta(pregunta_nueva)

In [15]:
print(f"Pregunta: {pregunta_nueva}\nRespuesta: {respuesta}")

Pregunta: Como recupero contra?
Respuesta: ¬°Hola! Para ayudarte mejor, necesitar√≠a saber espec√≠ficamente a qu√© plataforma o servicio te refieres (por ejemplo, Blackboard, correo institucional, portal de pagos, etc.). Sin embargo, aqu√≠ tienes una gu√≠a general para recuperar contrase√±as:

1. **Correo Institucional (my.uvm)**:
   - Para restablecer tu contrase√±a de correo, es necesario que contactes a un Asistente Lince, ya que ellos tienen acceso y pueden guiarte en el proceso. Est√°n disponibles las 24 horas del d√≠a, los 7 d√≠as de la semana.

2. **Blackboard**:
   - Ve a la p√°gina de inicio de sesi√≥n de Blackboard: [uvmonline.blackboard.com](https://uvmonline.blackboard.com/).
   - Haz clic en "¬øOlvidaste tu contrase√±a?".
   - Ingresa tu informaci√≥n (nombre, apellidos en may√∫sculas sin acentos, y tu correo institucional).
   - Recibir√°s un correo en tu bandeja de entrada (no olvides revisar tambi√©n el correo no deseado o SPAM) con un enlace para restablecer tu contrase

# Benchmark

In [16]:
df_bench = pd.read_excel("benchmark.xlsx")
df_bench["Pregunta_asociada"] = df_bench["Documento asociado"].apply(lambda entero: df_documentos.iloc[entero]["PREGUNTA FRECUENTE"])
df_bench.head()

Unnamed: 0,pregunta,Documento asociado,Pregunta_asociada
0,como entrar portal online servicios?,0,¬øC√≥mo accedo al portal de Servicios en L√≠nea?
1,¬øC√≥mo hacer para usar Servicios en Internet?,0,¬øC√≥mo accedo al portal de Servicios en L√≠nea?
2,¬øC√≥mo se accede al portal de servicios de la UVM?,0,¬øC√≥mo accedo al portal de Servicios en L√≠nea?
3,¬øQu√© informaci√≥n se necesita para iniciar sesi...,0,¬øC√≥mo accedo al portal de Servicios en L√≠nea?
4,Como consutar calificaciones?,1,¬øC√≥mo puedo consultar el Bolet√≠n / Boleta de C...


In [17]:
final_df = pd.DataFrame()

for i in range(1, 11):
    with ThreadPoolExecutor() as executor:
        results = list(executor.map(obtener_respuesta, df_bench[int(4*sub_df*((i-1)/10)):int(4*sub_df*(i/10))]["pregunta"].tolist()))
    contexts_answers_df = pd.DataFrame(results, columns=['answer'])
    final_df = pd.concat([final_df, contexts_answers_df], ignore_index=True)
    time.sleep(60) # porque se llega al m√°ximo de tokens x minuto

In [18]:
print(final_df.shape)
final_df.tail()

(400, 1)


Unnamed: 0,answer
395,Las clases en la plataforma generalmente comie...
396,Categor√≠a: Asesoria y Soporte de Plataforma En...
397,"üåü No te preocupes, si tienes una materia carga..."
398,Categor√≠a: Asesor√≠a y Soporte de Plataforma En...
399,Si no ves el nombre de tu profesor en la lista...


In [19]:
df_bench = df_bench[:4*sub_df]
df_bench[['answer']] = final_df
df_bench["real_answer"] = df_bench["pregunta"].apply(lambda query: df_documentos.loc[df_documentos["PREGUNTA FRECUENTE"]==df_bench.loc[df_bench["pregunta"]==query,"Pregunta_asociada"].values[0],"Respuesta Chat GPT"].values[0])

print(df_bench.shape)
df_bench.tail()

(400, 5)


Unnamed: 0,pregunta,Documento asociado,Pregunta_asociada,answer,real_answer
395,Cuando comienzan las clases en la plataforma?,101,¬øQu√© puedo hacer si no cuento con mi materia c...,Las clases en la plataforma generalmente comie...,Ten presente que podr√°s ver tu materia en la p...
396,¬øQu√© debo hacer si no encuentro mi materia?,101,¬øQu√© puedo hacer si no cuento con mi materia c...,Categor√≠a: Asesoria y Soporte de Plataforma En...,Ten presente que podr√°s ver tu materia en la p...
397,Qu√© hacer si tengo materia cargada y no tengo ...,102,¬øQu√© puedo hacer si cuento con mi materia carg...,"üåü No te preocupes, si tienes una materia carga...",Queremos asegurarnos de que tengas todo listo ...
398,Qu√© hacer si materia cargada y no docente asig...,102,¬øQu√© puedo hacer si cuento con mi materia carg...,Categor√≠a: Asesor√≠a y Soporte de Plataforma En...,Queremos asegurarnos de que tengas todo listo ...
399,¬øQu√© debo hacer si no veo el nombre de mi prof...,102,¬øQu√© puedo hacer si cuento con mi materia carg...,Si no ves el nombre de tu profesor en la lista...,Queremos asegurarnos de que tengas todo listo ...


In [20]:
from transformers import BertTokenizer, BertModel
import torch
import numpy as np

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

def embed_text(text, tokenizer, model):
    inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True, max_length=512)
    with torch.no_grad():
        outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1)

generated_responses = df_bench['answer'].tolist()
reference_responses = df_bench['real_answer'].tolist()

generated_embeddings = [embed_text(resp, tokenizer, model) for resp in generated_responses]
reference_embeddings = [embed_text(resp, tokenizer, model) for resp in reference_responses]

cos = torch.nn.CosineSimilarity(dim=1, eps=1e-6)
similarities = [cos(g, r).item() for g, r in zip(generated_embeddings, reference_embeddings)]

In [21]:
df_bench['Similarities'] = similarities
df_bench.head()

Unnamed: 0,pregunta,Documento asociado,Pregunta_asociada,answer,real_answer,Similarities
0,como entrar portal online servicios?,0,¬øC√≥mo accedo al portal de Servicios en L√≠nea?,üåü ¬°Hola! Para acceder al portal de Servicios e...,üåü ¬°Hola! Estamos encantados de que est√©s aqu√≠....,0.974833
1,¬øC√≥mo hacer para usar Servicios en Internet?,0,¬øC√≥mo accedo al portal de Servicios en L√≠nea?,üåü ¬°Hola! Usar los Servicios en Internet es muy...,üåü ¬°Hola! Estamos encantados de que est√©s aqu√≠....,0.954852
2,¬øC√≥mo se accede al portal de servicios de la UVM?,0,¬øC√≥mo accedo al portal de Servicios en L√≠nea?,Categor√≠a: Portal de Servicios en L√≠nea\n\nPre...,üåü ¬°Hola! Estamos encantados de que est√©s aqu√≠....,0.981661
3,¬øQu√© informaci√≥n se necesita para iniciar sesi...,0,¬øC√≥mo accedo al portal de Servicios en L√≠nea?,Para iniciar sesi√≥n en el portal de Servicios ...,üåü ¬°Hola! Estamos encantados de que est√©s aqu√≠....,0.974489
4,Como consutar calificaciones?,1,¬øC√≥mo puedo consultar el Bolet√≠n / Boleta de C...,Categor√≠a: Portal de Servicios en L√≠nea\nPregu...,üåü ¬°Hola! Estamos emocionados de poder ayudarte...,0.996288


Ahora comparamos con las generadas por RAG

In [22]:
df_ragas = pd.read_csv(f'df_ragas/df_ragas_text-embedding-3-large_{model_llm}.csv', sep=',')
df_ragas.rename(columns={'question': 'pregunta'}, inplace=True)
df_ragas.rename(columns={'answer': 'RAG_answer'}, inplace=True)

In [23]:
df_bench = df_bench.merge(df_ragas[['pregunta', 'RAG_answer']], on='pregunta', how='left')

In [24]:
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

def embed_text(text, tokenizer, model):
    inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True, max_length=512)
    with torch.no_grad():
        outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1)

generated_responses = df_bench['RAG_answer'].tolist()
reference_responses = df_bench['real_answer'].tolist()

generated_embeddings = [embed_text(resp, tokenizer, model) for resp in generated_responses]
reference_embeddings = [embed_text(resp, tokenizer, model) for resp in reference_responses]

cos = torch.nn.CosineSimilarity(dim=1, eps=1e-6)
similarities = [cos(g, r).item() for g, r in zip(generated_embeddings, reference_embeddings)]

In [25]:
df_bench['RAG_Similarities'] = similarities
df_bench.head()

Unnamed: 0,pregunta,Documento asociado,Pregunta_asociada,answer,real_answer,Similarities,RAG_answer,RAG_Similarities
0,como entrar portal online servicios?,0,¬øC√≥mo accedo al portal de Servicios en L√≠nea?,üåü ¬°Hola! Para acceder al portal de Servicios e...,üåü ¬°Hola! Estamos encantados de que est√©s aqu√≠....,0.974833,"Para ingresar al portal de servicios en l√≠nea,...",0.962593
1,¬øC√≥mo hacer para usar Servicios en Internet?,0,¬øC√≥mo accedo al portal de Servicios en L√≠nea?,üåü ¬°Hola! Usar los Servicios en Internet es muy...,üåü ¬°Hola! Estamos encantados de que est√©s aqu√≠....,0.954852,Para usar Servicios en Internet seg√∫n el conte...,0.886029
2,¬øC√≥mo se accede al portal de servicios de la UVM?,0,¬øC√≥mo accedo al portal de Servicios en L√≠nea?,Categor√≠a: Portal de Servicios en L√≠nea\n\nPre...,üåü ¬°Hola! Estamos encantados de que est√©s aqu√≠....,0.981661,"Para acceder al portal de servicios de la UVM,...",0.924971
3,¬øQu√© informaci√≥n se necesita para iniciar sesi...,0,¬øC√≥mo accedo al portal de Servicios en L√≠nea?,Para iniciar sesi√≥n en el portal de Servicios ...,üåü ¬°Hola! Estamos encantados de que est√©s aqu√≠....,0.974489,"Para iniciar sesi√≥n en el portal, necesitar√°s ...",0.909894
4,Como consutar calificaciones?,1,¬øC√≥mo puedo consultar el Bolet√≠n / Boleta de C...,Categor√≠a: Portal de Servicios en L√≠nea\nPregu...,üåü ¬°Hola! Estamos emocionados de poder ayudarte...,0.996288,"Para consultar tus calificaciones, tienes vari...",0.963028


In [26]:
df_bench[['Similarities', 'RAG_Similarities']].mean()

Similarities        0.953379
RAG_Similarities    0.937943
dtype: float64

In [27]:
df_bench.to_csv(f'df_generativo/df_generativo_{model_llm}.csv', sep=',')

3.5 turbo: ![image-2.png](attachment:image-2.png)

4o: ![image.png](attachment:image.png)