# Basic RAG Implementation

## Objective:
Implement a **RAG (Retrieval-Augmented Generation)** application that retrieves relevant documents from a static dataset and generates a response based on those documents.

## Task Description:
We need to answer some questions using a collection of documents. You'll build a **RAG application** to achieve this. Below are the steps:



¿Cuál es la misión principal de HistoriaCard?
¿Qué productos financieros ofrece HistoriaCard actualmente?
¿Cuáles son las características principales de la tarjeta de crédito HistoriaCard?
¿Cómo funciona el programa de recompensas de HistoriaCard?
¿Qué medidas de seguridad implementa HistoriaCard en su aplicación?
¿Cómo contribuye HistoriaCard a la educación financiera de sus usuarios?
¿Qué impacto social busca tener HistoriaCard en México?
¿Cuáles son los planes de expansión futuros de HistoriaCard?
¿Cómo utiliza HistoriaCard la inteligencia artificial en sus servicios?
¿Qué alianzas estratégicas ha establecido HistoriaCard?

In [180]:
import os
import PyPDF2
import re
import nltk
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from langchain.prompts import PromptTemplate
import pandas as pd
from nltk import word_tokenize

def calculate_precision_recall(keywords, response):
    keywords_set = set(keywords.lower().split(", "))
    response_set = set(word_tokenize(response.lower()))
    true_positives = keywords_set.intersection(response_set)
    precision = len(true_positives) / len(response_set) if len(response_set) > 0 else 0
    recall = len(true_positives) / len(keywords_set) if len(keywords_set) > 0 else 0
    return precision, recall

def calculate_cosine_similarity(response, expected):
    vectorizer = TfidfVectorizer().fit_transform([response, expected])
    vectors = vectorizer.toarray()
    cosine_sim = cosine_similarity([vectors[0]], [vectors[1]])[0][0]
    return cosine_sim

def exact_match(response, expected):
    return int(response.strip() == expected.strip())

def retrieve_embeddings_documents_df(collection, query, model, n_results=3):
    query_embedding = model.encode([query])
    results = collection.query(query_embeddings=query_embedding, n_results=n_results)
    documents = results['documents'][0]
    distances = results['distances'][0]
    df = pd.DataFrame({
        'Query': [query] * len(documents),
        'Document': documents,
        'Similarity Score': distances
    })
    return df.sort_values('Similarity Score', ascending=True).reset_index(drop=True)

def retrieve_tfidf_documents_df(query, document_vectors, vectorizer, top_k=2):
    query_cleaned = pipeline.transform(query)
    query_vector = vectorizer.transform([query_cleaned])
    similarity_scores = cosine_similarity(query_vector, document_vectors).flatten()
    top_indices = similarity_scores.argsort()[-top_k:][::-1]
    result = [(pdf_texts_dict[i], similarity_scores[i]) for i in top_indices]
    return pd.DataFrame(result, columns=["Document", "Similarity Score"])

class TextPreprocessingPipeline:
    def __init__(self, language='spanish'):
        self.language = language
        self.stemmer = SnowballStemmer(language)
        self.stopwords = set(stopwords.words(language))
    
    def clean_text(self, text):
        text = text.lower()
        text = re.sub(r'[^a-záéíóúñü\s]', '', text)
        text = re.sub(r'\s+', ' ', text).strip()
        return text
    
    def remove_stopwords(self, text):
        words = text.split()
        words = [word for word in words if word not in self.stopwords]
        return ' '.join(words)
    
    def stem_text(self, text):
        words = text.split()
        stemmed_words = [self.stemmer.stem(word) for word in words]
        return ' '.join(stemmed_words)
    
    def transform(self, text):
        text = self.clean_text(text)
        text = self.remove_stopwords(text)
        text = self.stem_text(text)
        return text

def generate_prompt_from_df(df: pd.DataFrame, question: str) -> str:
    items = df['Document'].tolist()
    prompt_template = PromptTemplate(
        input_variables=["question", "items"],
        template="""
        Contesta la siguiente pregunta: {question}
        
        Basado en la siguiente lista de información:

        {items}
        
        con las condiciones:
        - Respuesta breves
        - Solo haz referencia a el texto, no agregues nada mas.
        si no hay informacion relevante, contesta:
        'Informacion no encontrada'
        """
    )
    return prompt_template.format(question=question, items="\n\n".join(items))

class PDFReader:
    def __init__(self, folder_path):
        self.folder_path = folder_path
    
    def read_pdfs(self, by_paragraph=False):
        all_texts = []
        for filename in os.listdir(self.folder_path):
            if filename.endswith(".pdf"):
                file_path = os.path.join(self.folder_path, filename)
                with open(file_path, "rb") as file:
                    reader = PyPDF2.PdfReader(file)
                    for page_num in range(len(reader.pages)):
                        page = reader.pages[page_num]
                        text = page.extract_text()
                        if text:
                            if by_paragraph:
                                paragraphs = text.split(".")
                                for paragraph in paragraphs:
                                    cleaned_paragraph = paragraph.strip()
                                    if cleaned_paragraph:
                                        all_texts.append(cleaned_paragraph + ".")
                            else:
                                all_texts.append(text.strip())
                        else:
                            all_texts.append("")
        return all_texts

folder_path = "/Users/oscararmas/Desktop/StoriChallenge/"
pdf_reader = PDFReader(folder_path)
pdf_texts_dict = pdf_reader.read_pdfs(by_paragraph=True)

In [178]:
len(pdf_texts_dict)

155

 ### 1. Data Preparation and Basic Retrieval (0.5 hours)
- **Start** with a small dataset of text documents (this will be provided).
- **Index** the documents using **TF-IDF** or **BM25** (sparse retrieval).
- **Implement** a basic function that takes a query and returns the **top-k relevant documents** from the dataset using **cosine similarity**.


In [179]:
# Number of documents:
len(pdf_texts_dict)

155

In [159]:
nltk.download('stopwords')
pipeline = TextPreprocessingPipeline(language='spanish')

# Clean the docs
documents_cleaned = [pipeline.transform(doc) for doc in pdf_texts_dict]

# Step 1: Indexing the documents using TF-IDF
vectorizer = TfidfVectorizer()
document_vectors = vectorizer.fit_transform(documents_cleaned)



[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/oscararmas/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Ejemplo de consulta y recuperación de los documentos más relevantes:

In [175]:
top_k_documents_df = retrieve_tfidf_documents_df(QUERY_QUESTION, document_vectors, vectorizer, pipeline, pdf_texts_dict, top_k=3)



In [176]:
top_k_documents_df

Unnamed: 0,Document,Similarity Score
0,"Ana Martínez, 28 años, Ciudad de México:\n""Antes de HistoriaCard, tenía miedo de usar tarjetas de crédito por todas las historias de deudas que había\nescuchado. Pero con la guía y las herramientas educativas que ofrece la app, he aprendido a manejar mi crédito de manera responsable y ahora tengo un",0.169094
1,Solicitudes de soporte:\nLos usuarios pueden abrir tickets de soporte para problemas más complejos y hacer un seguimiento de su estado directamente desde\nla app.,0.148142
2,"Pago de servicios:\nDesde servicios públicos como agua, luz, y gas, hasta suscripciones a plataformas digitales y telecomunicaciones, los usuarios pueden\nrealizar todos sus pagos desde la app. La opción de programar pagos recurrentes asegura que nunca se pasen fechas de vencimiento, eliminando la\npreocupación por cortes de servicio.",0.12021


### 2. Generation Mechanism (0.5 hours)
- **Use** a pre-trained language model (e.g., OpenAI models) to **generate responses** based on the retrieved documents.
- **Combine** the retrieved documents into a single input for the language model.


In [162]:
import google.generativeai as genai
import os

genai.configure(api_key="AIzaSyC4_NC-2eGpg7URKQQqGVQ4mGjZlimhQIQ")

In [165]:
model_geminis = genai.GenerativeModel("gemini-1.5-flash")

prompt = generate_prompt_from_df(top_k_documents_df, QUERY_QUESTION)

response = model_geminis.generate_content(prompt)
print(response.text)

Información no encontrada. 



### 3. Enhanced Retrieval (0.5 hours)
- **Upgrade** the retrieval method to a more advanced technique, such as **dense retrieval** using **BERT embeddings** or similar.
- **Implement** a more efficient indexing method suitable for larger datasets, like **FAISS**, **Chroma**, or **Qdrant**.


In [186]:
from sentence_transformers import SentenceTransformer
import chromadb
from chromadb.utils import embedding_functions

model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
paragraphs = pdf_texts_dict

embeddings = model.encode(paragraphs)
client = chromadb.Client()

# Crear o cargar una colección en ChromaDB
collection = client.get_collection(name="document_embeddings_v2")

# Insertar los documentos (párrafos) y sus embeddings en la colección
for i, (paragraph, embedding) in enumerate(zip(paragraphs, embeddings)):
    collection.add(
        documents=[paragraph],
        metadatas=[{"id": i}],
        ids=[str(i)],
        embeddings=[embedding.tolist()]
    )

print("Embeddings generados y almacenados en ChromaDB con éxito.")

query = QUERY_QUESTION
query_embedding = model.encode([query])


Insert of existing embedding ID: 0
Add of existing embedding ID: 0
Insert of existing embedding ID: 1
Add of existing embedding ID: 1
Insert of existing embedding ID: 2
Add of existing embedding ID: 2
Insert of existing embedding ID: 3
Add of existing embedding ID: 3
Insert of existing embedding ID: 4
Add of existing embedding ID: 4
Insert of existing embedding ID: 5
Add of existing embedding ID: 5
Insert of existing embedding ID: 6
Add of existing embedding ID: 6
Insert of existing embedding ID: 7
Add of existing embedding ID: 7
Insert of existing embedding ID: 8
Add of existing embedding ID: 8
Insert of existing embedding ID: 9
Add of existing embedding ID: 9
Insert of existing embedding ID: 10
Add of existing embedding ID: 10
Insert of existing embedding ID: 11
Add of existing embedding ID: 11
Insert of existing embedding ID: 12
Add of existing embedding ID: 12
Insert of existing embedding ID: 13
Add of existing embedding ID: 13
Insert of existing embedding ID: 14
Add of existing em

Embeddings generados y almacenados en ChromaDB con éxito.


In [187]:
# Ejemplo de consulta a ChromaDB
query = "como se fundo la empresa"
query_embedding = model.encode([query])

# Buscar los documentos más similares al embedding de la consulta
results = collection.query(
    query_embeddings=query_embedding,
    n_results=3  # Devolver los 3 documentos más similares
)

# Mostrar los resultados
for result in results['documents']:
    print(f"Documento similar: {result}")

Documento similar: ['Penetración de mercado:\nPenetración de mercado:\n La empresa está invirtiendo en marketing digital y colaboraciones estratégicas para aumentar su base de usuarios, con un enfoque\nparticular en poblaciones no bancarizadas.', 'Esta sección es fundamental para la misión de la empresa de empoderar a sus usuarios.', 'A medida que la fintech sigue creciendo, su visión y misión permanecen firmes: transformar la vida financiera de sus clientes, guiándolos hacia un futuro económico\nmás brillante y seguro.']


In [184]:
df = retrieve_embeddings_documents_df(collection, query, model)
df

Unnamed: 0,Query,Document,Similarity Score
0,como se fundo la empresa,"Introducción\nHistoriaCard es una fintech mexicana que ha emergido como un catalizador para el cambio financiero en México. Fundada en 2018, la empresa se ha dedicado a\nofrecer soluciones innovadoras y accesibles, diseñadas específicamente para atender las necesidades de los consumidores mexicanos. Con un enfoque en la\neducación financiera, la mejora del historial crediticio y la promoción de un manejo responsable de las finanzas personales, HistoriaCard se ha ganado un lugar en el\ncorazón de miles de usuarios.\nA medida que la fintech sigue creciendo, su visión y misión permanecen firmes: transformar la vida financiera de sus clientes, guiándolos hacia un futuro económico\nmás brillante y seguro. Este documento ofrece una visión integral de la misión, visión, productos, características de la app, impacto social y mucho más, subrayando\ncómo HistoriaCard está construyendo un camino hacia la inclusión financiera y la educación en México.",9.62802
1,como se fundo la empresa,"Innovación y Tecnología\nHistoriaCard está a la vanguardia de la tecnología financiera, constantemente innovando para mejorar la experiencia del usuario. Utilizando inteligencia artificial, big\ndata, y análisis predictivo, la fintech ofrece soluciones personalizadas y altamente eficientes.\nIA para análisis de crédito:\nIA para análisis de crédito:\n HistoriaCard utiliza modelos avanzados de IA para evaluar el riesgo crediticio de manera más precisa, permitiendo ofrecer tasas\nde interés personalizadas que reflejan con mayor exactitud la capacidad de pago del usuario.\nBigData para personalización:\nBigData para personalización:\n Los algoritmos de big data analizan el comportamiento financiero del usuario, ofreciendo recomendaciones personalizadas y\nalertas proactivas que ayudan a los usuarios a mejorar su salud financiera.",10.326889
2,como se fundo la empresa,"Visión\nLa visión de HistoriaCard es convertirse en la fintech líder en México y un referente mundial en la inclusión financiera, reconocida por su enfoque en la educación\nfinanciera y su capacidad para transformar la vida de millones de personas. HistoriaCard aspira a establecer un nuevo estándar en el sector financiero, brindando a\nsus usuarios las herramientas necesarias para alcanzar la libertad financiera y prosperar en un mundo económico en constante cambio.",11.270841


In [50]:
retrieve_tfidf_documents_df(query, document_vectors, vectorizer, top_k=3)

Unnamed: 0,Document,Similarity Score
0,Recompensas\nRecompensas\nEl programa de Recompensas de HistoriaCard es una de las características más atractivas de la tarjeta de crédito.,0.543462
1,"Beneficios adicionales:\nBeneficios adicionales:\nPrograma de recompensas:\nPrograma de recompensas:\n Acumula puntos por cada compra, que pueden canjearse por descuentos, productos o experiencias.",0.36882
2,"Además, el programa de recompensas es fantástico; he podido\ncanjear puntos por boletos de avión y disfrutar de unas vacaciones sin gastar de más.",0.225051


In [33]:
questions = [
    "¿Cuál es la misión principal de HistoriaCard?",
    "¿Qué productos financieros ofrece HistoriaCard actualmente?",
    "¿Cuáles son las características principales de la tarjeta de crédito HistoriaCard?",
    "¿Cómo funciona el programa de recompensas de HistoriaCard?",
    "¿Qué medidas de seguridad implementa HistoriaCard en su aplicación?",
    "¿Cómo contribuye HistoriaCard a la educación financiera de sus usuarios?",
    "¿Qué impacto social busca tener HistoriaCard en México?",
    "¿Cuáles son los planes de expansión futuros de HistoriaCard?",
    "¿Cómo utiliza HistoriaCard la inteligencia artificial en sus servicios?",
    "¿Qué alianzas estratégicas ha establecido HistoriaCard?"
]

In [37]:
for question in ["¿Cómo utiliza HistoriaCard la inteligencia artificial en sus servicios?"]:
    embeddings_retrieve = retrieve_embeddings_documents_df(collection, question, model)
    tfidf_retrieve = retrieve_tfidf_documents_df(question, document_vectors, vectorizer, top_k=3)

    prompt_tfidf = generate_prompt_from_df(tfidf_retrieve, question)
    prompt_embb = generate_prompt_from_df(embeddings_retrieve, question)
    response_tf_idf = model_geminis.generate_content(prompt_tfidf)
    response_emb = model_geminis.generate_content(prompt_embb)
print(f"pregunta:{question} Respuesta Embeddings:{response_emb.text}, Respueta TFIDF: {response_tf_idf.text}")

pregunta:¿Cómo utiliza HistoriaCard la inteligencia artificial en sus servicios? Respuesta Embeddings:HistoriaCard utiliza modelos avanzados de IA para evaluar el riesgo crediticio y ofrecer tasas de interés personalizadas. También planea integrar IA avanzada para ofrecer asesoramiento financiero automatizado y personalizado. 
, Respueta TFIDF: HistoriaCard utiliza inteligencia artificial para ofrecer asesoramiento financiero automatizado y altamente personalizado, así como para proporcionar soluciones financieras personalizadas y altamente eficientes a través del análisis predictivo y big data. 



In [15]:
pd.set_option('display.max_colwidth', None)

# Evaluation

In [80]:
import pandas as pd

# Crear un DataFrame con preguntas, respuestas esperadas, y clasificación de respuesta
data = {
    'question': [
        "¿Cuál es la misión principal de HistoriaCard?", 
        "¿Qué productos financieros ofrece HistoriaCard?", 
        "¿Cómo contribuye HistoriaCard a la inclusión financiera?", 
        "¿Cuáles son las características principales de la tarjeta de crédito HistoriaCard?",
        "¿Qué beneficios adicionales ofrece HistoriaCard con su tarjeta de crédito?", 
        "¿Cómo ayuda HistoriaCard a sus usuarios a mejorar su historial crediticio?", 
        "¿Qué tasa de interés ofrece la tarjeta de crédito HistoriaCard?", 
        "¿Qué funciones de seguridad ofrece HistoriaCard en su app?", 
        "¿Cómo utiliza HistoriaCard la inteligencia artificial en sus servicios?", 
        "¿Cuáles son los principales objetivos de la expansión internacional de HistoriaCard?", 
        "¿Qué alianzas estratégicas ha establecido HistoriaCard?", 
        "¿Cómo contribuye HistoriaCard al ahorro de sus usuarios con la tarjeta de débito?", 
        "¿Qué herramientas educativas ofrece HistoriaCard en su app?", 
        "¿Cómo protege HistoriaCard a los usuarios contra fraudes?", 
        "¿Qué opciones de recompensas ofrece HistoriaCard?", 
        "¿Qué impacto tiene HistoriaCard en la sociedad mexicana?", 
        "¿Qué innovaciones tecnológicas está explorando HistoriaCard?", 
        "¿Cómo ofrece HistoriaCard asistencia en viajes para sus usuarios?", 
        "¿Cuáles son las principales diferencias entre la tarjeta de crédito y la tarjeta de débito HistoriaCard?",
        "¿Cómo acceden los usuarios a la atención al cliente de HistoriaCard?",
        "¿Cuáles son las características principales de la criptomoneda que ofrece HistoriaCard?", # Pregunta no contestable
        "¿Cómo ayuda HistoriaCard a los usuarios a invertir en bolsa?", # Pregunta no contestable
        "¿Qué opciones de hipotecas ofrece HistoriaCard?" # Pregunta no contestable
    ],
    'expected_keywords': [
        "educación financiera, mejorar historial crediticio", 
        "tarjeta de crédito, tarjeta de débito", 
        "inclusión financiera, accesibilidad, historial crediticio", 
        "línea de crédito, tasa de interés, pagos mínimos", 
        "recompensas, promociones, seguro de compras", 
        "manejo de crédito responsable, herramientas educativas", 
        "24%-36%, pagos puntuales", 
        "bloqueo, alertas, autenticación en dos pasos", 
        "IA para análisis crediticio, big data", 
        "expansión nacional, mercados emergentes", 
        "alianzas con ONGs, comercios", 
        "intereses sobre saldo, ahorro automático", 
        "artículos, guías, calculadoras", 
        "detector de fraudes, alertas de seguridad", 
        "puntos, descuentos, vuelos", 
        "inclusión financiera, educación financiera", 
        "IA avanzada, DeFi", 
        "asistencia en viajes, seguro", 
        "crédito, débito, diferencias de pago", 
        "chat en vivo, llamadas de emergencia", 
        "N/A",  # No contestable
        "N/A",  # No contestable
        "N/A"   # No contestable
    ],
    'type': [
        "simple", "simple", "simple", "simple", "simple", 
        "medio", "medio", "medio", "medio", "medio", 
        "medio", "medio", "medio", "complejo", "complejo", 
        "complejo", "complejo", "complejo", "complejo", "simple", 
        "no contestable", "no contestable", "no contestable"
    ],
    'response_expected': [
        "HistoriaCard tiene la misión de mejorar el historial crediticio y educar financieramente a sus usuarios.", 
        "HistoriaCard ofrece una tarjeta de crédito y una tarjeta de débito.", 
        "HistoriaCard busca incluir financieramente a más mexicanos a través de sus productos.", 
        "Línea de crédito de $5,000 a $50,000 MXN, con tasas de 24%-36%.", 
        "Recompensas, seguros de compra, promociones y asistencia en viajes.", 
        "HistoriaCard educa y proporciona herramientas para el manejo responsable del crédito.", 
        "24%-36%, ajustada según el perfil del usuario.", 
        "HistoriaCard ofrece autenticación biométrica, bloqueo desde la app y alertas en caso de fraude.", 
        "Utiliza inteligencia artificial y big data para análisis de crédito y personalización.", 
        "Expandir su base de usuarios a otras regiones de México y Latinoamérica.", 
        "HistoriaCard ha establecido alianzas con comercios y ONGs para promover sus servicios.", 
        "La tarjeta de débito ofrece intereses sobre saldo y opciones de ahorro automáticas.", 
        "HistoriaCard ofrece guías, calculadoras y cursos en línea para educar financieramente.", 
        "Detecta fraudes en tiempo real y envía alertas de seguridad a los usuarios.", 
        "HistoriaCard ofrece puntos que pueden canjearse por descuentos, vuelos y experiencias.", 
        "Impacto positivo en la inclusión financiera y educación de los mexicanos.", 
        "Está explorando IA avanzada y finanzas descentralizadas para mejorar sus productos.", 
        "Incluye seguro de viaje y asistencia en caso de emergencias en el extranjero.", 
        "La tarjeta de crédito tiene línea de crédito, mientras que la tarjeta de débito no.", 
        "HistoriaCard ofrece atención al cliente a través de chat en vivo y llamadas de emergencia.", 
        "No hay información disponible sobre criptomonedas en el documento.", 
        "No hay información disponible sobre inversiones en bolsa.", 
        "No hay información disponible sobre hipotecas."
    ]
}

# Convertir el diccionario en un DataFrame
df = pd.DataFrame(data)

# Guardar en un archivo CSV
df.to_csv('questions_and_expected_answers.csv', index=False)

df.head()  # Mostrar las primeras filas del DataFrame



Unnamed: 0,question,expected_keywords,type,response_expected
0,¿Cuál es la misión principal de HistoriaCard?,"educación financiera, mejorar historial crediticio",simple,HistoriaCard tiene la misión de mejorar el historial crediticio y educar financieramente a sus usuarios.
1,¿Qué productos financieros ofrece HistoriaCard?,"tarjeta de crédito, tarjeta de débito",simple,HistoriaCard ofrece una tarjeta de crédito y una tarjeta de débito.
2,¿Cómo contribuye HistoriaCard a la inclusión financiera?,"inclusión financiera, accesibilidad, historial crediticio",simple,HistoriaCard busca incluir financieramente a más mexicanos a través de sus productos.
3,¿Cuáles son las características principales de la tarjeta de crédito HistoriaCard?,"línea de crédito, tasa de interés, pagos mínimos",simple,"Línea de crédito de $5,000 a $50,000 MXN, con tasas de 24%-36%."
4,¿Qué beneficios adicionales ofrece HistoriaCard con su tarjeta de crédito?,"recompensas, promociones, seguro de compras",simple,"Recompensas, seguros de compra, promociones y asistencia en viajes."


In [79]:
dt = pd.read_csv('/Users/oscararmas/Desktop/StoriChallenge/responses_tfidf_embeddings.csv')

In [82]:
df_merged

Unnamed: 0,question,expected_keywords,response_expected,response_tf_idf,response_embeddings,type
0,¿Cuál es la misión principal de HistoriaCard?,"educación financiera, mejorar historial crediticio",HistoriaCard tiene la misión de mejorar el historial crediticio y educar financieramente a sus usuarios.,"Proporcionar herramientas financieras innovadoras y educativas que empoderen a los usuarios para que mejoren su historial crediticio, gestionen sus finanzas de manera efectiva y adquieran habilidades que les permitan tomar decisiones financieras informadas. \n","La misión de HistoriaCard es proporcionar herramientas financieras innovadoras y educativas que empoderen a los usuarios para que mejoren su historial crediticio, gestionen sus finanzas de manera efectiva y adquieran habilidades que les permitan tomar decisiones financieras informadas. \n",simple
1,¿Qué productos financieros ofrece HistoriaCard?,"tarjeta de crédito, tarjeta de débito",HistoriaCard ofrece una tarjeta de crédito y una tarjeta de débito.,HistoriaCard ofrece una tarjeta de crédito y una tarjeta de débito. \n,HistoriaCard ofrece una tarjeta de crédito y una tarjeta de débito. \n,simple
2,¿Cómo contribuye HistoriaCard a la inclusión financiera?,"inclusión financiera, accesibilidad, historial crediticio",HistoriaCard busca incluir financieramente a más mexicanos a través de sus productos.,HistoriaCard promueve la inclusión financiera en México convirtiéndose en la fintech líder y un referente mundial en la inclusión financiera. \n,HistoriaCard promueve la inclusión financiera en México al brindar a sus usuarios las herramientas necesarias para alcanzar la libertad financiera y prosperar. \n,simple
3,¿Cuáles son las características principales de la tarjeta de crédito HistoriaCard?,"línea de crédito, tasa de interés, pagos mínimos","Línea de crédito de $5,000 a $50,000 MXN, con tasas de 24%-36%.","- Línea de crédito inicial: $5,000 - $50,000 MXN, con posibilidad de aumentos periódicos basados en el comportamiento crediticio del usuario.\n- Costo de emisión: Gratuito al abrir una cuenta en la app de HistoriaCard, con la tarjeta enviada directamente al domicilio del usuario. \n",- **Construye o mejora el historial crediticio.**\n- **Ofrece una tarjeta de crédito y una tarjeta de débito.**\n- **Tiene un programa de recompensas.** \n,simple
4,¿Qué beneficios adicionales ofrece HistoriaCard con su tarjeta de crédito?,"recompensas, promociones, seguro de compras","Recompensas, seguros de compra, promociones y asistencia en viajes.",Asesoría financiera personalizada para gestionar el préstamo. \n,Informacion no encontrada. \n,simple
5,¿Cómo ayuda HistoriaCard a sus usuarios a mejorar su historial crediticio?,"manejo de crédito responsable, herramientas educativas",HistoriaCard educa y proporciona herramientas para el manejo responsable del crédito.,"HistoriaCard ayuda a sus usuarios a mejorar su historial crediticio al brindar educación financiera, enseñando a manejar deudas y promoviendo un manejo responsable de las finanzas personales. \n",HistoriaCard ayuda a los usuarios a construir o mejorar su historial crediticio con un enfoque en la educación financiera y la promoción de un manejo responsable de las finanzas personales. \n,medio
6,¿Qué tasa de interés ofrece la tarjeta de crédito HistoriaCard?,"24%-36%, pagos puntuales","24%-36%, ajustada según el perfil del usuario.","Tasa de interés anual: 24% - 36%, ajustada según el perfil crediticio del usuario y con opciones para reducir la tasa mediante un historial de pagos puntual. \n","24% - 36%, ajustada según el perfil crediticio del usuario y con opciones para reducir la tasa mediante un historial de pagos puntual. \n",medio
7,¿Qué funciones de seguridad ofrece HistoriaCard en su app?,"bloqueo, alertas, autenticación en dos pasos","HistoriaCard ofrece autenticación biométrica, bloqueo desde la app y alertas en caso de fraude.",HistoriaCard entiende que la seguridad es primordial cuando se trata de finanzas personales. \n,Informacion no encontrada \n,medio
8,¿Cómo utiliza HistoriaCard la inteligencia artificial en sus servicios?,"IA para análisis crediticio, big data",Utiliza inteligencia artificial y big data para análisis de crédito y personalización.,"HistoriaCard utiliza la inteligencia artificial para ofrecer asesoramiento financiero automatizado y altamente personalizado, así como soluciones personalizadas y altamente eficientes. \n","HistoriaCard utiliza la inteligencia artificial para ofrecer asesoramiento financiero personalizado, evaluar el riesgo crediticio y proporcionar tasas de interés personalizadas. \n",medio
9,¿Cuáles son los principales objetivos de la expansión internacional de HistoriaCard?,"expansión nacional, mercados emergentes",Expandir su base de usuarios a otras regiones de México y Latinoamérica.,"- Promover la inclusión financiera en México.\n- Expandirse a nuevos mercados internacionales. \n- Desarrollar una gama de nuevos productos financieros, incluyendo seguros y herramientas de inversión. \n",HistoriaCard tiene planes de expansión tanto en México como en el extranjero. \n,medio


In [181]:

df = df_merged

metrics = ['precision_tf_idf', 'recall_tf_idf', 'cosine_sim_tf_idf', 'exact_match_tf_idf', 
           'precision_embeddings', 'recall_embeddings', 'cosine_sim_embeddings', 'exact_match_embeddings']

for metric in metrics:
    df[metric] = 0.0  # Inicializar columnas en 0

for idx, row in df.iterrows():
    # Calcular Precision/Recall para TF-IDF y Embeddings
    df.at[idx, 'precision_tf_idf'], df.at[idx, 'recall_tf_idf'] = calculate_precision_recall(row['expected_keywords'], row['response_tf_idf'])
    df.at[idx, 'precision_embeddings'], df.at[idx, 'recall_embeddings'] = calculate_precision_recall(row['expected_keywords'], row['response_embeddings'])

    # Calcular Similitud Coseno para TF-IDF y Embeddings
    df.at[idx, 'cosine_sim_tf_idf'] = calculate_cosine_similarity(row['response_tf_idf'], row['response_expected'])
    df.at[idx, 'cosine_sim_embeddings'] = calculate_cosine_similarity(row['response_embeddings'], row['response_expected'])

    # Calcular Exact Match para TF-IDF y Embeddings
    df.at[idx, 'exact_match_tf_idf'] = exact_match(row['response_tf_idf'], row['response_expected'])
    df.at[idx, 'exact_match_embeddings'] = exact_match(row['response_embeddings'], row['response_expected'])

summary = {
    'Metric': ['Precision', 'Recall', 'Cosine Similarity', 'Exact Match'],
    'TF-IDF Avg': [
        df['precision_tf_idf'].mean(),
        df['recall_tf_idf'].mean(),
        df['cosine_sim_tf_idf'].mean(),
        df['exact_match_tf_idf'].mean()
    ],
    'Embeddings Avg': [
        df['precision_embeddings'].mean(),
        df['recall_embeddings'].mean(),
        df['cosine_sim_embeddings'].mean(),
        df['exact_match_embeddings'].mean()
    ]
}

summary_df = pd.DataFrame(summary)


In [182]:
summary_df

Unnamed: 0,Metric,TF-IDF Avg,Embeddings Avg
0,Precision,0.016957,0.004917
1,Recall,0.123188,0.050725
2,Cosine Similarity,0.26942,0.186253
3,Exact Match,0.043478,0.043478


- **Precision**: La precisión mide la proporción de palabras clave esperadas que están presentes en la respuesta generada.
- **Recall**: El recall mide la proporción de palabras clave esperadas que fueron correctamente capturadas en la respuesta generada.
- **Cosine Similarity**: La similitud coseno mide qué tan semánticamente cercanas son las respuestas generadas respecto a la respuesta esperada.
- **Exact Match**: Verifica si la respuesta generada es exactamente igual a la respuesta esperada.
