# An√°lisis de los diferentes modelos

## 1. Importaci√≥n de librer√≠as y modulos

In [None]:
#%pip install -r requirements.txt

In [None]:
from datasets import Dataset
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision, context_recall
from langchain_community.document_loaders.pdf import PyPDFDirectoryLoader
from langchain_community.llms import Ollama
from langchain_chroma import Chroma
from chromadb.config import Settings
import tqdm
from module import *

In [None]:
emb_model = [
    "multilingual_large",
    "baai_large",
    "mxbai_large",
    "baai_small"
]

llm_model = [
    "llama3",
    "mistral",
    "phi3",
    "gemma"
]

## 2. Carga de datos 

In [None]:
documents_loader = PyPDFDirectoryLoader("./data/test1")
documents = documents_loader.load()
print(f"Loaded {len(documents)} documents")

In [None]:
chunks = split_documents(documents, chunk_size=1024)
print("Number of chunks: ", len(chunks))

## 3. Creaci√≥n de la base de datos vectorial

In [None]:
# Load the existing database.
db = Chroma(
    collection_name="test1",
    persist_directory="./database",
    embedding_function=get_embedding_function(emb_model[3])
)

In [None]:
# Calculate Page IDs.
chunks_with_ids = calculate_chunk_ids(chunks)

# Add or Update the documents.
existing_items = db.get(include=[])  # IDs are always included by default
existing_ids = set(existing_items["ids"])
print(f"Number of existing documents in DB: {len(existing_ids)}")

In [None]:
# Only add documents that don't exist in the DB.
new_chunks = []
for chunk in chunks_with_ids:
    if chunk.metadata["id"] not in existing_ids:
        new_chunks.append(chunk)

In [None]:
if len(new_chunks):
    print(f"üëâ Adding new documents: {len(new_chunks)}")
    with tqdm.tqdm(total=len(new_chunks)) as pbar:
        for chunk in new_chunks:
            db.add_documents([chunk], ids=[chunk.metadata["id"]])
            pbar.update(1)
    print("Documents added correctly ‚úÖ")
else:
    print("‚úÖ No new documents to add")

print(f"{len(documents)} documents added to the database correctly")

## 4. Preguntas de inter√©s

In [None]:
questions_docs_cat = [
    "Quins drets ling√º√≠stics reconeix la Constituci√≥ Espanyola?",
    "Qu√® estableix la Constituci√≥ Espanyola sobre la detenci√≥ preventiva i els drets de les persones detingudes?",
    "Quins s√≥n els valors superiors de l'ordenament jur√≠dic espanyol segons la Constituci√≥?",
    "Quines condicions espec√≠fiques es poden aplicar en un contracte indefinit per a persones amb discapacitat?",
    "Com es defineix i s'estableix la durada del per√≠ode de prova en un contracte indefinit segons el document?",
    "Quins drets de bonificaci√≥ a la Seguretat Social es mencionen per a contractes indefinits celebrats amb treballadors pertanyents al Sistema Nacional de Garantia Juvenil?",
]

questions_docs_en = [
    "What are the conditions under which an employment contract's probationary period may be extended or terminated?",
    "What are the stipulations for holiday entitlement and the conditions under which holiday can be carried over to the next year?",
    "What are the employer‚Äôs rights concerning termination of employment during and after the probationary period?",
    "What are the proposed alternatives for the structure and election of the UK Parliament‚Äôs Second Chamber?",
    "What rights are explicitly protected under the proposed Bill of Rights in the document?",
    "How does the document propose constitutional amendments should be enacted or repealed?",
]

questions_docs_es = [
    "¬øQu√© derechos ling√º√≠sticos reconoce la Constituci√≥n Espa√±ola?",
    "¬øQu√© establece la Constituci√≥n Espa√±ola sobre la detenci√≥n preventiva y los derechos de las personas detenidas?",
    "¬øCu√°les son los valores superiores del ordenamiento jur√≠dico espa√±ol seg√∫n la Constituci√≥n?",
    "¬øQu√© condiciones espec√≠ficas pueden aplicarse en un contrato indefinido para personas con discapacidad?",
    "¬øC√≥mo se define y establece la duraci√≥n del per√≠odo de prueba en un contrato indefinido seg√∫n el documento?",
    "¬øQu√© derechos de bonificaci√≥n a la Seguridad Social se mencionan para contratos indefinidos celebrados con trabajadores pertenecientes al Sistema Nacional de Garant√≠a Juvenil?"
]

questions = questions_docs_cat + questions_docs_en + questions_docs_es

In [None]:
contexts = []

for question in questions:
    # Get the top 5 most relevant documents
    results = db.similarity_search_with_score(question, k=3)

    # Make a list of the contexts
    question_contexts = []
    for doc, _score in results:
        question_contexts.append(doc.page_content)

    # Append the context sub-list to the list of contexts
    contexts.append(question_contexts)

Ahora creamos las respuestas esperadas para cada pregunta.

In [None]:
answers_docs_cat = [
    "La Constituci√≥ Espanyola reconeix el castell√† com a llengua oficial de l'Estat i estableix que tots els espanyols tenen el deure de con√®ixer-la i el dret a usar-la. Tamb√© reconeix que les altres lleng√ºes espanyoles seran oficials en les respectives Comunitats Aut√≤nomes d'acord amb els seus Estatuts, i protegeix la riquesa de les diferents modalitats ling√º√≠stiques d'Espanya com un patrimoni cultural que ha de ser objecte d'especial respecte i protecci√≥.",
    "La Constituci√≥ Espanyola estableix que la detenci√≥ preventiva no pot durar m√©s del temps estrictament necessari per a la realitzaci√≥ de les averiguacions, i en tot cas, el detingut ha de ser posat en llibertat o a disposici√≥ de l'autoritat judicial en un termini m√†xim de 72 hores. A m√©s, garanteix el dret a ser informat de forma immediata i comprensible sobre els drets i les raons de la detenci√≥, aix√≠ com el dret a l'assist√®ncia d'un advocat.",
    "Segons la Constituci√≥ Espanyola, els valors superiors de l'ordenament jur√≠dic espanyol s√≥n la llibertat, la just√≠cia, la igualtat i el pluralisme pol√≠tic.",
    "En un contracte indefinit per a persones amb discapacitat, es poden aplicar condicions espec√≠fiques com bonificacions en la quota empresarial a la Seguretat Social, subvencions, i adaptacions del lloc de treball segons les caracter√≠stiques de la persona. A m√©s, es poden establir per√≠odes de prova i d'adaptaci√≥ al treball adequats a la situaci√≥ del treballador.",
    "La durada del per√≠ode de prova en un contracte indefinit es defineix d'acord amb el que estableix l'Estatut dels Treballadors, respectant les normes legals vigents. Pot variar segons el grup professional o el nivell del treballador, i en alguns casos pot ser de fins a un any si s'acull a certes disposicions legals.",
    "Per als contractes indefinits celebrats amb treballadors pertanyents al Sistema Nacional de Garantia Juvenil, es mencionen bonificacions de 300 euros mensuals en la cotitzaci√≥ empresarial a la Seguretat Social durant un per√≠ode de 6 mesos. En el cas de contractes a temps parcial, la bonificaci√≥ s'ajusta proporcionalment al percentatge de la jornada.",
]

answers_docs_en = [
    "The probationary period may be extended or terminated if the employee's work performance is not up to the required standard or if the working relationship is not agreeable. Both parties are required to give one week's written notice during this period.",
    "The holiday entitlement is 5.6 weeks per year, pro-rata for part-time employees. Holidays must be taken within the year, and carrying over untaken holidays requires prior agreement, except in cases of sickness preventing the leave.",
    "During the probationary period, both parties must give one week's notice to terminate employment. After the probationary period, four weeks' notice is required, increasing by one week per year of service up to a maximum of twelve weeks. The employer may terminate employment without notice in cases of serious breach, gross misconduct, or gross negligence.",
    "The document offers alternatives for the Second Chamber: a directly elected body representing the nations and regions of the UK, or a Chamber of Experts appointed for 15 years based on recognized expertise. It also suggests the possibility of the Second Chamber having the power to veto bills under certain conditions.",
    "The proposed Bill of Rights includes rights such as the right to life, freedom from torture, slavery, and forced labor, and the right to a fair trial. Other rights include freedom of thought, expression, assembly, and the right to marry and found a family.",
    "The document proposes that constitutional amendments could be enacted or repealed by Parliament through ordinary legislative procedures, with some suggesting the need for a two-thirds majority in both Houses and approval by a public referendum."
]

answers_docs_es = [
    "La Constituci√≥n Espa√±ola reconoce el castellano como lengua oficial del Estado y establece que todos los espa√±oles tienen el deber de conocerla y el derecho a usarla. Tambi√©n reconoce que las dem√°s lenguas espa√±olas ser√°n oficiales en las respectivas Comunidades Aut√≥nomas de acuerdo con sus Estatutos, y protege la riqueza de las distintas modalidades ling√º√≠sticas de Espa√±a como un patrimonio cultural que debe ser objeto de especial respeto y protecci√≥n.",
    "La Constituci√≥n Espa√±ola establece que la detenci√≥n preventiva no puede durar m√°s del tiempo estrictamente necesario para la realizaci√≥n de las averiguaciones, y en todo caso, el detenido debe ser puesto en libertad o a disposici√≥n de la autoridad judicial en un plazo m√°ximo de 72 horas. Adem√°s, garantiza el derecho a ser informado de forma inmediata y comprensible sobre los derechos y las razones de la detenci√≥n, as√≠ como el derecho a la asistencia de un abogado.",
    "Seg√∫n la Constituci√≥n Espa√±ola, los valores superiores del ordenamiento jur√≠dico espa√±ol son la libertad, la justicia, la igualdad y el pluralismo pol√≠tico.",
    "En un contrato indefinido para personas con discapacidad, se pueden aplicar condiciones espec√≠ficas como bonificaciones en la cuota empresarial a la Seguridad Social, subvenciones, y adaptaciones del puesto de trabajo seg√∫n las caracter√≠sticas de la persona. Adem√°s, se pueden establecer per√≠odos de prueba y de adaptaci√≥n al trabajo adecuados a la situaci√≥n del trabajador.",
    "La duraci√≥n del per√≠odo de prueba en un contrato indefinido se define de acuerdo con lo establecido en el Estatuto de los Trabajadores, respetando las normas legales vigentes. Puede variar seg√∫n el grupo profesional o el nivel del trabajador, y en algunos casos puede ser de hasta un a√±o si se acoge a ciertas disposiciones legales.",
    "Para los contratos indefinidos celebrados con trabajadores pertenecientes al Sistema Nacional de Garant√≠a Juvenil, se mencionan bonificaciones de 300 euros mensuales en la cotizaci√≥n empresarial a la Seguridad Social durante un per√≠odo de 6 meses. En el caso de contratos a tiempo parcial, la bonificaci√≥n se ajusta proporcionalmente al porcentaje de la jornada.",
]


answers = answers_docs_cat + answers_docs_en + answers_docs_es

Finalmente creamos el DataFrame para evaluar los modelos.

In [None]:
data_samples = {
    'question': questions,
    'answer': answers,
    'contexts': contexts,
    'ground_truth': answers
}

dataset = Dataset.from_dict(data_samples)

## 5. Evaluaci√≥n de los modelos

In [None]:
embeddings = get_embedding_function(emb_model[3])
llm = Ollama(model=llm_model[0])

In [None]:
import nest_asyncio
from ragas.run_config import RunConfig


nest_asyncio.apply()

try:
    score = evaluate(
        dataset,
        metrics=[faithfulness, answer_relevancy, context_precision, context_recall],
        llm=llm,
        embeddings=embeddings,
        raise_exceptions=False,
        run_config=RunConfig(
            max_retries=30, # Default is 10
            max_wait=180, # Default is 60
            #max_workers=64 # Default is 16
        )
    )
except Exception as e:
    print(f"An error ocurred: {e}")

df_score = score.to_pandas()
print(df_score)

In [None]:
df_score.head(10)