# An√°lisis de los diferentes modelos

## 1. Importaci√≥n de librer√≠as y modulos

In [2]:
#%pip install -r requirements.txt

In [3]:
from datasets import Dataset
from ragas import evaluate
from ragas.metrics import faithfulness, answer_relevancy, context_precision, context_recall
from langchain_community.document_loaders.pdf import PyPDFDirectoryLoader
from langchain_community.llms import Ollama
from langchain_chroma import Chroma
import tqdm
from module import *

In [4]:
emb_model = [
    "multilingual_large",
    "baai_large",
    "mxbai_large",
    "baai_small"
]

llm_model = [
    "llama3",
    "mistral",
    "phi3",
    "gemma"
]

## 2. Carga de datos 

In [None]:
documents_loader = PyPDFDirectoryLoader("./data_testing/test1")
documents = documents_loader.load()

In [10]:
chunks = split_documents(documents)

## 3. Creaci√≥n de la base de datos vectorial

In [11]:
# Load the existing database.
db = Chroma(
    collection_name="test1",
    persist_directory="./database_testing",
    embedding_function=get_embedding_function(emb_model[0])
)

# Calculate Page IDs.
chunks_with_ids = calculate_chunk_ids(chunks)

# Add or Update the documents.
existing_items = db.get(include=[])  # IDs are always included by default
existing_ids = set(existing_items["ids"])
print(f"Number of existing documents in DB: {len(existing_ids)}")

# Only add documents that don't exist in the DB.
new_chunks = []
for chunk in chunks_with_ids:
    if chunk.metadata["id"] not in existing_ids:
        new_chunks.append(chunk)

if len(new_chunks):
    print(f"üëâ Adding new documents: {len(new_chunks)}")
    with tqdm.tqdm(total=len(new_chunks)) as pbar:
        for chunk in new_chunks:
            db.add_documents([chunk], ids=[chunk.metadata["id"]])
            pbar.update(1)
    print("Documents added correctly ‚úÖ")
else:
    print("‚úÖ No new documents to add")

Number of existing documents in DB: 99
üëâ Adding new documents: 446


  0%|          | 0/446 [00:00<?, ?it/s]

: 

## 4. Preguntas de inter√©s

### 4.1. Spanish documents

In [None]:

questions_docs_es1 = [
    "¬øQu√© derechos ling√º√≠sticos reconoce la Constituci√≥n Espa√±ola?",
    "¬øQu√© establece la Constituci√≥n Espa√±ola sobre la detenci√≥n preventiva y los derechos de las personas detenidas?",
    "¬øCu√°les son los valores superiores del ordenamiento jur√≠dico espa√±ol seg√∫n la Constituci√≥n?",
    "Quins drets ling√º√≠stics reconeix la Constituci√≥ Espanyola?",
    "Qu√® estableix la Constituci√≥ Espanyola sobre la detenci√≥ preventiva i els drets de les persones detingudes?",
    "Quins s√≥n els valors superiors de l'ordenament jur√≠dic espanyol segons la Constituci√≥?",
    "What linguistic rights does the Spanish Constitution recognize?",
    "What does the Spanish Constitution establish regarding preventive detention and the rights of detained persons?",
    "What are the higher values of the Spanish legal system according to the Constitution?",
]

questions_docs_es2 = [
    "¬øQu√© condiciones espec√≠ficas pueden aplicarse en un contrato indefinido para personas con discapacidad?",
    "¬øC√≥mo se define y establece la duraci√≥n del per√≠odo de prueba en un contrato indefinido seg√∫n el documento?",
    "¬øQu√© derechos de bonificaci√≥n a la Seguridad Social se mencionan para contratos indefinidos celebrados con trabajadores pertenecientes al Sistema Nacional de Garant√≠a Juvenil?",
    "Quines condicions espec√≠fiques es poden aplicar en un contracte indefinit per a persones amb discapacitat?",
    "Com es defineix i s'estableix la durada del per√≠ode de prova en un contracte indefinit segons el document?",
    "Quins drets de bonificaci√≥ a la Seguretat Social es mencionen per a contractes indefinits celebrats amb treballadors pertanyents al Sistema Nacional de Garantia Juvenil?",
    "What specific conditions can be applied in an indefinite contract for people with disabilities?",
    "How is the duration of the trial period defined and established in an indefinite contract according to the document?",
    "What Social Security bonus rights are mentioned for indefinite contracts entered into with workers belonging to the National Youth Guarantee System?",
]

questions = questions_docs_es1 + questions_docs_es2

In [None]:
contexts = []

for question in questions:
    # Get the top 5 most relevant documents
    results = db.similarity_search_with_score(question, k=3)

    # Make a list of the contexts
    question_contexts = []
    for doc, _score in results:
        question_contexts.append(doc.page_content)

    # Append the context sub-list to the list of contexts
    contexts.append(question_contexts)

Ahora creamos las respuestas esperadas para cada pregunta.

In [None]:
answers_docs_es1 = {
    "La Constituci√≥n Espa√±ola reconoce el castellano como lengua oficial del Estado y establece que todos los espa√±oles tienen el deber de conocerla y el derecho a usarla. Tambi√©n reconoce que las dem√°s lenguas espa√±olas ser√°n oficiales en las respectivas Comunidades Aut√≥nomas de acuerdo con sus Estatutos, y protege la riqueza de las distintas modalidades ling√º√≠sticas de Espa√±a como un patrimonio cultural que debe ser objeto de especial respeto y protecci√≥n.",
    "La Constituci√≥n Espa√±ola establece que la detenci√≥n preventiva no puede durar m√°s del tiempo estrictamente necesario para la realizaci√≥n de las averiguaciones, y en todo caso, el detenido debe ser puesto en libertad o a disposici√≥n de la autoridad judicial en un plazo m√°ximo de 72 horas. Adem√°s, garantiza el derecho a ser informado de forma inmediata y comprensible sobre los derechos y las razones de la detenci√≥n, as√≠ como el derecho a la asistencia de un abogado.",
    "Seg√∫n la Constituci√≥n Espa√±ola, los valores superiores del ordenamiento jur√≠dico espa√±ol son la libertad, la justicia, la igualdad y el pluralismo pol√≠tico.",
    "La Constituci√≥ Espanyola reconeix el castell√† com a llengua oficial de l'Estat i estableix que tots els espanyols tenen el deure de con√®ixer-la i el dret a usar-la. Tamb√© reconeix que les altres lleng√ºes espanyoles seran oficials en les respectives Comunitats Aut√≤nomes d'acord amb els seus Estatuts, i protegeix la riquesa de les diferents modalitats ling√º√≠stiques d'Espanya com un patrimoni cultural que ha de ser objecte d'especial respecte i protecci√≥.",
    "La Constituci√≥ Espanyola estableix que la detenci√≥ preventiva no pot durar m√©s del temps estrictament necessari per a la realitzaci√≥ de les averiguacions, i en tot cas, el detingut ha de ser posat en llibertat o a disposici√≥ de l'autoritat judicial en un termini m√†xim de 72 hores. A m√©s, garanteix el dret a ser informat de forma immediata i comprensible sobre els drets i les raons de la detenci√≥, aix√≠ com el dret a l'assist√®ncia d'un advocat.",
    "Segons la Constituci√≥ Espanyola, els valors superiors de l'ordenament jur√≠dic espanyol s√≥n la llibertat, la just√≠cia, la igualtat i el pluralisme pol√≠tic.",
    "The Spanish Constitution recognizes Spanish (Castilian) as the official language of the State, and establishes that all Spaniards have the duty to know it and the right to use it. It also recognizes that other Spanish languages will be official in their respective Autonomous Communities according to their Statutes, and protects the richness of Spain's various linguistic modalities as a cultural heritage that must be specially respected and protected.",
    "The Spanish Constitution establishes that preventive detention cannot last longer than the time strictly necessary to conduct investigations, and in any case, the detained person must be released or brought before a judicial authority within a maximum period of 72 hours. It also guarantees the right to be informed immediately and in an understandable manner about the rights and reasons for the detention, as well as the right to legal assistance.",
    "According to the Spanish Constitution, the higher values of the Spanish legal system are freedom, justice, equality, and political pluralism."
}

answers_docs_es2 = {
    "En un contrato indefinido para personas con discapacidad, se pueden aplicar condiciones espec√≠ficas como bonificaciones en la cuota empresarial a la Seguridad Social, subvenciones, y adaptaciones del puesto de trabajo seg√∫n las caracter√≠sticas de la persona. Adem√°s, se pueden establecer per√≠odos de prueba y de adaptaci√≥n al trabajo adecuados a la situaci√≥n del trabajador.",
    "La duraci√≥n del per√≠odo de prueba en un contrato indefinido se define de acuerdo con lo establecido en el Estatuto de los Trabajadores, respetando las normas legales vigentes. Puede variar seg√∫n el grupo profesional o el nivel del trabajador, y en algunos casos puede ser de hasta un a√±o si se acoge a ciertas disposiciones legales.",
    "Para los contratos indefinidos celebrados con trabajadores pertenecientes al Sistema Nacional de Garant√≠a Juvenil, se mencionan bonificaciones de 300 euros mensuales en la cotizaci√≥n empresarial a la Seguridad Social durante un per√≠odo de 6 meses. En el caso de contratos a tiempo parcial, la bonificaci√≥n se ajusta proporcionalmente al porcentaje de la jornada.",
    "En un contracte indefinit per a persones amb discapacitat, es poden aplicar condicions espec√≠fiques com bonificacions en la quota empresarial a la Seguretat Social, subvencions, i adaptacions del lloc de treball segons les caracter√≠stiques de la persona. A m√©s, es poden establir per√≠odes de prova i d'adaptaci√≥ al treball adequats a la situaci√≥ del treballador.",
    "La durada del per√≠ode de prova en un contracte indefinit es defineix d'acord amb el que estableix l'Estatut dels Treballadors, respectant les normes legals vigents. Pot variar segons el grup professional o el nivell del treballador, i en alguns casos pot ser de fins a un any si s'acull a certes disposicions legals.",
    "Per als contractes indefinits celebrats amb treballadors pertanyents al Sistema Nacional de Garantia Juvenil, es mencionen bonificacions de 300 euros mensuals en la cotitzaci√≥ empresarial a la Seguretat Social durant un per√≠ode de 6 mesos. En el cas de contractes a temps parcial, la bonificaci√≥ s'ajusta proporcionalment al percentatge de la jornada.",
    "In an indefinite contract for people with disabilities, specific conditions may include bonuses in the employer's Social Security contributions, subsidies, and workplace adaptations according to the person's characteristics. Additionally, probationary periods and job adaptation periods can be established in line with the worker's situation.",
    "The duration of the trial period in an indefinite contract is defined according to the provisions of the Workers' Statute, respecting the legal standards in force. It may vary depending on the professional group or level of the worker, and in some cases, it can be up to one year if certain legal provisions are applied.",
    "For indefinite contracts entered into with workers belonging to the National Youth Guarantee System, bonuses of 300 euros per month are mentioned in the employer's Social Security contribution for a period of 6 months. In the case of part-time contracts, the bonus is adjusted proportionally to the percentage of the workday."
}


answers = answers_docs_es1 + answers_docs_es2

Finalmente creamos el DataFrame para evaluar los modelos.

In [None]:
data_samples = {
    'question': questions,
    'answer': answers,
    'contexts': contexts,
    'ground_truth': answers
}

dataset = Dataset.from_dict(data_samples)

## 5. Evaluaci√≥n de los modelos

In [None]:
embeddings = get_embedding_function(emb_model[0])
llm = Ollama(model=llm_model[0])

In [None]:
import nest_asyncio
from ragas.run_config import RunConfig


nest_asyncio.apply()

try:
    score = evaluate(
        dataset,
        metrics=[faithfulness, answer_relevancy],
        llm=llm,
        embeddings=embeddings,
        raise_exceptions=False,
        run_config=RunConfig(
            max_retries=30, # Default is 10
            max_wait=180, # Default is 60
            max_workers=64 # Default is 16
        )
    )
except Exception as e:
    print(f"An error ocurred: {e}")

df_score = score.to_pandas()
print(df_score)

In [None]:
df_score.head(10)