Nom: David Morillo Massagué

NIU: 1666540

In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import random

# medical questions and answers dataset from kaggle
# https://www.kaggle.com/datasets/thedevastator/comprehensive-medical-q-a-dataset
df = pd.read_csv("medical.csv")

# limitar a 1000 les q/a per a que sigui més ràpid
df = df.head(1000)
# limitar respostes a 300 caracters
df["answer"] = df["answer"].apply(lambda x: x[:300])

vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(df["question"].tolist() + df["answer"].tolist())
prompt_vectors = tfidf_matrix[: len(df["question"])]
resposta_vectors = tfidf_matrix[len(df["question"]) :]


def fitness(prompt_vector, resposta_vector):
    return cosine_similarity(prompt_vector, resposta_vector)[0][0]

#print(millor_resposta("Why do i cough and sneeze?"))
def genetic_algorithm(prompt, generations=100, population_size=20, mutation_rate=0.01):
    def create_individual():
        return random.sample(range(len(df["answer"])), len(df["answer"]))

    def crossover(parent1, parent2):
        crossover_point = random.randint(0, len(parent1) - 1)
        child = parent1[:crossover_point] + parent2[crossover_point:]
        return child

    def mutate(individual):
        for i in range(len(individual)):
            if random.random() < mutation_rate:
                swap_with = random.randint(0, len(individual) - 1)
                individual[i], individual[swap_with] = individual[swap_with], individual[i]

    def fitness_function(individual):
        prompt_vector = vectorizer.transform([prompt])
        return sum(fitness(prompt_vector, resposta_vectors[i]) for i in individual) / len(individual)

    population = [create_individual() for _ in range(population_size)]
    for generation in range(generations):
        population = sorted(population, key=fitness_function, reverse=True)
        next_generation = population[:2]
        for _ in range(population_size - 2):
            parent1, parent2 = random.sample(population[:10], 2)
            child = crossover(parent1, parent2)
            mutate(child)
            next_generation.append(child)
        population = next_generation

    best_individual = max(population, key=fitness_function)
    best_answer_index = best_individual[0]
    return df["answer"][best_answer_index]

print(genetic_algorithm("How do I prevent parasites?"))

Based on limited information, after an incubation period that could be as short as 2-4 days, the disease presents initially with non-specific flu-like symptoms, including fever, anorexia (loss of appetite), general malaise, diarrhea, and vomiting; a second phase has appeared in some patients, and in


In [18]:
df = pd.read_csv("medical.csv")

vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(df["question"].tolist() + df["answer"].tolist())
prompt_vectors = tfidf_matrix[: len(df["question"])]
resposta_vectors = tfidf_matrix[len(df["question"]) :]

def millor_resposta(prompt):
    prompt_vector = vectorizer.transform([prompt])
    best_answer = None
    best_fitness = 0
    for i in range(len(df["answer"])):
        f = fitness(prompt_vector, resposta_vectors[i])
        if f > best_fitness:
            best_fitness = f
            best_answer = df["answer"][i]
    return best_answer

print(millor_resposta("Why do I cough and sneeze?"))

Summary : When you cough or sneeze, you send tiny germ-filled droplets into the air. Colds and flu usually spread that way. You can help stop the spread of germs by       - Covering your mouth and nose when you sneeze or cough. Sneeze or cough into your elbow, not your hands.    - Cleaning your hands often - always before you eat or prepare food, and after you use the bathroom or change a diaper     - Avoiding touching your eyes, nose or mouth       Hand washing is one of the most effective and most overlooked ways to stop disease. Soap and water work well to kill germs. Wash for at least 20 seconds and rub your hands briskly. Disposable hand wipes or gel sanitizers also work well.


In [19]:
print(millor_resposta("What are the possible symptoms of a heart attack?"))

Espaol
                
A heart attack happens when the flow of oxygen-rich blood to a section of heart muscle suddenly becomes blocked and the heart cant get oxygen. If blood flow isnt restored quickly, the section of heart muscle begins to die.
                
Heart attack treatment works best when its given right after symptoms occur. If you think you or someone else is having a heart attack, even if youre not sure, call 911 right away.
                
Overview
                
Heart attacks most often occur as a result of coronary heart disease (CHD), also called coronary artery disease. CHD is a condition in which a waxy substance called plaque builds up inside the coronary arteries. These arteries supply oxygen-rich blood to your heart.
                
When plaque builds up in the arteries, the condition is called atherosclerosis. The buildup of plaque occurs over many years.
                
Eventually, an area of plaque can rupture (break open) inside of an artery. This caus

**1. Dataset: Quin conjunt de dades heu utilitzat per als prompts i respostes?** Hem utilitzat un dataset de preguntes i respostes en anglès relacionat amb la medicina, trobat a Kaggle: https://www.kaggle.com/datasets/thedevastator/comprehensive-medical-q-a-dataset
Conté 60.000 files i les columnes [tipus, pregunta, resposta], les quals només hem utilitzat les columnes pregunta i resposta.

**2. Funció de Fitness: Quina mètrica de similitud heu escollit per a la funció de fitness?** Hem fet servir la mètrica de similitud de cosinus per comparar les respostes generades amb les respostes reals, ja que és una mètrica comuna per a la comparació de textos, i és fàcil d'utilitzar i comprendre.

**3. Paràmetres d’Algorisme: Quin efecte heu observat en la qualitat de
les respostes en funció de la mida de la població, la taxa de mutació i el
nombre de generacions?** En el nostre cas, no hem pogut experimentar molt amb aquestes variables, ja que a l'algoritme genètic les respostes no tenien gaire sentit, i hem pogut executar l'algoritme amb els parametres generations=100, population_size=20, mutation_rate=0.01, amb el dataset limitat a 1000 files. Això ha generat la resposta en més de 20 minuts, i la qualitat de les respostes no era gaire bona. Per tant, no hem pogut fer moltes proves amb aquestes variables.

**4. Resultats de Qualitat: Quina és la resposta de màxima similitud trobada per un prompt específic? Com compareu aquesta resposta amb les
altres respostes possibles?** Hem fet servir dos algoritmes diferents:
- **Algoritme purament genètic**: Per a aquest cas, les respostes es generaven a una velocitat molt baixa, i el millor resultat per el prompt "How do I prevent parasites?" no tenia gaire sentit ("Based on limited information, after an incubation period that could be as short as 2-4 days, the disease presents initially with non-specific flu-like symptoms, including fever, anorexia (loss of appetite), general malaise, diarrhea, and vomiting; a second phase has appeared in some patients, and in").
- **Algoritme genètic amb model de llenguatge**: Amb aquest algoritme, les respostes generades eren molt més coherents i semblants a les respostes reals. Per al prompt "Why do I cough and sneeze?", la millor resposta generada va ser "Summary : When you cough or sneeze, you send tiny germ-filled droplets into the air. Colds and flu usually spread that way. [...]" Aquesta resposta és més coherent i útil que la generada per l'algoritme purament genètic, en la meva opinió.
Pel cas del prompt "What are the possible symptoms of a heart attack?" ens va retornar la resposta "A heart attack happens when the flow of oxygen-rich blood to a section of heart muscle suddenly becomes blocked and the heart cant get oxygen. [...]" que és una resposta que al menys té sentit i és coherent amb el prompt.

**5. Convergència: Quantes generacions ha necessitat l’algorisme per aconseguir una resposta òptima o propera a l’òptima per als prompts seleccionats?** Com hem dit, l'algoritme genètic no ha pogut generar respostes de qualitat en el temps que hem pogut executar-lo. L'algoritme genètic amb model de llenguatge, en canvi, si que ha generat respostes de qualitat, però no podem extreure les generacions que ha necessitat per arribar a aquestes respostes, ja que fa servir un algoritme de generació diferent.

**6. Millores Potencials: Quins ajustaments faríeu a la funció de fitness o a l’algorisme per millorar la rellev`ancia de les respostes?** Per a l'algoritme genètic pur, podriem provar d'afegir més generacions, una població més gran i una taxa de mutació més gran per veure si això millora la qualitat de les respostes. Encara que hauriem de provar d'accelerar el porocés per a fer-ho en un temps raonable. Per a l'algoritme genètic amb model de llenguatge, podriem provar d'afegir més dades al model per millorar la qualitat de les respostes generades.