In [1]:
import sys
sys.path.append("../../.")

In [2]:
from Utils.DbLoadUtils import getMongoClient

In [3]:
uri = "mongodb+srv://admin:admin@bigdata.em7viry.mongodb.net/?retryWrites=true&w=majority&appName=BigData"
mongoClient = getMongoClient(uri)

db = mongoClient["BigDataProjPoc"]
collection = db["BigDataProjPoc"]

Connection to MongoDB successful


In [4]:
from langchain_huggingface import HuggingFaceEmbeddings
embedding_model = HuggingFaceEmbeddings(
    model_name='sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2',
    multi_process=True,
    model_kwargs={"device": "cuda"},
    encode_kwargs={"normalize_embeddings": True},
)

  from tqdm.autonotebook import tqdm, trange


In [5]:
from langchain.vectorstores import MongoDBAtlasVectorSearch

vectorStore = MongoDBAtlasVectorSearch.from_connection_string(
    uri,
    db.name + "." + collection.name,
    embedding_model,
    relevance_score_fn = "cosine"
)


In [6]:
from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [11]:
from langchain_community.llms import HuggingFaceHub

modelName = "google/gemma-1.1-7b-it"

hf2 = HuggingFaceHub(
    repo_id=modelName,
    model_kwargs={"temperature":0.1, "max_length":500})

In [8]:
def get_embedding(text: str) -> list[float]:
    if not text.strip():
        print("Attempted to get embedding for empty text.")
        return []

    embedding = embedding_model.embed_query(text)

    return embedding


In [49]:
def vector_search(sintomi, collection):
    sintomi_embedding = get_embedding(sintomi)

    pipeline = [
        {
            "$vectorSearch": {
                "index": "vector_index",
                "queryVector": sintomi_embedding,
                "path": "embedding",
                "numCandidates": 10000,
                "limit": 10,
            }
        },
        {
            "$project": {
                "_id": 0,
                "Sintomi e motivi della domanda": 1,
                "Note sul paziente": 1,
                "Medicinali consigliati": 1,
                "Esami Consigliati": 1,
                "Considerazioni del Medico e Note": 1,
                "score": {"$meta": "vectorSearchScore"}
            }
        }
    ]

    results = collection.aggregate(pipeline)
    return list(results)

In [56]:
def createPromptForGeneration(query: str):
    
    docs = vector_search(query, collection=collection)
    context = ""
    for doc in docs:
        context += str(doc["Medicinali consigliati"]).strip() + "\n"
        context += str(doc["Considerazioni del Medico e Note"]).strip() + "\n\n"
        
    instruction = """Sei un dottore che deve formulare una possibile cure per i sintomi rilevati. Unisci la tua conoscenza pregressa ai dati forniti dal contesto. 
Non inventare. Genera una risposta rapida e concisa, senza ripetizioni. Usa un tono professionale e senza errori grammaticali. Indica unicamente la riposta alla domanda.
Non rispondere con il tuo nome e non identificarti. Elenca delle possibili soluzione."""
    
    return f"""CONTESTO: {context}
SINTOMI RILEVATI: {query}
ISTRUZIONI: {instruction}
RISPOSTA:
"""

In [34]:
def createPromptForExtraction(text: str):
    instruction ="Estrai i sintomi e le motivazioni dalla seguente domanda: "
    return instruction + text

In [12]:
from langchain_community.llms import HuggingFaceHub

modelName = "google/gemma-1.1-7b-it"

hf1 = HuggingFaceHub(
    repo_id=modelName,
    model_kwargs={"max_length":500})

In [47]:
def answer(query: str):
    
    extraction = createPromptForExtraction(query)
    response = hf1.generate([extraction], max_new_tokens=1000)
    splitted = response.generations[0][0].text
    
    
    
    prompt  = createPromptForGeneration(splitted)
    print(prompt)
    response = hf2.generate([prompt], max_new_tokens=1000, do_sample = True)
    splitted = response.generations[0][0].text.split("RISPOSTA:")[-1]
    return splitted.strip()


def answerNoRag(query: str):
    response = hf2.generate([query], max_new_tokens=1000, do_sample = True)
    splitted = response.generations[0][0].text
    return splitted.strip()

In [None]:
print(answer("Ciao, cosa devo fare per capire se sono celiaco?"))
print(answerNoRag("Ciao, cosa devo fare per capire se sono celiaco?"))

In [57]:
print(answer("Ciao, ho un fortissimo mal di testa."))

CONTESTO: ['Adepril', 'Tramadolo']
["Lo Zomig non è incompatibile con l'Adepril.", 'La dose minima di Adepril è di 10 mg e la sua assunzione con Tramadolo dovrebbe essere strettamente monitorata da un neurologo qualificato.']

nan
["Le aree di gliosi encefalica possono essere associati ad una varietà di problemi, tra cui l'emicrania con aura.", 'Il stress e il caldo eccessivo possono influenzare la frequenza e la gravità degli attacchi. ', 'È importante indagare la causa delle aree di gliosi encefalica e della frequenza degli attacchi.']

nan
['La posizione distesa potrebbe essere un fattore aggravante della cefalea.', "Una terapia farmacologica di prevenzione potrebbe essere la scelta di elezione per evitare l'abuso di analgesici e la cronicizzazione della cefalea."]

["Continua l'uso delle lenti", 'Provare a abituarsi ai nuovi occhiali', 'Verificare la corretta gradazione degli occhiali']
["Abituarsi all'astigmatismo non è sempre facile e richiede tempo e impegno.", "È importante ver

In [None]:
def grad(query:str):
    return answer(query), answerNoRag(query)

In [None]:
import gradio as gr

demo = gr.Interface(
    fn=grad,
    inputs=["text"],
    outputs=["text", "text"],
)

demo.launch()