# SageMaker JumpStart - invoke text generation endpoint

This notebook demonstrates how to attach a predictor to an existing endpoint name and invoke the endpoint with example payloads.

In [None]:
!pip install -U sagemaker
%pip install jsonlines
%pip install tdqm

In [None]:
from sagemaker.predictor import retrieve_default

Retrieve a predictor from your deployed endpoint name.

In [None]:
endpoint_name = "jumpstart-dft-llama-3-1-70b-instruct"
predictor = retrieve_default(endpoint_name)

import json
import boto3
from botocore.config import Config

# endpoint_name = "jumpstart-dft-meta-textgeneration-llama-3-70b-instruct"


def query_endpoint(payload):
    config = Config(
    read_timeout=900,
    connect_timeout=900,
    tcp_keepalive=True,
    retries={"max_attempts": 0})

    client = boto3.client("sagemaker-runtime",config=config)
    response = client.invoke_endpoint(
        EndpointName=endpoint_name,
        ContentType="application/json",
        Body=json.dumps(payload),
    )
    response = response["Body"].read().decode("utf8")
    response = json.loads(response)
    return response

## Medical Specialist

In [None]:
from typing import Dict, List


def format_messages(messages: List[Dict[str, str]]) -> List[str]:
    """Format messages for Llama-3 chat models.
    
    The model only supports 'system', 'user' and 'assistant' roles, starting with 'system', then 'user' and 
    alternating (u/a/u/a/u...). The last message must be from 'user'.
    """
    prompt: List[str] = []
    # print(messages[0]['role'])
    if messages[0]["role"] == "system":
        content = "".join(["<|start_header_id|>system<|end_header_id|>\n\n", messages[0]["content"], "<|eot_id|>", "<|start_header_id|>user<|end_header_id|>\n\n",messages[1]["content"],"<|eot_id|>"])
        messages = [{"role": messages[1]["role"], "content": content}] + messages[2:]

    for user, answer in zip(messages[::2], messages[1::2]):
        prompt.extend(["<|start_header_id|>user<|end_header_id|>", "\n\n", (user["content"]).strip(), " <|eot_id|>"])

    prompt.extend(["<|begin_of_text|>", (messages[0]["content"]).strip(), "<|start_header_id|>assistant<|end_header_id|>\n\n"])

    return "".join(prompt)


llama_config = {"top_p": 0.6,
    "temperature": 0.9,
    "top_k": 50,
    "max_new_tokens": 8192
    }

In [None]:
import jsonlines
def get_static_shots():
    file_path_example = 'static_examples.jsonl'
    with jsonlines.open(file_path_example) as reader:
        data = [line for line in reader]
    return data

static_shots = get_static_shots()
print(static_shots[0])

In [None]:
import jsonlines
def get_text_example(text):
    return str({"text":text})
def get_annotation_example(text):
    return str({"annotation":text})
def get_examples(file_path):
    with jsonlines.open(file_path) as reader:
        data = [line for line in reader]
    return data

def get_from_annotated_dataset(annotated_dataset,_id):
    for doc in annotated_dataset:
        if doc['doc_id'] == _id:
            return doc

system_organization_lvl = 'You are a medical assistant specialist. Your task is to evaluate the organization level of manuscripts from medical students. Follow every guideline for evaluation, if any. Answer only with "Org: X", where X is the score for the organization level. ONLY answer in portuguese.'
prompt_organization_lvl = {'less':['Preciso que você avalie o seguinte texto, e de uma nota para a organização do texto. Os níveis possíveis de organização vão de 1 a 4.\nA pergunta sobre o assunto está a seguir, começando após "P.". A resposta à pergunta começa logo após "R.".\nP. Fale TUDO que você sabe sobre doença pulmonar obstrutiva crônica. TODAS as informações que você souber são importantes.\nR. {{question}}','Preciso que você avalie o seguinte texto. Para isso é necessário que você tenha conhecimento médico e clínico sobre medicina interna, principalmente sobre a doença pulmonar obstrutiva crônica (DPOC). Além disso, preciso que você consiga diferenciar entre textos de especialistas sobre DPOC e textos de alunos.\nAvalie a organização do texto. Os níveis possíveis de organização vão de 1 a 4.\nA pergunta sobre o assunto está a seguir, começando após "P.". A resposta à pergunta começa logo após "R.".\nP. Fale TUDO que você sabe sobre doença pulmonar obstrutiva crônica. TODAS as informações que você souber são importantes.\nR. {{question}}']
                           ,'semi':['Avalie a organização do texto. A organização diz respeito a como o aluno desenvolve as ideias. Os níveis possíveis de organização vão de 1 a 4. Somente responda com a nota de organização.\nA pergunta sobre o assunto está a seguir, começando após "P.". A resposta à pergunta começa logo após "R.".\nP. Fale TUDO que você sabe sobre doença pulmonar obstrutiva crônica. TODAS as informações que você souber são importantes.\nR. {{question}}','Para avaliar o texto a seguir é necessário que você tenha conhecimento médico e clínico sobre medicina interna, principalmente sobre a doença pulmonar obstrutiva crônica (DPOC).\nAvalie a organização do texto. Os níveis possíveis de organização vão de 1 a 4. A organização diz respeito a como o aluno desenvolve suas ideias. Essas ideias se referem a alguma dessas dimensões: fisiopatologia, etiologia, epidemiologia, história, exame físico, exames complementares, diagnóstico diferencial e tratamento.\nA pergunta sobre o assunto está a seguir, começando após "P.". A resposta à pergunta começa logo após "R.".\nP. Fale TUDO que você sabe sobre doença pulmonar obstrutiva crônica. TODAS as informações que você souber são importantes.\nR. {{question}}'],
                           'super':['Preciso que você avalie o seguinte texto. Para isso é necessário que você tenha conhecimento médico e clínico sobre medicina interna, principalmente sobre a doença pulmonar obstrutiva crônica (DPOC).\nAvalie a organização do texto. Os níveis possíveis de organização vão de 1 a 4. A organização diz respeito a como o aluno desenvolve suas ideias. Essas ideias se referem a  alguma dessas dimensões: fisiopatologia, etiologia, epidemiologia, história, exame físico, exames complementares, diagnóstico diferencial e tratamento. Espera-se que, se o aluno começa expressando ideias sobre uma dessas dimensões, fale tudo sobre a dimensão antes de partir para outra dimensão. Além disso, há uma certa ordem esperada, de forma que se ele começar o texto falando sobre tratamento e terminar falando da epidemiologia, isso seria pouco organizado.\nA pergunta sobre o assunto está a seguir, começando após "P.". A resposta à pergunta começa logo após "R.".\nP. Fale TUDO que você sabe sobre doença pulmonar obstrutiva crônica. TODAS as informações que você souber são importantes.\nR. {{question}}'],
                           'one':[],'two':[],'three':[],'four':[],'five':[],'six':[],'seven':[],'eight':[],'nine':[],'ten':[]}


# system_ideas_full = 'You are a helpful medical knowledge assistant for Beginning -Inside Outside (BIO) tagging of medical texts. Your task is to create Medical Named Entity Recognition (NER) annotations using the Beginning -Inside Outside (BIO) format. Label the given sentence (question) using BIO tags from these classes ONLY: pathophysiology, etiology, epidemiology, history, physical, exams, differential e therapeutic. For tokens not belonging to these classes , do not show in the response. For each token you MUST start a new line. Punctuations should be skipped in tokens. Each line must include: (1) word or token , (2) BIO tag , and (3) entity number for B-tags and I-tags ONLY. Use ’<None >’ for O-tags. Maintain the correct format. Example: ’token ’, BIO -tag , ’entity_1 ’. All the texts will be in portuguese.'

system_ideas_full = """You are a medical assistant with expertise in document processing.\n Your task is to tag entities related to these classes ONLY: pathophysiology, etiology, epidemiology, history, physical, exams, differential e therapeutic. Punctuations should be skipped in tokens. Each line must include: (1) word or phrase , (2) start position and end position of the word or phrase , and (3) class or classes that the text is a part of. Maintain the correct format. Example: ’token ’, start pos and end pos, ’entity_1’. All the texts will be in portuguese. Use JSON as the output format. Example of output:\n "A Doença Pulmonar Obstrutiva Crônica é uma condição de insuficiência respiratória de padrão obstrutivo, que ocorre por lesão crônica do parêqnuima pulmonar, a qual culmina em diminuição da complacência pulmonar. A fisiopatogenia envolve um processo inflamatório crônico das vias aéreas e do parênquima que não permite a saída de ar dos pulmões e leva ao acúmulo de volume morto nos alvéolos, mantendo o tórax hiperinsuflado, com acúmulo de CO2 e dificultando as trocas respiratórias.\nA causa mais comum para DPOC é o tabagismo, mas outras causas incluem a convivência com forno a lenha por longo tempo ou a deficiência genética de alfa-1-antitripsina.\nO principal sintoma desses pacientes é a dispneia, que se incia em grandes esforços e pode chegar até ao repouso. O diagnóstico é feito pela clínica + espirometria. A principal complicação são as exacerbações de doença que pode ser associada a quadro infeccioso sobreposto.\nEsses pacientes podem ser divididos segundo os critérios do GOLD entre pacientes muito sintomátisoc&nbsp; e com muitas exacerbações, e o tratamento utiliza LABA, SABA LAMA e CI a depender desses\n', 'annotations': [['tabagismo', 517, 525, ['epidemiology', 'etiology'], ['forno a lenha', 572, 584, ['epidemiology', 'etiology'], ['forno a lenha + por longo tempo', 572, 600, ['epidemiology'], ['deficiência genética de alfa-1-antitripsina', 607, 649, ['etiology'], ['diagnóstico é feito pela clínica + espirometria', 768, 814, ['exams', 'history'], ['dispneia', 693, 700, ['history'], ['dispneia + incia em grandes esforços', 693, 734, ['history'], ['dispneia + incia em grandes esforços + pode chegar até ao repouso', 693, 763, ['history'], ['exacerbações de doença', 848, 869, ['history', 'pathophysiology'], ['exacerbações de doença + quadro infeccioso', 848, 912, ['history', 'pathophysiology'], ['podem ser divididos segundo os critérios do GOLD', 942, 989, ['history'], ['critérios do GOLD + muito sintomátiso + muitas exacerbações', 973, 1056, ['history'], ['lesão crônica do parêqnuima pulmonar', 119, 154, ['pathophysiology'], ['diminuição da complacência pulmonar', 175, 209, ['pathophysiology'], ['processo inflamatório crônico', 240, 268, ['pathophysiology'], ['não permite a saída de ar dos pulmões', 306, 342, ['pathophysiology'], ['acúmulo de volume morto nos alvéolos', 354, 389, ['pathophysiology'], ['tórax hiperinsuflado', 403, 422, ['pathophysiology'], ['acúmulo de CO2', 429, 442, ['pathophysiology'], ['dificultando as trocas respiratórias', 446, 481, ['pathophysiology'], ['insuficiência respiratória', 55, 80, ['pathophysiology'], ['LABA', 1082, 1085, ['therapeutic']], ['SABA', 1088, 1091, ['therapeutic']], ['LAMA', 1093, 1096, ['therapeutic']], ['CI', 1100, 1101, ['therapeutic']]]"""

system_ideas_full_in_order_zero_shot = """You are a medical assistant with expertise in medical document processing.\n Your task is to tag entities related to these classes ONLY: pathophysiology, etiology, epidemiology, history, physical, exams, differential e therapeutic. Each line must include: (1) word or phrase, (2) class or classes that the text is a part of. Maintain the correct format. Example: ['token', ['physical']]. All the texts will be in portuguese. ONLY use JSON as the output format, starting with 'annotations'. DO NOT write, only respond in JSON format.\n"""

system_ideas_full_in_order = """You are a medical assistant with expertise in medical document processing.\n Your task is to tag entities related to these classes ONLY: pathophysiology, etiology, epidemiology, history, physical, exams, differential e therapeutic. Each line must include: (1) word or phrase, (2) class or classes that the text is a part of. Maintain the correct format. Example: ['token', ['physical']]. All the texts will be in portuguese. ONLY use JSON as the output format, starting with 'annotations'. DO NOT write, only respond in JSON format. Examples of user input and assistant output:\n "user input":\n "A Doença Pulmonar Obstrutiva Crônica é uma condição de insuficiência respiratória de padrão obstrutivo, que ocorre por lesão crônica do parêqnuima pulmonar, a qual culmina em diminuição da complacência pulmonar. A fisiopatogenia envolve um processo inflamatório crônico das vias aéreas e do parênquima que não permite a saída de ar dos pulmões e leva ao acúmulo de volume morto nos alvéolos, mantendo o tórax hiperinsuflado, com acúmulo de CO2 e dificultando as trocas respiratórias.\nA causa mais comum para DPOC é o tabagismo, mas outras causas incluem a convivência com forno a lenha por longo tempo ou a deficiência genética de alfa-1-antitripsina.\nO principal sintoma desses pacientes é a dispneia, que se incia em grandes esforços e pode chegar até ao repouso. O diagnóstico é feito pela clínica + espirometria. A principal complicação são as exacerbações de doença que pode ser associada a quadro infeccioso sobreposto.\nEsses pacientes podem ser divididos segundo os critérios do GOLD entre pacientes muito sintomátisoc&nbsp; e com muitas exacerbações, e o tratamento utiliza LABA, SABA LAMA e CI a depender desses\n', 'assistant output':\n "annotations": [['tabagismo', ['epidemiology', 'etiology'], ['forno a lenha', ['epidemiology', 'etiology'], ['forno a lenha + por longo tempo', ['epidemiology'], ['deficiência genética de alfa-1-antitripsina', ['etiology'], ['diagnóstico é feito pela clínica + espirometria', ['exams', 'history'], ['dispneia', ['history'], ['dispneia + incia em grandes esforços', 693, 734, ['history'], ['dispneia + incia em grandes esforços + pode chegar até ao repouso', 693, 763, ['history'], ['exacerbações de doença', ['history', 'pathophysiology'], ['exacerbações de doença + quadro infeccioso', ['history', 'pathophysiology'], ['podem ser divididos segundo os critérios do GOLD',['history'], ['critérios do GOLD + muito sintomátiso + muitas exacerbações', ['history'], ['lesão crônica do parêqnuima pulmonar', ['pathophysiology'], ['diminuição da complacência pulmonar', ['pathophysiology'], ['processo inflamatório crônico', ['pathophysiology'], ['não permite a saída de ar dos pulmões', ['pathophysiology'], ['acúmulo de volume morto nos alvéolos', ['pathophysiology'], ['tórax hiperinsuflado', ['pathophysiology'], ['acúmulo de CO2', ['pathophysiology'], ['dificultando as trocas respiratórias', ['pathophysiology'], ['insuficiência respiratória', ['pathophysiology'], ['LABA', ['therapeutic']], ['SABA', ['therapeutic']], ['LAMA', ['therapeutic']], ['CI', ['therapeutic']]]\n"""

system_ideas_full_in_order_2_shot = """You are a medical assistant with expertise in medical document processing.\n Your task is to tag entities related to these classes ONLY: pathophysiology, etiology, epidemiology, history, physical, exams, differential e therapeutic. Each line must include: (1) word or phrase, (2) class or classes that the text is a part of. Maintain the correct format. Example: ['token', ['physical']]. All the texts will be in portuguese. ONLY use JSON as the output format, starting with 'annotations'. DO NOT write, only respond in JSON format. Examples of user input and assistant output:\n "user input":\n "A Doença Pulmonar Obstrutiva Crônica é uma condição de insuficiência respiratória de padrão obstrutivo, que ocorre por lesão crônica do parêqnuima pulmonar, a qual culmina em diminuição da complacência pulmonar. A fisiopatogenia envolve um processo inflamatório crônico das vias aéreas e do parênquima que não permite a saída de ar dos pulmões e leva ao acúmulo de volume morto nos alvéolos, mantendo o tórax hiperinsuflado, com acúmulo de CO2 e dificultando as trocas respiratórias.\nA causa mais comum para DPOC é o tabagismo, mas outras causas incluem a convivência com forno a lenha por longo tempo ou a deficiência genética de alfa-1-antitripsina.\nO principal sintoma desses pacientes é a dispneia, que se incia em grandes esforços e pode chegar até ao repouso. O diagnóstico é feito pela clínica + espirometria. A principal complicação são as exacerbações de doença que pode ser associada a quadro infeccioso sobreposto.\nEsses pacientes podem ser divididos segundo os critérios do GOLD entre pacientes muito sintomátisoc&nbsp; e com muitas exacerbações, e o tratamento utiliza LABA, SABA LAMA e CI a depender desses\n', 'assistant output':\n "annotations": [['tabagismo', ['epidemiology', 'etiology'], ['forno a lenha', ['epidemiology', 'etiology'], ['forno a lenha + por longo tempo', ['epidemiology'], ['deficiência genética de alfa-1-antitripsina', ['etiology'], ['diagnóstico é feito pela clínica + espirometria', ['exams', 'history'], ['dispneia', ['history'], ['dispneia + incia em grandes esforços', 693, 734, ['history'], ['dispneia + incia em grandes esforços + pode chegar até ao repouso', 693, 763, ['history'], ['exacerbações de doença', ['history', 'pathophysiology'], ['exacerbações de doença + quadro infeccioso', ['history', 'pathophysiology'], ['podem ser divididos segundo os critérios do GOLD',['history'], ['critérios do GOLD + muito sintomátiso + muitas exacerbações', ['history'], ['lesão crônica do parêqnuima pulmonar', ['pathophysiology'], ['diminuição da complacência pulmonar', ['pathophysiology'], ['processo inflamatório crônico', ['pathophysiology'], ['não permite a saída de ar dos pulmões', ['pathophysiology'], ['acúmulo de volume morto nos alvéolos', ['pathophysiology'], ['tórax hiperinsuflado', ['pathophysiology'], ['acúmulo de CO2', ['pathophysiology'], ['dificultando as trocas respiratórias', ['pathophysiology'], ['insuficiência respiratória', ['pathophysiology'], ['LABA', ['therapeutic']], ['SABA', ['therapeutic']], ['LAMA', ['therapeutic']], ['CI', ['therapeutic']]]\n"user input":\n "DPOC é uma doença que costuma ocorrer em idosos e muito associada ao tabagismo e inalação de demais partículas tóxicas, com alta prevalência.\nÉ caracterizada por enfisema e bronquite, havendo tanto o padrão clássico do paciente soprador rosado (magro, avermelhado, predomina enfisema) quanto do tossidor azul (cianótico, sobrepeso, predomina bronquite).\nComo sintomas clássicos, a DPOC tem como sintomas tosse expectorante crônica, dispneia, infecções de repetição, edema. No exame físico, nota-se timpanismo, tórax aumentado em volume, respiração não enche plenamente a caixa torácica, por vezes uso de musculatura acessória, ruídos adventícios.\n","assistant output":\n"annotations":[['idosos', ['epidemiology']], ['muito associada ao tabagismo', ['epidemiology']], ['inalação de demais partículas tóxicas', ['epidemiology', 'etiology']], ['alta prevalência', ['epidemiology']], ['enfisema', ['physical', 'pathophysiology']], ['bronquite', ['physical', 'pathophysiology']], ['soprador rosado', ['pathophysiology', 'physical']], ['magro', ['physical']], ['avermelhado', ['physical']], ['predomina enfisema', ['pathophysiology']], ['tossidor azul', ['pathophysiology', 'physical']], ['cianótico', ['physical']], ['sobrepeso', ['physical']], ['predomina bronquite', ['pathophysiology']], ['tosse expectorante crônica', ['history']], ['dispneia', ['history']], ['infecções de repetição', ['history']], ['edema', ['physical']], ['timpanismo', ['physical']], ['tórax aumentado em volume', ['physical']], ['respiração não enche plenamente a caixa torácica', ['uso de musculatura acessória', ['physical']],['ruídos adventícios', ['physical']]]"""

system_ideas_full_in_order_shot_dynamic = """You are a medical assistant with expertise in medical document processing.\n Your task is to tag entities related to these classes ONLY: pathophysiology, etiology, epidemiology, history, physical, exams, differential e therapeutic. Each line must include: (1) word or phrase, (2) class or classes that the text is a part of. Maintain the correct format. Example: ['token', ['physical']]. All the texts will be in portuguese. ONLY use JSON as the output format, starting with 'annotations'. DO NOT write, only respond in JSON format. Examples of user input and assistant output:\n {{shot}}"""

system_ideas_full_bio = """"
You are a helpful medical knowledge assistant for Beginning -Inside Outside (BIO) tagging of medical texts. Your task is to create Medical Named Entity Recognition (NER) annotations using the Beginning -Inside Outside (BIO) format. Label the given sentence (question) using BIO tags from the class ONLY: pathophysiology, etiology, epidemiology, history, physical, exams, differential e therapeutic. For tokens not belonging to these classes , tag as O-tag. Punctuations should be skipped in tokens. Each line must include: (1) word or token , (2) BIO tag , (3) the class or classes that the token is part of. Follow these steps:\n 1. Extract all the sentences that belong to one of the classes.\n 2. Tokenize the sentences from the step 1.\n 3. Tokenize the sentences that do not belong to any of the classes. 4. Return only the text, no additional responses, starting with "labels:" in JSON format.
Example of output:\n "user":\n "Trata-se de uma doença crôica, com processo evolutivo associado a um quadro de remodelamento anatomopatológico da estrutura brônquica e alveolar. Está relacionada com hábitos de vida com o contato direto de ar/fumaça quente, assim como substâncias tóxicas ao epitélio alveolar (e.g.: alcatrão).\nSeu diagnóstico se dá a partir da achados clínicos (aumento anteroposterior do tórax, dispneia e dessaturação, tempo expiratório prolongado) associado à comprovação da irreversibilidade (total ou parcial) nas provas espirométricas, idealmente.\nSeu tratamento baseia-se na retirada do agente nocivo (por vezes tabagismo) e controle sintomático (seja com broncodilatadores, corticoides, analgésicos com potencial de conforto respiratório ou mesmo oxigênio terapia).\n" \n"assistant:\n     "labels": [["Trata-se","O",null],["de","O",null],["uma","O",null],["doença","O",null],["crôica","O",null],["O","O",null],["com","O",null],["processo","B",["pathophysiology"]],["evolutivo","I",["pathophysiology"]],["associado","O",null],["a","O",null],["um","O",null],["quadro","O",null],["de","O",null],["remodelamento","B",["pathophysiology"]],["anatomopatológico","I",["pathophysiology"]],["da","I",["pathophysiology"]],["estrutura","I",["pathophysiology"]],["brônquica","I",["pathophysiology"]],["e","I",["pathophysiology"]],["alveolar","I",["pathophysiology"]],[".","O",null],["Está","O",null],["relacionada","O",null],["com","O",null],["hábitos","O",null],["de","O",null],["vida","O",null],["com","O",null],["o","O",null],["contato","B",["epidemiology"]],["direto","I",["epidemiology"]],["de","I",["epidemiology"]],["ar/fumaça","I",["epidemiology"]],["quente","I",["epidemiology"]],[".","O",null],["assim","O",null],["como","O",null],["substâncias","B",["etiology","pathophysiology"]],["tóxicas","I",["etiology","pathophysiology"]],["ao","I",["etiology","pathophysiology"]],["epitélio","I",["etiology","pathophysiology"]],["alveolar","I",["etiology","pathophysiology"]],["(","O",null],["e","O",null],[".","O",null],["g","O",null],[".","O",null],[":","O",null],["alcatrão","O",null],[")","O",null],[".","O",null],["Seu","O",null],["diagnóstico","O",null],["se","O",null],["dá","O",null],["a","O",null],["partir","O",null],["da","O",null],["achados","O",null],["clínicos","O",null],["(","O",null],["aumento","B",["physical"]],["anteroposterior","I",["physical"]],["do","I",["physical"]],["tórax","I",["physical"]],["dispneia","B",["history"]],["e","O",null],["dessaturação","B",["physical"]],["tempo","B",["physical"]],["expiratório","I",["physical"]],["prolongado","I",["physical"]],[")","O",null],["associado","O",null],["à","O",null],["comprovação","O",null],["da","O",null],["irreversibilidade","B",["exams"]],["(","I",["exams"]],["total","I",["exams"]],["ou","I",["exams"]],["parcial","I",["exams"]],[")","I",["exams"]],["nas","I",["exams"]],["provas","I",["exams"]],["espirométricas","I",["exams"]],["idealmente","O",null],[".","O",null],["Seu","O",null],["tratamento","O",null],["baseia-se","O",null],["na","O",null],["retirada","B",["therapeutic"]],["do","I",["therapeutic"]],["agente","I",["therapeutic"]],["nocivo","I",["therapeutic"]],["(","O",null],["por","O",null],["vezes","O",null],["tabagismo","O",null],["e","O",null],["controle","B",["therapeutic"]],["sintomático","I",["therapeutic"]],["(","O",null],["seja","O",null],["com","O",null],["broncodilatadores","B",["therapeutic"]],["corticoides","B",["therapeutic"]],["analgésicos","B",["therapeutic"]],["com","I",["therapeutic"]],["potencial","I",["therapeutic"]],["de","I",["therapeutic"]],["conforto","I",["therapeutic"]],["respiratório","I",["therapeutic"]],["ou","O",null],["mesmo","O",null],["oxigênio","B",["therapeutic"]],["terapia","I",["therapeutic"]],[")","O",null],[".","O",null]]

"""

system_ideas_patho = 'You are a medical assistant with expertise in document processing.\n Your task is to tag entities related to pathophysiology.\n. For each entity correctly found, it must contain: (1) the word or phrase (text should contain the EXACT characters in the raw input, including punctuation, and typos), (2) start position of the word or phrase, (3) end position of the word or phrase, (4) pathophysiology. Use JSON as the output format. All the texts will be in portuguese.\nExample of output: user: "DPOC: é uma enfermidade respiratorio prevenivel e tratavel, que se caracteriza pela presença de obstrução cronica do fluxo aereo é progressiva e associada a inflamação cronica anormal."\n assistant:\n labels:[["obstrução","pathophysiology"],["cronica","pathophysiology],["fluxo aereo","pathophysiology"],["é progressiva","pathophysiology"],["inflamação cronica anormal","pathophysiology"]]'

system_ideas_patho_bio = 'You are a helpful medical knowledge assistant for Beginning -Inside Outside (BIO) tagging of medical texts. Your task is to create Medical Named Entity Recognition (NER) annotations using the Beginning -Inside Outside (BIO) format. Label the given sentence (question) using BIO tags from the class ONLY: pathophysiology. If the the token is not part of the class, do not put it into your response.\n The order for each line must be: (1) word or phrase (text should contain the EXACT characters in the raw input, including punctuation, and typos), (2) BIO tag,(3) start and end position of the word or phrase (position 0 is the start of the text and each new character, space or pontuctuation adds one position),(4) pathophysiology. Use JSON as the output format. All the texts will be in portuguese.\nExample of output: user: "DPOC: é uma enfermidade respiratorio prevenivel e tratavel, que se caracteriza pela presença de obstrução cronica do fluxo aereo é progressiva e associada a inflamação cronica anormal."\n assistant:\n labels:[["obstrução",96,104,"B","pathophysiology"],["cronica",106,112,"I","pathophysiology"],["fluxo",117,121,"B","pathophysiology"],["aereo",123,127,"I","pathophysiology"],["é",129,129,"B","pathophysiology"],["progressiva",131,141,"I","pathophysiology"],["inflamação",157,166,"B","pathophysiology"],["cronica",168,174,"I","pathophysiology"],["anormal",176,182,"I","pathophysiology"]]'

prompt_ideas_full = {'less':["Preciso que você avalie o seguinte texto de um aluno de medicina. Calcule a quantidade de ideias escritas no texto. Após calcular a quantidade, retorne as partes do texto consideradas como ideias.\nA pergunta sobre o assunto está a seguir, começando após 'P.'. A resposta à pergunta começa logo após 'R.'.\nP. Fale TUDO que você sabe sobre doença pulmonar obstrutiva crônica. TODAS as informações que você souber são importantes.\nR. {{question}}"],
                     'semi':["Preciso que você avalie o seguinte texto de um aluno de medicina. O texto pode ser dividido em unidades de ideias. Essas unidades de ideias podem ser referente a uma ou mais das categorias a seguir: fisiopatologia, epidemiologia, etiologia, história, exame físico, exames complementares, diagnóstico diferencial, tratamento. Caso alguma ideia não fizer parte de alguma dessas categorias, não inclua a ideia.\nApós dividir o texto em unidades de ideias, retorne as partes do texto consideradas como ideias no formato a seguir:\n<<{’annotations’:[[‘ideia1’,[‘categoria1’,’categoriaN’]],[‘ideia2’,[‘categoria1’,’categoriaN’]],[‘ideiaN’,[‘categoria1’,’categoriaN’]]]}>>\nA pergunta sobre o assunto está a seguir, começando após 'P.'. A resposta à pergunta começa logo após 'R.'.\nP. Fale TUDO que você sabe sobre doença pulmonar obstrutiva crônica. TODAS as informações que você souber são importantes.\nR. {{question}}"],
                     'super':[],
                     'one-few':["Preciso que você avalie o seguinte texto de um aluno de medicina. O texto pode ser dividido em unidades de ideias. Essas unidades de ideias podem ser referente a uma ou mais das categorias a seguir: fisiopatologia, epidemiologia, etiologia, história, exame físico, exames complementares, diagnóstico diferencial, tratamento.\nApós dividir o texto em unidades de ideias, retorne as partes do texto consideradas como ideias no formato a seguir:\n<<{’annotations’:[[‘ideia1’,[‘categoria1’,’categoriaN’]],[‘ideia2’,[‘categoria1’,’categoriaN’]],[‘ideiaN’,[‘categoria1’,’categoriaN’]]]}>>\nA pergunta sobre o assunto está a seguir, começando após 'P.'. A resposta à pergunta começa logo após 'R.'. A seguir, estão textos anotados como exemplo:\n{{example}} \nAgora separe e classifique as ideias, utilizando o formato dos exemplos, mas a partir da resposta a seguir:\nP. Fale TUDO que você sabe sobre doença pulmonar obstrutiva crônica. TODAS as informações que você souber são importantes.\nR. {{question}}"],
                    'one-few-test':['Preciso que você avalie o seguinte texto de um aluno de medicina. O texto pode ser dividido em unidades de ideias. Essas unidades de ideias podem ser referente a uma ou mais das categorias a seguir: fisiopatologia, epidemiologia, etiologia, história, exame físico, exames complementares, diagnóstico diferencial, tratamento.\nApós dividir o texto em unidades de ideias, retorne as partes do texto consideradas como ideias no formato a seguir:\n<<{"annotations":[[‘ideia1",[‘categoria1","categoriaN"]],[‘ideia2",[‘categoria1","categoriaN"]],[‘ideiaN",[‘categoria1","categoriaN"]]]}>>\nSepare e classifique as ideias, utilizando o formato dos exemplos, a partir da resposta a seguir:\nP. Fale TUDO que você sabe sobre doença pulmonar obstrutiva crônica. TODAS as informações que você souber são importantes.\nR. {{question}}']}

file_path = 'prompt-shots.jsonl'
examples = get_examples(file_path)
annotated_dataset = get_examples('teste-progresso/annotations-medical_specialist-dpoc-json.jsonl')

In [None]:
import random
from time import sleep
import sys
def set_prompt(prompt_type,prompt_category,prompt_guide_level, prompt_pos, prompt_shot_amount,question, sys_prompt_name='default'):
    # user_prompt = prompt_type[prompt_guide_level][prompt_pos]
    ideas_shot_template = "P. Fale TUDO que você sabe sobre doença pulmonar obstrutiva crônica. TODAS as informações que você souber são importantes.\nR.<<{{studentResponse}}>>\nSeparação e classificação de ideias:\n<<{{annotationsResponse}}>>"
    
    system_prompt = "Você é um médico especialista com conhecimento médico e clínico sobre medicina interna, principalmente sobre as doenças doença pulmonar obstrutiva crônica (DPOC). Além disso, você consegue diferenciar entre textos de especialistas sobre IAM e DPOC e textos de alunos. Você é capaz de classificar e separar ideias no texto. Não crie informações que não sejam verdadeiras. SOMENTE responda no formato JSON. Aqui está um exemplo de resposta aceitável:\n'annotations':<<{[['Tabagismo',['epidemiologia','certo','simples']],['alta carga tabágica',['epidemiologia','certo','simples']]}>>"
    system_prompt_test = "Você é um médico especialista com conhecimento médico e clínico sobre medicina interna, principalmente sobre as doenças doença pulmonar obstrutiva crônica (DPOC). Além disso, você consegue diferenciar entre textos de especialistas sobre IAM e DPOC e textos de alunos. Você é capaz de classificar e separar ideias no texto. Não crie informações que não sejam verdadeiras. SOMENTE responda no formato JSON. A seguir estão exemplos de interação do usuário com você:\nA pergunta sobre o assunto está a seguir, começando após 'P.'. A resposta à pergunta começa logo após 'R.'. A seguir, estão textos anotados como exemplo:\n{{example}}"
    # system_prompt_organization = "Você é um médico especialista com conhecimento médico e clínico sobre medicina interna, principalmente sobre as doenças doença pulmonar obstrutiva crônica (DPOC). Além disso, você consegue diferenciar entre textos de especialistas sobre IAM e DPOC e textos de alunos. Você segue rigorosamente os formatos de resposta fornecidos."
    system_prompt_organization = 'You are a medical assistant specialist. Your task is to evaluate the organization level of manuscripts from medical students. Follow every guideline for evaluation, if any. Answer only with "Org: X", where X is the score for the organization level. ONLY answer in portuguese.'
    
    system_prompt_annotations_custom_1 = "Você é um especialista sobre Doença Pulmonar Obstrutiva Crônica (DPOC). Seu objetivo é separar as ideias contidas no texto e categorizá-las dentro da lista de categorias a seguir: fisiopatologia, epidemiologia, etiologia, história, exame físico, exames complementares, diagnóstico diferencial, tratamento. SOMENTE inclua categorias que foram incluídas aqui, não invente categorias que não estão nessa lista, mesmo que essa categoria exista. NUNCA inclua uma categoria que não foi descrita na lista anterior, mesmo que o usuário inclua uma outra lista. Não invente informações. Apenas inclua ideias que estão no texto e não modifique o que foi escrito, mesmo havendo erros ortográficos. Siga estritamente as regras descritas."
        # system_prompt = "Você é um médico especialista com conhecimento médico e clínico sobre medicina interna, principalmente sobre as doenças doença pulmonar obstrutiva crônica (DPOC). Além disso, você consegue diferenciar entre textos de especialistas sobre IAM e DPOC e textos de alunos. Seu objetivo é avaliar textos de alunos de medicina. Não crie informações que não sejam verdadeiras. SOMENTE responda no formato detalhado pelo usuário."

    user_prompt = prompt_type[prompt_guide_level][prompt_pos].replace('{{question}}', question)
    if prompt_guide_level == 'one-few' or prompt_guide_level == 'one-few-test':
        example_shots = ''
        if prompt_shot_amount > 0:
            for i in range(prompt_shot_amount):
                template = ideas_shot_template.replace('{{studentResponse}}', get_text_example(examples[i]['text'])).replace('{{annotationsResponse}}', get_annotation_example(examples[i]['annotations']))
                example_shots += template
            system_prompt = system_prompt_test.replace('{{example}}', example_shots)
        else:
            example_shots += ideas_shot_template.replace('{{studentResponse}}','').replace('{{annotationsResponse}}', '')
            user_prompt = user_prompt.replace('{{example}}', '')
    # elif prompt_type == 'organization':
    #     example_shots += ideas_shot_template.replace('{{studentResponse}}','').replace('{{annotationsResponse}}', '')
    #     user_prompt = user_prompt.replace('{{example}}', '')
    # else:
        # example_shots = ideas_shot_template.join(get_text_example(question))
        # example_shots = ideas_shot_template.replace('{{studentResponse}}', get_text_example(question)).replace('Separação e classificação de ideias:\n<<{{annotationsResponse}}>>', '')
    # print(prompt_type[prompt_guide_level][prompt_pos])
    # user_prompt = user_prompt.replace('\\n', '\n')
    if prompt_category == 'organization':
        dialog = [
            { "role": "system","content": system_prompt_organization},
            {"role": "user", "content": user_prompt}
        ]
    elif sys_prompt_name == 'annotations_custom_1':
        dialog = [
            { "role": "system","content": system_prompt_annotations_custom_1},
            {"role": "user", "content": user_prompt}
        ]
    elif prompt_category == 'custom':
        dialog = [
            { "role": "system","content": sys_prompt_name},
            {"role": "user", "content": user_prompt}
        ]
    else:
        dialog = [
            { "role": "system","content": system_prompt},
            {"role": "user", "content": user_prompt}
        ]
    input_prompt = format_messages(dialog)
    return input_prompt

def set_custom_prompt(system_prompt, user_prompt):
    dialog = [
            { "role": "system","content": system_prompt},
            {"role": "user", "content": user_prompt}
        ]
    input_prompt = format_messages(dialog)
    return input_prompt

def prompt_routine(input_prompt, num_replicas, top_p,temp,top_k,max_new_tokens):
    prompt_list = []
    llama_config["top_p"] = top_p
    llama_config["temperature"] = temp
    llama_config["top_k"] = top_k
    payload = {
    "inputs":  input_prompt,
       "parameters": {
        "do_sample": True,
        "max_new_tokens":max_new_tokens,
        "top_p": llama_config["top_p"],
        "temperature": llama_config["temperature"],
        # "repetition_penalty":llama_config['repetition_penalty'],
        "top_k": llama_config["top_k"],
        "stop": "<|eot_id|>"}
    }
    for i in range(num_replicas):
        predictior_output = query_endpoint(payload)
        # sys.stdout.write('\r')
        # # the exact output you're looking for:
        # sys.stdout.write("[%-20s] %d%%" % ('='*num_replicas, 5*num_replicas))
        # sys.stdout.flush()
        # sleep(0.25)
        prompt_list.append({"generated_text":predictior_output["generated_text"] ,"input":input_prompt})
        
    return prompt_list


In [None]:
import os

path = f'llama-outputs/full-dataset/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/'
file_names = os.listdir(path)
used_data = ["f6cb9773-9a81-499c-85c7-3cebe935b930","207c237f-3bcd-4010-bcf1-c1e8b32de6be"]
exisiting_ids = []
for name in file_names:
    doc_id = name[-41:-5]
    if len(doc_id) == len('f98e69ee-fda6-4b1c-a8a9-c20b92630cb6') and doc_id not in used_data:
        used_data.append(doc_id)
        exisiting_ids.append(doc_id)


In [None]:

def run_new_examples (guided_lvl,prompt_category,shot_n):
    random_annotated = random.choice(annotated_dataset)
    while random_annotated['doc_id'] in used_data:
        random_annotated = random.choice(annotated_dataset)
    if prompt_category == 'organization':
        #prompt_type,prompt_category,prompt_guide_level, prompt_pos, prompt_shot_amount,question
            input_prompt = set_prompt(prompt_organization_lvl,'organization',guided_lvl, 0, shot_n,random_annotated['text'],'system_organization_lvl')
    else:
        input_prompt = set_prompt(prompt_ideas_full, guided_lvl, 0, shot_n,random_annotated['text'])
    # prompt_category = 'ideas'
    # guided_lvl = 'less'
    output_batch = prompt_routine(input_prompt, 20,0.6,0.9,llama_config['top_k'],10)
    dict_to_json = {"doc_id": random_annotated['doc_id'],"text": random_annotated['text'], "response": output_batch}
    with open(f'llama-outputs/full-dataset/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/{prompt_category}-{guided_lvl}-{random_annotated["doc_id"]}.json', 'w') as file:
        json.dump(dict_to_json,file,ensure_ascii=False)
    print('Complete',random_annotated['doc_id'])
def run_examples_from_list (list_id,guided_lvl,prompt_category,shot_n):
    path = f'llama-outputs/full-dataset/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/'
    file_names = os.listdir(path)
    i = 1
    for _id in list_id:
        requested_doc = get_from_annotated_dataset(_id)
        if f'{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json' not in file_names:
            input_prompt = set_prompt(prompt_ideas_full, guided_lvl, 0, shot_n,requested_doc['text'])
            output_batch = prompt_routine(input_prompt, 40,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'])
            dict_to_json = {"doc_id": requested_doc['doc_id'],"text": requested_doc['text'], "response": output_batch}
            with open(f'llama-outputs/full-dataset/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json', 'w') as file:
                json.dump(dict_to_json,file,ensure_ascii=False)
            print('Complete',requested_doc['doc_id'],f'{i}/{len(list_id)}')
        else:
            print('Already exists',requested_doc['doc_id'])
        i += 1

def run_examples_from_list_all_guide_lvl (list_id,prompt_obj,guided_lvl_max,prompt_category,shot_n):
    path = f'llama-outputs/full-dataset/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/{prompt_category}'
    file_names = os.listdir(path)
    i = 1
    for _id in list_id:
        requested_doc = get_from_annotated_dataset(_id)
        max_guided = False
        for guided_lvl in prompt_obj:
           
            if max_guided == False:
                for prompt_pos in range(len(prompt_obj[guided_lvl])):
                    if f'{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json' not in file_names:
                        input_prompt = set_prompt(prompt_obj, prompt_category, guided_lvl, prompt_pos, shot_n,requested_doc['text'])
                        output_batch = prompt_routine(input_prompt,20,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],llama_config['max_new_tokens'])
                        dict_to_json = {"doc_id": requested_doc['doc_id'],"text": requested_doc['text'], "response": output_batch}
                        with open(f'llama-outputs/full-dataset/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/{prompt_category}/{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json', 'w') as file:
                            json.dump(dict_to_json,file,ensure_ascii=False)
                        print('Complete',requested_doc['doc_id'],f'{i}/{len(list_id)*3}')
                    else:
                        print('Already exists',requested_doc['doc_id'])
                    i += 1
            if guided_lvl == guided_lvl_max:
                max_guided = True

#### Annotating all categories

In [None]:
import jsonlines


def get_fixed_examples(file_path, task_id,top_n):
    top_matches = []
    with jsonlines.open(file_path) as reader:
        fixed_examples = [line for line in reader]
    fixed_examples = sorted(fixed_examples, key=lambda x: x['diversity'], reverse=True)
    fixed_examples = [example for example in fixed_examples if task_id not in example.values()]
    
    top_matches = [{'doc_id': example['doc_id'],'text': example['text'], 'cluster_labels': example['cluster_labels']} for example in fixed_examples[:top_n]]
    return top_matches
def get_fixed_examples_augmented(file_path, task_id,top_n):
    top_matches = []
    with jsonlines.open(file_path) as reader:
        fixed_examples = [line for line in reader]
    fixed_examples = sorted(fixed_examples, key=lambda x: x['diversity'], reverse=True)
    fixed_examples = [example for example in fixed_examples if task_id not in example.values()]
    
    top_matches = [{'doc_id': example['doc_id'],'text': example['text'], 'augmented_annotation': example['augmented_annotation']} for example in fixed_examples[:top_n]]
    return top_matches
test = get_fixed_examples_augmented('static_shots_11_best.jsonl','3e663aa5-b913-4115-a0ad-38c8f3e24cae',2)
test[1]

In [None]:
# requested_case = random.choice(annotated_dataset)
requested_case = get_from_annotated_dataset(annotated_dataset,'3e663aa5-b913-4115-a0ad-38c8f3e24cae')
#3e663aa5-b913-4115-a0ad-38c8f3e24cae
print(requested_case,'\n\n')
input_prompt = set_custom_prompt(system_ideas_full_bio,requested_case['text'])
prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)

### Experiment 1 - One prompt for all Categories (Same texts as Gabriel's Test)

In [None]:
import pandas as pd
import os

test_ids = list(pd.read_csv('test_data_info.csv')['doc_id'])
test_ids_no_short = list(pd.read_csv('annotations_medical_specialist_pre_processed_no_short.csv')['doc_id'])

In [None]:
diff = list(set(test_ids) - set(test_ids_no_short))
print(diff)

In [None]:
def run_annotation_examples_from_list (full_dataset,sys_prompt,list_id,guided_lvl,prompt_category,shot_n):
    path = f'llama-outputs/full-dataset/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/ideas-{shot_n}-shot'
    if not os.path.exists(path):
        os.makedirs(path)
    file_names = os.listdir(path)
    i = 1
    for _id in list_id:
        # print(_id)
        requested_doc = get_from_annotated_dataset(full_dataset,_id)
        if f'{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json' not in file_names:
            input_prompt = set_custom_prompt(sys_prompt,requested_doc['text'])
            # prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            
            output_batch = prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            dict_to_json = {"doc_id": requested_doc['doc_id'],"text": requested_doc['text'],"input":output_batch[0]['input'] ,"response": output_batch[0]['generated_text']}
            report_path = f'llama-outputs/full-dataset/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/ideas-{shot_n}-shot'
            if not os.path.exists(report_path):
                os.makedirs(report_path)
            with open(f'llama-outputs/full-dataset/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/ideas-{shot_n}-shot/{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json', 'w') as file:
                json.dump(dict_to_json,file,ensure_ascii=False)
            print('Complete',requested_doc['doc_id'],f'{i}/{len(list_id)}')
        else:
            print('Already exists',requested_doc['doc_id'])
        i += 1

def run_annotation_processed_examples_from_list (full_dataset,sys_prompt,list_id,guided_lvl,prompt_category,shot_n):
    path = f'llama-outputs/full-dataset/no-short-data/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/ideas-{shot_n}-shot'
    if not os.path.exists(path):
        os.makedirs(path)
    file_names = os.listdir(path)
    i = 1
    for _id in list_id:
        # print(_id)
        requested_doc = get_from_annotated_dataset(full_dataset,_id)
        if f'{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json' not in file_names:
            input_prompt = set_custom_prompt(sys_prompt,requested_doc['text'])
            # prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            
            output_batch = prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            dict_to_json = {"doc_id": requested_doc['doc_id'],"text": requested_doc['text'],"input":output_batch[0]['input'] ,"response": output_batch[0]['generated_text']}
            report_path = f'llama-outputs/full-dataset/no-short-data/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/ideas-{shot_n}-shot'
            if not os.path.exists(report_path):
                os.makedirs(report_path)
            with open(f'llama-outputs/full-dataset/no-short-data/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/ideas-{shot_n}-shot/{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json', 'w') as file:
                json.dump(dict_to_json,file,ensure_ascii=False)
            print('Complete',requested_doc['doc_id'],f'{i}/{len(list_id)}')
        else:
            print('Already exists',requested_doc['doc_id'])
        i += 1

#### 1-shot (arbitrary examples) temp 0.9

In [None]:
llama_config['temperature'] = 0.9
run_annotation_processed_examples_from_list(annotated_dataset,system_ideas_full_in_order,test_ids_no_short,'full','ideas',1)
# llama_config['temperature'] = 0.9

#### 2-shot (arbitrary examples) temp 0.9

In [None]:
llama_config['temperature'] = 0.9
run_annotation_processed_examples_from_list(annotated_dataset,system_ideas_full_in_order_2_shot,test_ids_no_short,'full','ideas',2)
# llama_config['temperature'] = 0.9

#### 1-shot (arbitrary examples) temp 0.0

In [None]:
llama_config['temperature'] = 0.0
run_annotation_processed_examples_from_list(annotated_dataset,system_ideas_full_in_order,test_ids_no_short,'full','ideas',1)
# llama_config['temperature'] = 0.9

#### 2-shot (arbitrary examples) temp 0.0

In [None]:
llama_config['temperature'] = 0.0
run_annotation_processed_examples_from_list(annotated_dataset,system_ideas_full_in_order_2_shot,test_ids_no_short,'full','ideas',2)
# llama_config['temperature'] = 0.9

### Experiment 2 - One prompt for all Categories (Information Retrieval for best shot)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from tqdm import tqdm


df_data_info = pd.read_csv('test_data_info.csv')
df_no_short_data_info = pd.read_csv('annotations_medical_specialist_pre_processed_no_short.csv')
def minimize_labels(label):
    n_label = []
    if type(label) == str:
        label = eval(label)
    for l in label:
        if l[4] != None:
            n_label.append([l[0],list(l[4].keys())])
        else:
            n_label.append([l[0],l[4]])
    return n_label
def get_only_text(label):
    n_label = []
    if type(label) == str:
        label = eval(label)
    for l in label:
        n_label.append([l[0]])
    return n_label

def bio_to_cluster_annotation (bio_annotation):
    main_annotation = []
    for i in range(len(bio_annotation)):
        list_ann = eval(bio_annotation[i])
        
        sub_annotation = []
        phrase = []
        for z in range(len(list_ann)):
            if list_ann[z][3] == 'B':
                if len(phrase) > 0:
                    sub_annotation.append([' '.join(phrase),list(list_ann[z][4].keys())])
                    phrase = []
                phrase.append(list_ann[z][0])
            elif list_ann[z][3] == 'I':
                phrase.append(list_ann[z][0])
        main_annotation.append(sub_annotation)
    return main_annotation

def extract_example_shot_from_row(_row, output='string'):
    if output == 'list':
        shot_text = {'user_input':_row['text'],'assistant_output':_row['cluster_labels']}
    elif output == 'string':
        shot_text = f"""'user_input':{_row['text']}\n 'assistant_output':"annotations":{_row['cluster_labels']}"""
    return shot_text

def find_top_matches(query, df, top_n):
    # Create TF-IDF vectorizer
    vectorizer = TfidfVectorizer()

    # Fit and transform the text data in the dataframe
    tfidf_matrix = vectorizer.fit_transform(df['text'])

    # Transform the query string
    query_vector = vectorizer.transform([query])

    # Calculate cosine similarity between the query vector and all documents
    similarity_scores = cosine_similarity(query_vector, tfidf_matrix)

    # Get the indices of the top 3 matches
    top_indices = similarity_scores.argsort()[0][-1*top_n:][::-1]
    # Get the corresponding documents from the dataframe
    top_matches = df.iloc[top_indices]
    # print(type(top_matches))
    
    return top_matches

## Transform list of annotated tokens into continuous string for TF-IDF
def annotation_token_to_text(df_text):
    annotation_token_to_text = ''
    # for id,row in df_text.iterrows():
        # print(row['cluster_labels'])
        # print(eval(row['cluster_labels'])[0])
        # print('============list_row==')
    list_row = eval(df_text['cluster_labels'])
    for i in range(len(list_row)):
        annotation_token_to_text += list_row[i][0] + ' '
    return annotation_token_to_text

## Retrieving similar examples from complete text (TF-IDF)
def find_top_matches_from_annotation(query, df, top_n):
    # for i in range(len(df['cluster_labels'])):
    #     df['cluster_labels'][i] = minimize_labels(df['cluster_labels'][i])

    # Create TF-IDF vectorizer
    vectorizer = TfidfVectorizer()

    # Fit and transform the text data in the dataframe
    tfidf_matrix = vectorizer.fit_transform(df['cluster_labels'])

    # Transform the query string
    query_vector = vectorizer.transform([query])

    # Calculate cosine similarity between the query vector and all documents
    similarity_scores = cosine_similarity(query_vector, tfidf_matrix)

    # Get the indices of the top 3 matches
    top_indices = similarity_scores.argsort()[0][-1*top_n:][::-1]
    # Get the corresponding documents from the dataframe
    top_matches = df.iloc[top_indices]
    # print(type(top_matches))
    
    return top_matches


In [None]:
def predict_annotations_tf_idf_shots (full_dataset,list_id,guided_lvl,prompt_category,shot_n):
    path = f'llama-outputs/full-dataset/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/ideas-tf-idf-{shot_n}-shot'
    if not os.path.exists(path):
        os.makedirs(path)
    file_names = os.listdir(path)
    i = 1
    for _id in list_id:
        # print(_id)
        requested_doc = get_from_annotated_dataset(full_dataset,_id)
        if f'{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json' not in file_names:
            df_top_shots = find_top_matches(requested_doc["text"],df_data_info[df_data_info.loc[:, 'text'] != requested_doc["text"]],shot_n)
            
            shots_text = ''
            for j in range(shot_n):
                top_shot = df_top_shots.iloc[j]
                # print('top_shot',top_shot)
                txt = extract_example_shot_from_row(top_shot)
                shots_text += '\n'+txt
            # print('bundle of shots', shots_text)
            replace_sys_instruction = system_ideas_full_in_order_shot_dynamic.replace("{{shot}}", shots_text)
            # print('SYSTEM PROMPT ===========\n',replace_sys_instruction,'#################### END SYSTEM PROMPT #####################')
            input_prompt = set_custom_prompt(replace_sys_instruction,requested_doc['text'])
            # prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            
            output_batch = prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            dict_to_json = {"doc_id": requested_doc['doc_id'],"text": requested_doc['text'],"input":output_batch[0]['input'], "response": output_batch[0]['generated_text']}
            report_path = path
            if not os.path.exists(report_path):
                os.makedirs(report_path)
            with open(f'{report_path}/{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json', 'w') as file:
                json.dump(dict_to_json,file,ensure_ascii=False)
            print('Complete',requested_doc['doc_id'],f'{i}/{len(list_id)}')
        else:
            print('Already exists',requested_doc['doc_id'])
        i += 1

def predict_annotations_tf_idf_shots_from_preprocessed (full_dataset,list_id,guided_lvl,prompt_category,shot_n):
    path = f'llama-outputs/full-dataset/no-short-data/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/ideas-tf-idf-{shot_n}-shot'
    if not os.path.exists(path):
        os.makedirs(path)
    file_names = os.listdir(path)
    i = 1
    for _id in list_id:
        # print(_id)
        requested_doc = get_from_annotated_dataset(full_dataset,_id)
        if f'{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json' not in file_names:
            df_top_shots = find_top_matches(requested_doc["text"],df_no_short_data_info[df_no_short_data_info.loc[:, 'text'] != requested_doc["text"]],shot_n)
            
            shots_text = ''
            for j in range(shot_n):
                top_shot = df_top_shots.iloc[j]
                # print('top_shot',top_shot)
                txt = extract_example_shot_from_row(top_shot)
                shots_text += '\n'+txt
            # print('bundle of shots', shots_text)
            replace_sys_instruction = system_ideas_full_in_order_shot_dynamic.replace("{{shot}}", shots_text)
            # print('SYSTEM PROMPT ===========\n',replace_sys_instruction,'#################### END SYSTEM PROMPT #####################')
            input_prompt = set_custom_prompt(replace_sys_instruction,requested_doc['text'])
            # prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            
            output_batch = prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            dict_to_json = {"doc_id": requested_doc['doc_id'],"text": requested_doc['text'],"input":output_batch[0]['input'], "response": output_batch[0]['generated_text']}
            report_path = path
            if not os.path.exists(report_path):
                os.makedirs(report_path)
            with open(f'{report_path}/{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json', 'w') as file:
                json.dump(dict_to_json,file,ensure_ascii=False)
            print('Complete',requested_doc['doc_id'],f'{i}/{len(list_id)}')
        else:
            print('Already exists',requested_doc['doc_id'])
        i += 1

#### 1-Shot

In [None]:
llama_config['temperature'] = 0.0
predict_annotations_tf_idf_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',1)

In [None]:
llama_config['temperature'] = 0.9
predict_annotations_tf_idf_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',1)

#### 2-shot

In [None]:
llama_config['temperature'] = 0.0
predict_annotations_tf_idf_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',2)

In [None]:
llama_config['temperature'] = 0.9
predict_annotations_tf_idf_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',2)

#### 3-shot

In [None]:
llama_config['temperature'] = 0.0
predict_annotations_tf_idf_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',3)

In [None]:
llama_config['temperature'] = 0.9
predict_annotations_tf_idf_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',3)

#### 4-shot

In [None]:
llama_config['temperature'] = 0.0
predict_annotations_tf_idf_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',4)

In [None]:
llama_config['temperature'] = 0.9
predict_annotations_tf_idf_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',4)

### Experiment 3 - Zero Shot

In [None]:
import pandas as pd
import os

test_ids = list(pd.read_csv('test_data_info.csv')['doc_id'])
test_ids_no_short = list(pd.read_csv('annotations_medical_specialist_pre_processed_no_short.csv')['doc_id'])

In [None]:
def run_annotation_examples_from_list (full_dataset,sys_prompt,list_id,guided_lvl,prompt_category,shot_n):
    path = f'llama-outputs/full-dataset/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/ideas-{shot_n}-shot'
    if not os.path.exists(path):
        os.makedirs(path)
    file_names = os.listdir(path)
    i = 1
    for _id in list_id:
        # print(_id)
        requested_doc = get_from_annotated_dataset(full_dataset,_id)
        if f'{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json' not in file_names:
            input_prompt = set_custom_prompt(sys_prompt,requested_doc['text'])
            # prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            
            output_batch = prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            dict_to_json = {"doc_id": requested_doc['doc_id'],"text": requested_doc['text'],"input":output_batch[0]['input'] ,"response": output_batch[0]['generated_text']}
            report_path = f'llama-outputs/full-dataset/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/ideas-{shot_n}-shot'
            if not os.path.exists(report_path):
                os.makedirs(report_path)
            with open(f'llama-outputs/full-dataset/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/ideas-{shot_n}-shot/{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json', 'w') as file:
                json.dump(dict_to_json,file,ensure_ascii=False)
            print('Complete',requested_doc['doc_id'],f'{i}/{len(list_id)}')
        else:
            print('Already exists',requested_doc['doc_id'])
        i += 1

def run_annotation_processed_examples_from_list (full_dataset,sys_prompt,list_id,guided_lvl,prompt_category,shot_n):
    path = f'llama-outputs/full-dataset/no-short-data/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/ideas-{shot_n}-shot'
    if not os.path.exists(path):
        os.makedirs(path)
    file_names = os.listdir(path)
    i = 1
    for _id in list_id:
        # print(_id)
        requested_doc = get_from_annotated_dataset(full_dataset,_id)
        if f'{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json' not in file_names:
            input_prompt = set_custom_prompt(sys_prompt,requested_doc['text'])
            # prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            
            output_batch = prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            dict_to_json = {"doc_id": requested_doc['doc_id'],"text": requested_doc['text'],"input":output_batch[0]['input'] ,"response": output_batch[0]['generated_text']}
            report_path = f'llama-outputs/full-dataset/no-short-data/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/ideas-{shot_n}-shot'
            if not os.path.exists(report_path):
                os.makedirs(report_path)
            with open(f'llama-outputs/full-dataset/no-short-data/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/ideas-{shot_n}-shot/{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json', 'w') as file:
                json.dump(dict_to_json,file,ensure_ascii=False)
            print('Complete',requested_doc['doc_id'],f'{i}/{len(list_id)}')
        else:
            print('Already exists',requested_doc['doc_id'])
        i += 1

#### zero shot temp 0.0

In [None]:
llama_config['temperature'] = 0.0
run_annotation_processed_examples_from_list(annotated_dataset,system_ideas_full_in_order_zero_shot,test_ids_no_short,'full','ideas',0)
# llama_config['temperature'] = 0.9

In [None]:
import tarfile
import os

def make_tarfile(output_filename, source_dir):
    with tarfile.open(output_filename, "w:gz") as tar:
        tar.add(source_dir, arcname=os.path.basename(source_dir))
make_tarfile('llama_outputs.tar.gz','llama-outputs')


### Experiment 4 - Similar annotation instead of similar text (TF-IDF)

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from tqdm import tqdm


df_data_info = pd.read_csv('test_data_info.csv')
df_no_short_data_info = pd.read_csv('annotations_medical_specialist_pre_processed_no_short.csv')
df_medical_specialist_pre_processed = pd.read_csv('annotations_medical_specialist_pre_processed.csv')
def minimize_labels(label):
    n_label = []
    if type(label) == str:
        label = eval(label)
    for l in label:
        if l[4] != None:
            n_label.append([l[0],list(l[4].keys())])
        else:
            n_label.append([l[0],l[4]])
    return n_label
def get_only_text(label):
    n_label = []
    if type(label) == str:
        label = eval(label)
    for l in label:
        n_label.append([l[0]])
    return n_label

def bio_to_cluster_annotation (bio_annotation):
    main_annotation = []
    for i in range(len(bio_annotation)):
        list_ann = eval(bio_annotation[i])
        
        sub_annotation = []
        phrase = []
        for z in range(len(list_ann)):
            if list_ann[z][3] == 'B':
                if len(phrase) > 0:
                    sub_annotation.append([' '.join(phrase),list(list_ann[z][4].keys())])
                    phrase = []
                phrase.append(list_ann[z][0])
            elif list_ann[z][3] == 'I':
                phrase.append(list_ann[z][0])
        main_annotation.append(sub_annotation)
    return main_annotation

def extract_example_shot_from_row(_row, output='string'):
    if output == 'list':
        shot_text = {'user_input':_row['text'],'assistant_output':_row['cluster_labels']}
    elif output == 'string':
        shot_text = f"""'user_input':{_row['text']}\n 'assistant_output':"annotations":{_row['cluster_labels']}"""
    return shot_text

## Transform list of annotated tokens into continuous string for TF-IDF 
def annotation_token_to_text(df_text):
    annotation_token_to_text = ''
    # for id,row in df_text.iterrows():
        # print(row['cluster_labels'])
        # print(eval(row['cluster_labels'])[0])
        # print('============list_row==')
    list_row = eval(df_text['cluster_labels'])
    for i in range(len(list_row)):
        annotation_token_to_text += list_row[i][0] + ' '
    return annotation_token_to_text

## Retrieving similar examples from complete text (TF-IDF)  ##
def find_top_matches_from_annotation(query, df, top_n):
    # for i in range(len(df['cluster_labels'])):
    #     df['cluster_labels'][i] = minimize_labels(df['cluster_labels'][i])

    # Create TF-IDF vectorizer
    vectorizer = TfidfVectorizer()

    # Fit and transform the text data in the dataframe
    tfidf_matrix = vectorizer.fit_transform(df['cluster_labels'])

    # Transform the query string
    query_vector = vectorizer.transform([query])

    # Calculate cosine similarity between the query vector and all documents
    similarity_scores = cosine_similarity(query_vector, tfidf_matrix)

    # Get the indices of the top 3 matches
    top_indices = similarity_scores.argsort()[0][-1*top_n:][::-1]
    # Get the corresponding documents from the dataframe
    top_matches = df.iloc[top_indices]
    # print(type(top_matches))
    
    return top_matches


In [None]:
def predict_annotations_tf_idf_custom_shots (full_dataset,list_id,guided_lvl,prompt_category,shot_n):
    path = f'llama-outputs/full-dataset/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/ideas-tf-idf-{shot_n}-shot'
    if not os.path.exists(path):
        os.makedirs(path)
    file_names = os.listdir(path)
    i = 1
    for _id in list_id:
        # print(_id)
        requested_doc = get_from_annotated_dataset(full_dataset,_id)
        if f'{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json' not in file_names:
            df_top_shots = find_top_matches_from_annotation(requested_doc["text"],df_data_info[df_data_info.loc[:, 'text'] != requested_doc["text"]],shot_n)
            
            shots_text = ''
            for j in range(shot_n):
                top_shot = df_top_shots.iloc[j]
                # print('top_shot',top_shot)
                txt = extract_example_shot_from_row(top_shot)
                shots_text += '\n'+txt
            # print('bundle of shots', shots_text)
            replace_sys_instruction = system_ideas_full_in_order_shot_dynamic.replace("{{shot}}", shots_text)
            # print('SYSTEM PROMPT ===========\n',replace_sys_instruction,'#################### END SYSTEM PROMPT #####################')
            input_prompt = set_custom_prompt(replace_sys_instruction,requested_doc['text'])
            # prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            
            output_batch = prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            dict_to_json = {"doc_id": requested_doc['doc_id'],"text": requested_doc['text'],"input":output_batch[0]['input'], "response": output_batch[0]['generated_text']}
            report_path = path
            if not os.path.exists(report_path):
                os.makedirs(report_path)
            with open(f'{report_path}/{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json', 'w') as file:
                json.dump(dict_to_json,file,ensure_ascii=False)
            print('Complete',requested_doc['doc_id'],f'{i}/{len(list_id)}')
        else:
            print('Already exists',requested_doc['doc_id'])
        i += 1

def predict_annotations_tf_idf_custom_shots_from_preprocessed (full_dataset,list_id,guided_lvl,prompt_category,shot_n):
    path = f'llama-outputs/full-dataset/no-short-data/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/tf-idf-custom/ideas-tf-idf-{shot_n}-shot'
    if not os.path.exists(path):
        os.makedirs(path)
    file_names = os.listdir(path)
    i = 1
    for _id in list_id:
        # print(_id)
        requested_doc = get_from_annotated_dataset(full_dataset,_id)
        if f'{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json' not in file_names:
            df_top_shots = find_top_matches_from_annotation(requested_doc["text"],df_no_short_data_info[df_no_short_data_info.loc[:, 'text'] != requested_doc["text"]],shot_n)
            
            shots_text = ''
            for j in range(shot_n):
                top_shot = df_top_shots.iloc[j]
                # print('top_shot',top_shot)
                txt = extract_example_shot_from_row(top_shot)
                shots_text += '\n'+txt
            # print('bundle of shots', shots_text)
            replace_sys_instruction = system_ideas_full_in_order_shot_dynamic.replace("{{shot}}", shots_text)
            # print('SYSTEM PROMPT ===========\n',replace_sys_instruction,'#################### END SYSTEM PROMPT #####################')
            input_prompt = set_custom_prompt(replace_sys_instruction,requested_doc['text'])
            # prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            
            output_batch = prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            dict_to_json = {"doc_id": requested_doc['doc_id'],"text": requested_doc['text'],"input":output_batch[0]['input'], "response": output_batch[0]['generated_text']}
            report_path = path
            if not os.path.exists(report_path):
                os.makedirs(report_path)
            with open(f'{report_path}/{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json', 'w') as file:
                json.dump(dict_to_json,file,ensure_ascii=False)
            print('Complete',requested_doc['doc_id'],f'{i}/{len(list_id)}')
        else:
            print('Already exists',requested_doc['doc_id'])
        i += 1

#### 1-Shot

In [None]:
llama_config['temperature'] = 0.0
predict_annotations_tf_idf_custom_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',1)

In [None]:
llama_config['temperature'] = 0.9
predict_annotations_tf_idf_custom_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',1)

#### 2-shot

In [None]:
llama_config['temperature'] = 0.0
predict_annotations_tf_idf_custom_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',2)

In [None]:
llama_config['temperature'] = 0.9
predict_annotations_tf_idf_custom_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',2)

#### 3-shot

In [None]:
llama_config['temperature'] = 0.0
predict_annotations_tf_idf_custom_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',3)

In [None]:
llama_config['temperature'] = 0.9
predict_annotations_tf_idf_custom_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',3)

#### 4-shot

In [None]:
llama_config['temperature'] = 0.0
predict_annotations_tf_idf_custom_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',4)

In [None]:
llama_config['temperature'] = 0.9
predict_annotations_tf_idf_custom_shots_from_preprocessed(annotated_dataset,test_ids_no_short,'full','ideas',4)

## Score Assessment by annotation

In [None]:
# def predict_score_by_annotation_custom_shot (full_dataset,list_id,guided_lvl,prompt_category,shot_n):
#     path = f'llama-outputs/full-dataset/no-short-data/temp-{str(llama_config["temperature"])}/top-p-{str(llama_config["top_p"])}/tf-idf-custom/scoring-tf-idf-{shot_n}-shot'
#     if not os.path.exists(path):
#         os.makedirs(path)
#     file_names = os.listdir(path)
#     i = 1
#     for _id in list_id:
#         # print(_id)
#         requested_doc = get_from_annotated_dataset(full_dataset,_id)
#         if f'{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json' not in file_names:
#             df_top_shots = find_top_matches_from_annotation(requested_doc["text"],df_no_short_data_info[df_no_short_data_info.loc[:, 'text'] != requested_doc["text"]],shot_n)
            
#             shots_text = ''
#             for j in range(shot_n):
#                 top_shot = df_top_shots.iloc[j]
#                 # print('top_shot',top_shot)
#                 txt = extract_example_shot_from_row(top_shot)
#                 shots_text += '\n'+txt
#             # print('bundle of shots', shots_text)
#             replace_sys_instruction = system_ideas_full_in_order_shot_dynamic.replace("{{shot}}", shots_text)
#             # print('SYSTEM PROMPT ===========\n',replace_sys_instruction,'#################### END SYSTEM PROMPT #####################')
#             input_prompt = set_custom_prompt(replace_sys_instruction,requested_doc['text'])
#             # prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
            
#             output_batch = prompt_routine(input_prompt, 1,llama_config['top_p'],llama_config['temperature'],llama_config['top_k'],1000)
#             dict_to_json = {"doc_id": requested_doc['doc_id'],"text": requested_doc['text'],"input":output_batch[0]['input'], "response": output_batch[0]['generated_text']}
#             report_path = path
#             if not os.path.exists(report_path):
#                 os.makedirs(report_path)
#             with open(f'{report_path}/{prompt_category}-{guided_lvl}-{requested_doc["doc_id"]}.json', 'w') as file:
#                 json.dump(dict_to_json,file,ensure_ascii=False)
#             print('Complete',requested_doc['doc_id'],f'{i}/{len(list_id)}')
#         else:
#             print('Already exists',requested_doc['doc_id'])
#         i += 1

In [None]:
# system_ideas_full_in_order_2_shot = """You are a medical assistant with expertise for education evaluation of students.\n Your task is to evaluate the organization medical student texts. After the text, an annotation of . All the texts will be in portuguese. ONLY use JSON as the output format, starting with 'grade'. DO NOT write, only respond in JSON format. 
# Examples of user input and assistant output:\n "user input":\n "A Doença Pulmonar Obstrutiva Crônica é uma condição de insuficiência respiratória de padrão obstrutivo, que ocorre por lesão crônica do parêqnuima pulmonar, a qual culmina em diminuição da complacência pulmonar. A fisiopatogenia envolve um processo inflamatório crônico das vias aéreas e do parênquima que não permite a saída de ar dos pulmões e leva ao acúmulo de volume morto nos alvéolos, mantendo o tórax hiperinsuflado, com acúmulo de CO2 e dificultando as trocas respiratórias.\nA causa mais comum para DPOC é o tabagismo, mas outras causas incluem a convivência com forno a lenha por longo tempo ou a deficiência genética de alfa-1-antitripsina.\nO principal sintoma desses pacientes é a dispneia, que se incia em grandes esforços e pode chegar até ao repouso. O diagnóstico é feito pela clínica + espirometria. A principal complicação são as exacerbações de doença que pode ser associada a quadro infeccioso sobreposto.\nEsses pacientes podem ser divididos segundo os critérios do GOLD entre pacientes muito sintomátisoc&nbsp; e com muitas exacerbações, e o tratamento utiliza LABA, SABA LAMA e CI a depender desses\n', 'assistant output':\n "annotations": [['tabagismo', ['epidemiology', 'etiology'], ['forno a lenha', ['epidemiology', 'etiology'], ['forno a lenha + por longo tempo', ['epidemiology'], ['deficiência genética de alfa-1-antitripsina', ['etiology'], ['diagnóstico é feito pela clínica + espirometria', ['exams', 'history'], ['dispneia', ['history'], ['dispneia + incia em grandes esforços', 693, 734, ['history'], ['dispneia + incia em grandes esforços + pode chegar até ao repouso', 693, 763, ['history'], ['exacerbações de doença', ['history', 'pathophysiology'], ['exacerbações de doença + quadro infeccioso', ['history', 'pathophysiology'], ['podem ser divididos segundo os critérios do GOLD',['history'], ['critérios do GOLD + muito sintomátiso + muitas exacerbações', ['history'], ['lesão crônica do parêqnuima pulmonar', ['pathophysiology'], ['diminuição da complacência pulmonar', ['pathophysiology'], ['processo inflamatório crônico', ['pathophysiology'], ['não permite a saída de ar dos pulmões', ['pathophysiology'], ['acúmulo de volume morto nos alvéolos', ['pathophysiology'], ['tórax hiperinsuflado', ['pathophysiology'], ['acúmulo de CO2', ['pathophysiology'], ['dificultando as trocas respiratórias', ['pathophysiology'], ['insuficiência respiratória', ['pathophysiology'], ['LABA', ['therapeutic']], ['SABA', ['therapeutic']], ['LAMA', ['therapeutic']], ['CI', ['therapeutic']]]\n"user input":\n "DPOC é uma doença que costuma ocorrer em idosos e muito associada ao tabagismo e inalação de demais partículas tóxicas, com alta prevalência.\nÉ caracterizada por enfisema e bronquite, havendo tanto o padrão clássico do paciente soprador rosado (magro, avermelhado, predomina enfisema) quanto do tossidor azul (cianótico, sobrepeso, predomina bronquite).\nComo sintomas clássicos, a DPOC tem como sintomas tosse expectorante crônica, dispneia, infecções de repetição, edema. No exame físico, nota-se timpanismo, tórax aumentado em volume, respiração não enche plenamente a caixa torácica, por vezes uso de musculatura acessória, ruídos adventícios.\n","assistant output":\n"annotations":[['idosos', ['epidemiology']], ['muito associada ao tabagismo', ['epidemiology']], ['inalação de demais partículas tóxicas', ['epidemiology', 'etiology']], ['alta prevalência', ['epidemiology']], ['enfisema', ['physical', 'pathophysiology']], ['bronquite', ['physical', 'pathophysiology']], ['soprador rosado', ['pathophysiology', 'physical']], ['magro', ['physical']], ['avermelhado', ['physical']], ['predomina enfisema', ['pathophysiology']], ['tossidor azul', ['pathophysiology', 'physical']], ['cianótico', ['physical']], ['sobrepeso', ['physical']], ['predomina bronquite', ['pathophysiology']], ['tosse expectorante crônica', ['history']], ['dispneia', ['history']], ['infecções de repetição', ['history']], ['edema', ['physical']], ['timpanismo', ['physical']], ['tórax aumentado em volume', ['physical']], ['respiração não enche plenamente a caixa torácica', ['uso de musculatura acessória', ['physical']],['ruídos adventícios', ['physical']]]"""

# Delete endpoint (stop billing)

In [None]:
# Specify your AWS Region
aws_region='us-east-1'

# Create a low-level SageMaker service client.
sagemaker_client = boto3.client('sagemaker', region_name=aws_region)

# Delete endpoint
sagemaker_client.delete_endpoint(EndpointName=endpoint_name)
sagemaker_client.delete_endpoint_config(EndpointConfigName=endpoint_name)