Can only start this when Marvin brings out a version that's compatible with the new OpenAI library.

In [1]:
from environs import Env
import openai
from marvin import ai_model
from pydantic import BaseModel, Field

env = Env()
env.read_env(".env")  # Read .env file
OPENAI_API_KEY = env("OPENAI_API_KEY")  # Get the API key
openai.api_key = OPENAI_API_KEY

In [21]:
@ai_model
class Plants_and_animals(BaseModel):
    """ A representation of all the plants and animals present in the sentence"""
    plants: list[str] = Field(description="The plants present in the sentence")
    animals: list[str] = Field(description= "The animals present in the sentence")
    sentence: str = Field(description= "the sentence itself")


Plants_and_animals("Of men neemt drie handvollen van dat kruid, eer dat het gebloeid heeft, twe handen vol Kamillen, of boter bloemen.")


Plants_and_animals(plants=['kruid', 'Kamillen', 'boter bloemen'], animals=[], sentence='Of men neemt drie handvollen van dat kruid, eer dat het gebloeid heeft, twe handen vol Kamillen, of boter bloemen.')

In [24]:
import pandas as pd
output_gpt_and_bert = pd.read_csv("../data/llm_annotation/disagreement_analysis/round2/llm_and_ner_combination_round2.csv")
disagreements= output_gpt_and_bert.loc[output_gpt_and_bert["disagreement"]==True]


In [28]:
disagreements = disagreements.drop(columns =["Unnamed: 0.1", "Unnamed: 0", "flagged", "disagreement"])

In [54]:
import ast

def create_gpt4_prompt(row):
    def extract_entities(labels, entity_type, sentence):
        entities = []
        if isinstance(labels, list):
            for label in labels:
                if label[2] == entity_type:
                    # Extract the text snippet using the start and end indices
                    start, end = label[:2]
                    entity_text = sentence[start:end]
                    entities.append(entity_text)
        return entities

    sentence = row['sentence']

    try:
        gpt_labels = ast.literal_eval(row['label'])
        hf_labels = ast.literal_eval(row['huggingface_labels'])

        if not isinstance(gpt_labels, list):
            gpt_labels = []
        if not isinstance(hf_labels, list):
            hf_labels = []
    except (SyntaxError, ValueError):
        # Handle potential syntax errors or invalid data gracefully
        gpt_labels = []
        hf_labels = []

    gpt_plants = extract_entities(gpt_labels, 'plants', sentence)
    gpt_animals = extract_entities(gpt_labels, 'animals', sentence)
    hf_plants = extract_entities(hf_labels, 'plants', sentence)
    hf_animals = extract_entities(hf_labels, 'animals', sentence)

    prompt = (
        f"Sentence: '{sentence}'\n"
        f"Model1 (GPT) found the following plants: {gpt_plants}, and the following animals: {gpt_animals}.\n"
        f"Model2 (Hugging Face) found the following plants: {hf_plants}, and the following animals: {hf_animals}.\n")

    return prompt

# Apply the function to the DataFrame
disagreements['prompt'] = disagreements.apply(create_gpt4_prompt, axis=1)
prompts = disagreements['prompt'].tolist()


In [60]:
import tqdm
@ai_model
class Decide_on_annotations(BaseModel):
    """ 
    Two ai-models have been instructed to find all plants and animals in a sentence.
    In this case they disagreed, look at both options and give the right annotation.
    You are not obligtated to choose one of them, you can also choose a new one.
    """
    plants: list[str] = Field(description="The plants present in the sentence")
    animals: list[str] = Field(description= "The animals present in the sentence")
    sentence: str = Field(description= "the sentence itself")



a = prompts[0:10]

for e in tqdm.tqdm(a):
    b = Decide_on_annotations(e)
    print(b)





  0%|          | 0/10 [00:00<?, ?it/s]

 10%|█         | 1/10 [00:13<02:05, 13.95s/it]

plants=[] animals=['Ojevaars'] sentence='De jonge Ojevaars eindelyk genoegzaame kragten gekreegen hebbende, vervoegen zich in de vlugt by de Ouden, en vertrekken in de laatste dagen van Augustus.'


 20%|██        | 2/10 [00:23<01:29, 11.17s/it]

plants=[] animals=['Oever-zwaluwen', 'Boeren-zwaluwen'] sentence='De Oever-zwaluwen komen in Frankryk, en vertrekken bykans op denzelfden tyd als de Boeren-zwaluwen.'


 30%|███       | 3/10 [00:35<01:22, 11.82s/it]

plants=[] animals=['Visscherspinkjes'] sentence='Om voor Expressen te dienen, als ik nodig oordeelde dat zulks moest geschieden, Of zy moesten de Visscherspinkjes ook vleugels aan naaijen.'


 40%|████      | 4/10 [00:48<01:13, 12.21s/it]

plants=['Mey'] animals=[] sentence="DEn Hemel wil getuygen, De lichte Maan met al haar gulde sterren, Hoe wy ons herte buygen Voor 't licht dat staag ons sinnen kan verwarren, Wij roepen al, met bly geschal, de Mey is ons verschenen, Die ons uyt minne, dees groote Coninginne Komt verleenen."


 50%|█████     | 5/10 [01:24<01:43, 20.73s/it]

plants=[] animals=['Wormen'] sentence="'DE Vader sondt zijn Soone het Woordt liberale, Daer de kleene kinderen mede waeren in erven, Want ghelijck alle Menschen doodt waren principale, Door Adams onghehoorsaemheydt altemale, En moesten al ghelijck den doodt daerom sterven, Soo sullen nu alle Menschen het Leven verwerven, Door Christus ghehoorsaemheydt, sterven en verrijsen: Nu kan Adams sonde gheen Kinders Zielen verderven Hoe wel dat David spreeckt om den Heere te prijsen: Ick ben van sondighen Zade, der Wormen spijsen, Gheboren, en mijn Moeder heeft my in sonden ontfaen: En of men hier uyt d'Erf-sonde wilde bewijsen, Christus heeft naer Davids doodt die al voldaen: Maer wanneer de Kinderen goedt en quaedt konnen verstaen, Hun eyghen sonden brenghen hun in 's doodts doleuren, Als zy het goede laten, ende 't quaede nae-gaen: Want Godt en haet gheen Menschen tot gheenen uren, Maer de sonde diese doen, doetse van Godt afschueren, Nochtans is't Godts wille niet, dat daer yemandt zy verloo

 60%|██████    | 6/10 [01:30<01:02, 15.63s/it]

plants=[] animals=['paarden'] sentence='De paarden der ruiters begonnen onrustig te worden.'


 70%|███████   | 7/10 [01:38<00:39, 13.16s/it]

plants=['Heester-Gewas'] animals=[] sentence='Dit is een Heester-Gewas, waar van men twee zoorten onderscheiden kan.'


 80%|████████  | 8/10 [02:08<00:37, 18.62s/it]

plants=['druiven', 'druif', 'doornen', 'vruchten'] animals=[] sentence='Dus altijd verlangende en dorstende naar de druiven - met een grond voorbeeldeloos geschikt om de geurigste druif te leveren, indien slechts het duizendste gedeelte van de moeite en zorg daaraan werd besteed, die voor het opbloeien van doornen worden aangewend - leeft hij nu in een ontevreden stemming, steeds met inspanning zijn misnoegde opwellingen tot kalmte en berusting plooiende, en slechts in staat zich voor het gemis van het tegenwoordige te troosten met het vooruitzicht van zwellende, saprijke vruchten..... in de verre toekomst.'


 90%|█████████ | 9/10 [02:13<00:14, 14.36s/it]

plants=[] animals=['kudde'] sentence='Het werd eindelyk avond, de herders dreven hunne kudde naer huis en bliezen hun avondlied.'


100%|██████████| 10/10 [02:22<00:00, 14.26s/it]

plants=[] animals=[] sentence='Men moet de Stonden doen komen, zo zy opgehouden zyn; Wat de Genees-kunst aangaat, men zal het zelfde, als in de verstopping der Milt aanmerken.'





In [22]:
import re
from typing import List, Tuple, Union
from pydantic import BaseModel

class Annotations(BaseModel):
    sentence: str
    label: List[Tuple[Union[int, None], Union[int, None], Union[str, None]]] = []
    warning: bool = True
    additional_information: str = ""

    @classmethod
    def create_from_plants_and_animals(cls, data: Plants_and_animals):
        instance = cls(sentence=data.sentence)
        labels = []
        warning = False
        additional_info = ""

        for entity_type, entity_list in [("plant", data.plants), ("animal", data.animals)]:
            for plant_or_animal in entity_list:
                occurrences = [m.start() for m in re.finditer(plant_or_animal, data.sentence)]
                
                if len(occurrences) == 1:
                    start = occurrences[0]
                    end = start + len(plant_or_animal)
                    labels.append((start, end, entity_type))
                elif len(occurrences) > 1:
                    warning = True
                    additional_info = "multiple occurrences"
                else:
                    warning = True
                    additional_info = "entity could not be found"

        if warning:
            labels = [(None, None, None)]
            additional_info = "warning"

        instance.label = labels
        instance.warning = warning
        instance.additional_information = additional_info

        return instance


In [11]:
plants_and_animals_data = Plants_and_animals('Of men neemt drie handvollen van dat kruid, eer dat het gebloeid heeft, twee handen vol Kamillen, of boter bloemen.'
)

In [None]:
plants_and_animals_data = Plants_and_animals(
    plants=['kruid', 'Kamillen', 'boter bloemen'],
    animals=[],
    sentence='Of men neemt drie handvollen van dat kruid, eer dat het gebloeid heeft, twe handen vol Kamillen, of boter bloemen.'
)

annotations = Annotations.create_from_plants_and_animals(plants_and_animals_data)
print(annotations.dict())

In [None]:
from pydantic import BaseModel
from typing import List, Tuple

class EntitySpan(BaseModel):
    entity: str
    span: Tuple[int, int]

class SentenceAnalysis(BaseModel):
    plants: List[EntitySpan]
    animals: List[EntitySpan]
    warning: bool = False
    problem: str = ""

# Function to find all entity spans
def find_all_entity_spans(sentence: str, entity: str) -> List[Tuple[int, int]]:
    spans = []
    start = 0
    while start < len(sentence):
        start = sentence.find(entity, start)
        if start == -1:
            break
        end = start + len(entity)
        spans.append((start, end))
        start += len(entity)  # move past this entity
    return spans

sentence = "In de boom zit een aap, om preciezer te zijn: een baviaan"
Plants_and_animals(sentence)



# Validate and process response with Pydantic
try:
    analysis_result = SentenceAnalysis(plants=[], animals=[])

    for plant in api_response.get('plants', []):
        spans = find_all_entity_spans(sentence, plant)
        if len(spans) > 1:
            analysis_result.warning = True
            analysis_result.problem += f"Multiple occurrences of '{plant}'. "
        analysis_result.plants.extend([EntitySpan(entity=plant, span=span) for span in spans])

    for animal in api_response.get('animals', []):
        spans = find_all_entity_spans(sentence, animal)
        if len(spans) > 1:
            analysis_result.warning = True
            analysis_result.problem += f"Multiple occurrences of '{animal}'. "
        analysis_result.animals.extend([EntitySpan(entity=animal, span=span) for span in spans])

except KeyError:
    analysis_result.warning = True
    analysis_result.problem = "Unclear input."

