In [None]:
from dotenv import load_dotenv
from rich import print

%load_ext autoreload
%autoreload 2

load_dotenv(verbose=True)

In [None]:
# cSpell:disable

import re

from langchain.output_parsers import PydanticOutputParser
from langchain_community.document_loaders.web_base import WebBaseLoader
from pydantic import BaseModel, Field

URL = "https://www.agroparistech.fr/formations-ingenieur/mention-biodiversite-ecologie-evolution-montpellier-parcours-m1-biodiversite-vegetale-gestion-ecosystemes-tropicaux-montpellier"

loader = WebBaseLoader(URL)
doc = loader.load()
page = doc[0].page_content.strip()
page_cleaned = re.sub(r"[\t ]+", " ", page)
page_cleaned = re.sub(r"\n{3,}", "\n\n", page_cleaned)

In [None]:
from genai_tk.core.llm_factory import get_llm
from genai_tk.core.prompts import def_prompt


class Parcours(BaseModel):
    metiers: list[str] = Field(description="liste de metiers auquels peut conduire la formation")
    domaines: list[str] = Field(description="domaines auquels s'applique cette formation")


system = """
    Extraire les metiers et les domaines d'une fiche de description de formation récupérée sur internet.
    Repondre seulement avec les informations disponibles dans la description.
    \n
    """
user = """
    fiche de desctiption de formation:
    ---
    {fiche}
    ---
    {format_instructions}"""

parser = PydanticOutputParser(pydantic_object=Parcours)

prompt = def_prompt(system=system, user=user).partial(format_instructions=parser.get_format_instructions())

llm = get_llm(temperature=0.0)
chain = prompt | llm | parser
# summaries = chain.batch([{"fiche": page_cleaned}], {"max_concurrency": 5})

# print(summaries)

In [None]:
system = """
    Extraire les metiers et les domaines d'une fiche de description de formation récupérée sur internet.
    Repondre seulement avec les informations disponibles dans la description.
    \n
    """
user = """
    fiche de desctiption de formation:
    ---
    {fiche}
    ---
    """
llm_with_output = llm = get_llm(temperature=0.0).with_structured_output(Parcours)

chain = def_prompt(system=system, user=user) | llm_with_output
summaries = chain.batch([{"fiche": page_cleaned}], {"max_concurrency": 5})

In [None]:
print(summaries)