In [35]:
import os
import requests
import pprint
from openai import OpenAI
from pydantic import BaseModel, Field
from typing import List, Optional

# Set your OpenAI API key in the shell
api_key = os.getenv('OPENAI_API_KEY_traductor')  # Get API key from environment variable
#print(api_key)

client = OpenAI(api_key=api_key)

In [36]:
class Webpage(BaseModel):
    title: str
    paragraphs: Optional[List[str]] = Field(None, description="Text contents enclosed within <p></p> tags.")
    links: Optional[List[str]] = Field(None, description="URLs specified by `href` field within <a></a> tags.")
    images: Optional[List[str]] = Field(None, description="URLs specified by the `src` field within the <img></img> tags.")

In [37]:
# Coge contenido de la web desde una URL y devuelve un objeto Webpage
def get_webpage(url: str) -> str:
    response = requests.get(url)
    return response.text

webpage = get_webpage("https://es.wikipedia.org/wiki/Monte_San_Pedro")

In [38]:
response = client.beta.chat.completions.parse(
    model="gpt-4o-mini",     #"gpt-4o-2024-08-06",
    messages=[
        {
            "role": "system",
            "content": "Eres un parseador de HTML y debes devolver los contenidos de la página parseados."
        },
        {
            "role": "user",
            "content": f"{webpage}"
        }
    ],
    response_format=Webpage
)

In [39]:
# Imprime response en formato JSON  con pprint  
pprint.pprint(response.dict())

{'choices': [{'finish_reason': 'stop',
              'index': 0,
              'logprobs': None,
              'message': {'content': '{"title":"Monte San Pedro - Wikipedia, '
                                     'la enciclopedia libre","paragraphs":["> '
                                     'Monte San Pedro (en neerlandés: Sint '
                                     'Pietersberg;\u200b en francés: Montagne '
                                     'Saint-Pierre) es una cordillera que va '
                                     'de norte a sur entre los valles de la '
                                     'Geer y el Mosa, desde Maastricht en los '
                                     'Países Bajos (u Holanda) a la zona de '
                                     'Lieja en Bélgica. Está compuesta de '
                                     'piedra caliza, con una red de túneles de '
                                     'minas que se extendió 200 kilómetros '
                                     '