<h2 style="color: #FFD700;">Web Scraping con API de OpenAI y una API local con el modelo OLLAMA</h2>

El  objetivo es codificar un nuevo tipo de navegador web. Dale una URL y responder√° con un resumen.

Primero utilizaremos el modelo de OpenAI

In [3]:
import os  # Importa el m√≥dulo 'os' para interactuar con el sistema operativo, como acceder a variables de entorno o rutas de archivos.
import requests # Importa la librer√≠a 'requests' para hacer solicitudes HTTP a p√°ginas web.
from bs4 import BeautifulSoup # Importa 'BeautifulSoup' de la librer√≠a 'bs4' para analizar el contenido HTML.
from IPython.display import Markdown, display # Importa funciones para mostrar contenido con formato Markdown en notebooks como Jupyter.}
from urllib.parse import urljoin  # Importa 'urljoin' para construir URLs absolutas combinando una base y una ruta relativa.
from dotenv import load_dotenv  # Importa 'load_dotenv' para cargar variables de entorno desde un archivo .env.
from openai import OpenAI  # Importa la clase 'OpenAI' para interactuar con la API de OpenAI.

In [4]:
# Cargamos las variables del fichero .env

load_dotenv() # Lee el fichero .env que contiene la key de la api de openai
api_key = os.getenv('OPENAI_API_KEY')

# Verifica la Key

if not api_key:
    print("No se encontr√≥ ninguna clave API")
elif not api_key.startswith("sk-proj-"):
    print("Se encontr√≥ una clave API, pero no inicia sk-proj-; verifique que est√© usando la clave correcta")
else:
    print("Se encontr√≥ la clave API, funciona correctamente")

Se encontr√≥ la clave API, funciona correctamente


In [6]:
# Se crea una instancia del objeto openAI y queda disponible para hacer consultas a la API
openai = OpenAI()

In [11]:
# Una clase para representar una p√°gina web
# BeautifulSoup: se conecta a una pagina web para scrapear, analizar y detectar cual es el contenido.

class Website:
    """
    Una clase de utilidad para representar un sitio web que hemos scrappeado
    """

    def __init__(self, url):
        """
        Crea este objeto de sitio web a partir de la URL indicada utilizando la biblioteca BeautifulSoup
        """
        self.url = url
        response = requests.get(url)
        soup = BeautifulSoup(response.content, 'html.parser')
        self.title = soup.title.string if soup.title else "No tiene t√≠tulo"
        for irrelevant in soup.body(["script", "style", "img", "input"]):
            irrelevant.decompose()
        self.text = soup.body.get_text(separator="\n", strip=True)

In [13]:
# Prueba

xat = Website("https://www.xataka.com/")
print(xat.title)
print(xat.text)

Xataka - Tecnolog√≠a y gadgets, m√≥viles, inform√°tica, electr√≥nica
Webedia
Xataka
Men√∫
Nuevo
AN√ÅLISIS
XATAKA SELECCI√ìN
M√ìVILES
CIENCIA
GU√çAS DE COMPRA
MOVILIDAD
MAGNET
WhatsApp
Tiktok
Telegram
Instagram
Youtube
Twitter
Cuanto m√°s se sabe del apag√≥n en Espa√±a, menos culpable parece la falta de inercia por las energ√≠as renovables
La inercia de la red era la correcta y estaba incluso por encima del objetivo establecido por los operadores europeos
Motorola Razr 60 Ultra, an√°lisis: este es el m√≥vil que necesita cualquier amante de los m√≥viles peque√±os
Una de las armas m√°s inquietantes de China ya tiene fecha de vuelo: un enorme dron nodriza con 100 drones kamikaze a bordo
El lanzamiento de las NVIDIA RTX 5060 es un cataclismo reputacional: hay acusaciones de amenazas y chantaje a los medios especializados
HOY SE HABLA DE
AEMET
China
Sam Altman
Nintendo Switch 2
Tim Cook
Bill Gates
Elon Musk
Generaci√≥n Z
iPhone 16
iPhone 17
Lo √∫ltimo
Europa pone contra las cuerdas a Shein: 

<h2 style="color: #FFD700;">Indicaciones/prompts</h2>

Los modelos como GPT4o han sido entrenados para recibir instrucciones de una manera particular.

Esperan recibir:

**Una indicaci√≥n del sistema** que les indique qu√© tarea est√°n realizando y qu√© tono deben usar. Establece el contexto

**Una indicaci√≥n del usuario**: el inicio de la conversaci√≥n al que deben responder. El inicio de la conversacion

In [15]:
# Definimos nuestro mensaje de sistema:

system_prompt = "Eres un asistente que analiza el contenido de un sitio web \
y proporciona un breve resumen, ignorando el texto que podr√≠a estar relacionado con la navegaci√≥n. \
Responder en Markdown."

In [16]:
# Una funci√≥n que escribe un mensaje de usuario que solicita res√∫menes de sitios web:

def user_prompt_for(website):
    user_prompt = f"Est√°s viendo un sitio web titulado {website.title}"
    user_prompt += "\nEl contenido de este sitio web es el siguiente; \
    proporciona un breve resumen de este sitio web en formato Markdown. \
    Si incluye noticias, productos o anuncios, res√∫melos tambi√©n.\n\n"
    user_prompt += website.text
    return user_prompt

In [17]:
print(user_prompt_for(xat))

Est√°s viendo un sitio web titulado Xataka - Tecnolog√≠a y gadgets, m√≥viles, inform√°tica, electr√≥nica
El contenido de este sitio web es el siguiente;     proporciona un breve resumen de este sitio web en formato Markdown.     Si incluye noticias, productos o anuncios, res√∫melos tambi√©n.

Webedia
Xataka
Men√∫
Nuevo
AN√ÅLISIS
XATAKA SELECCI√ìN
M√ìVILES
CIENCIA
GU√çAS DE COMPRA
MOVILIDAD
MAGNET
WhatsApp
Tiktok
Telegram
Instagram
Youtube
Twitter
Cuanto m√°s se sabe del apag√≥n en Espa√±a, menos culpable parece la falta de inercia por las energ√≠as renovables
La inercia de la red era la correcta y estaba incluso por encima del objetivo establecido por los operadores europeos
Motorola Razr 60 Ultra, an√°lisis: este es el m√≥vil que necesita cualquier amante de los m√≥viles peque√±os
Una de las armas m√°s inquietantes de China ya tiene fecha de vuelo: un enorme dron nodriza con 100 drones kamikaze a bordo
El lanzamiento de las NVIDIA RTX 5060 es un cataclismo reputacional: hay acusacione

<h2 style="color: #FFD700;">Mensajes</h2>

La API de OpenAI espera recibir mensajes en una estructura particular.
Muchas de las otras API comparten esta estructura:

```
[
    {"role": "system", "content": "el mensaje de sistema va aqu√≠"},
    {"role": "user", "content": "el mensaje de usuario va aqu√≠"}
]

In [18]:
# Esta funci√≥n crea exactamente el formato anterior

def messages_for(website):
    return [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt_for(website)}
    ]

In [19]:
messages_for(xat)

[{'role': 'system',
  'content': 'Eres un asistente que analiza el contenido de un sitio web y proporciona un breve resumen, ignorando el texto que podr√≠a estar relacionado con la navegaci√≥n. Responder en Markdown.'},
 {'role': 'user',
  'content': 'Est√°s viendo un sitio web titulado Xataka - Tecnolog√≠a y gadgets, m√≥viles, inform√°tica, electr√≥nica\nEl contenido de este sitio web es el siguiente;     proporciona un breve resumen de este sitio web en formato Markdown.     Si incluye noticias, productos o anuncios, res√∫melos tambi√©n.\n\nWebedia\nXataka\nMen√∫\nNuevo\nAN√ÅLISIS\nXATAKA SELECCI√ìN\nM√ìVILES\nCIENCIA\nGU√çAS DE COMPRA\nMOVILIDAD\nMAGNET\nWhatsApp\nTiktok\nTelegram\nInstagram\nYoutube\nTwitter\nCuanto m√°s se sabe del apag√≥n en Espa√±a, menos culpable parece la falta de inercia por las energ√≠as renovables\nLa inercia de la red era la correcta y estaba incluso por encima del objetivo establecido por los operadores europeos\nMotorola Razr 60 Ultra, an√°lisis: este es

<h2 style="color: #FFD700;">Unimos todo con la API de OpenAI</h2>

In [21]:
# Llamamos a la API de OpenAI.
# Lo que hace esta celda es resumir una URL pero ahora utilizando GPT-4

def summarize(url):
    website = Website(url)
    response = openai.chat.completions.create(
        model = "gpt-4o-mini",
        messages = messages_for(website)
    )
    return response.choices[0].message.content

In [None]:
summarize("https://www.xataka.com/")

In [22]:
# Una funci√≥n para mostrar esto de forma clara en la salida de Jupyter, usando markdown

def display_summary(url):
    summary = summarize(url)
    display(Markdown(summary))

In [23]:
display_summary("https://www.xataka.com/")

# Resumen del sitio web Xataka

Xataka es una plataforma dedicada a la tecnolog√≠a y los gadgets, ofreciendo contenido variado que incluye an√°lisis, noticias, gu√≠as de compra y tem√°ticas sobre m√≥viles, ciencia, movilidad y mucho m√°s.

## Contenidos destacados:

1. **Noticias recientes**:
   - **Apag√≥n en Espa√±a**: Informaci√≥n sobre la inercia de la red el√©ctrica y el papel de las energ√≠as renovables.
   - **Motorola Razr 60 Ultra**: An√°lisis de un nuevo modelo de m√≥vil dirigido a los amantes de dispositivos compactos.
   - **NVIDIA RTX 5060**: Revelaciones sobre el lanzamiento de nuevos chips y controversias en torno a la compa√±√≠a.
   - **Desaf√≠o en la rob√≥tica**: China organiza un torneo de kickboxing con robots humanoides.
   - **Shein en Europa**: La marca debe presentar cambios en sus pol√≠ticas de descuentos o enfrentar multas.

2. **Tem√°ticas Emergentes**:
   - **Cultura laboral en Jap√≥n**: La generaci√≥n Z enfrenta el "trabajo ampliado" y promueve un equilibrio entre vida personal y profesional.
   - **Renovables y precios de energ√≠a**: An√°lisis sobre el impacto de las energ√≠as renovables en los precios el√©ctricos.
   - **Tendencias en streaming**: La demanda por planes de suscripci√≥n con anuncios r√°pidamente est√° en aumento.

3. **Xataka Selecci√≥n**:
   - Ofertas en tecnolog√≠a, incluyendo auriculares Marshall y tablets de Xiaomi a precios reducidos.

4. **Inteligencia Artificial y Empresas**:
   - **Sam Altman**: An√°lisis del crecimiento de OpenAI y sus implicaciones.
   - **NVIDIA y los chips**: Planes para lanzar un chip de IA que ser√° m√°s asequible en el mercado chino.

Xataka es una fuente valiosa para entusiastas de la tecnolog√≠a, ofreciendo un an√°lisis cr√≠tico y actualizaciones sobre las tendencias del sector.

<h2 style="color: #FFD700;">Web Scraping mas avanzado</h2>

Durante la implementaci√≥n del m√©todo display_summary("https://openai.com") u otras urls, se puede notar que no funcionaba correctamente debido a que algunos sitios web estan construidos con tecnolog√≠as modernas como JavaScript din√°mico, lo cual impide la extracci√≥n directa de contenido usando solo librer√≠as como requests y BeautifulSoup.

Para resolver este problema, integr√© una soluci√≥n utilizando Selenium (tambi√©n aplicable con Playwright), que permite automatizar un navegador real, renderizar el contenido din√°mico y luego extraer la informaci√≥n relevante del sitio.

Esta mejora fue aplicada en la clase Website, permitiendo realizar scraping en sitios con contenido renderizado del lado del cliente.

In [30]:
# Analizar p√°ginas web que est√°n dise√±adas utilizando mucho JavaScript
# Descargar el controlador de Chrome (ChromeDriver)

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options

PATH_TO_CHROME_DRIVER = 'C:\\Users\\Usuario\\Downloads\\chromedriver-win64\\chromedriver-win64\\chromedriver.exe'

class Website:
    url: str
    title: str
    text: str

    def __init__(self, url):
        self.url = url

        options = Options()

        options.add_argument("--no-sandbox")
        options.add_argument("--disable-dev-shm-usage")

        service = Service(PATH_TO_CHROME_DRIVER)
        driver = webdriver.Chrome(service=service, options=options)
        driver.get(url)

        input("Please complete the verification in the browser and press Enter to continue...")
        page_source = driver.page_source
        driver.quit()

        soup = BeautifulSoup(page_source, 'html.parser')
        self.title = soup.title.string if soup.title else "No title found"
        for irrelevant in soup(["script", "style", "img", "input"]):
            irrelevant.decompose()
        self.text = soup.get_text(separator="\n", strip=True)

In [32]:
display_summary("https://openai.com")

Please complete the verification in the browser and press Enter to continue... 


# Resumen del Sitio Web de OpenAI

OpenAI es una organizaci√≥n dedicada a la investigaci√≥n y desarrollo de inteligencia artificial avanzada. Su sitio web destaca diversos productos, incluyendo ChatGPT y la plataforma API, dise√±ada para empresas y desarrolladores.

## Principales secciones del sitio

- **Producci√≥n y Productos**:
  - **ChatGPT**: Herramienta de conversaci√≥n impulsada por IA.
  - **Sora**: Un producto adicional mencionado, aunque no se proporciona un detalle espec√≠fico.
  - **API Platform**: Plataforma para integrar las capacidades de OpenAI en aplicaciones empresariales.

- **Investigaci√≥n**:
  - Incluye un √≠ndice y resumen de investigaciones actuales y pasadas, con √©nfasis en la seguridad y privacidad en la IA.
  - Se menciona la introducci√≥n de modelos recientes como OpenAI o1, GPT-4o, y el sistema de imagen OpenAI, junto con sus actualizaciones.

- **Noticias y Anuncios**:
  - **Evolving OpenAI‚Äôs Structure** y la expansi√≥n de liderazgo con Fidji Simo.
  - Anuncios sobre nuevas funciones en API, como la residencia de datos en Asia y la generaci√≥n de im√°genes.
  - Actualizaciones sobre colaboraciones y la aplicaci√≥n de tecnolog√≠a en varias industrias, como en el deporte.

## Enfoque en la Seguridad

OpenAI hace un fuerte √©nfasis en la seguridad y la privacidad, asegurando que las aplicaciones de sus tecnolog√≠as sean responsables y √©ticas.

## P√∫blico Objetivo

El sitio est√° orientado tanto a empresas que buscan integrar la IA en sus soluciones como a investigadores y desarrolladores interesados en la evoluci√≥n de la inteligencia artificial.

## Conclusi√≥n

OpenAI se posiciona como un l√≠der en la investigaci√≥n y desarrollo de IA, ofreciendo herramientas potentes para la comunicaci√≥n y la automatizaci√≥n, al tiempo que prioriza la seguridad y la √©tica en el uso de su tecnolog√≠a.

<h2 style="color: #FFD700;">Ahora utilizamos el modelo local Ollama</h2>

UAhora utilizarmos un modelo de c√≥digo abierto que se ejecute localmente a trav√©s de Ollama en lugar de OpenAI

Se puede utilizar esta t√©cnica para todos los proyectos posteriores si prefiere no utilizar API de pago (closed source).

In [33]:
# Constantes
# Esto con el nuevo paquete ollama ya no es necesario
OLLAMA_API = "http://localhost:11434/api/chat" # /api/chat punto exacto de llamada para conectarme con el modelo
HEADERS = {"Content-Type": "application/json"} # resultado esperado
MODEL = "llama3.2"

In [34]:
# Se crea una lista de mensajes utilizando el mismo formato que usamos para OpenAI
# Content es la estructura interna
messages = [
    {"role": "user", "content": "Describe algunas de las aplicaciones comerciales de la IA generativa."}
]

In [36]:
# Objeto tipo JSON
payload = {
        "model": MODEL, # modelo
        "messages": messages, # los mensajes del diccionario
        "stream": False #que no transmita los resultados
    }

In [37]:
#Web request, esta es la manera antigua de generarla con OLLAMA, ahora hicieron una forma nueva
response = requests.post(OLLAMA_API, json=payload, headers=HEADERS)
print(response.json()['message']['content'])

La inteligencia artificial (IA) generativa es un campo que combina t√©cnicas de aprendizaje autom√°tico y procesamiento del lenguaje natural para crear contenido, im√°genes, audio y v√≠deo a partir de patrones y estructuras conocidas.

Algunas de las aplicaciones comerciales m√°s destacadas de la IA generativa son:

1. **Marketing digital**: La IA generativa se utiliza en marketing digital para crear contenido personalizado para los clientes, como anuncios publicitarios, correos electr√≥nicos, art√≠culos y videos. Esto permite a las empresas ofrecer experiencias de marca m√°s personalizadas y efectivas.
2. **Diseno gr√°fico y visualizaci√≥n**: La IA generativa se utiliza en la creaci√≥n de dise√±os gr√°ficos y visualizaciones para productos, paquetes y marketing. Esto incluye la creaci√≥n de im√°genes de producto, logos y materiales de marketing.
3. **Audiovisual**: La IA generativa se utiliza en la creaci√≥n de contenido audiovisual, como m√∫sica, efectos sonoros y videos de animaci√≥

<h2 style="color: #FFD700;">Paquete ollama</h2>

Ahora haremos lo mismo, pero utilizando el paquete de Python ollama en lugar de una llamada HTTP directa.

En esencia, se realiza la misma llamada que se indic√≥ anteriormente al servidor ollama que se ejecuta en localhost:11434

In [38]:
import ollama

response = ollama.chat(model=MODEL, messages=messages)
print(response['message']['content'])

La Inteligencia Artificial (IA) generativa es un campo en constante evoluci√≥n que se utiliza para crear arte, dise√±o y contenido automatizadamente. A continuaci√≥n, te presento algunas de las aplicaciones comerciales m√°s destacadas de la IA generativa:

1. **Dise√±o gr√°fico**: La IA generativa puede crear dise√±os visuales como logotipos, iconos, carteleras y materiales de marketing. Las herramientas como Midjourney y Deep Dream Generator permiten a los usuarios crear dise√±os personalizados con una gran velocidad y eficiencia.
2. **Musica y audio**: La IA generativa se utiliza para crear m√∫sica original y audio en vivo. Los algoritmos de aprendizaje autom√°tico pueden analizar patrones musicales y generar composiciones √∫nicas. Esto puede ser utilizado en la creaci√≥n de contenido musical para redes sociales, anuncios publicitarios y producciones cinematogr√°ficas.
3. **Im√°genes y fotos**: La IA generativa puede crear im√°genes y fotos realistas utilizando t√©cnicas como el Deep