#  Building a Simple Web Agent

In [1]:
import asyncio
import json
import os
import nest_asyncio
import pprint
import base64
from io import BytesIO
import pandas as pd
from playwright.async_api import async_playwright
from openai import OpenAI
from PIL import Image
from tabulate import tabulate
from IPython.display import display, HTML, Markdown
from pydantic import BaseModel
from helper import get_openai_api_key, visualizeCourses

In [2]:
client = OpenAI(api_key=get_openai_api_key())
nest_asyncio.apply()

## WebScraper Agent

In [3]:
class WebScraperAgent:
    def __init__(self):
        self.playwright = None
        self.browser = None
        self.page = None

    async def init_browser(self):
      self.playwright = await async_playwright().start()
      self.browser = await self.playwright.chromium.launch(
          headless=True,
          args=[
              "--disable-dev-shm-usage",
              "--no-sandbox",
              "--disable-setuid-sandbox",
              "--disable-accelerated-2d-canvas",
              "--disable-gpu",
              "--no-zygote",
              "--disable-audio-output",
              "--disable-software-rasterizer",
              "--disable-webgl",
              "--disable-web-security",
              "--disable-features=LazyFrameLoading",
              "--disable-features=IsolateOrigins",
              "--disable-background-networking"
          ]
      )
      self.page = await self.browser.new_page()

    async def scrape_content(self, url):
        if not self.page or self.page.is_closed():
            await self.init_browser()
        await self.page.goto(url, wait_until="load")
        await self.page.wait_for_timeout(2000)  # Wait for dynamic content
        return await self.page.content()

    async def take_screenshot(self, path="screenshot.png"):
        await self.page.screenshot(path=path, full_page=True)
        return path
    async def screenshot_buffer(self):
        screenshot_bytes = await self.page.screenshot(type="png", full_page=False)
        return screenshot_bytes

    async def close(self):
        await self.browser.close()
        await self.playwright.stop()
        self.playwright = None
        self.browser = None
        self.page = None

In [4]:
scraper = WebScraperAgent()

In [5]:
#scraper = WebScraperAgent()
await scraper.init_browser()


## Structured Data Format

In [6]:
class DeeplearningCourse(BaseModel):
    title: str
    description: str
    presenter: list[str]
    imageUrl: str
    courseURL: str

class DeeplearningCourseList(BaseModel):
    courses: list[DeeplearningCourse]

## LLM Client for Open AI

In [7]:
async def process_with_llm(html, instructions, truncate = False):
    completion = client.beta.chat.completions.parse(
        model="gpt-4o-mini-2024-07-18",
        messages=[{
            "role": "system",
            "content": f"""
            You are an expert web scraping agent. Your task is to:
            Extract relevant information from this HTML to JSON 
            following these instructions:
            {instructions}
            
            Extract the title, description, presenter, 
            the image URL and course URL for each of 
            all the courses for the deeplearning.ai website

            Return ONLY valid JSON, no markdown or extra text."""
        }, {
            "role": "user",
            "content": html[:150000]  # Truncate to stay under token limits
        }],
        temperature=0.1,
        response_format=DeeplearningCourseList,
        )
    return completion.choices[0].message.parsed

In [8]:
async def webscraper(target_url, instructions):
    result = None
    try:
        # Scrape content and capture screenshot
        print("Extracting HTML Content \n")
        html_content = await scraper.scrape_content(target_url)

        print("Taking Screenshot \n")
        screenshot = await scraper.screenshot_buffer()
        # Process content

        print("Processing..")
        result: DeeplearningCourseList = await process_with_llm(html_content, instructions, False)
        print("\nGenerated Structured Response")
    except Exception as e:
        print(f"❌ Error: {str(e)}")
    finally:
        await scraper.close()
    return result, screenshot

## Example 1

In [9]:
target_url = "https://openclassrooms.com/fr/courses"
base_url = "https://openclassrooms.com"


In [10]:
from dotenv import load_dotenv, find_dotenv
import os

load_dotenv(find_dotenv())

print(os.getenv("OPENAI_API_KEY"))  # Vérifiez que la clé s'affiche correctement


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


In [11]:
import openai


In [12]:
def get_openai_api_key():
    return os.getenv("OPENAI_API_KEY")

client = openai.OpenAI(api_key=get_openai_api_key())


In [13]:
instructions = """
    Get all the courses
"""
result, screenshot = await webscraper(target_url, instructions)

Extracting HTML Content 

Taking Screenshot 

Processing..

Generated Structured Response


In [14]:
await visualizeCourses(result=result, 
                       screenshot=screenshot, 
                       target_url=target_url, 
                       instructions=instructions, 
                       base_url=base_url)

### Scraped Course Data:

title,description,presenter,imageUrl,courseURL
Apprenez les bases du langage Python,"Python est très demandé et accessible pour les débutants. Apprenez à coder avec Python pour écrire des programmes simples mais puissants,...",,,Apprenez les bases du langage Python
Objectif IA : initiez-vous à l'intelligence artificielle,"Vous découvrirez ce que recouvre vraiment l'intelligence artificielle ! Ses enjeux, ses possibilités, son fonctionnement scientifique ain...",,,Objectif IA : initiez-vous à l'intelligence artificielle
Créez votre site web avec HTML5 et CSS3,Vous rêvez d'apprendre à créer des sites web ? Débutez avec ce cours qui vous enseignera tout ce qu'il faut savoir sur le développement d...,,,Créez votre site web avec HTML5 et CSS3
Maîtrisez les fondamentaux d'Excel,"La maîtrise des fonctionnalités d'Excel est souvent indispensable. Prenez en main le logiciel puis allez plus loin avec les tableaux, les...",,,Maîtrisez les fondamentaux d'Excel
Utilisez ChatGPT pour améliorer votre productivité,Apprenez à utiliser ChatGPT pour augmenter votre productivité : grâce au prompt engineering découvrez sur quelles tâches de votre métier ...,,,Utilisez ChatGPT pour améliorer votre productivité
Apprenez à programmer avec JavaScript,Maîtrisez les bases de la programmation JavaScript et sa logique de programmation en réalisant un site web dynamique.,,,Apprenez à programmer avec JavaScript
Concevez votre réseau TCP/IP,Concevez votre premier réseau TCP/IP et découvrez l'outil de simulation Cisco Packet Tracer en réalisant ce cours en 3 étapes : créez l'a...,,,Concevez votre réseau TCP/IP
Initiez-vous au marketing digital,"Le marketing digital offre un arsenal d’outils et de techniques permettant de mener des actions toujours plus personnalisées, dont la per...",,,Initiez-vous au marketing digital
Apprenez à programmer en C,Le langage C est plutôt complexe mais si vous le maîtrisez vous aurez des bases de programmation très solides !,,,Apprenez à programmer en C
Perfectionnez-vous sur Excel,"Créez un tableau de bord sur Excel : réalisez un tableau de données, maîtrisez les fonctions avancées et automatisez le traitement des do...",,,Perfectionnez-vous sur Excel


### Website Screenshot:

## Example with RAG courses

In [15]:
subject = "Retrieval Augmented Generation (RAG) "

instructions = f"""
Read the description of the courses and only 
provide the three courses that are about {subject}. 
Make sure that we don't have any other
cources in the output
"""
result, screenshot = await webscraper(target_url, instructions)

Extracting HTML Content 



Taking Screenshot 

Processing..

Generated Structured Response


In [16]:
await visualizeCourses(result=result, 
                       screenshot=screenshot, 
                       target_url=target_url, 
                       instructions=instructions, 
                       base_url=base_url)

### Scraped Course Data:

title,description,presenter,imageUrl,courseURL
Utilisez ChatGPT pour améliorer votre productivité,Apprenez à utiliser ChatGPT pour augmenter votre productivité : grâce au prompt engineering découvrez sur quelles tâches de votre métier vous pouvez l'utiliser.,,,Utilisez ChatGPT pour améliorer votre productivité
Objectif IA : initiez-vous à l'intelligence artificielle,"Vous découvrirez ce que recouvre vraiment l'intelligence artificielle ! Ses enjeux, ses possibilités, son fonctionnement scientifique ainsi que ses applications concrètes dans le monde professionnel.",,,Objectif IA : initiez-vous à l'intelligence artificielle
Maîtrisez les fondamentaux d'Excel,"La maîtrise des fonctionnalités d'Excel est souvent indispensable. Prenez en main le logiciel puis allez plus loin avec les tableaux, les graphiques et les formules avancées.",,,Maîtrisez les fondamentaux d'Excel


### Website Screenshot:

## Challenges in the web agents

In [17]:
subject = "Retrieval Augmented Generation (RAG) "
instructions = f"""
Can you get the summary of the top course on
{subject} provide the learnings from it
"""
result, screenshot = await webscraper(target_url, instructions)

Extracting HTML Content 

Taking Screenshot 

Processing..

Generated Structured Response


In [18]:
await visualizeCourses(result=result,
                       screenshot=screenshot,
                       target_url=target_url,
                       instructions=instructions,
                       base_url=base_url)

### Scraped Course Data:

title,description,presenter,imageUrl,courseURL
Apprenez les bases du langage Python,"Python est très demandé et accessible pour les débutants. Apprenez à coder avec Python pour écrire des programmes simples mais puissants,...",,,Apprenez les bases du langage Python
Objectif IA : initiez-vous à l'intelligence artificielle,"Vous découvrirez ce que recouvre vraiment l'intelligence artificielle ! Ses enjeux, ses possibilités, son fonctionnement scientifique ainsi que ses applications pratiques.",,,Objectif IA : initiez-vous à l'intelligence artificielle
Créez votre site web avec HTML5 et CSS3,Vous rêvez d'apprendre à créer des sites web ? Débutez avec ce cours qui vous enseignera tout ce qu'il faut savoir sur le développement de sites web.,,,Créez votre site web avec HTML5 et CSS3
Maîtrisez les fondamentaux d'Excel,"La maîtrise des fonctionnalités d'Excel est souvent indispensable. Prenez en main le logiciel puis allez plus loin avec les tableaux, les graphiques et les formules avancées.",,,Maîtrisez les fondamentaux d'Excel
Utilisez ChatGPT pour améliorer votre productivité,Apprenez à utiliser ChatGPT pour augmenter votre productivité : grâce au prompt engineering découvrez sur quelles tâches de votre métier il peut vous aider.,,,Utilisez ChatGPT pour améliorer votre productivité
Apprenez à programmer avec JavaScript,Maîtrisez les bases de la programmation JavaScript et sa logique de programmation en réalisant un site web dynamique.,,,Apprenez à programmer avec JavaScript
Concevez votre réseau TCP/IP,"Concevez votre premier réseau TCP/IP et découvrez l'outil de simulation Cisco Packet Tracer en réalisant ce cours en 3 étapes : créez l'architecture, configurez les appareils et testez votre réseau.",,,Concevez votre réseau TCP/IP
Initiez-vous au marketing digital,"Le marketing digital offre un arsenal d’outils et de techniques permettant de mener des actions toujours plus personnalisées, dont la performance peut être mesurée.",,,Initiez-vous au marketing digital
Apprenez à programmer en C,Le langage C est plutôt complexe mais si vous le maîtrisez vous aurez des bases de programmation très solides !,,,Apprenez à programmer en C
Perfectionnez-vous sur Excel,"Créez un tableau de bord sur Excel : réalisez un tableau de données, maîtrisez les fonctions avancées et automatisez le traitement des données.",,,Perfectionnez-vous sur Excel


### Website Screenshot: