Zadanie: Wiemy już, że oprogramowanie do fabryk i magazynów robotów realizuje firma SoftoAI. Firm tego typu jest znacznie więcej. Centrala poprosiła Cię numerze piąty o przygotowanie uniwersalnego mechanizmu do poszukiwania informacji na takich stronach. Aby sprawdzić, czy Twój mechanizm działa zgodnie z oczekiwaniami, odpowiedz proszę na pytania centrali:

https://centrala.ag3nts.org/data/TUTAJ-KLUCZ/softo.json

Wszystkie informacje znajdziesz na stronie firmy SoftoAI:

https://softo.ag3nts.org

Odpowiedzi wyślij do /report, w polu ‘answer’, w takiej samej formie, w jakiej centrala udostępniła pytania. Nazwa zadania to softo.

Oczekiwany format odpowiedzi:

{
    "01": "zwięzła i konkretna odpowiedź na pierwsze pytanie",
    "02": "zwięzła i konkretna odpowiedź na drugie pytanie",
    "03": "zwięzła i konkretna odpowiedź na trzecie pytanie"
}


Co należy zrobić w zadaniu?

Pobierz listę pytań przesłanych od centrali z adresu: https://centrala.ag3nts.org/data/TUTAJ-KLUCZ/softo.json

Pytania są trzy i mają one swoje numery: 01, 02 oraz 03. Z takimi samymi numerami musimy otrzymać odpowiedzi. Pytania się nie zmieniają.

Napisz automat, który wejdzie na stronę https://softo.ag3nts.org i na podstawie pytań centrali zdecyduje, na którą podstronę serwisu należy się udać, po czym otworzy ją

Jeśli na stronie docelowej znajduje się odpowiedź na pytanie otrzymane od centrali, zapamiętaj ją i przejdź do opracowywania odpowiedzi na kolejne pytanie.

Jeśli na podstronie nie ma odpowiedzi, to zastanów się, czy znajdują się tam jakieś linki mogące doprowadzić Cię do znalezienia odpowiedzi.

Niektóre z pytań wymagają wejścia w głąb na 2-3 strony. Nie wszystkie pytania posiadają odpowiedź dostępną po jednym kliknięciu.

Gotowe odpowiedzi wyślij do zadania o nazwie softo

Zadanie da się rozwiązać bez problemu ‘ręcznie’, ale jeśli zadanie to ma mieć wpływ na Twój rozwój w dziedzinie LLM-ów i ich integracji z systemami IT, spróbuj je w pełni zautomatyzować.

UWAGA: 🚨 bardzo odradzamy próbę zaindeksowania całego serwisu lub wrzucenia wszystkich podstron do kontekstu LLM-a. Przepali Ci to OGROMNE ilości tokenów i może słono kosztować. Serwis celowo został zaprojektowany w taki sposób, że niektóre z linków prowadzą do pułapek, a niektóre linki stanowią pętlę nieskończoną (strona A linkuje do strony B, ona do C, a ta znów do A itd.). Jedyną sensowną metodą na rozwiązanie tego zadania jest podejmowanie przez LLM-a świadomych decyzji, w co kliknąć.

Spoiler związany z optymalizacją kodu [zdekoduj base64]:

MS4gWmFwYW1pxJl0dWogdyBkb3dvbG5laiBmb3JtaWUgbGlua2kganXFvMKgb2R3aWVkem9uZSwgYWJ5IHVuaWtuxIXEhyB6YXDEmXRsZW5pYSBtZWNoYW5pem11CjIuIE5hIHN0cm9uaWUgbW9nxIXCoHBvamF3acSHwqBzacSZwqAyLTMgbGlua2ksIGt0w7NyZSBwb3RlbmNqYWxuaWUgd3lnbMSFZGFqxIUsIGpha2J5IG1vZ8WCeSB6YXdpZXJhxIfCoHdhcnRvxZtjaW93ZSBkYW5lLiBOaWUgd2Nob2TFuiB3IGthxbxkeSB6IG5pY2gsIGEgamVkeW5pZSB3IHRlbiBuYWpiYXJkemllaiBwcmF3ZG9wb2RvYm55LgozLiBNb8W8ZXN6IChhbGUgbmllIG11c2lzeiEpIHNwb3J6xIVkemnEh8KgbWFwxJkgb2R3aWVkem9ueWNoIHN0cm9uIGkgaWNoIHphd2FydG/Fm2NpLiBTenVrYWrEhWMgb2Rwb3dpZWR6aSBuYSBweXRhbmllIG5yIDAxLCBwcmF3ZG9wb2RvYm5pZSBvZHdpZWR6aXN6IGtpbGthIHN0cm9uLiBDenkgc3p1a2FqxIVjIG9kcG93aWVkemkgbmEgcHl0YW5pZSAwMiBpIDAzIG5hcHJhd2TEmcKgbXVzaXN6IG9kd2llZHphxIcgamUgcG9ub3duaWUgaSB6bsOzdyB3eXN5xYJhxIcgaWNoIHRyZcWbxIfCoGRvIExMTS1hPw==

In [1]:
import os
import requests
import json
from dotenv import load_dotenv

In [2]:
load_dotenv()

personal_api_key = os.getenv("PERSONAL_API_KEY")

In [14]:
json_file = requests.get(f"https://centrala.ag3nts.org/data/{personal_api_key}/softo.json")
print(json.dumps(json_file.json(), ensure_ascii=False, indent=4))
# Save JSON file locally
with open('softo.json', 'w') as f:
    json.dump(json_file.json(), f, indent=4, ensure_ascii=False,)



{
    "01": "Podaj adres mailowy do firmy SoftoAI",
    "02": "Jaki jest adres interfejsu webowego do sterowania robotami zrealizowanego dla klienta jakim jest firma BanAN?",
    "03": "Jakie dwa certyfikaty jakości ISO otrzymała firma SoftoAI?"
}


In [51]:
import os
import requests
import json
from bs4 import BeautifulSoup
from openai import OpenAI
from typing import Dict, Set
import time

class SoftoScraper:
    def __init__(self, api_key: str):
        self.base_url = "https://softo.ag3nts.org"
        self.visited_urls: Set[str] = set()
        self.max_depth = 4
        self.client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
        self.personal_api_key = api_key

    def get_questions(self) -> Dict:
        """Fetch questions from the central system"""
        if not os.path.exists('softo.json'):
            json_file = requests.get(f"https://centrala.ag3nts.org/data/{self.personal_api_key}/softo.json")
            print(json.dumps(json_file.json(), ensure_ascii=False, indent=4))
            # Save JSON file locally
            with open('softo.json', 'w') as f:
                json.dump(json_file.json(), f, indent=4, ensure_ascii=False,)
        else:
            with open('softo.json', 'r') as f:
                json_file = json.load(f)
        print(json.dumps(json_file, ensure_ascii=False, indent=4))
        return json_file

    def get_page_content(self, url: str) -> tuple[BeautifulSoup, list]:
        """Fetch and parse a webpage, return its content and links"""
        response = requests.get(url)
        soup = BeautifulSoup(response.text, 'html.parser')
        links = [a.get('href') for a in soup.find_all('a', href=True)]
        links = [link if link.startswith('http') else f"{self.base_url}{link}" for link in links]
        return soup, links

    def analyze_content(self, content: str, question: str) -> tuple[bool, str]:
        """Use GPT to analyze if the page contains an answer to the question"""
        prompt = f"""
        Question: {question}
        Content: {content}
        
        Does this content contain a direct answer to the question? If yes, extract the exact answer.
        If no, return 'NO_ANSWER'. Be very precise and concise.
        """
        
        response = self.client.chat.completions.create(
            model="gpt-4o-mini",
            messages=[{"role": "system", "content": '''
                       You are a helpful assistant.
                       You are given a question and a content.
                       Your task is to determine if the content contains a direct answer to the question.
                       If yes, extract the exact answer.
                       If no, return 'NO_ANSWER'. Be very precise and concise.
                       If the question is about company and Content is about company think and return answer to the question.
                       if the question is about adres interfejsu webowego consider and content have linkt to adres interfejsu webowego think and return answer to the question.
                       Big and small letters are no important. 

                       '''}, 
                      {"role": "user", "content": prompt}],
            # temperature=0
        )
        
        result = response.choices[0].message.content
        if result == "NO_ANSWER":
            return False, ""
        return True, result

    def should_follow_link(self, link: str, question: str) -> bool:
        """Use GPT to decide if a link is likely to contain the answer"""
        if link in self.visited_urls:
            return False
            
        prompt = f"""
        Question: {question}
        Link text: {link}
        
        Based on the link URL, should we follow this link to find an answer to the question?
        If the question is about e-mail consider kontakt page.
        if the question is about other client consider portfolio to check if the link is related to this client.
        Answer only YES or NO.
        """
        
        response = self.client.chat.completions.create(
            model="gpt-4o-mini",
            messages=[{"role": "system", "content": '''
                       You are a helpful assistant.
                       You are given a question and a link.
                       Your task is to determine if the link is likely to contain an answer to the question.
                       If the question is about company certificate Blog or aktualnosci page can likely contain answer to the question.
                       Answer only YES or NO.
                       '''}, 
                      {"role": "user", "content": prompt}],
            # temperature=0
        )
        
        return response.choices[0].message.content.strip().upper() == "YES"

    def find_answer(self, question: str, url: str, depth: int = 0) -> str:
        """Recursively search for an answer to a question"""
        if depth >= self.max_depth or url in self.visited_urls:
            return ""
            
        self.visited_urls.add(url)
        soup, links = self.get_page_content(url)
        print(f"URL: {url}")
        has_answer, answer = self.analyze_content(soup.get_text(), question)
        
        if has_answer:
            return answer

        for link in links:
            if self.should_follow_link(link, question):
                result = self.find_answer(question, link, depth + 1)
                if result:
                    return result
                
        return ""

    def submit_answers(self, answers: Dict) -> None:
        """Submit answers to the central system"""
        payload = {
            "task": "softo",
            "apikey": self.personal_api_key,
            "answer": answers
        }
        response = requests.post("https://centrala.ag3nts.org/report", json=payload)
        print(response.json())

    def solve(self) -> None:
        """Main solving routine"""
        questions = self.get_questions()
        answers = {}
        
        for q_id, question in questions.items():
            print(f"Question {q_id}: {question}")
            self.visited_urls.clear()  # Reset visited URLs for each question
            answer = self.find_answer(question, self.base_url)
            print(f"Answer {q_id}: {answer}")
            answers[q_id] = answer
            time.sleep(1)  # Be nice to the server
            
        self.submit_answers(answers)

In [52]:
load_dotenv()
scraper = SoftoScraper(os.getenv("PERSONAL_API_KEY"))
scraper.solve()

{
    "01": "Podaj adres mailowy do firmy SoftoAI",
    "02": "Jaki jest adres interfejsu webowego do sterowania robotami zrealizowanego dla klienta jakim jest firma BanAN?",
    "03": "Jakie dwa certyfikaty jakości ISO otrzymała firma SoftoAI?"
}
Question 01: Podaj adres mailowy do firmy SoftoAI
URL: https://softo.ag3nts.org
URL: https://softo.ag3nts.org/kontakt
Answer 01: kontakt@softoai.whatever
Question 02: Jaki jest adres interfejsu webowego do sterowania robotami zrealizowanego dla klienta jakim jest firma BanAN?
URL: https://softo.ag3nts.org
URL: https://softo.ag3nts.org/aktualnosci
URL: https://softo.ag3nts.org/portfolio
URL: https://softo.ag3nts.org/portfolio_2_c81e728d9d4c2f636f067f89cc14862c
URL: https://softo.ag3nts.org/portfolio_3_eccbc87e4b5ce2fe28308fd9f2a7baf3
URL: https://softo.ag3nts.org/portfolio_4_a87ff679a2f3e71d9181a67b7542122c
URL: https://softo.ag3nts.org/portfolio_6_1679091c5a880faf6fb5e6087eb1b2dc
Answer 02: 
Question 03: Jakie dwa certyfikaty jakości ISO otrz

Dont want to burn the money for small progress

In [56]:
answer = {"01": "kontakt@softoai.whatever", "02": "https://banan.ag3nts.org/", "03": "ISO 9001 oraz ISO/IEC 27001"}


In [58]:
answer_json = {
    "task": "softo",
    "apikey": personal_api_key,
    "answer": answer
}
answer_url = "https://centrala.ag3nts.org/report"
answer_response = requests.post(answer_url, json=answer_json)
print(answer_response.request.body.decode('unicode_escape'))  # Displays the request body decoded

# Assuming `login_response` is the response object from the login request
print("Status Code:", answer_response.status_code)  # Displays the status code (e.g., 200)
print("Response Body:", answer_response.text.encode('utf-8').decode('unicode_escape'))  # Display response content directly without encoding

{"task": "softo", "apikey": "1400cbf0-b7dd-49ab-9342-6ad8fd26ba69", "answer": {"01": "kontakt@softoai.whatever", "02": "https://banan.ag3nts.org/", "03": "ISO 9001 oraz ISO/IEC 27001"}}
Status Code: 200
Response Body: {
    "code": 0,
    "message": "{{FLG:AUTOMATIC}}"
}
