In [16]:
# pip install requests beautifulsoup4 python-dateutil
import csv, json, re, time, logging
from urllib.parse import urlparse, parse_qs, urlencode, urlunparse, urljoin
import requests
from bs4 import BeautifulSoup
from dateutil.parser import parse as dtparse

logging.basicConfig(level=logging.INFO)
log = logging.getLogger(__name__)

# single-string User-Agent header
UA = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0 Safari/537.36"}

# Reuse a session for connection pooling and consistent headers
SESSION = requests.Session()
SESSION.headers.update(UA)


def with_page(url, page):
    u = urlparse(url)
    q = parse_qs(u.query)
    q["page"] = [str(page)]
    new_q = urlencode(q, doseq=True)
    return urlunparse((u.scheme, u.netloc, u.path, u.params, new_q, u.fragment))


def listing_links_from_results(html, base_url):
    """
    Zwraca listę absolutnych URL-i do kart ogłoszeń znalezionych w html.
    Obsługuje relatywne href-y (zamienia na absolutne) i prostą heurystykę
    dla otomoto/olx (rozszerzalne).
    """
    soup = BeautifulSoup(html, "html.parser")
    hrefs = [a.get("href") for a in soup.find_all("a", href=True)]
    # usuń None i zrób absolutne adresy
    abs_hrefs = [urljoin(base_url, h) for h in hrefs if h]

    # proste wzorce (dodaj kolejne w razie potrzeby)
    patterns = [
        re.compile(r"https?://[^/]*otomoto\.pl/.+?/oferta/.+?ID[A-Za-z0-9]+\.html"),
        re.compile(r"https?://[^/]*olx\.pl/.+?/oferta/.+?-\d+"),  # przykładowy wzorzec OLX
        re.compile(r"/oferta/"),  # fallback: zawiera '/oferta/'
    ]
    matches = []
    for h in abs_hrefs:
        for p in patterns:
            try:
                if p.search(h):
                    matches.append(h)
                    break
            except Exception:
                continue
    # deduplikuj, zachowując porządek
    seen = set()
    result = []
    for u in matches:
        if u not in seen:
            seen.add(u)
            result.append(u)
    return result


def extract_from_jsonld(soup):
    # Szukamy <script type="application/ld+json"> i wyciągamy najważniejsze pola
    items = []
    for tag in soup.find_all("script", type="application/ld+json"):
        txt = tag.string
        # tag.string bywa None - pomijamy w takiej sytuacji
        if not txt or not isinstance(txt, str):
            continue
        try:
            data = json.loads(txt.strip())
        except Exception:
            # czasem zawiera javascript-owy wrapper lub pojedyncze obiekty — pomiń
            continue
        if isinstance(data, dict):
            items.append(data)
        elif isinstance(data, list):
            items += [d for d in data if isinstance(d, dict)]
    # heurystyka
    best = {}
    for d in items:
        ctx = d.get("@context", "") or ""
        typ = d.get("@type", "") or ""
        if "schema.org" in ctx and (typ in ("Product", "Vehicle", "Offer", "Car")):
            best = d
            break
    return best


def scrape_detail(url):
    try:
        r = SESSION.get(url, timeout=30)
        r.raise_for_status()
        soup = BeautifulSoup(r.text, "html.parser")
        j = extract_from_jsonld(soup) or {}

        # fallbacky — jeśli JSON-LD nie zawiera podstawowych pól, próbujemy z HTML
        def pick(*keys, default=""):
            for k in keys:
                if k in j:
                    return j[k]
            return default

        name = pick("name", "headline")
        if not name:
            # spróbuj tytułu z HTML
            h1 = soup.find("h1")
            name = (h1.get_text(strip=True) if h1 else (soup.title.string.strip() if soup.title and soup.title.string else ""))

        brand = j.get("brand") if isinstance(j.get("brand"), str) else (j.get("brand", {}).get("name") if isinstance(j.get("brand"), dict) else "")
        model = j.get("model", "") or j.get("vehicleModel", "")

        offers = j.get("offers") or {}
        price = ""
        currency = ""
        if isinstance(offers, dict):
            price = offers.get("price", "") or offers.get("priceSpecification", {}).get("price", "")
            currency = offers.get("priceCurrency", "") or offers.get("priceSpecification", {}).get("priceCurrency", "")
        # dodatkowy fallback dla metadanych
        if not price:
            meta_price = soup.find("meta", attrs={"property": "product:price:amount"}) or soup.find("meta", attrs={"name": "price"})
            if meta_price and meta_price.get("content"):
                price = meta_price.get("content")

        year = j.get("productionDate", "") or j.get("modelDate", "")
        if year:
            try:
                year = str(dtparse(str(year)).year)
            except Exception:
                pass

        mileage = j.get("mileageFrom", "") or j.get("mileage", "") or ""

        return {
            "url": url,
            "title": name,
            "brand": brand or "",
            "model": model or "",
            "year": year,
            "mileage": mileage,
            "price": price or "",
            "currency": currency or "",
        }
    except Exception as e:
        log.exception("Błąd przy pobieraniu szczegółów: %s", url)
        # Zwracamy przynajmniej URL i informację o błędzie
        return {"url": url, "title": "", "brand": "", "model": "", "year": "", "mileage": "", "price": "", "currency": "", "error": str(e)}


def scrape_search(search_url, pages=2, delay=2.0, out_csv="otomoto_export.csv", debug=False):
    seen = set()
    details = []
    for p in range(1, pages + 1):
        url = with_page(search_url, p)
        try:
            rr = SESSION.get(url, timeout=30)
            if rr.status_code != 200:
                log.warning("Strona %s zwróciła status %s", url, rr.status_code)
                break
        except Exception as e:
            log.exception("Błąd przy pobieraniu strony wyników: %s", url)
            break

        if debug:
            # zapisz surowy HTML, ułatwia debugowanie selektorów
            fname = f"debug_page_{p}.html"
            with open(fname, "w", encoding="utf-8") as fh:
                fh.write(rr.text)
            log.info("Zapisano surowy HTML do %s", fname)

        links = listing_links_from_results(rr.text, url)
        log.info("Strona %s: znaleziono %d linków. Przykłady: %s", p, len(links), links[:3])

        for link in links:
            if link in seen:
                continue
            seen.add(link)
            details.append(scrape_detail(link))
            time.sleep(delay)  # bądź kulturalny dla serwisu

    # Zapis do CSV
    cols = ["url", "title", "brand", "model", "year", "mileage", "price", "currency"]
    with open(out_csv, "w", newline="", encoding="utf-8") as f:
        w = csv.DictWriter(f, fieldnames=cols)
        w.writeheader()
        for row in details:
            # upewnij się, że wszystkie kolumny istnieją
            out_row = {k: row.get(k, "") for k in cols}
            w.writerow(out_row)
    return out_csv

# PRZYKŁAD (użyj podanego przez Ciebie URL):
search = "https://www.otomoto.pl/osobowe/volkswagen/passat/seg-sedan?search%5Bfilter_enum_fuel_type%5D=diesel&search%5Bfilter_enum_generation%5D=gen-b5-fl-2000-2005&search%5Badvanced_search_expanded%5D=true"
# Uruchom w swoim środowisku, np.:
scrape_search(search, pages=2, delay=1.5, out_csv="passat_B5FL_otomoto.csv", debug=True)


INFO:__main__:Zapisano surowy HTML do debug_page_1.html
INFO:__main__:Strona 1: znaleziono 13 linków. Przykłady: ['https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HJ8X0.html', 'https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HGQO5.html', 'https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HKcpM.html']
INFO:__main__:Strona 1: znaleziono 13 linków. Przykłady: ['https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HJ8X0.html', 'https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HGQO5.html', 'https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HKcpM.html']
INFO:__main__:Zapisano surowy HTML do debug_page_2.html
INFO:__main__:Zapisano surowy HTML do debug_page_2.html
INFO:__main__:Strona 2: znaleziono 0 linków. Przykłady: []
INFO:__main__:Strona 2: znaleziono 0 linków. Przykłady: []


'passat_B5FL_otomoto.csv'

In [15]:
# Quick environment setup: run this cell once to install packages in the notebook's Python environment.
# It uses the same Python that's running this notebook (sys.executable).
import sys, subprocess, importlib
packages = ["requests", "beautifulsoup4", "python-dateutil"]
print(f"Installing: {packages} into {sys.executable}")
try:
    subprocess.check_call([sys.executable, "-m", "pip", "install"] + packages)
except subprocess.CalledProcessError as e:
    print("pip install failed:", e)
    raise

print("Verifying imports:")
for pkg in ("requests", "bs4", "dateutil"):
    try:
        m = importlib.import_module(pkg)
        ver = getattr(m, "__version__", getattr(m, "VERSION", "unknown"))
        print(f"  {pkg}: OK, version={ver}")
    except Exception as e:
        print(f"  {pkg}: FAILED -> {e}")

print("If this cell ran without import errors, restart the notebook kernel and re-open the file to clear Pylance/VSCode diagnostics.")

Installing: ['requests', 'beautifulsoup4', 'python-dateutil'] into c:\Python314\python.exe
Verifying imports:
  requests: OK, version=2.32.5
  bs4: OK, version=4.14.2
  dateutil: OK, version=2.9.0.post0
If this cell ran without import errors, restart the notebook kernel and re-open the file to clear Pylance/VSCode diagnostics.
Verifying imports:
  requests: OK, version=2.32.5
  bs4: OK, version=4.14.2
  dateutil: OK, version=2.9.0.post0
If this cell ran without import errors, restart the notebook kernel and re-open the file to clear Pylance/VSCode diagnostics.


## Instrukcja uruchomienia (po polsku)

1. Uruchom komórkę instalacyjną (jeśli jeszcze nie została uruchomiona). Usuwa ona brakujące pakiety (`requests`, `beautifulsoup4`, `python-dateutil`) w interpreterze, na którym działa notebook.
2. Po zakończeniu instalacji zrestartuj kernel (Restart Kernel) w górnym menu notebooka.
3. Uruchom komórkę z testem (znajduje się poniżej) — powinna pobrać stronę wyników i wypisać liczbę znalezionych linków oraz kilka przykładów.
4. Jeśli test zwróci linki — skrypt jest gotowy. Jeśli test zgłosi błąd (np. timeout lub brak połączenia), sprawdź połączenie sieciowe i nagłówki User-Agent.

Uwaga: VS Code/Pylance może nadal pokazywać błędy importu przed restartem kernela/interpretera — po instalacji przeładuj okno (Developer: Reload Window) lub wybierz odpowiedni interpreter (Ctrl+Shift+P → Python: Select Interpreter).

In [13]:
# Test ekstrakcji linków — uruchom po zainstalowaniu pakietów i restarcie kernela
import requests, re
from urllib.parse import urljoin
from bs4 import BeautifulSoup

def listing_links_from_results(html, base_url):
    soup = BeautifulSoup(html, "html.parser")
    hrefs = [a.get("href") for a in soup.find_all("a", href=True)]
    abs_hrefs = [urljoin(base_url, h) for h in hrefs if h]
    patterns = [
        re.compile(r"https?://[^/]*otomoto\.pl/.+?/oferta/.+?ID[A-Za-z0-9]+\.html"),
        re.compile(r"/oferta/"),
    ]
    matches = []
    for h in abs_hrefs:
        for p in patterns:
            try:
                if p.search(h):
                    matches.append(h)
                    break
            except Exception:
                continue
    # deduplikuj
    seen = set()
    result = []
    for u in matches:
        if u not in seen:
            seen.add(u)
            result.append(u)
    return result

search = "https://www.otomoto.pl/osobowe/volkswagen/passat/seg-sedan?search%5Bfilter_enum_fuel_type%5D=diesel&search%5Bfilter_enum_generation%5D=gen-b5-fl-2000-2005&search%5Badvanced_search_expanded%5D=true"

try:
    print("Pobieram:", search)
    resp = requests.get(search, headers={"User-Agent": "Mozilla/5.0"}, timeout=30)
    resp.raise_for_status()
    links = listing_links_from_results(resp.text, search)
    print(f"Znaleziono {len(links)} linków. Przykłady:")
    for l in links[:10]:
        print(" -", l)
except Exception as e:
    print("Błąd testu:", e)
    # pomocna wskazówka: uruchom z debug=True w funkcji scrape_search, aby zapisać HTML do pliku i przeanalizować selektory


Pobieram: https://www.otomoto.pl/osobowe/volkswagen/passat/seg-sedan?search%5Bfilter_enum_fuel_type%5D=diesel&search%5Bfilter_enum_generation%5D=gen-b5-fl-2000-2005&search%5Badvanced_search_expanded%5D=true
Znaleziono 13 linków. Przykłady:
 - https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HJ8X0.html
 - https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HGQO5.html
 - https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HKcpM.html
 - https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HHYEf.html
 - https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HHbyT.html
 - https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HIXFg.html
 - https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HIf88.html
 - https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HKyg5.html
 - https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HHJCR.html
 - https://www.otomoto.pl/osobowe/oferta/volkswagen-passat-ID6HIcwr.html
Znaleziono 13 linków. Przykład