# OTOMOTO Scraper - Notebook walidacyjny

Ten notebook s≈Çu≈ºy do **walidacji wynik√≥w** scrapingu. Samo zbieranie danych odbywa siƒô przez zewnƒôtrzny skrypt.

## Jak u≈ºyƒá:

### Opcja 1: Uruchom scraper z notebooka
1. Uruchom kom√≥rkƒô **SCRAPE_SAMPLE** (kom√≥rka 2)
2. PrzeglƒÖdarka otworzy siƒô automatycznie
3. W pierwszym og≈Çoszeniu zaakceptuj cookies/CAPTCHA
4. Wr√≥ƒá do **okna terminala PowerShell** (nie do notebooka!) i naci≈õnij ENTER
5. Poczekaj a≈º skrypt zako≈Ñczy zbieranie danych

### Opcja 2: Uruchom scraper rƒôcznie z terminala
```powershell
python scraper_manual.py
```

### Walidacja wynik√≥w
Po zako≈Ñczeniu scrapingu uruchom kom√≥rkƒô **TEST_VALIDATION** (kom√≥rka 3), kt√≥ra:
- Sprawdzi kompletno≈õƒá danych (brakujƒÖce warto≈õci)
- Poka≈ºe podglƒÖd pierwszych 3 rekord√≥w
- Wy≈õwietli wynik testu (PASS/FAIL)

## Pliki wynikowe:
- `listings_manual.xlsx` - g≈Ç√≥wny plik z danymi (z scraper_manual.py)
- `notebook_listings.xlsx` - plik z notebooka (je≈õli u≈ºyto Opcji 1)

## Uwaga techniczna:
Playwright (Sync i Async API) nie dzia≈Ça bezpo≈õrednio w Jupyter na Windows z powodu ogranicze≈Ñ asyncio event loop. Dlatego u≈ºywamy zewnƒôtrznego skryptu uruchamianego przez subprocess.


In [1]:
# SCRAPE_SAMPLE - uruchomienie zewnƒôtrznego skryptu
# 
# Uwaga: Playwright Sync/Async API nie dzia≈Ça w Jupyter na Windows z powodu ogranicze≈Ñ event loop.
# Zamiast tego uruchamiamy zewnƒôtrzny skrypt scraper_manual.py
#
# Skrypt utworzy nowy plik Excel z timestampem

import subprocess
import sys
import os
from datetime import datetime

# Wygeneruj nazwƒô pliku z timestampem
timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
output_file = f"listings_{timestamp}.xlsx"

print("üöÄ Uruchamiam zewnƒôtrzny scraper (scraper_manual.py)...")
print(f"üìÅ Wynik zostanie zapisany do: {output_file}")
print("‚ÑπÔ∏è PrzeglƒÖdarka otworzy siƒô w osobnym procesie.")
print("‚è∏Ô∏è Zaakceptuj cookies/CAPTCHA w pierwszym og≈Çoszeniu, potem naci≈õnij ENTER w oknie terminala PowerShell.\n")

# Sprawd≈∫ czy plik istnieje
script_path = "scraper_manual.py"
if not os.path.exists(script_path):
    print(f"‚ùå Nie znaleziono pliku {script_path}")
    print("Upewnij siƒô, ≈ºe plik znajduje siƒô w tym samym folderze co notebook.")
else:
    # Uruchom skrypt w osobnym procesie BEZ przechwytywania output
    # To pozwala na interakcjƒô (input/ENTER) w terminalu
    try:
        print("‚ñ∂Ô∏è Uruchamiam... sprawd≈∫ okno terminala PowerShell!\n")
        result = subprocess.run(
            [sys.executable, script_path, output_file],  # Przeka≈º nazwƒô pliku jako argument
            timeout=600  # 10 minut timeout
        )
        
        if result.returncode == 0:
            print(f"\n‚úÖ Scraper zako≈Ñczony pomy≈õlnie!")
            print(f"üìä Dane zapisane w: {output_file}")
        else:
            print(f"\n‚ö†Ô∏è Scraper zako≈Ñczy≈Ç siƒô z kodem: {result.returncode}")
            
    except subprocess.TimeoutExpired:
        print("\n‚è±Ô∏è Timeout - scraper trwa≈Ç d≈Çu≈ºej ni≈º 10 minut")
    except Exception as e:
        print(f"\n‚ùå B≈ÇƒÖd podczas uruchamiania: {e}")

print("\nüí° Po zako≈Ñczeniu uruchom kom√≥rkƒô TEST_VALIDATION aby sprawdziƒá dane.")


üöÄ Uruchamiam zewnƒôtrzny scraper (scraper_manual.py)...
üìÅ Wynik zostanie zapisany do: listings_20251112_022036.xlsx
‚ÑπÔ∏è PrzeglƒÖdarka otworzy siƒô w osobnym procesie.
‚è∏Ô∏è Zaakceptuj cookies/CAPTCHA w pierwszym og≈Çoszeniu, potem naci≈õnij ENTER w oknie terminala PowerShell.

‚ñ∂Ô∏è Uruchamiam... sprawd≈∫ okno terminala PowerShell!


‚è±Ô∏è Timeout - scraper trwa≈Ç d≈Çu≈ºej ni≈º 10 minut

üí° Po zako≈Ñczeniu uruchom kom√≥rkƒô TEST_VALIDATION aby sprawdziƒá dane.

‚è±Ô∏è Timeout - scraper trwa≈Ç d≈Çu≈ºej ni≈º 10 minut

üí° Po zako≈Ñczeniu uruchom kom√≥rkƒô TEST_VALIDATION aby sprawdziƒá dane.


In [2]:
# TEST_VALIDATION
import os
import pandas as pd
import glob

# Znajd≈∫ najnowszy plik z wynikami
patterns = ["listings_*.xlsx", "notebook_listings.xlsx", "listings_manual.xlsx"]
all_files = []
for pattern in patterns:
    all_files.extend(glob.glob(pattern))

if not all_files:
    print("‚ùó Nie znaleziono ≈ºadnego pliku XLSX z wynikami.")
    print("Uruchom najpierw kom√≥rkƒô SCRAPE_SAMPLE lub scraper_manual.py")
else:
    # Wybierz najnowszy plik (po dacie modyfikacji)
    path = max(all_files, key=os.path.getmtime)
    print(f"üîé Walidujƒô najnowszy plik: {path}")
    
    df = pd.read_excel(path)
    # Upewnij siƒô o kolumnach i kolejno≈õci
    required = ['url','title','brand','model','year','mileage','price','currency','fuel_type','transmission','capacity','power','color','doors','seats','body_type','condition','country','vin','features','description']
    for c in required:
        if c not in df.columns:
            df[c] = ''
    df = df[required]

    core = ['brand','model','year','mileage','fuel_type','capacity','power','price','currency','transmission','color','doors','body_type','condition']
    missing = {c: int(df[c].isna().sum() + (df[c] == '').sum()) for c in core}

    print("\nüìä Braki w kluczowych kolumnach:")
    for k,v in missing.items():
        print(f"- {k}: {v}")

    total_missing = sum(missing.values())
    if total_missing == 0:
        print("\n‚úÖ Test PASS: kluczowe kolumny kompletne")
    else:
        print(f"\n‚ö†Ô∏è Test FAIL: {total_missing} brak√≥w (sprawd≈∫ tryb manual lub selectors)")

    # PodglƒÖd pierwszych 3 rekord√≥w
    print(f"\nüëÄ PodglƒÖd ({len(df)} wierszy w pliku):")
    try:
        from IPython.display import display
        display(df.head(3))
    except Exception:
        print(df.head(3).to_string(index=False))


üîé Walidujƒô najnowszy plik: listings_20251112_015802.xlsx

üìä Braki w kluczowych kolumnach:
- brand: 0
- model: 0
- year: 0
- mileage: 0
- fuel_type: 0
- capacity: 0
- power: 0
- price: 0
- currency: 0
- transmission: 0
- color: 0
- doors: 0
- body_type: 0
- condition: 0

‚úÖ Test PASS: kluczowe kolumny kompletne

üëÄ PodglƒÖd (13 wierszy w pliku):

üìä Braki w kluczowych kolumnach:
- brand: 0
- model: 0
- year: 0
- mileage: 0
- fuel_type: 0
- capacity: 0
- power: 0
- price: 0
- currency: 0
- transmission: 0
- color: 0
- doors: 0
- body_type: 0
- condition: 0

‚úÖ Test PASS: kluczowe kolumny kompletne

üëÄ PodglƒÖd (13 wierszy w pliku):


Unnamed: 0,url,title,brand,model,year,mileage,price,currency,fuel_type,transmission,...,power,color,doors,seats,body_type,condition,country,vin,features,description
0,https://www.otomoto.pl/osobowe/oferta/volkswag...,Volkswagen Passat 1.9 TDI Comfortline,Volkswagen,Passat,2002,362333,5499,PLN,Diesel,Manualna,...,333,Srebrny,5,5.0,Sedan,U≈ºywany,Niemcy,,czujnik oleju; zaw√≥r podci≈õnienia; zregenerowa...,
1,https://www.otomoto.pl/osobowe/oferta/volkswag...,Volkswagen Passat 1.9 TDI Comfortline,Volkswagen,Passat,2003,271000,21900,PLN,Diesel,Manualna,...,0,Niebieski,4,5.0,Sedan,U≈ºywany,W≈Çochy,,Firma; Bardzo sprawnie odpowiada; SprzedajƒÖcy ...,
2,https://www.otomoto.pl/osobowe/oferta/volkswag...,Volkswagen Passat,Volkswagen,Passat,2002,202800,12500,PLN,Diesel,Automatyczna,...,800,Srebrny,5,5.0,Sedan,U≈ºywany,,,Osoba prywatna; Bardzo sprawnie odpowiada; Spr...,
