### Duomenų rinkimas (Web Scraping) su Selenium

In [None]:
# Selenium leidžia ne tik testuoti, bet ir rinkti duomenis iš svetainių,
# tai vadinama web scraping. Ypač naudinga, kai puslapis naudoja JavaScript
# ir neįmanoma išgauti duomenų vien su requests + BeautifulSoup.

#### HTML duomenų nuskaitymas iš svetainės

In [None]:
# Elemento teksto nuskaitymas:
el = driver.find_element(By.CLASS_NAME, "produkto-pavadinimas")
print(el.text)

# Daug elementų:
elementai = driver.find_elements(By.CLASS_NAME, "kaina")
for el in elementai:
    print(el.text)
    
# Atributų nuskaitymas:
img = driver.find_element(By.TAG_NAME, "img")
print(img.get_attribute("src"))

# Pavyzdys: Nuskaityti Google paieškos rezultatus
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

driver = webdriver.Chrome()
driver.get("https://www.google.com")

search_box = driver.find_element(By.NAME, "q")
search_box.send_keys("Selenium Python")
search_box.send_keys(Keys.RETURN)
time.sleep(2)

rezultatai = driver.find_elements(By.CSS_SELECTOR, "div.g")
for r in rezultatai:
    try:
        antraste = r.find_element(By.TAG_NAME, "h3").text
        nuoroda = r.find_element(By.TAG_NAME, "a").get_attribute("href")
        print(antraste, "->", nuoroda)
    except:
        pass

driver.quit()


####  Duomenų įrašymas į CSV / Excel

In [None]:
# Įrašymas į CSV:
import csv

duomenys = [("Pavadinimas", "Kaina"), ("Knyga A", "9.99 €"), ("Knyga B", "12.50 €")]

with open("produktai.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerows(duomenys)

# Įrašymas į Excel su pandas:
import pandas as pd

df = pd.DataFrame(duomenys[1:], columns=duomenys[0])
df.to_excel("produktai.xlsx", index=False)


#### Pavyzdys

In [None]:
# Atidaro el. parduotuvę (pavyzdžiui, https://books.toscrape.com/)
# Paimą pirmų 10 knygų pavadinimus ir kainas
# Išsaugo duomenis į prekes.xlsx naudojant pandas

from selenium import webdriver
from selenium.webdriver.common.by import By
import pandas as pd
import time

# Paleidžiam naršyklę
driver = webdriver.Chrome()
driver.get("https://books.toscrape.com/")
time.sleep(2)  # leidžiam puslapiui pilnai užsikrauti

# Renkame duomenis
prekes = []
knygos = driver.find_elements(By.CLASS_NAME, "product_pod")[:10]

for knyga in knygos:
    pavadinimas = knyga.find_element(By.TAG_NAME, "h3").text
    kaina = knyga.find_element(By.CLASS_NAME, "price_color").text
    prekes.append((pavadinimas, kaina))

# Uždaryti naršyklę
driver.quit()

# Įrašome į Excel
df = pd.DataFrame(prekes, columns=["Pavadinimas", "Kaina"])
df.to_excel("prekes.xlsx", index=False)


#### Užduotys

In [None]:
#Užduotis 1: Atidaryti puslapį ir nuskaityti pavadinimą
# Atidaryk svetainę https://example.com
# Atspausdink puslapio <title> reikšmę
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options

options = Options()
driver = webdriver.Chrome()
driver.get("https://example.com")

print(driver.title)

In [None]:
# Užduotis 2: Ištraukti visas nuorodas
# Atidaryk svetainę https://example.com
# Rask visus <a> elementus
# Išvesk tekstą ir href kiekvienos nuorodos

options = Options()
driver = webdriver.Chrome()
driver.get("https://example.com")

element = driver.find_elements(By.TAG_NAME, "a")

for elementas in element:
    print(f"Tekstas: {elementas.text} | Nuoroda: {elementas.get_attribute('href')}")

driver.quit()