# Selenium WebDriver

**Selenium** je sada nástrojů pro automatizaci webových prohlížečů. Používá se především pro testování webových aplikací, ale jeho využití není omezeno pouze na tyto úlohy.

**Selenium WebDriver** podporuje automatizaci všech hlavních prohlížečů (Firefox, Chrome, Safari, Opera, Edge).

V tomto notebooku se naučíme:
- Jak spustit prohlížeč pomocí Selenium
- Jak otevřít webovou stránku
- Jak vyhledávat elementy na stránce
- Jak extrahovat informace z elementů
- Jak interagovat s elementy (klikání, psaní textu)
- Jak čekat na načtení elementů

## 1. Instalace

Pro použití Selenium z Pythonu je potřeba:
1. Nainstalovat knihovnu `selenium`
2. Nainstalovat prohlížeč (Chrome nebo Firefox)
3. Stáhnout odpovídající driver (chromedriver nebo geckodriver)

Driver by měl být umístěn ve složce, kterou systém prohledává, nebo v libovolné složce - pak je nutné uvést cestu k němu.

In [None]:
# Instalace knihovny (spustit pouze jednou)
# !pip install selenium

## 2. Import knihoven a spuštění prohlížeče

Cesta k driver souboru musí obsahovat znak `/` - tím Python pozná, že jde o cestu k souboru, ne pouze jeho název.

Tečka `.` na začátku cesty označuje aktuální složku.

In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By

#### Chrome

In [2]:
browser = webdriver.Chrome()

#### Firefox

#### Edge

#### Opera

Po spuštění těchto řádků by se měl na obrazovce objevit prohlížeč Firefox nebo Chrome.

## 3. Otevření webové stránky

Pro přístup na stránku je nutné předat úplnou URL adresu (včetně `http://` nebo `https://`) metodě `.get()`.

In [3]:
browser.get('https://www.amazon.com/')

Vykonávání Python kódu se na chvíli zastaví, zatímco prohlížeč stahuje a zobrazuje základní obsah stránky.

## 4. Vyhledávání elementů

Po načtení stránky můžeme vyhledávat jednotlivé elementy nebo jejich seznamy.

- `find_element` - vrátí první nalezený element
- `find_elements` - vrátí seznam všech nalezených elementů

### Typy vyhledávání

| Typ | Popis |
|-----|-------|
| `'id'` | Podle atributu id |
| `'class name'` | Podle třídy CSS |
| `'tag name'` | Podle názvu HTML tagu |
| `'name'` | Podle atributu name |
| `'css selector'` | Pomocí CSS selektoru |
| `'xpath'` | Pomocí XPath výrazu |
| `'link text'` | Podle přesného textu odkazu |
| `'partial link text'` | Podle části textu odkazu |

In [4]:
# Vyhledání elementu podle id
browser.find_element('id', 'nav-flyout-icp')

<selenium.webdriver.remote.webelement.WebElement (session="500e55f43cf6ccd9c46a076863486734", element="f.D32EBC32064A5854CAFDEC49DA74F2BB.d.8B9CC232A1DCD9E2EF1C4602E9E1724E.e.3245")>

In [7]:
# Vyhledání navigačního panelu a následně odkazů v něm
sidebar = browser.find_element('id', 'nav-xshop')
links = sidebar.find_elements('css selector', '.nav-a')

In [6]:
sidebar

<selenium.webdriver.remote.webelement.WebElement (session="500e55f43cf6ccd9c46a076863486734", element="f.D32EBC32064A5854CAFDEC49DA74F2BB.d.8B9CC232A1DCD9E2EF1C4602E9E1724E.e.344")>

In [8]:
print(f"Počet nalezených odkazů: {len(links)}")

Počet nalezených odkazů: 6


In [9]:
links[:2]

[<selenium.webdriver.remote.webelement.WebElement (session="500e55f43cf6ccd9c46a076863486734", element="f.D32EBC32064A5854CAFDEC49DA74F2BB.d.8B9CC232A1DCD9E2EF1C4602E9E1724E.e.349")>,
 <selenium.webdriver.remote.webelement.WebElement (session="500e55f43cf6ccd9c46a076863486734", element="f.D32EBC32064A5854CAFDEC49DA74F2BB.d.8B9CC232A1DCD9E2EF1C4602E9E1724E.e.352")>]

### Otázka k zamyšlení

Jaký je rozdíl mezi `find_element` a `find_elements`? Co se stane, když element neexistuje?

## 5. Extrakce informací z elementů

Z každého elementu můžeme získat různé informace:

- `.text` - vrátí veškerý textový obsah elementu (včetně vnořených elementů)
- `.tag_name` - vrátí název HTML tagu (např. "h1" nebo "div")
- `.get_attribute('atribut')` - vrátí hodnotu HTML atributu

In [10]:
sidebar = browser.find_element('id', 'nav-xshop')

In [11]:
sidebar.text

"Today's Deals\nPrime Video\nRegistry\nGift Cards\nCustomer Service\nSell"

In [12]:
sidebar.tag_name

'div'

In [13]:
sidebar.get_attribute('id')

'nav-xshop'

## 6. Interakce s elementy

### Klikání
Nejčastější interakce je klikání na vybrané elementy pomocí metody `.click()`.

In [14]:
navbar = browser.find_element('id', 'nav-xshop')
links = navbar.find_elements('css selector', '.nav-a')

# Kliknutí na první odkaz
link = links[0]
link.click()

### Psaní textu
Pro zadání textu do formulářového pole slouží metoda `.send_keys('text')`.

In [17]:
search_query_input = browser.find_element('id', 'twotabsearchtextbox')

In [16]:
search_query_input = browser.find_element('id', 'twotabsearchtextbox')
search_query_input.send_keys('Iphone 14')

In [18]:


search_button = browser.find_element('id', 'nav-search-submit-button')
search_button.click()

## 7. Čekání na elementy

Ne všechny elementy jsou dostupné na stránce ihned - některý obsah se načítá dynamicky pomocí JavaScriptu.

Metoda `.implicitly_wait(sekundy)` nastaví, jak dlouho má prohlížeč čekat při hledání elementů.

In [21]:
browser.implicitly_wait(10)  # nastaví implicitný (globálny) timeout pre hľadanie elementov.

# Prohlížeč se pokusí najít element po dobu 10 sekund
# Pokud ho nenajde, vyvolá výjimku
no_such_element = browser.find_element('css selector', '.s-imange')

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":".s-imange"}
  (Session info: chrome=143.0.7499.40); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#nosuchelementexception
Stacktrace:
Symbols not available. Dumping unresolved backtrace:
	0x7ff6d12f8245
	0x7ff6d12f82a0
	0x7ff6d10d165d
	0x7ff6d1129a33
	0x7ff6d1129d3c
	0x7ff6d117df67
	0x7ff6d117ac97
	0x7ff6d111ac29
	0x7ff6d111ba93
	0x7ff6d160ffe0
	0x7ff6d160a920
	0x7ff6d1629086
	0x7ff6d1315744
	0x7ff6d131e6ec
	0x7ff6d1301964
	0x7ff6d1301b15
	0x7ff6d12e7842
	0x7ffb72de7374
	0x7ffb74dfcc91


In [22]:
no_such_element

<selenium.webdriver.remote.webelement.WebElement (session="500e55f43cf6ccd9c46a076863486734", element="f.D32EBC32064A5854CAFDEC49DA74F2BB.d.26C4041D232EC56B74BFC30A495DEF2A.e.34968")>

### Ošetření výjimky

Někdy element, na který skript čeká, prostě na stránce není. Aby skript neskončil chybou, je dobré výjimku zachytit.

In [23]:
from selenium.common.exceptions import NoSuchElementException

try:
    no_such_element = browser.find_element('id', 'no_such_element')
except NoSuchElementException:
    print('Element nebyl nalezen')

Element nebyl nalezen


## 8. Kombinace Selenium a BeautifulSoup

Je možné kombinovat obě technologie:
- **Selenium** načte stránku (včetně dynamického obsahu)
- **BeautifulSoup** zpracuje HTML kód

In [24]:
from bs4 import BeautifulSoup

browser.get('https://www.amazon.com')  # Otevření stránky
html = browser.page_source              # Získání HTML kódu
soup = BeautifulSoup(html, 'html.parser')  # Zpracování pomocí BeautifulSoup

## 9. Zavření prohlížeče

Na konci skriptu nezapomeňte prohlížeč zavřít pomocí metody `.quit()`.

In [25]:
browser.quit()

---

## Úlohy na opravu chyb

### Úloha 1: Opravte chyby v následujícím kódu

In [31]:
# Tento kód obsahuje chyby - opravte je

# from selenium.webdriver import Chrome

# Chyba 1: Chybí protokol v URL
browser = webdriver.Chrome()

browser.get('https://www.google.com')

In [None]:
# Chyba 2: Špatný typ vyhledávání
element = browser.find_element('id', 'search')

In [35]:
# Chyba 3: Zapomněli jsme zavřít prohlížeč
browser.quit()

### Úloha 2: Opravte chyby v kódu pro extrakci dat

In [None]:
# Tento kód obsahuje chyby - opravte je

# Chyba 1: .text je vlastnost, ne metoda
text = element.text

# Chyba 2: get_attribute vyžaduje název atributu jako string
href = element.get_attribute('href')

# Chyba 3: find_elements vrací seznam, ne jeden element
links = browser.find_elements('tag name', 'a')
print(links[0].text)

---

## Praktické cvičení: Book Store



Použite Selenium  na scrapovanie stránky 'http://books.toscrape.com/'. Vyskrapujte z nej:

- book name (title),
- price,
- url address

Uložte výsledky do csv súboru - bookstore.csv s nasledujúcimi parameterami:

- názvy stĺpcov: **name, price, url,**
- separator - ,
- encoding UTF-8,
    

In [38]:
browser = webdriver.Chrome()
browser.get('http://books.toscrape.com/')
browser.implicitly_wait(10)

In [39]:
# ol class="row" --> ol.row
container = browser.find_element('css selector', 'ol.row')

In [40]:
knihy = container.find_elements('css selector', 'li')
len(knihy)

20

In [55]:
knihy[0].find_element('css selector', 'h3 a').get_attribute('href')

'https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html'

In [59]:
knihy[0].find_element('css selector', 'h3 a').get_attribute('title')

'A Light in the Attic'

In [57]:
knihy[0].find_element('css selector', '.price_color').text

'£51.77'

In [60]:
rows = []

for k in  knihy:
    url = k.find_element('css selector', 'h3 a').get_attribute('href')
    title = k.find_element('css selector', 'h3 a').get_attribute('title')
    price = k.find_element('css selector', '.price_color').text
    row = (title, url, price)
    rows.append(row)

In [61]:
rows

[('A Light in the Attic',
  'https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html',
  '£51.77'),
 ('Tipping the Velvet',
  'https://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html',
  '£53.74'),
 ('Soumission',
  'https://books.toscrape.com/catalogue/soumission_998/index.html',
  '£50.10'),
 ('Sharp Objects',
  'https://books.toscrape.com/catalogue/sharp-objects_997/index.html',
  '£47.82'),
 ('Sapiens: A Brief History of Humankind',
  'https://books.toscrape.com/catalogue/sapiens-a-brief-history-of-humankind_996/index.html',
  '£54.23'),
 ('The Requiem Red',
  'https://books.toscrape.com/catalogue/the-requiem-red_995/index.html',
  '£22.65'),
 ('The Dirty Little Secrets of Getting Your Dream Job',
  'https://books.toscrape.com/catalogue/the-dirty-little-secrets-of-getting-your-dream-job_994/index.html',
  '£33.34'),
 ('The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull',
  'https://books.toscrape.com/catalogue/th

In [62]:
import pandas as pd

In [65]:
df = pd.DataFrame(rows, columns = ['title', 'url', 'price'])
df.to_csv('../Data/bookstore.csv', encoding = 'UTF-8', index = False)

---

## Praktické cvičení: Scraping charitativních organizací

Na stránce [YouGov Charities](https://yougov.co.uk/ratings/politics/popularity/charities-organisations/all) najdete seznam britských charitativních organizací.

Cílem následujících úloh je získat informace o jednotlivých organizacích.

### Cvičení 1: Seznámení s hlavní stránkou

https://yougov.co.uk/ratings/politics/popularity/charities-organisations/all

Před programováním je důležité prozkoumat strukturu webu:

1. Jděte na uvedenou adresu
2. Podívejte se, jak můžeme získat seznam organizací zobrazených na stránce
3. Analyzujte sekci jedné organizace
4. Zjistěte, jak získat:
   - název organizace
   - odkaz na její stránku

### Cvičení 2: Získání seznamu organizací

Vytvořte skript, který získá prvních 20 organizací ze stránky. Na konci byste měli mít seznam s informacemi ve formátu:

```python
[
 {'name': 'NSPCC',
  'link': 'https://yougov.co.uk/topics/health/explore/not-for-profit/NSPCC'},
 {'name': 'Prostate Cancer UK',
  'link': 'https://yougov.co.uk/topics/health/explore/not-for-profit/Prostate_Cancer_UK'},
 ...
]
```

In [None]:
# Import potřebných knihoven
# DOPLŇTE

In [None]:
# Doplňte implementaci funkce
def get_organization_data(org):
    """
    Získá název a odkaz z elementu organizace.
    
    Args:
        org: Selenium WebElement reprezentující řádek organizace
        
    Returns:
        dict: {'name': ..., 'link': ...}
    """
    pass

In [69]:
# Spusťte prohlížeč a nastavte implicitly_wait
# Nezapomeňte na konci prohlížeč zavřít!

url = 'https://yougov.co.uk/ratings/politics/popularity/charities-organisations/all'

**Nápovědy:**
- Pro úplné načtení stránky je nutné **přijmout cookies**, jinak se stránka nenačte
- Nezapomeňte nastavit `implicitly_wait(s)` při přístupu na stránku
- Kromě `implicitly_wait` je dobré přidat `sleep(1)` z modulu `time` před vyhledáváním elementů
- Na konci skriptu nezapomeňte zavřít prohlížeč

In [68]:
from selenium import webdriver
from time import sleep

In [71]:
url = 'https://yougov.co.uk/ratings/politics/popularity/charities-organisations/all'

browser = webdriver.Chrome()
browser.implicitly_wait(10)
browser.get(url)

In [73]:
# btn = browser.find_element('id', 'onetrust-accept-btn-handler')
btn = browser.find_element('css selector', '#onetrust-accept-btn-handler')
btn.click()

In [77]:
# class = rankings-entities-list
container = browser.find_element('css selector', '.rankings-entities-list')
org_list = container.find_elements('css selector', 'li')

In [79]:
org_list[0].text

'1\nMacmillan Cancer Support\n97%\n88%'

In [80]:
org_list[0].find_elements('css selector', 'span')[2].text

'Macmillan Cancer Support'

In [81]:
org_list[0].find_element('css selector', 'a').get_attribute('href')

'https://yougov.co.uk/topics/health/explore/not-for-profit/Macmillan_Cancer_Support'

In [82]:
def get_organization_data(org): # WebElement reprezentující řádek organizace
    name = org.find_elements('css selector', 'span')[2].text
    url = org.find_element('css selector', 'a').get_attribute('href')
    return {'name' : name, 'url' : url}

In [84]:
get_organization_data(org_list[0])

{'name': 'Macmillan Cancer Support',
 'url': 'https://yougov.co.uk/topics/health/explore/not-for-profit/Macmillan_Cancer_Support'}

In [86]:
def get_organization_list(url):
    browser = webdriver.Chrome()
    browser.implicitly_wait(10)
    browser.get(url)
    sleep(1)
    
    btn = browser.find_element('css selector', '#onetrust-accept-btn-handler')
    btn.click()

    container = browser.find_element('css selector', '.rankings-entities-list')
    org_list = container.find_elements('css selector', 'li')

    results = []
    for org in org_list:
        org_dict = get_organization_data(org)
        results.append(org_dict)
    
    browser.quit()
    return results

In [87]:
get_organization_list('https://yougov.co.uk/ratings/politics/popularity/charities-organisations/all')

[{'name': 'Macmillan Cancer Support',
  'url': 'https://yougov.co.uk/topics/health/explore/not-for-profit/Macmillan_Cancer_Support'},
 {'name': 'Marie Curie',
  'url': 'https://yougov.co.uk/topics/health/explore/not-for-profit/Marie_Curie'},
 {'name': 'British Heart Foundation',
  'url': 'https://yougov.co.uk/topics/health/explore/not-for-profit/British_Heart_Foundation'},
 {'name': 'St. John Ambulance',
  'url': 'https://yougov.co.uk/topics/health/explore/not-for-profit/St_John_Ambulance'},
 {'name': 'Cancer Research UK',
  'url': 'https://yougov.co.uk/topics/health/explore/not-for-profit/Cancer_Research_UK'},
 {'name': 'Samaritans',
  'url': 'https://yougov.co.uk/topics/health/explore/not-for-profit/Samaritans'},
 {'name': 'Great Ormond Street Hospital',
  'url': 'https://yougov.co.uk/topics/health/explore/not-for-profit/Great_Ormond_Street_Hospital'},
 {'name': 'Dementia UK',
  'url': 'https://yougov.co.uk/topics/health/explore/not-for-profit/Dementia_UK'},
 {'name': 'Guide Dogs',
 

In [70]:
browser.quit()

### Cvičení 3: Seznámení se stránkou organizace

Prozkoumejte stránku konkrétní organizace: [Macmillan Cancer Support](https://yougov.co.uk/topics/health/explore/not-for-profit/Macmillan_Cancer_Support?content=all)

Zajímají nás tyto informace z hlavičky stránky (vedle loga):
- Fame (známost)
- Popularity (oblíbenost)
- Disliked by (neoblíbenost)
- Neutral (neutralita)

### Cvičení 4: Získání detailních dat organizace

Doplňte implementaci funkce `get_organization_detailed_data(url)`, která získá výše uvedené informace.

Data by měla být vrácena jako slovník:

```python
{
    'Fame': '0%',
    'Popularity': '0%',
    'Disliked by': '0%',
    'Neutral': '0%'
}
```

In [None]:
# Import potřebných knihoven
# DOPLŇTE

In [None]:
# Doplňte implementaci funkce
def get_organization_detailed_data(url):
    """
    Získá detailní data o organizaci z její stránky.
    
    Args:
        url: URL adresa stránky organizace
        
    Returns:
        dict: Slovník s klíči Fame, Popularity, Disliked by, Neutral
    """
    pass

In [None]:
# Spusťte prohlížeč a nastavte implicitly_wait
# Nezapomeňte na konci prohlížeč zavřít!

**Nápovědy:**
- V tomto cvičení se zaměřte pouze na získání informací pro jednu stránku
- Stejně jako dříve je nutné přijmout cookies, protože prohlížeč byl znovu otevřen
- Možná by bylo dobré přijetí cookies oddělit do samostatné funkce (volitelné)

---

## Přehled použitých metod a funkcí

### Import a inicializace

| Příkaz | Popis |
|--------|-------|
| `from selenium.webdriver import Firefox, Chrome` | Import tříd prohlížečů |
| `from selenium.common.exceptions import NoSuchElementException` | Import výjimky pro nenalezený element |
| `webdriver.Chrome()` | Spuštění prohlížeče Chrome |

### Navigace

| Metoda | Popis |
|--------|-------|
| `browser.get(url)` | Otevření webové stránky |
| `browser.quit()` | Zavření prohlížeče |
| `browser.page_source` | Získání HTML kódu aktuální stránky |

### Vyhledávání elementů

| Metoda | Popis |
|--------|-------|
| `browser.find_element('typ', 'hodnota')` | Najde první odpovídající element |
| `browser.find_elements('typ', 'hodnota')` | Najde všechny odpovídající elementy (vrací seznam) |
| `element.find_element('typ', 'hodnota')` | Hledání v rámci konkrétního elementu |
| `element.find_elements('typ', 'hodnota')` | Hledání všech v rámci konkrétního elementu |

### Typy vyhledávání

| Typ | Příklad |
|-----|-------|
| `'id'` | `find_element('id', 'nav-xshop')` |
| `'class name'` | `find_element('class name', 'nav-link')` |
| `'css selector'` | `find_element('css selector', '.nav-a')` |
| `'tag name'` | `find_element('tag name', 'div')` |
| `'xpath'` | `find_element('xpath', '//div[@id="main"]')` |
| `'link text'` | `find_element('link text', 'Klikni zde')` |
| `'partial link text'` | `find_element('partial link text', 'Klikni')` |
| `'name'` | `find_element('name', 'username')` |

### Extrakce dat

| Vlastnost/Metoda | Popis |
|------------------|-------|
| `element.text` | Textový obsah elementu (včetně vnořených) |
| `element.tag_name` | Název HTML tagu (např. "div", "a") |
| `element.get_attribute('atribut')` | Hodnota HTML atributu (např. 'href', 'class') |

### Interakce

| Metoda | Popis |
|--------|-------|
| `element.click()` | Kliknutí na element |
| `element.send_keys('text')` | Zapsání textu do vstupního pole |

### Čekání

| Metoda | Popis |
|--------|-------|
| `browser.implicitly_wait(sekundy)` | Nastavení implicitního čekání na elementy |

### Kombinace s BeautifulSoup

| Příkaz | Popis |
|--------|-------|
| `html = browser.page_source` | Získání HTML kódu stránky |
| `soup = BeautifulSoup(html, 'html.parser')` | Zpracování HTML pomocí BeautifulSoup |