# Projekt: Automatyzacja i Scrapowanie z Selenium

Selenium to zaawansowane narzędzie umożliwiające automatyzację przeglądarek internetowych. Jest ono szeroko stosowane w testowaniu aplikacji webowych, scrapowaniu danych oraz w automatyzacji różnorodnych procesów związanych z interakcjami z witrynami internetowymi. W tym projekcie przedstawiamy zastosowanie Selenium w języku Python, pokazując różnorodne funkcje, takie jak interakcje z elementami stron, przewijanie, przełączanie kart czy obsługa wyjątków.

## 🚀 Instalacja i Konfiguracja

Aby rozpocząć pracę z Selenium, należy zainstalować bibliotekę oraz odpowiedni sterownik dla używanej przeglądarki (w tym przypadku Microsoft Edge).

```
%pip install selenium

%pip install webdriver-manager
```

Przykładowa konfiguracja:

In [2]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from webdriver_manager.microsoft import EdgeChromiumDriverManager
from selenium.webdriver.edge.service import Service

# Automatyczne pobranie sterownika
service = Service(EdgeChromiumDriverManager().install())

## 🤖 Przykłady zastosowań **Selenium**

### 1. 🌐 Otwarcie strony i pobranie tytułu

Selenium pozwala na automatyczne otwieranie stron i odczytywanie ich tytułów:

In [3]:
driver = webdriver.Edge(service=service)
driver.get('https://pl-pl.facebook.com/')

print("Tytuł strony:", driver.title)
driver.quit()

Tytuł strony: Facebook – zaloguj się lub zarejestruj


### 2. 🏷️ Pobieranie Tekstu Elementów HTML

Za pomocą Selenium można łatwo wyciągnąć tekst z określonych elementów na stronie:

In [4]:
import time
driver = webdriver.Edge(service=service)
driver.get('https://forum-sportowe.pl/')

element = driver.find_element(By.TAG_NAME, 'h1')
print(f"Tytuł nagłówka: {element.text}")
time.sleep(5)
driver.quit()

Tytuł nagłówka: Forum


*pobieranie za pomocą różnych "BY"*

### 3. ✅ Obsługa popupów i klikanie elementów

Można automatycznie obsługiwać popupy, takie jak zgody na pliki cookie:

In [5]:
driver = webdriver.Edge(service=service)
driver.get('https://sport.interia.pl/')

pass_button = driver.find_element(By.CLASS_NAME, 'rodo-popup-agree')
pass_button.click()
time.sleep(3)
driver.quit()

### 4. 🔑 Automatyzacja logowania

Selenium umożliwia wypełnianie formularzy i symulowanie logowania:

In [16]:
driver = webdriver.Edge(service=service)
driver.get('https://github.com/login')

driver.find_element(By.ID, 'login_field').send_keys("moj_login")
# driver.find_element(By.ID, 'password').send_keys("moje_haslo")
driver.find_element(By.CLASS_NAME, 'btn-primary').click()
print("Próba zalogowania!")
time.sleep(3)
driver.quit()

Próba zalogowania!


In [21]:
driver = webdriver.Edge(service=service)
driver.get('https://platforma.polsl.pl/rms/login/index.php')

driver.find_element(By.ID, 'username').send_keys("moj_login")
driver.find_element(By.ID, 'password').send_keys("moje_haslo")
driver.find_element(By.CLASS_NAME, 'btn-primary').click()
print("Próba zalogowania!")
time.sleep(3)
driver.quit()

Próba zalogowania!


### 5. 🔗 Scrapowanie linków

Pobieranie linków z wyników wyszukiwania na Kaggle:

In [7]:
driver = webdriver.Edge(service=service)

urls = []
url = "https://www.kaggle.com/search?q=chatbot+in%3Anotebooks"
driver.get(url)
time.sleep(5)

ul_element = driver.find_element(By.XPATH, '//*[@id="results"]/ul[1]')

# Znajdź wszystkie linki <a> w <ul>
a_elements = ul_element.find_elements(By.TAG_NAME, "a")

for a in a_elements:
    if a.get_attribute("role") == "link":
        href = a.get_attribute("href")
        if href and href.startswith("/"):
            href = "https://www.kaggle.com" + href
        urls.append(href)
driver.quit()
print(urls)

['https://www.kaggle.com/code/kagarg/chatbot', 'https://www.kaggle.com/code/rahulvks/text-classification-chatbot', 'https://www.kaggle.com/code/jocelyndumlao/chatbot-for-mental-health-conversations', 'https://www.kaggle.com/code/melkmanszoon/building-a-chatbot', 'https://www.kaggle.com/code/rajkumarl/conversational-ai-chatbot', 'https://www.kaggle.com/code/akshitrai/chatbot-jarvis', 'https://www.kaggle.com/code/hinepo/q-a-chatbot-with-llms-harry-potter', 'https://www.kaggle.com/code/abdallahwagih/chatbot-bookshop', 'https://www.kaggle.com/code/rohitadnaik/healthcare-chatbot', 'https://www.kaggle.com/code/niraliivaghani/chatbot-training-model', 'https://www.kaggle.com/code/pinooxd/gpt2-chatbot', 'https://www.kaggle.com/code/mahmoudreda55/generative-chatbot', 'https://www.kaggle.com/code/mohsinsial/medical-chatbot', 'https://www.kaggle.com/code/markishere/day-3-building-an-agent-with-langgraph', 'https://www.kaggle.com/code/currie32/a-south-park-chatbot', 'https://www.kaggle.com/code/bun

### 6. 📜 Przewijanie strony

Automatyczne przewinięcie strony:

In [22]:
driver = webdriver.Edge(service=service)
driver.get('https://forum-sportowe.pl/')

driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
print("Przewinięto stronę w dół.")
time.sleep(5)
driver.quit()

Przewinięto stronę w dół.


### 7. ✍️ Scrapowanie treści postów

Można zbierać dane ze stron internetowych i zapisywać je w strukturze tabelarycznej:

In [9]:
import pandas as pd

driver = webdriver.Edge(service=service)

base_url = 'https://forumpsychiatryczne.pl/forum/'
driver.get(base_url)
time.sleep(2)

pass_button = driver.find_element(By.CLASS_NAME, 'css-47sehv')
pass_button.click()

scrapped_posts = []

thread_links = driver.find_elements(By.CSS_SELECTOR, 'a.text-xl.font-bold.text-primary')
urls = [link.get_attribute('href') for link in thread_links]

for url in urls:
    driver.get(url)

    post_links = driver.find_elements(By.CSS_SELECTOR, 'a.mr-4')
    plots_links = [post.get_attribute('href') for post in post_links]

    for post_url in plots_links:
        driver.get(post_url) 

        elements = driver.find_elements(By.CLASS_NAME, "break-words")
        
      
        for element in elements:
            scrapped_posts.append({"tekst": element.text, "kategoria": "Psychiatria"})
        driver.quit()
        break
    break

df = pd.DataFrame(scrapped_posts)
print(df)

                                               tekst    kategoria
0  W dzisiejszym szybkim tempie życia stres staje...  Psychiatria
1  Bardzo lubię pić gorące napoje takie jak kawa ...  Psychiatria
2  Zdecydowanie praca a zwłaszcza gdy się pracuje...  Psychiatria
3  Mleko z kakao można wypić. Napój pomarańczowy ...  Psychiatria


*scrapowanie tabel*

*Web Scraping w połączeniu z API*

### 8. 🖥️ Zarządzanie kartami

Obsługa wielu kart przeglądarki:

In [10]:
driver = webdriver.Edge(service=service)
driver.get("https://www.flashscore.pl/")
time.sleep(5)

driver.execute_script("window.open('https://www.interia.pl/', '_blank');")

driver.switch_to.window(driver.window_handles[1])
print("Przełączono na zakładkę:", driver.current_url)
time.sleep(5)
driver.quit()

Przełączono na zakładkę: https://www.interia.pl/


### 9. ⏳ Oczekiwanie na element

Selenium pozwala na dynamiczne oczekiwanie na pojawienie się elementów:

In [11]:
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Edge(service=service)
driver.get("https://www.flashscore.pl/")

wait = WebDriverWait(driver, 10)
button = wait.until(EC.presence_of_element_located((By.ID, "userControls")))

print("Akcja!")
driver.quit()

Akcja!


### 10. 📸 Pobranie zrzutu ekranu

Możliwość zapisywania zrzutów ekranu:

In [12]:
driver = webdriver.Edge(service=service)
driver.get('https://www.flashscore.pl/tabela/8OzStwmK/buJuHfwh/#/buJuHfwh/table/overall')
time.sleep(3)

driver.save_screenshot("screenshot.png")
print("Zapisano zrzut ekranu.")
driver.quit()

Zapisano zrzut ekranu.


### 11. ✅ Testowanie za pomocą asercji

Weryfikacja poprawności elementów za pomocą asercji:

In [13]:
driver = webdriver.Edge(service=service)
driver.get('https://pl-pl.facebook.com/')

assert "Facebooki" in driver.title, "Tytuł strony jest niepoprawny!"

print("Test zakończony pomyślnie.")
driver.quit()

AssertionError: Tytuł strony jest niepoprawny!

### 12. ⚠️ Obsługa wyjątków

Radzenie sobie z błędami w Selenium:

In [None]:
try:
    driver = webdriver.Edge(service=service)
    driver.get("https://www.flashscore.pl/")
    time.sleep(5)

    driver.execute_script("window.open('https://www.interia.pl/', '_blank');")

    driver.switch_to.window(driver.window_handles[1])
    print("Przełączono na zakładkę:", driver.current_url)
except Exception as e:
    print("Błąd:", e)
finally:
    driver.quit()

Przełączono na zakładkę: https://www.interia.pl/


*Interakcja z elementami formularzy, zaznaczanie checkboxów itp*

*paginacja*

*Interakcja z Elementami Canvas i SVG*

*mobilne*

*Przechwytywanie i przetwarzanie JavaScript w przeglądarce*

*zrzut tylko elementu*

*Automatyczne przewijanie do elementów*

*Zarządzanie ciasteczkami i sesjami*

*ustawienie responsywności strony*

*Ładowanie plików*

*Zbieranie danych z dynamicznych wykresów*

## 🏁 Podsumowanie

Selenium to kluczowe narzędzie w automatyzacji procesów webowych, pozwalające na interakcję z witrynami w sposób programistyczny. Dzięki jego elastyczności możliwe jest zarówno proste scrapowanie danych, jak i bardziej zaawansowane scenariusze, takie jak testy aplikacji czy obsługa dynamicznych treści. Zintegrowane mechanizmy, takie jak oczekiwanie na elementy czy obsługa wyjątków, czynią Selenium niezastąpionym narzędziem dla profesjonalistów zajmujących się automatyką i analizą danych w środowisku webowym.