# Projekt I: Automatyzacja i Scrapowanie z Selenium

*Krzysztof Gumiński, Nicolas Wardenga, Weronika Wołowczyk*

Selenium to zaawansowane narzędzie do automatyzacji przeglądarek internetowych, szeroko stosowane w testowaniu aplikacji webowych, scrapowaniu danych oraz automatyzacji procesów interakcji z witrynami internetowymi. 
W tym projekcie przedstawiamy praktyczne wykorzystanie Selenium w języku Python do pozyskiwania i przetwarzania danych w celu ich dalszej analizy i wizualizacji.

## 🚀 Instalacja i Konfiguracja

Aby rozpocząć pracę z Selenium, należy zainstalować bibliotekę oraz odpowiedni sterownik dla używanej przeglądarki (w naszym przypadku Microsoft Edge). 
Narzędzie `webdriver-manager` pomaga automatycznie zarządzać sterownikami, zapewniając zgodność z wersją przeglądarki.

**Instalacja**
```
%pip install selenium

%pip install webdriver-manager
```

**Import wymaganych modułów:**
- `webdriver` i `By` z Selenium do interakcji z przeglądarką i wyszukiwania elementów HTML.
- `EdgeChromiumDriverManager` z `webdriver-manager` do zarządzania sterownikiem przeglądarki Edge.
- `Service` z Selenium do konfiguracji sterownika przeglądarki.


In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from webdriver_manager.microsoft import EdgeChromiumDriverManager
from selenium.webdriver.edge.service import Service

**Automatyczna konfiguracja sterownika dla przeglądarki:**

In [2]:
service = Service(EdgeChromiumDriverManager().install())
driver = webdriver.Edge(service=service)

## 🤖 Przykłady zastosowań **Selenium**

### 1. 🌐 Otwarcie strony i pobranie tytułu

Selenium pozwala na automatyczne otwieranie witryn i pozyskiwanie podstawowych informacji, takich jak tytuł strony:

In [3]:
driver.get('https://pl-pl.facebook.com/')

print("Tytuł strony:", driver.title)

Tytuł strony: Facebook – zaloguj się lub zarejestruj


In [4]:
driver.quit()

### 2. 🏷️ Pobieranie Treści Elementów HTML

Za pomocą Selenium można pozyskiwać tekst zawarty w określonych elementach HTML. 
Przykład, wyciąganie nagłówków strony i linków:

In [5]:
import time

driver = webdriver.Edge(service=service)
driver.get('https://forum-sportowe.pl/')

element_TAG_NAME = driver.find_element(By.TAG_NAME, 'h1')
print(f"Tytuł nagłówka (znaleziony przez TAG_NAME): {element_TAG_NAME.text}")

element_CLASS_NAME = driver.find_element(By.CLASS_NAME, 'ipsType_pageTitle')
print(f"Tytuł nagłówka (znaleziony przez CLASS_NAME): {element_CLASS_NAME.text}")

element_CSS_SELECTOR = driver.find_element(By.CSS_SELECTOR, 'h1.ipsType_pageTitle')
print(f"Tytuł nagłówka (znaleziony przez CSS_SELECTOR): {element_CSS_SELECTOR.text}")

element_XPATH = driver.find_element(By.XPATH, '//*[@id="ipsLayout_mainArea"]/div[1]/h1')
print(f"Tytuł nagłówka (znaleziony przez XPATH): {element_XPATH.text}")

element_LINK_TEXT = driver.find_element(By.LINK_TEXT, 'Dodaj nowy temat')
link_url = element_LINK_TEXT.get_attribute('href')
print(f'Link z "Dodaj nowy temat": {link_url}')

Tytuł nagłówka (znaleziony przez TAG_NAME): Forum
Tytuł nagłówka (znaleziony przez CLASS_NAME): Forum
Tytuł nagłówka (znaleziony przez CSS_SELECTOR): Forum
Tytuł nagłówka (znaleziony przez XPATH): Forum
Link z "Dodaj nowy temat": https://forum-sportowe.pl/startTopic/


In [6]:
driver.quit()

### 3. ⏳ Oczekiwanie na element

Selenium pozwala na dynamiczne oczekiwanie na pojawienie się elementów:

In [7]:
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Edge(service=service)
driver.get("https://www.flashscore.pl/")

wait = WebDriverWait(driver, 10)
button = wait.until(EC.presence_of_element_located((By.ID, "userControls")))

print("Akcja!")
driver.quit()

Akcja!


### 4. ✅ Obsługa popupów i klikanie elementów

Można automatycznie obsługiwać okna "popup", takie jak zgody na pliki cookie:

In [8]:
driver = webdriver.Edge(service=service)
driver.get('https://sport.interia.pl/')

pass_button = driver.find_element(By.CLASS_NAME, 'rodo-popup-agree')
pass_button.click()

In [9]:
driver.quit()

### 5. 🔑 Automatyzacja logowania

Selenium umożliwia wypełnianie formularzy i symulowanie logowania na stronie internetowej, co często wykorzystywane jest w data science do dostępu do danych wymagających autoryzacji.

In [10]:
driver = webdriver.Edge(service=service)
driver.get('https://platforma.polsl.pl/rms/login/index.php')

driver.find_element(By.ID, 'username').send_keys("moj_login")
driver.find_element(By.ID, 'password').send_keys("moje_haslo")
driver.find_element(By.CLASS_NAME, 'btn-primary').click()
print("Próba zalogowania!")

Próba zalogowania!


In [11]:
driver.quit()

### 6. 📜 Uzupełnianie formularza

Automatyzacja wypełniania formularzy na stronach internetowych:

In [12]:
from selenium.webdriver.support.ui import Select

driver = webdriver.Edge(service=service)

driver.get('https://bdl.stat.gov.pl/bdl/obszary')
time.sleep(5) 

# 1. Obszar funkcjonalny
obszar_funkcjonalny = Select(driver.find_element(By.ID, "ctl00_ContentPlaceHolder_lbKrok1"))
obszar_funkcjonalny.select_by_value("01") # "Gminy według rodzaju"

# 2. Pozycja obszaru funkcjonalnego
pozycja_obszaru = Select(driver.find_element(By.ID, "ctl00_ContentPlaceHolder_lbKrok2"))
pozycja_obszaru.select_by_value("02")  # "gminy wiejskie"

# 3. Rok
rok = Select(driver.find_element(By.ID, "ctl00_ContentPlaceHolder_lbKrok3"))
rok.select_by_value("28")  # "2022"

# 4. Obszar tematyczny
obszar_tematyczny = Select(driver.find_element(By.ID, "ctl00_ContentPlaceHolder_lbKrok4"))
obszar_tematyczny.select_by_value("3")  # "Kapitał ludzki i społeczny"

# 5. Podobszar tematyczny
podobszar_tematyczny = Select(driver.find_element(By.ID, "ctl00_ContentPlaceHolder_lbKrok5"))
podobszar_tematyczny.select_by_value("10")  # "Edukacja i kompetencje"

# 6. Wskaźnik
checkbox_wskaznik = driver.find_element(By.ID, "_rfdSkinnedctl00_ContentPlaceHolder_cbKrok6")
if not checkbox_wskaznik.is_selected():
    checkbox_wskaznik.click() # "Zaznacz wszystko"

# Rodzaj zestawienia
rodzaj_zestawienia = Select(driver.find_element(By.ID, "ctl00_ContentPlaceHolder_lbKrok7"))
rodzaj_zestawienia.select_by_value("1")  #  "tabela relacyjna"

submit_button = driver.find_element(By.ID, "ctl00_ContentPlaceHolder_btnRunRaport")
submit_button.click()

export_button = WebDriverWait(driver, 10).until(
        EC.visibility_of_element_located((By.XPATH, '//*[@id="ctl00_ContentPlaceHolder_rvRaportObszaryFunkcjonalne_ctl09_ctl04_ctl00_ButtonLink"]'))
    )

print("Formularz wypełniono i wyświetlono tabelę")


Formularz wypełniono i wyświetlono tabelę


### 7. 📁 Pobieranie plików

Automatyzacja pobierania plików, np. eksportu do formatu Excel:

In [13]:
export_button.click()

excel_option = WebDriverWait(driver, 10).until(
        EC.element_to_be_clickable((By.XPATH, '//*[@id="ctl00_ContentPlaceHolder_rvRaportObszaryFunkcjonalne_ctl09_ctl04_ctl00_Menu"]/div[1]/a'))
    )

excel_option.click()


TimeoutException: Message: 


In [None]:
driver.quit()

### 8. 🔗 Scrapowanie linków

Automatyczne pozyskiwanie linków do dalszej analizy, np. wyników wyszukiwania na Kaggle:

In [None]:
driver = webdriver.Edge(service=service)

urls = []
url = "https://www.kaggle.com/search?q=chatbot+in%3Anotebooks"
driver.get(url)
time.sleep(5)

ul_element = driver.find_element(By.XPATH, '//*[@id="results"]/ul[1]')

# Znajdź wszystkie linki <a> w <ul>
a_elements = ul_element.find_elements(By.TAG_NAME, "a")

for a in a_elements:
    if a.get_attribute("role") == "link":
        href = a.get_attribute("href")
        if href and href.startswith("/"):
            href = "https://www.kaggle.com" + href
        urls.append(href)
print(urls)

['https://www.kaggle.com/code/kagarg/chatbot', 'https://www.kaggle.com/code/rahulvks/text-classification-chatbot', 'https://www.kaggle.com/code/jocelyndumlao/chatbot-for-mental-health-conversations', 'https://www.kaggle.com/code/melkmanszoon/building-a-chatbot', 'https://www.kaggle.com/code/rajkumarl/conversational-ai-chatbot', 'https://www.kaggle.com/code/akshitrai/chatbot-jarvis', 'https://www.kaggle.com/code/hinepo/q-a-chatbot-with-llms-harry-potter', 'https://www.kaggle.com/code/abdallahwagih/chatbot-bookshop', 'https://www.kaggle.com/code/rohitadnaik/healthcare-chatbot', 'https://www.kaggle.com/code/niraliivaghani/chatbot-training-model', 'https://www.kaggle.com/code/pinooxd/gpt2-chatbot', 'https://www.kaggle.com/code/mahmoudreda55/generative-chatbot', 'https://www.kaggle.com/code/mohsinsial/medical-chatbot', 'https://www.kaggle.com/code/markishere/day-3-building-an-agent-with-langgraph', 'https://www.kaggle.com/code/currie32/a-south-park-chatbot', 'https://www.kaggle.com/code/bun

In [None]:
driver.quit()

### 9. ✍️ Scrapowanie treści postów

Przykład zbierania danych ze stron i zapisywania ich w strukturze tabelarycznej:

In [None]:
import pandas as pd

driver = webdriver.Edge(service=service)

base_url = 'https://forumpsychiatryczne.pl/forum/'
driver.get(base_url)
time.sleep(2)

pass_button = driver.find_element(By.CLASS_NAME, 'css-47sehv')
pass_button.click()

scrapped_posts = []

thread_links = driver.find_elements(By.CSS_SELECTOR, 'a.text-xl.font-bold.text-primary')
urls = [link.get_attribute('href') for link in thread_links]

for url in urls:
    driver.get(url)

    post_links = driver.find_elements(By.CSS_SELECTOR, 'a.mr-4')
    plots_links = [post.get_attribute('href') for post in post_links]

    for post_url in plots_links:
        driver.get(post_url) 

        elements = driver.find_elements(By.CLASS_NAME, "break-words")
        
      
        for element in elements:
            scrapped_posts.append({"tekst": element.text, "kategoria": "Psychiatria"})
        driver.quit()
        break
    break

df = pd.DataFrame(scrapped_posts)
print(df)

NoSuchWindowException: Message: no such window: target window already closed
from unknown error: web view not found
  (Session info: MicrosoftEdge=131.0.2903.99)
Stacktrace:
	(No symbol) [0x00007FF68E946B05]
	Microsoft::Applications::Events::EventProperty::empty [0x00007FF68EC6F464+1437348]
	sqlite3_dbdata_init [0x00007FF68ED12DB6+643206]
	(No symbol) [0x00007FF68E807657]
	(No symbol) [0x00007FF68E891CE5]
	(No symbol) [0x00007FF68E8A670A]
	(No symbol) [0x00007FF68E88BE03]
	(No symbol) [0x00007FF68E862984]
	(No symbol) [0x00007FF68E861E30]
	(No symbol) [0x00007FF68E862571]
	Microsoft::Applications::Events::EventProperty::empty [0x00007FF68EC1BAF4+1094964]
	(No symbol) [0x00007FF68E9832B8]
	Microsoft::Applications::Events::EventProperty::empty [0x00007FF68EC1AF33+1091955]
	Microsoft::Applications::Events::EventProperty::empty [0x00007FF68EC1AA99+1090777]
	Microsoft::Applications::Events::ILogConfiguration::operator* [0x00007FF68EA20CA1+461553]
	Microsoft::Applications::Events::ILogConfiguration::operator* [0x00007FF68EA1C9C4+444436]
	Microsoft::Applications::Events::ILogConfiguration::operator* [0x00007FF68EA1CB09+444761]
	Microsoft::Applications::Events::ILogConfiguration::operator* [0x00007FF68EA12186+401366]
	BaseThreadInitThunk [0x00007FF9ED087374+20]
	RtlUserThreadStart [0x00007FF9EEFDCC91+33]


### 10. ⏬ Przewijanie strony

Automatyczne przewinięcie strony:

In [18]:
driver = webdriver.Edge(service=service)
driver.get('https://forum-sportowe.pl/')

- do określonego elementu: 

In [19]:
element = driver.find_element(By.XPATH, '//*[@id="ipsLayout_mainArea"]/section/ol/li[1]/ol/li[5]/div[2]/h4/a')
driver.execute_script("arguments[0].scrollIntoView(true);", element)
print("Przewinięto stronę do elementu 'Fitness i aerobik'.")


Przewinięto stronę do elementu 'Fitness i aerobik'.


- na koniec strony:

In [20]:
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
print("Przewinięto stronę w dół.")

Przewinięto stronę w dół.


In [21]:
driver.quit()

### 11. 🖥️ Zarządzanie kartami

Obsługa wielu kart przeglądarki:

In [22]:
driver = webdriver.Edge(service=service)
driver.get("https://www.flashscore.pl/")
time.sleep(5)

driver.execute_script("window.open('https://www.interia.pl/', '_blank');")

driver.switch_to.window(driver.window_handles[1])
print("Przełączono na zakładkę:", driver.current_url)
time.sleep(5)
driver.quit()

Przełączono na zakładkę: https://www.interia.pl/


### 12. 📸 Pobranie zrzutu ekranu

Możliwość zapisywania zrzutów ekranu:

In [27]:
driver = webdriver.Edge(service=service)
driver.get('https://www.flashscore.pl/tabela/8OzStwmK/buJuHfwh/#/buJuHfwh/table/overall')

- całej strony:

In [28]:
driver.save_screenshot("screenshot_all_page.png")
print("Zapisano zrzut ekranu.")

Zapisano zrzut ekranu.


- określonego elementu:

In [30]:
first_team_element = driver.find_element(By.XPATH, '//*[@id="tournament-table-tabs-and-content"]/div[3]/div[1]/div/div/div[2]/div[1]')
first_team_element.screenshot('screenshot_element.png')

print("Zrobiono zrzut ekranu pierwszej drużyny.")

Zrobiono zrzut ekranu pierwszej drużyny.


In [None]:
driver.quit()

### 11. ✅ Testowanie za pomocą asercji

Weryfikacja poprawności elementów za pomocą asercji:

In [None]:
driver = webdriver.Edge(service=service)
driver.get('https://pl-pl.facebook.com/')

assert "Facebooki" in driver.title, "Tytuł strony jest niepoprawny!"

print("Test zakończony pomyślnie.")

AssertionError: Tytuł strony jest niepoprawny!

In [None]:
driver.quit()

### 12. ⚠️ Obsługa wyjątków

Radzenie sobie z błędami w Selenium:

In [None]:
try:
    driver = webdriver.Edge(service=service)
    driver.get("https://www.flashscore.pl/")
    time.sleep(5)

    driver.execute_script("window.open('https://www.interia.pl/', '_blank');")

    driver.switch_to.window(driver.window_handles[1])
    print("Przełączono na zakładkę:", driver.current_url)
except Exception as e:
    print("Błąd:", e)
finally:
    driver.quit()

Przełączono na zakładkę: https://www.interia.pl/


# 🎯 Zastosowanie Selenium w Data Science


1. **Pozyskiwanie danych**: Scrapowanie dynamicznych treści z witryn trudno dostępnych dla tradycyjnych bibliotek, takich jak BeautifulSoup.

2. **Analiza tekstu**: Automatyczne pobieranie tekstów z forów, blogów lub serwisów informacyjnych do analizy sentymentu, klasyfikacji tekstów czy ekstrakcji informacji.

3. **Monitoring stron**: Automatyczne zbieranie danych w regularnych odstępach czasu, np. do analizy trendów rynkowych.

4. **Wizualizacja wyników**: Generowanie zrzutów ekranu dynamicznych wizualizacji w celu ich dalszego przetwarzania.

## 🏁 Podsumowanie

Selenium to potężne narzędzie dla data scientistów. Jego elastyczność pozwala na realizację zarówno prostych zadań, takich jak pobieranie tytułów stron, jak i bardziej zaawansowanych scenariuszy, takich jak scrapowanie danych z dynamicznych formularzy czy automatyzacja testów. Integracja z innymi narzędziami, takimi jak `pandas` czy `matplotlib`, otwiera szerokie możliwości analizy danych.