# Część 1: Podstawy HTML i XML

1. Tagi, atrybuty, i elementy:

* Tagi to podstawowe składniki języka HTML i XML. Są one umieszczane w nawiasach ostrokątnych, np. &lt;html>, &lt;body>,  &lt;div>.
* Atrybuty dostarczają dodatkowych informacji o tagach. Przykład: w tagu &lt;a href="https://example.com"&gt;, href jest atrybutem definiującym adres URL linku.
* Elementy składają się z otwierającego tagu, zawartości i zamykającego tagu. Na przykład, &lt;p>To jest paragraf.&lt;/p>, &lt;a> href=hiperłącze &lt;/a>

2. Nagłówki w HTML
* Nagłówki to elementy HTML używane do organizacji i strukturyzacji treści na stronie internetowej. Są one oznaczane tagami od &lt;h1> do &lt;h6>.
* &lt;h1> reprezentuje najważniejszy nagłówek na stronie, zwykle tytuł lub główny punkt strony, a &lt;h6> jest najmniej istotnym nagłówkiem.
* Użycie nagłówków pomaga w tworzeniu hierarchii informacji na stronie, co jest ważne zarówno dla użytkowników, jak i dla wyszukiwarek internetowych.
Przykład:

3. HTML a XML:
* HTML jest używany głównie do tworzenia stron internetowych i jest bardziej elastyczny co do składni.
XML służy do przechowywania i przesyłania danych i wymaga ścisłego przestrzegania zasad dobrze sformowanego dokumentu.

In [1]:
# Tworzenie przykładowego pliku XML
xml_content = """<?xml version="1.0" encoding="UTF-8"?>
<library>
    <book>
        <title>Przygody Tomka Sawyera</title>
        <author>Mark Twain</author>
        <year>1876</year>
    </book>
    <book>
        <title>Pan Tadeusz</title>
        <author>Adam Mickiewicz</author>
        <year>1834</year>
    </book>
</library>
"""

4. Narzędzia do inspekcji strony:

Narzędzia deweloperskie w przeglądarkach internetowych (takie jak Chrome, Firefox, Edge) pozwalają na oglądanie struktury HTML, stylów CSS i skryptów JavaScript strony. Można je otworzyć klikając prawym przyciskiem myszy na stronie i wybierając "Zbadaj" lub naciskając F12.

**Ćwiczenie:**
Znajdowanie i wyświetlanie tytułu oraz nagłówków

Należy utworzyć bardzo prostą stronę internetową zawierającą tytuł, kilka nagłówków i paragrafów. Jeden paragraf ma zawierać hiperłącze do strony MiMUW. Utworzoną stronę proszę zapisać w pliku i podejrzeć w przeglądarce z wykorzystaniem "Zbadaj" (zazwyczaj F12).

Ewentualnie można skorzystać z poniższej przykładowej implementacji (w zależności od znajomości HTML). 

In [3]:
# Tworzenie przykładowej strony HTML (do późniejszego przetwarzania przy użyciu BeautifulSoup)
html_content = """
<!DOCTYPE html> 
<html>
<head>
    <title>Przykładowa strona - Webscraping</title>
</head>
<body>
    <h1>Nagłówek Poziomu 1</h1>
    <h2>Nagłówek Poziomu 2</h2>
    <p>To jest paragraf na stronie.</p>
    <p>To jest kolejny paragraf z kilkoma <a href="https://www.mimuw.edu.pl/">linkami</a> w treści.</p>
</body>
</html>
"""

In [7]:
# Poniżej rozwiązanie

In [4]:
# Ewentualnie można wczytać już jakąś istniejącą stronę - w tym celu zapiszemy ją i wczytamy za chwilkę jako string
import os
# Pobierz ścieżkę aktualnego pliku
current_file_path = os.getcwd()
# Połącz ścieżkę z 'index.html'
html_filename = 'index.html'
html_file_path = os.path.join(current_file_path, html_filename)
with open(html_file_path, 'w') as file:
    file.write(html_content)

In [5]:
# Po zapisie strony możemy otworzyć ją (domyślnie powinna otworzyć się w przeglądarce internetowej) i obejrzeć w jaki sposób 
# wygląda i widoczna jest w trybie inspektora (F12)

# Część 2: Parsowanie HTML

W tej części skupimy się na narzędziach wykorzystywanych do parsowania treści HTML. Bardzo popularnym pakietem jest Beautiful Soup. Jest to pakiet, który służy do parsowania dokumentów HTML i XML. Jest szczególnie użyteczny w web scrapingu, czyli procesie ekstrakcji danych z stron internetowych.

Napiszmy więc kod, w którym wykorzystamy pakiet BeautifulSoup do analizy naszej strony i wyszukania w niej nagłówków, tytułów oraz paragrafów. Przekonamy się, jak łatwo można przetwarzać HTML.

In [6]:
from bs4 import BeautifulSoup

# Wczytywanie zawartości strony HTML
with open(html_file_path, 'r') as file:
    html_page = file.read()

In [7]:
html_page

'\n<!DOCTYPE html> \n<html>\n<head>\n    <title>Przykładowa strona - Webscraping</title>\n</head>\n<body>\n    <h1>Nagłówek Poziomu 1</h1>\n    <h2>Nagłówek Poziomu 2</h2>\n    <p>To jest paragraf na stronie.</p>\n    <p>To jest kolejny paragraf z kilkoma <a href="https://www.mimuw.edu.pl/">linkami</a> w treści.</p>\n</body>\n</html>\n'

Utworzymy obiekt BeautifulSoup - jako parser wybieramy wbudowany (nie wymagający instalacji/importu dodatkowych pakietów) parser html.
Wybór parsera zależny jest od założeń oraz wymagań projektów, jednakże dla tak małych stron html.parser jest wystarczający.
W przypadku znacznie większych stron warto rozważyć wykorzystanie lxml, który jest szybszy (wymaga jednak instalacji dodatkowych zależności). Więcej na ten temat można poczytać w dokumentacji:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser

In [8]:
soup = BeautifulSoup(html_page, 'html.parser')

In [9]:
soup


<!DOCTYPE html>

<html>
<head>
<title>Przykładowa strona - Webscraping</title>
</head>
<body>
<h1>Nagłówek Poziomu 1</h1>
<h2>Nagłówek Poziomu 2</h2>
<p>To jest paragraf na stronie.</p>
<p>To jest kolejny paragraf z kilkoma <a href="https://www.mimuw.edu.pl/">linkami</a> w treści.</p>
</body>
</html>

In [10]:
# I bardziej czytelnie
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Przykładowa strona - Webscraping
  </title>
 </head>
 <body>
  <h1>
   Nagłówek Poziomu 1
  </h1>
  <h2>
   Nagłówek Poziomu 2
  </h2>
  <p>
   To jest paragraf na stronie.
  </p>
  <p>
   To jest kolejny paragraf z kilkoma
   <a href="https://www.mimuw.edu.pl/">
    linkami
   </a>
   w treści.
  </p>
 </body>
</html>



A więc mamy już sparsowaną treść naszej strony - możemy więc przejść do wyszukiwania na niej informacji. W naszym przypadku (choć jest ich niewiele) - możemy pobrać tytuł, nagłówki oraz paragrafy. Spróbujemy również pobrać link do strony MiMUW.

Tytuł strony

In [11]:
# Wyszukiwanie tytułu strony
page_title = soup.title

In [12]:
page_title

<title>Przykładowa strona - Webscraping</title>

In [13]:
page_title.string

'Przykładowa strona - Webscraping'

Nagłówki - h1, h2. Wykorzystamy metody
* find() - służy do wyszukiwania pierwszego wystąpienia danego tagu lub tagów spełniających określone kryteria.
* find_all() - znajduje wszystkie tagi spełniające te kryteria.

In [14]:
# Wyszukiwanie wszystkich nagłówków h1 i h2
headers_h1 = soup.find_all('h1')

In [15]:
headers_h1.string # Nie działa - dlaczego? find_all zwraca listę

AttributeError: ResultSet object has no attribute 'string'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

In [16]:
headers_h1[0].string

'Nagłówek Poziomu 1'

No ale w naszym przypadku mamy przecież 1 element h1 (h2 również), a więc w zupełności wystarczyłoby find. "W naszym przypadku", gdyż zazwyczaj nie znamy strony i może ona zawierać setki różnego rodzaju tagów. Bezpieczniej więc skorzystać z find_all.

In [21]:
# Dla porównania - find
headers_h2 = soup.find('h2')

In [22]:
headers_h2.string # Tutaj już w porządku

'Nagłówek Poziomu 2'

Wyszukiwanie wszystkich paragrafów

In [23]:
# Wyszukiwanie wszystkich paragrafów
paragraphs = soup.find_all('p')

In [24]:
paragraphs

[<p>To jest paragraf na stronie.</p>,
 <p>To jest kolejny paragraf z kilkoma <a href="https://www.mimuw.edu.pl/">linkami</a> w treści.</p>]

In [25]:
print([p.string for p in paragraphs]) # Pod indeksem 1 mamy None, dlaczego?

['To jest paragraf na stronie.', None]


In [26]:
paragraphs[1].string

In [27]:
paragraphs[1] # Ponieważ w paragrafie znajduje się tag a. Ten z kolei ma atrybut href i jakąś przypisną mu wartość.

<p>To jest kolejny paragraf z kilkoma <a href="https://www.mimuw.edu.pl/">linkami</a> w treści.</p>

In [28]:
# Tutaj postępujemy w następujący sposób
paragraphs[1].a

<a href="https://www.mimuw.edu.pl/">linkami</a>

In [29]:
# Lub
paragraphs[1].find('a')

<a href="https://www.mimuw.edu.pl/">linkami</a>

In [30]:
# Lub 
paragraphs[1].find_all('a')

[<a href="https://www.mimuw.edu.pl/">linkami</a>]

In [31]:
# Lub - możliwości jest bardzo dużo
# Select - umożliwia wyszukiwanie elementów za pomocą selektorów CSS.
paragraphs[1].select('a')

[<a href="https://www.mimuw.edu.pl/">linkami</a>]

In [32]:
# A następnie odwołujemy się do atrybutu href i mamy hiperłącze do MiMUW :)
print(paragraphs[1].a['href'])
print(paragraphs[1].find('a')['href'])
print(paragraphs[1].find_all('a')[0]['href'])
print(paragraphs[1].select('a')[0]['href'])

https://www.mimuw.edu.pl/
https://www.mimuw.edu.pl/
https://www.mimuw.edu.pl/
https://www.mimuw.edu.pl/


Zaprezentowanych zostanie teraz kilka innych przydatnych metod z ich wykorzystaniem - na przykładzie naszej strony

In [33]:
# find() - wyszukuje pierwszy paragraf
first_paragraph = soup.find('p').text

In [34]:
# find_all() - znajduje wszystkie paragrafy
all_paragraphs = [p.text for p in soup.find_all('p')]

In [35]:
# select() - wybiera wszystkie linki (tagi a) w dokumencie
all_links = soup.select('a')

In [36]:
# select_one() - wybiera pierwszy tag h1
first_h1 = soup.select_one('h1').text

In [37]:
# find_parent() - znajduje rodzica pierwszego linku (w tym przypadku paragraf)
parent_of_first_link = soup.find('a').find_parent().text

In [38]:
# find_next_sibling() - znajduje następujące rodzeństwo po pierwszym nagłówku h1 (w tym przypadku h2)
next_sibling_of_h1 = soup.find('h1').find_next_sibling().text

In [39]:
# Atrybuty - pobiera atrybut href pierwszego linku
first_link_href = soup.find('a')['href']

In [40]:
# Wyniki
results = {
    "Pierwszy paragraf": first_paragraph,
    "Wszystkie paragrafy": all_paragraphs,
    "Wszystkie linki": [link['href'] for link in all_links],
    "Pierwszy nagłówek h1": first_h1,
    "Rodzic pierwszego linku": parent_of_first_link,
    "Następne rodzeństwo po h1": next_sibling_of_h1,
    "Href pierwszego linku": first_link_href
}


In [41]:
results

{'Pierwszy paragraf': 'To jest paragraf na stronie.',
 'Wszystkie paragrafy': ['To jest paragraf na stronie.',
  'To jest kolejny paragraf z kilkoma linkami w treści.'],
 'Wszystkie linki': ['https://www.mimuw.edu.pl/'],
 'Pierwszy nagłówek h1': 'Nagłówek Poziomu 1',
 'Rodzic pierwszego linku': 'To jest kolejny paragraf z kilkoma linkami w treści.',
 'Następne rodzeństwo po h1': 'Nagłówek Poziomu 2',
 'Href pierwszego linku': 'https://www.mimuw.edu.pl/'}

Select vs find

* find i find_all skupiają się na atrybutach i nazwach tagów.
* select i select_one zapewniają większą elastyczność dzięki wykorzystaniu selektorów CSS, co pozwala na bardziej złożone zapytania.

In [42]:
html_content = """
<div>
    <p class="text">Pierwszy paragraf</p>
    <p class="text">Drugi paragraf</p>
    <p id="special">Trzeci paragraf</p>
</div>
"""

In [44]:
soup2 = BeautifulSoup(html_content, 'html.parser')

In [45]:
# Dla tak zdefiniowanej strony mamy:
first_paragraph = soup2.find('p')  # Znajduje pierwszy paragraf
all_paragraphs = soup2.find_all('p')  # Znajduje wszystkie paragrafy
special_paragraph = soup2.select_one('#special')  # Znajduje paragraf z ID 'special'
text_paragraphs = soup2.select('p.text')  # Znajduje paragrafy z klasą 'text'

In [46]:
text_paragraphs

[<p class="text">Pierwszy paragraf</p>, <p class="text">Drugi paragraf</p>]

Aby osiągnąć za pomocą find znalezienie paragrafów z klasy text musimy wykorzystać argument _class:

In [47]:
text_paragraphs

[<p class="text">Pierwszy paragraf</p>, <p class="text">Drugi paragraf</p>]

In [48]:
# Ewentualnie
soup2.find_all('p', attrs=[{"class": "text"}])

[<p class="text">Pierwszy paragraf</p>, <p class="text">Drugi paragraf</p>]

In [49]:
# Warto pokazać tutaj również wykorzystanie id (attrs)
soup2.find_all('p', {"id": "special"})

[<p id="special">Trzeci paragraf</p>]

# Część 3: Pakiet requests

Wiedza z poprzednich części będzie teraz wykorzystana w praktyce. Zanim przejdziemy do ćwiczenia zapoznamy się z pakietem requests, który umożliwi nam wysyłanie żądań HTTP. Obsługuje on wszystkie popularne metody HTTP, takie jak GET, POST, PUT, DELETE...
Inne pakiety tego typu to np. wbudowane urllib oraz http.client. 

Aby korzystać z requests, najpierw trzeba zainstalować pakiet. Możemy to zrobić za pomocą pip (systemu zarządzania pakietami w Pythonie):

In [50]:
pip install requests

Note: you may need to restart the kernel to use updated packages.


In [50]:
import requests

POST Request

Zapytanie POST służy do wysyłania danych do serwera, na przykład przy przesyłaniu formularza. Niekótre z metod przetestujemy na stronie https://httpbin.org/#/, która umożliwia testowanie zapytań.

In [51]:
payload = {'key1': 'value1', 'key2': 'value2'}

response = requests.post('https://httpbin.org/post', data=payload)
print(response.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key1": "value1", 
    "key2": "value2"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Content-Length": "23", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.31.0", 
    "X-Amzn-Trace-Id": "Root=1-6575b443-46ab727c1e09f9421d188fad"
  }, 
  "json": null, 
  "origin": "77.222.255.248", 
  "url": "https://httpbin.org/post"
}



In [52]:
response # Zwraca kod żądania. Więcej można poczytać na przykład tutaj: https://developer.mozilla.org/en-US/docs/Web/HTTP/Status

<Response [200]>

Krótka interpretacja: 

args: pusty obiekt, co oznacza, że do żądania POST nie zostały dołączone żadne parametry URL

data: jest puste, co wskazuje, że żadne dane nie zostały wysłane w ciele żądania w formacie innym niż formularz

files: jest puste - w żądaniu POST nie wysłano żadnych plików

form: pokazuje dane, które zostały przesłane za pomocą żądania POST. W tym przypadku są to klucze i wartości podane w metodzie post.

headers: zawiera nagłówki przesłane razem z żądaniem. Są one automatycznie dodawane przez pakiet requests lub serwer. Poniżej opis kilku z nich.

* Host: nazwa hosta, do którego skierowane jest żądanie
* User-Agent: identyfikuje klienta wykonującego żądanie, tutaj python-requests/2.31.0 oznacza, że wykorzystano pakiet requests w Pythonie.

origin: pokazuje adres IP, z którego wysłano żądanie.

url: adres URL, na który wysłano żądanie POST.

GET Request

Zapytanie GET służy do pobierania danych z określonego zasobu, a więc jest ono najbardziej przydatne podczas webscrapingu.

In [53]:
response = requests.get('https://example.com')
print(response.text)  # Wyświetla zawartość strony

<!doctype html>
<html>
<head>
    <title>Example Domain</title>

    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>    
</head>

<body>
<div>
    <h1>Example Domain</h1>
    <p>This domai

In [54]:
type(response.text)

str

A więc możemy pobrać zawartość strony (jej treść HTML) z wykorzystaniem requests. 

**Ćwiczenie:**
Wyszukiwanie poszczególnych elementów na stronie

W tym zadaniu proszę (wykorzystując Beautiful Soup) wypisać treść nagłówków, paragrafaów oraz zlokalizować hiperłącza znajdujące się na stronie https://example.com.

In [57]:
results

{'Nagłóweki ': ['Example Domain'],
 'Wszystkie paragrafy': ['This domain is for use in illustrative examples in documents. You may use this\n    domain in literature without prior coordination or asking for permission.',
  'More information...'],
 'Wszystkie linki': ['https://www.iana.org/domains/example']}

Nagłówki

Możemy sami definiować nagłówki

In [58]:
headers = {'User-Agent': 'Marcin'}
payload = {'key1': 'value1', 'key2': 'value2'}

response = requests.post('https://httpbin.org/post', data=payload, headers=headers)
print(response.text)

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key1": "value1", 
    "key2": "value2"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br", 
    "Content-Length": "23", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Marcin", 
    "X-Amzn-Trace-Id": "Root=1-6575b4c2-616d63f6557ad10d3a183303"
  }, 
  "json": null, 
  "origin": "77.222.255.248", 
  "url": "https://httpbin.org/post"
}



Teraz sami zdefiniowaliśmy nagłówek i widoczne jest to w odpowiedzi. Niekiedy działanie takie może być bardzo przydatne:)

 "User-Agent": "Marcin", 

Ciasteczka

In [59]:
response = requests.get('http://example.com')
print(response.cookies)  # Wyświetla ciasteczka z odpowiedzi

<RequestsCookieJar[]>


# Część 4: FastAPI i requests

FastAPI to nowoczesny, szybki (wysokowydajny) framework do tworzenia API z Pythonem 3.7+ oparty na standardowych typach Pythona. Jest on używany do tworzenia interfejsów API*

*  *https://fastapi.tiangolo.com/

Aby rozpocząć, musimy zainstalować FastAPI oraz Uvicorn, który służy jako serwer ASGI

In [91]:
pip install fastapi uvicorn




Tworzenie prostego endpointu w FastAPI . Oto podstawowy przykład, w którym endpoint HTTP GET zwraca słownik w formacie JSON.

In [1]:
# Wykonujemy request do naszego API (na przykład możemy wykorzystać PyCharma) - domyślnie pod 
# http://127.0.0.1:8000 (widoczne powyżej: vicorn running on [1mhttp://127.0.0.1:8000[0m (Press CTRL+C to quit))
import requests

response = requests.get("http://127.0.0.1:8000/")
print(response.json())

{'Test': 'API'}


In [2]:
# Jako wyjście otrzymujemy {"Test": "API"}

# Część 5: Zaawansowany Webscraping (dla zainteresowanych)

Strony Dynamiczne:

Strony dynamiczne wykorzystują JavaScript do ładowania treści asynchronicznie po załadowaniu głównej struktury strony. Oznacza to, że treści mogą być ładowane i zmieniane bez konieczności przeładowania całej strony.

AJAX (Asynchronous JavaScript and XML):

AJAX pozwala na wymianę danych z serwerem i aktualizację części strony bez konieczności przeładowania całej strony. Jest to kluczowy element stron dynamicznych.

Uwaga - Beautiful Soup i JavaScript! 

Beautiful Soup **nie jest** przystosowany do obsługi JavaScript. Potrafi analizować tylko statyczny kod HTML, który otrzymuje.
W przypadku stron dynamicznych, które używają JavaScript do ładowania treści, Beautiful Soup nie będzie w stanie uzyskać dostępu do tych dynamicznie generowanych treści.
W takich przypadkach lepszym rozwiązaniem jest użycie narzędzi takich jak Selenium, które potrafią obsługiwać JavaScript i dynamiczne treści.

Pakiet Selenium - bardzo często wykorzystywany przy implementacji botów/crawlerów/scraperów, które pracują na stronach dynamicznych. Poniżej kilka cech zgodnie z dokumentacją:

* Selenium jest narzędziem automatyzacji przeglądarek, które pozwala na interakcję ze stronami internetowymi tak, jak robiłby to prawdziwy użytkownik.
* Selenium może uruchamiać przeglądarkę, wykonywać na niej skrypty JavaScript, kliknąć w elementy strony itp.
* Jest to szczególnie przydatne do scrapowania stron, które silnie polegają na JavaScript.

In [84]:
pip install selenium

Note: you may need to restart the kernel to use updated packages.


In [86]:
from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://example.com")
# Można teraz dokonywać interakcji ze stroną, np. klikając w przyciski, wypełniając formularze itp.

In [89]:
# Źródło strony
print(driver.page_source)

<html><head>
    <title>Example Domain</title>

    <meta charset="utf-8">
    <meta http-equiv="Content-type" content="text/html; charset=utf-8">
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>    
</head>

<body>
<div>
    <h1>Example Domain</h1>
    <p>This domain is for use in illustr

CAPTCHA i Bot Detection

* UWAGA: Zawsze przestrzegaj zasad i warunków korzystania ze strony!

* Scrapowanie możemy rozpocząć tylko wtedy, gdy mamy zgodę właściciela treści, administratora serwera, strony lub strona zezwala na automatyzację zapytań.

* Strony internetowe często używają CAPTCHA i mechanizmów wykrywania botów, aby zapobiec automatycznemu scrapowaniu i innym formom nadużyć.

* Automatyczne obejście CAPTCHA i mechanizmów wykrywania botów może naruszać warunki korzystania z serwisu i być nieetyczne.

* Do dużych projektów programistycznych można wykorzystać również pakiet scrapy, który z wykorzystaniem scrapy.Spider pozwala na budowę zaawansowanych scraperów.