# Automatyczne pozyskiwanie danych

## Tomasz Rodak

Wykład 1

---

## Automatyzacja pobierania danych z internetu

* __internet__  - globalna sieć komputerowa, składająca się z wielu sieci komputerowych, połączonych ze sobą za pomocą protokołów komunikacyjnych. Internet umożliwia działanie wielu usług, takich jak: WWW, e-mail, VoIP, FTP, IRC, itp.
* __WWW__ (World Wide Web) - globalny system hipertekstowy, umożliwiający dostęp do zasobów internetowych za pomocą przeglądarki internetowej. Zasoby WWW są zwykle udostępniane w formie stron WWW, które mogą zawierać różnego rodzaju treści, takie jak: tekst, obrazy, dźwięk, wideo, itp.

Automatyczne pozyskiwanie danych z sieci odbywa się zazwyczaj na dwa sposoby:
* poprzez wykorzystanie API (Application Programming Interface) udostępnionego przez serwis,
* poprzez bezpośrednie pobieranie danych ze stron WWW.

W przypadku API, serwis WWW udostępnia specjalny interfejs, który pozwala na pobieranie danych w sposób zautomatyzowany. W przypadku bezpośredniego pobierania danych ze stron WWW, dane są pobierane zwykle poprzez protokół HTTP, a następnie przetwarzane w celu wyodrębnienia interesujących nas informacji.

## Model TCP/IP

Model TCP/IP to zbiór protokołów, który stanowi podstawę komunikacji w Internecie. Składa się z czterech warstw:

1. **Warstwa aplikacji** – zapewnia interfejs do usług sieciowych, takich jak HTTP, FTP, SMTP czy DNS, umożliwiając aplikacjom korzystanie z sieci.
2. **Warstwa transportowa** – odpowiada za komunikację między procesami na różnych urządzeniach. Główne protokoły to:
   - **TCP** – zapewnia niezawodny, połączeniowy przesył danych.
   - **UDP** – umożliwia szybką, bezpołączeniową komunikację.
3. **Warstwa internetowa** – zajmuje się adresowaniem i routingiem. Kluczowym protokołem jest **IP** (Internet Protocol), który odpowiada za przesyłanie pakietów pomiędzy sieciami.
4. **Warstwa dostępu do sieci** – definiuje metody fizycznego przesyłania danych przez medium (np. Ethernet, Wi-Fi) oraz obsługuje kwestie związane z adresacją i kontrolą dostępu do medium.

Nas interesuje przede wszystkim warstwa aplikacji, ponieważ to na tym poziomie odbywa się komunikacja z serwisami WWW.

## HTTP 

HTTP (Hypertext Transfer Protocol) - prawdopodobnie najważniejszy protokół w warstwie aplikacji. Jest to protokół komunikacyjny używany w internecie, zaprojektowany do przesyłania danych między klientem (najczęściej przeglądarką internetową) a serwerem.

Kluczowe cechy HTTP:

1. **Architektura klient-serwer** - jasny podział ról między żądającym zasobów a ich dostarczycielem
2. **Bezstanowość** - każde zapytanie jest niezależne, serwer nie przechowuje informacji o poprzednich zapytaniach
3. **Format przekazu** – Historycznie HTTP/1.x używał formatu tekstowego, co ułatwiało czytelność komunikatów dla człowieka. W nowszych wersjach (HTTP/2, HTTP/3) dane są przesyłane w formacie binarnym, co poprawia efektywność transmisji. Pomimo zmiany sposobu enkapsulacji, semantyka wiadomości pozostaje spójna – niezależnie od tego, czy komunikat jest reprezentowany tekstowo, czy binarnie, zawsze zawiera te same informacje, takie jak metadane w nagłówkach, metoda żądania lub kod statusu odpowiedzi oraz treść (ciało) wiadomości.

Podstawowe metody HTTP:

- `GET` - pobieranie zasobów
- `POST` - wysyłanie danych do serwera
- `PUT` - aktualizacja zasobów
- `DELETE` - usuwanie zasobów
- `HEAD` - pobieranie tylko nagłówków odpowiedzi
- `OPTIONS` - sprawdzanie dostępnych opcji komunikacji
- `PATCH` - częściowa modyfikacja zasobu
- `TRACE` - diagnostyka ścieżki żądania


Każda odpowiedź HTTP zawiera kod statusu informujący o rezultacie żądania:
- 1xx - informacyjne
- 2xx - sukces (np. 200 OK)
- 3xx - przekierowanie
- 4xx - błąd klienta (np. 404 Not Found)
- 5xx - błąd serwera

HTTP wykorzystuje nagłówki do przekazywania metadanych:
- `User-Agent` - identyfikacja klienta (np. `curl/7.88.1`)
- `Content-Type` - format przesyłanych danych (np. `text/html`)
- `Content-Length` - długość treści odpowiedzi w bajtach (np. `162`)
- `Accept` - akceptowane formaty odpowiedzi (np. `text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8`)
- `Cookie` - dane sesji (np. `sessionid=abc123`)
- itp.

Obecnym standardem jest HTTPS - szyfrowana wersja HTTP wykorzystująca protokół TLS/SSL do zabezpieczenia komunikacji. HTTPS jest obecnie uznawany za standard bezpieczeństwa w sieci i jest wymagany przez większość nowoczesnych przeglądarek.

### Architektura klient-serwer

Architektura klient-serwer to model komunikacji w sieci komputerowej, w którym role uczestników są jasno zdefiniowane i rozdzielone:

**Klient:**
- Jest inicjatorem komunikacji
- Wysyła żądania do serwera
- Oczekuje na odpowiedź i ją przetwarza
- Zazwyczaj posiada interfejs użytkownika
- Przykłady: przeglądarka internetowa, aplikacja mobilna, program pocztowy, bot

**Serwer:**
- Nasłuchuje żądań od klientów
- Przetwarza otrzymane żądania
- Wysyła odpowiedzi do klientów
- Zarządza zasobami (np. bazą danych, plikami)
- Może obsługiwać wielu klientów jednocześnie
- Przykłady: serwer WWW, serwer pocztowy, serwer bazy danych

**Charakterystyka komunikacji:**
- Jest jednokierunkowa - klient inicjuje komunikację
- Ma charakter typu "pytanie-odpowiedź"
- Serwer może obsługiwać wiele żądań równocześnie
- Komunikacja odbywa się według ustalonego protokołu (np. HTTP)

### Bezstanowość

Bezstanowość (*statelessness*) w HTTP oznacza, że każde żądanie jest całkowicie niezależne i serwer nie przechowuje informacji o poprzednich żądaniach. 

W HTTP każde żądanie musi zawierać wszystkie informacje potrzebne do jego zrealizowania. Jeśli potrzebujemy zachować jakiś stan między żądaniami (np. że użytkownik jest zalogowany), musimy użyć dodatkowych mechanizmów:

1. Ciasteczka (cookies) - małe pliki przechowywane po stronie klienta
2. Sesje - identyfikator sesji przesyłany w ciasteczku
3. Tokeny - np. JWT przesyłane w nagłówkach
4. Parametry URL - dane stanu dodawane do adresu
5. Ukryte pola formularzy

Zalety bezstanowości:
- Prostota - każde żądanie jest samodzielne
- Skalowalność - łatwiej rozłożyć ruch na wiele serwerów
- Niezawodność - awaria jednego żądania nie wpływa na inne

Wady:
- Większy ruch sieciowy - każde żądanie musi zawierać pełny kontekst
- Konieczność implementacji dodatkowych mechanizmów do przechowywania stanu

### Format przekazu

W abstrakcyjnym ujęciu wiadomość HTTP dzieli się na trzy główne elementy:

1. **Linia początkowa**  
   W zależności od rodzaju wiadomości mamy dwa typy:
   - **Linia żądania (request line):** zawiera metodę (np. `GET`, `POST`), identyfikator zasobu (URI) oraz wersję protokołu.  
   - **Linia statusu (status line):** stosowana w odpowiedziach, zawiera wersję protokołu, kod statusu (np. 200, 404) oraz opis statusu (krótki komunikat).

2. **Sekcja nagłówków**  
   To zestaw par klucz-wartość, które dostarczają dodatkowych informacji o przesyłanej wiadomości. Nagłówki mogą określać:
   - **Charakterystykę treści** (Content-Type, Content-Length)  
   - **Zasady cache’owania**  
   - **Informacje o sesji lub uwierzytelnieniu**  
   - **Instrukcje dotyczące połączenia** (np. Connection: keep-alive)  
   Nagłówki umożliwiają elastyczne przekazywanie metadanych, które wpływają na sposób interpretacji i przetwarzania przesyłanej treści.

3. **Ciało wiadomości (payload)**  
   Po oddzieleniu sekcji nagłówków pustą linią (służącą jako wyraźny separator) następuje opcjonalne ciało wiadomości.  
   - W żądaniach ciało może zawierać dane przesyłane do serwera (np. dane formularza lub plik).  
   - W odpowiedziach – faktyczną treść żądaną przez klienta (np. stronę HTML, obraz, dane w formacie JSON).  
   Ciało nie jest obecne we wszystkich typach żądań (np. przy metodzie GET zwykle go brak), a jego obecność i format determinowane są przez nagłówki.

W wersji HTTP/1.1 wiadomości są przesyłane w formacie tekstowym, natomiast wersje HTTP/2 i HTTP/3 wprowadziły binarny format przekazu. Tym niemniej, semantyka wiadomości pozostaje spójna – niezależnie od tego, czy komunikat jest reprezentowany tekstowo, czy binarnie, zawsze zawiera te same informacje, takie jak metadane w nagłówkach, metoda żądania lub kod statusu odpowiedzi oraz treść (ciało) wiadomości.

### Metody HTTP

Główne metody HTTP to:

- `GET` - pobiera dane z serwera. Jest to podstawowa metoda używana do odczytu zasobów. Nie powinna modyfikować danych na serwerze.
- `POST` - wysyła dane do serwera w celu utworzenia nowego zasobu. Często używana przy wysyłaniu formularzy czy tworzeniu nowych rekordów.
- `PUT` - aktualizuje istniejący zasób na serwerze. W przeciwieństwie do POST, jest idempotentna - wielokrotne wywołanie tej samej operacji PUT daje ten sam rezultat.
- `DELETE` - usuwa wskazany zasób z serwera.
- `PATCH` - służy do częściowej modyfikacji zasobu. W przeciwieństwie do PUT, który wymaga przesłania całego zasobu, PATCH pozwala na aktualizację tylko wybranych pól.
- `HEAD` - podobna do GET, ale zwraca tylko nagłówki odpowiedzi bez ciała. Przydatna do sprawdzania metadanych zasobu.
- `OPTIONS` - zwraca informacje o dostępnych metodach HTTP dla danego zasobu. Używana m.in. w mechanizmie CORS.
- `TRACE` - zwraca otrzymane żądanie, pozwalając zobaczyć jakie zmiany wprowadzają serwery pośredniczące.
- `CONNECT` - używana do ustanowienia tunelu do serwera przez proxy.

Dwie pierwsze metody (`GET` i `POST`) są zdecydowanie najczęściej używane w praktyce. Metody `PUT` i `DELETE` są wykorzystywane do operacji modyfikacji i usuwania zasobów, ale nie są tak powszechne jak `GET` i `POST`. Pozostałe metody są rzadziej stosowane i zależą od konkretnych potrzeb aplikacji.

#### Działanie metody GET

Metoda GET służy do pobierania zasobów z serwera. Działa ona następująco:

- **Inicjacja przez klienta:**  
  To klient (np. przeglądarka) wysyła żądanie GET do serwera, aby uzyskać określony zasób.

- **Składnia żądania:**  
  W tradycyjnym HTTP/1.x żądanie GET zawiera linię startową, np.:  
  `GET /sciezka/do/zasobu HTTP/1.1`  
  W tej linii:
  - **GET** – określa metodę,
  - **/sciezka/do/zasobu** – to URI, które identyfikuje żądany zasób,
  - **HTTP/1.1** – wersja protokołu.

- **Rozpoznanie zasobu przez serwer:**  
  Serwer analizuje żądanie, szczególnie jego linię startową, aby dowiedzieć się, jaki zasób jest żądany. Dzięki zawartemu w żądaniu URI serwer wie, gdzie szukać danego zasobu i może go następnie przesłać w odpowiedzi.

W nowoczesnych wersjach protokołu (HTTP/2, HTTP/3) ta sama semantyka obowiązuje, choć dane są enkapsulowane w ramki zamiast tradycyjnych linii tekstowych. Semantyka jednak pozostaje – klient wysyła żądanie z określonym identyfikatorem zasobu, a serwer na tej podstawie zwraca odpowiedź zawierającą dany zasób.

#### Działanie metody POST

Metoda POST służy do przesyłania danych z klienta do serwera. Działa ona następująco:

- **Wysyłanie żądania:**  
  Klient (np. przeglądarka lub aplikacja) wysyła żądanie HTTP z metodą POST. W odróżnieniu od GET, dane nie są umieszczane w adresie URL, lecz w ciele (body) żądania. Żądanie zawiera również nagłówki, np. określające typ przesyłanych danych 
  (`Content-Type`).
  
- **Przetwarzanie danych:**  
  Po otrzymaniu żądania, serwer analizuje przesłane dane, które mogą pochodzić np. z formularza, pliku lub innego źródła. Na tej podstawie serwer wykonuje określoną operację – może to być tworzenie nowego zasobu, modyfikacja istniejącego lub wykonanie innej operacji biznesowej.

- **Odpowiedź serwera:**  
  Po przetworzeniu żądania serwer zwraca odpowiedź z odpowiednim kodem statusu (np. 200 OK, 201 Created lub błąd, jeśli coś poszło nie tak) oraz ewentualnymi danymi potwierdzającymi wykonanie operacji.

- **Charakterystyka POST:**  
  Metoda POST nie jest idempotentna – wielokrotne wysłanie tego samego żądania może skutkować wielokrotnym wykonaniem operacji (np. utworzeniem kilku identycznych zasobów).

W skrócie, metoda POST umożliwia przesłanie danych do serwera w celu ich przetworzenia, tworząc lub modyfikując zasoby, przy czym cała komunikacja odbywa się poprzez przesyłanie danych w ciele żądania.

## Inne protokoły warstwy aplikacji w modelu TCP/IP

Oprócz HTTP, w warstwie aplikacji modelu TCP/IP funkcjonuje wiele innych protokołów, z których każdy pełni określoną rolę w komunikacji. Oto kilka przykładów:

- **FTP (File Transfer Protocol):**  
  Umożliwia przesyłanie plików między systemami, zarówno pobieranie, jak i wysyłanie.

- **SMTP (Simple Mail Transfer Protocol), POP3 i IMAP:**  
  Służą do wysyłania (SMTP) oraz odbierania i zarządzania wiadomościami e-mail (POP3, IMAP).

- **DNS (Domain Name System):**  
  Tłumaczy nazwy domen na adresy IP, umożliwiając klientom odnalezienie odpowiednich serwerów w sieci.

- **SNMP (Simple Network Management Protocol):**  
  Pozwala na monitorowanie i zarządzanie urządzeniami sieciowymi.

- **Telnet i SSH:**  
  Umożliwiają zdalny dostęp do systemów – SSH dodatkowo zapewnia szyfrowanie połączenia.

- **NTP (Network Time Protocol):**  
  Służy do synchronizacji zegarów w sieci.

Każdy z tych protokołów operuje na poziomie aplikacji, dzięki czemu może realizować specyficzne zadania komunikacyjne, podobnie jak HTTP, który obsługuje przesyłanie treści stron internetowych.

## [`httpbin.org`](https://httpbin.org/)

`httpbin.org` to serwis internetowy, który zwraca dane wysłane w żądaniu w łatwo czytelnym formacie. Pozwala na testowanie różnych typów żądań HTTP, weryfikowanie nagłówków, testowanie autentykacji, manipulowanie odpowiedziami, sprawdzanie ciasteczek, symulowanie opóźnień i wiele innych. Stronę `httpbin.org` można odwiedzić w przeglądarce, ale jej głównym zastosowaniem jest wywoływanie różnych endpointów za pomocą narzędzi programistycznych, takich jak `curl` czy biblioteki HTTP w wybranym języku programowania.

Główne funkcje httpbin.org:

1. Testowanie metod HTTP - możesz wysyłać żądania `GET`, `POST`, `PUT`, `DELETE` itd.
2. Sprawdzanie nagłówków - serwis pokazuje jakie nagłówki zostały wysłane w żądaniu
3. Testowanie autentykacji - zawiera endpointy do testowania różnych metod autoryzacji
4. Manipulacja odpowiedziami - możesz testować różne kody statusu HTTP
5. Sprawdzanie cookies - pozwala na testowanie operacji związanych z ciasteczkami
6. Symulacja opóźnień - możliwość testowania timeoutów i opóźnień w odpowiedziach

## Klienci HTTP

Klient HTTP to program lub urządzenie, które wysyła żądania HTTP do serwera i odbiera od niego odpowiedzi. Typowe przykłady klientów HTTP:

* Przeglądarka internetowa - najpopularniejszy klient HTTP, który umożliwia użytkownikom przeglądanie stron WWW.
* Narzędzia wiersza poleceń - np. `curl` lub `wget`, które pozwalają na wysyłanie żądań HTTP z poziomu terminala.
* Biblioteki programistyczne - np. `requests` w Pythonie, które umożliwiają komunikację z serwerami HTTP w kodzie programu.

### Przeglądarka internetowa

Przeglądarka internetowa jako klient HTTP to aplikacja, która:

- **Wysyła żądania HTTP/HTTPS:** Generuje zapytania (np. GET, POST) do serwerów WWW, pobierając zasoby takie jak strony, skrypty czy obrazy.
- **Interpretacja odpowiedzi:** Analizuje i renderuje otrzymane dane (HTML, CSS, JavaScript), co pozwala na wyświetlenie interfejsu użytkownika.
- **Obsługa bezpieczeństwa:** Umożliwia bezpieczne połączenia poprzez HTTPS, korzystając z certyfikatów SSL/TLS.
- **Zarządzanie stanem sesji:** Dba o ciasteczka, pamięć podręczną i historię, co ułatwia nawigację i przyspiesza dostęp do często odwiedzanych stron.

Dodatkowo, przeglądarki oferują **narzędzia deweloperskie**, które wykorzystuje się przy tworzeniu i debugowaniu aplikacji webowych. Do najważniejszych z nich należą:

- **Inspektor elementów:** Pozwala na analizę struktury DOM oraz stylów CSS, umożliwiając szybkie modyfikacje i podgląd efektów w czasie rzeczywistym.
- **Panel sieciowy:** Umożliwia monitorowanie żądań HTTP/HTTPS, co pomaga w analizie wydajności, debugowaniu problemów z ładowaniem zasobów i optymalizacji komunikacji z serwerem.
- **Konsola JavaScript:** Służy do wyświetlania błędów, logów oraz wykonywania interaktywnych poleceń w kontekście aktualnie otwartej strony.
- **Narzędzia do debugowania:** Obejmują debugger kodu JavaScript, analizatory wydajności oraz narzędzia do monitorowania pamięci, co ułatwia diagnozowanie i rozwiązywanie problemów w aplikacji.

### [cURL](https://everything.curl.dev/index.html) - *Client for URLs*

Curl to narzędzie wiersza poleceń do przesyłania i odbierania danych przez różne protokoły sieciowe, głównie HTTP. Jest standardem w testowaniu API i diagnostyce sieciowej.

Oto kilka praktycznych przykładów użycia curl z `httpbin.org` (wykonaj je w terminalu):

```bash
# Podstawowe żądanie GET
curl http://httpbin.org/get

# Żądanie POST z danymi
curl -X POST -d "name=Jan&age=30" http://httpbin.org/post

# Wysyłanie danych w formacie JSON
curl -X POST \
  -H "Content-Type: application/json" \
  -d '{"name": "Jan", "age": 30}' \
  http://httpbin.org/post

# Wyświetlanie nagłówków odpowiedzi
curl -I http://httpbin.org/headers

# Wysyłanie własnych nagłówków
curl -H "User-Agent: MojAplikacja/1.0" \
  -H "Authorization: Bearer xyz123" \
  http://httpbin.org/headers

# Pobieranie z podstawową autoryzacją
curl -u username:password http://httpbin.org/basic-auth/username/password

# Zapisywanie odpowiedzi do pliku
curl -o response.json http://httpbin.org/get

# Śledzenie przekierowań
curl -L http://httpbin.org/redirect/3

# Symulacja różnych metod HTTP
curl -X PUT -d "data=test" http://httpbin.org/put
curl -X DELETE http://httpbin.org/delete
curl -X PATCH -d "data=test" http://httpbin.org/patch

# Testowanie timeoutów
curl http://httpbin.org/delay/5

# Wysyłanie plików
curl -F "file=@/sciezka/do/pliku.txt" http://httpbin.org/post

# Wyświetlanie szczegółowych informacji o żądaniu
curl -v http://httpbin.org/get

```

Każda z tych komend demonstruje inną funkcjonalność curl w połączeniu z httpbin.org. Najważniejsze flagi curl to:

- `-X` - określa metodę HTTP (GET, POST, PUT, itd.)
- `-d` - wysyła dane w ciele żądania
- `-H` - ustawia nagłówki HTTP
- `-I` - pobiera tylko nagłówki odpowiedzi
- `-o` - zapisuje odpowiedź do pliku
- `-v` - tryb verbose, pokazuje szczegółowe informacje o żądaniu
- `-u` - ustawia dane autoryzacji
- `-L` - podąża za przekierowaniami
- `-F` - wysyła dane jako multipart/form-data

### Biblioteka Requests

Requests to popularna biblioteka Pythona do wykonywania operacji związanych z protokołem HTTP. Nie jest wbudowana w standardową bibliotekę Pythona, ale jest jednym z najczęściej używanych narzędzi do komunikacji z serwerami HTTP.

#### Główne cechy:

- **Prosta składnia** - czytelny i zwięzły sposób wykonywania żądań HTTP
- **Obsługa wszystkich metod HTTP** - GET, POST, PUT, DELETE, itd.
- **Automatyczne przetwarzanie odpowiedzi** - dekodowanie różnych formatów (JSON, tekst)
- **Zarządzanie sesją** - automatyczne utrzymywanie ciasteczek
- **Zarządzanie nagłówkami** - łatwe dodawanie własnych nagłówków HTTP
- **Obsługa uwierzytelniania** - podstawowe i zaawansowane metody autoryzacji

#### Przykład użycia:

```python
import requests

# Proste żądanie GET
response = requests.get('https://api.github.com')

# Sprawdzenie statusu odpowiedzi
if response.status_code == 200:
    # Automatyczna konwersja JSON do słownika Pythona
    data = response.json()
    print(data)
```

W powyższym przykładzie `requests.get()` wysyła żądanie GET do serwera pod wskazanym adresem URL, a następnie otrzymaną odpowiedź zapisuje w zmiennej `response` (obiekt typu `requests.Response`). Możemy sprawdzić kod statusu odpowiedzi za pomocą `response.status_code` i przetworzyć dane w formacie JSON za pomocą `response.json()`.

## URL

Adres URL (**Uniform Resource Locator**) to ciąg znaków identyfikujący zasób w sieci. Jest on najczęściej używany do wskazywania na strony internetowe, ale może również odnosić się do innych typów zasobów, takich jak pliki, obrazy, czy strumienie danych.

### Struktura URL

Adres URL składa się z następujących elementów:

* Protokół: Określa sposób, w jaki dane mają zostać przesłane, np. `http`, `https`, `ftp`, `mailto`. Po protokole następują znaki "://".

* Struktura domeny: Składa się z kilku elementów czytanych od prawej do lewej:
  - Domena najwyższego poziomu (TLD): Końcowa część adresu (.com, .pl, .org, .gov)
  - Domena drugiego poziomu: Główna nazwa strony (google, onet, example)
  - Subdomeny (opcjonalne): Dodatkowe człony przed główną domeną (www, blog, mail)
  Przykład: w adresie blog.www.example.com:
  - .com to domena najwyższego poziomu
  - example to domena drugiego poziomu
  - www i blog to subdomeny

* Port (opcjonalny): Numer portu, na którym działa usługa na serwerze, np. `:80` (domyślny dla HTTP) lub `:443` (domyślny dla HTTPS).

* Ścieżka: Adres pliku lub zasobu na serwerze, np. `/index.html`. Jeśli nie jest podana, domyślnie jest to `/`.

* Parametry zapytania (opcjonalne): Pary klucz-wartość przesyłane do serwera, rozpoczynające się znakiem zapytania (?), np. `?q=search+term`. Kolejne parametry są oddzielane znakiem &.

* Fragment (opcjonalny): Część adresu URL wskazująca na określony fragment dokumentu, rozpoczynająca się od znaku #, np. `#section2`.

### Przykłady

```http
https://en.blog.example.com:443/articles/2023/03/my-article?category=technology&lang=pl#introduction
```

Składowe adresu:

* Protokół: `https://`
* Struktura domeny:
  - Subdomena oznaczająca wersję językową: `en`
  - Subdomena oznaczająca sekcję blogową: `blog`
  - Domena drugiego poziomu: `example`
  - Domena najwyższego poziomu: `.com`
* Port: `:443`
* Ścieżka: `/articles/2023/03/my-article`
* Parametry: `?category=technology&lang=pl`
* Fragment: `#introduction`

### Cechy adresów URL

1. Adresy URL są wrażliwe na wielkość liter w ścieżce i parametrach, ale nie w protokole i nazwie domeny.

2. Subdomena www:
   - Jest historyczną konwencją oznaczającą "World Wide Web"
   - Jest opcjonalna dla większości współczesnych stron
   - Niektóre strony automatycznie przekierowują między wersją z www i bez www

3. Kodowanie URL:
   - Znaki specjalne (spacje, polskie znaki, znaki specjalne) muszą być zakodowane w formacie %XX
   - Przykład: spacja = %20, ą = %C4%85
   - Dozwolone znaki bez kodowania: A-Z, a-z, 0-9, -, _, ., ~

4. Maksymalna długość URL:
   - Różni się w zależności od przeglądarki
   - Zalecana maksymalna długość to 2048 znaków
   - Dłuższe URL mogą powodować problemy w niektórych systemach

## [`urllib.parse`](https://docs.python.org/3/library/urllib.parse.html)

Moduł **urllib.parse** w Pythonie służy do analizy, tworzenia i modyfikacji adresów URL. Umożliwia łatwe rozdzielenie adresu na składniki oraz ponowne ich łączenie. Oto podstawowe funkcje:

- **urlparse()** – dzieli URL na komponenty (schemat, netloc, ścieżkę, parametry, zapytanie, fragment), zwracając je jako krotkę z nazwanymi polami (`collections.namedtuple`).
- **urlunparse()** – odwrotność `urlparse()`, czyli łączy poszczególne elementy z powrotem w pełny adres URL.
- **urlsplit()** i **urlunsplit()** – podobne do `urlparse()`/`urlunparse()`, ale nie rozdzielają parametrów od ścieżki. Obecnie parametry w URL są rzadko używane.
- **urljoin()** – umożliwia łączenie adresu bazowego z relatywnym, tworząc pełny URL.
- **urlencode()** – konwertuje słownik lub listę par klucz-wartość do formatu zapytania HTTP, stosowanego m.in. w metodzie GET.
- **parse_qs()** oraz **parse_qsl()** – analizują część zapytania URL, zamieniając ją na słownik lub listę par, co ułatwia dostęp do parametrów przekazywanych w adresie.



## [`http.server`](https://docs.python.org/3/library/http.server.html)

Moduł **http.server** to część standardowej biblioteki Pythona, która umożliwia uruchomienie prostego serwera HTTP. Jest on często wykorzystywany do celów deweloperskich, testowych lub podczas nauki obsługi protokołu HTTP. Serwer ten nie nadaje się do zastosowań produkcyjnych, głównie ze względu na ograniczone możliwości i kwestie bezpieczeństwa.

Uruchomienie serwera HTTP za pomocą modułu **http.server** z poziomu wiersza poleceń:

```bash
python -m http.server [port]
```

To polecenie uruchamia serwer nasłuchujący na porcie `port` (domyślnie 8000), który udostępnia pliki z bieżącego katalogu. Możesz teraz otworzyć przeglądarkę i przejść pod adres `http://localhost:port`, aby zobaczyć zawartość katalogu.

**Klasy obsługujące żądania:**  
- **`http.server.BaseHTTPRequestHandler(request, client_address, server)`:**
  Ta klasa jest bazą do tworzenia własnej obsługi żądań HTTP. Aby serwer mógł reagować na różne żądania (np. GET, POST, HEAD), należy zdefiniować odpowiednie metody w klasie dziedziczącej po `BaseHTTPRequestHandler`. Na przykład, aby obsłużyć żądanie GET, należy zdefiniować metodę `do_GET()`, a dla POST - `do_POST()` itd. 
- **`http.server.SimpleHTTPRequestHandler(request, client_address, server, directory=None)`:** Klasa serwująca pliki z katalogu `directory` (lub bieżącego, jeśli nie podano). Odwzorowuje strukturę katalogów na żądania HTTP, umożliwiając szybkie udostępnianie plików w sieci lokalnej.

Klasą bazową do utworzenia samego serwera jest `http.server.HTTPServer(server_address, RequestHandlerClass)`, gdzie `server_address` to krotka `(host, port)` definiująca adres i port serwera, a `RequestHandlerClass` to klasa obsługująca żądania.

Typowa metoda **do_GET()** w module `http.server` powinna zawierać następujące elementy:

- **Odczytanie żądania:**  
  Analiza adresu (np. `self.path`) oraz nagłówków żądania (`self.headers`), co umożliwia dynamiczne dopasowanie odpowiedzi do zapytania.

- **Ustalenie kodu statusu HTTP:**  
  Wywołanie `self.send_response()`, najczęściej z kodem 200 (OK), informując klienta o powodzeniu operacji.

- **Wysłanie nagłówków odpowiedzi:**  
  Użycie `self.send_header()` do określenia typu treści (np. `"Content-type": "text/html"`) oraz innych istotnych nagłówków, a następnie `self.end_headers()` kończące sekcję nagłówków.

- **Przygotowanie treści odpowiedzi:**  
  Wygenerowanie lub pobranie danych, które mają być przesłane do klienta. Może to być zawartość statyczna (np. prosty HTML) lub dynamicznie generowana treść.

- **Wysłanie treści odpowiedzi:**  
  Użycie `self.wfile.write()`, które przesyła przygotowane dane do klienta. Ważne, aby dane były w postaci bajtów.

Ponadto można dodać:

- **Logikę warunkową:**  
  Rozróżnienie różnych ścieżek czy parametrów zapytania w celu dostarczenia odpowiednich treści lub obsługi błędów (np. wysłanie kodu 404 przy nieznanej ścieżce).

- **Obsługę wyjątków i błędów:**  
  Zapewnienie mechanizmu do reagowania na nieoczekiwane sytuacje lub błędy w przetwarzaniu żądania.

W kodzie typowy przykład obsługi żądania GET w klasie dziedziczącej po `BaseHTTPRequestHandler` wygląda następująco:

```python
from http.server import HTTPServer, BaseHTTPRequestHandler

class MyHandler(BaseHTTPRequestHandler):
    def do_GET(self):
        # Ustalenie kodu odpowiedzi (np. 200 - OK)
        self.send_response(200)
        
        # Ustawienie nagłówków odpowiedzi, np. typu treści
        self.send_header("Content-type", "text/html")
        self.end_headers()
        
        # Przygotowanie treści odpowiedzi (musi być w postaci bajtów)
        response_content = b"<html><head><title>Przykład</title></head>" \
                           b"<body><h1>Witaj na stronie!</h1></body></html>"
        self.wfile.write(response_content)

if __name__ == '__main__':
    server_address = ('', 8000)  # Serwer nasłuchuje na porcie 8000
    httpd = HTTPServer(server_address, MyHandler)
    print("Serwer działa na porcie 8000...")
    httpd.serve_forever()
```

W tym schemacie:

- **send_response(200)**  
  Wysyłamy kod odpowiedzi HTTP 200, co oznacza, że żądanie zostało poprawnie obsłużone.
  
- **send_header() i end_headers()**  
  Ustawiamy niezbędne nagłówki (np. `Content-type`) i kończymy ich wysyłanie, co przygotowuje klienta do odbioru treści.
  
- **wfile.write()**  
  Przesyłamy właściwą treść odpowiedzi. Warto pamiętać, że dane muszą być w formacie bajtów (np. przy użyciu metody `.encode()` dla stringów).

## Przykład

Kod serwera HTTP z użyciem modułu `http.server`:

```python
from http.server import HTTPServer, BaseHTTPRequestHandler
import json
from urllib.parse import parse_qs, urlparse


class ProstaObslugaZapytan(BaseHTTPRequestHandler):
    def do_GET(self):
        """Obsługa żądań GET"""
        # Parsowanie ścieżki URL i parametrów zapytania
        parsed_path = urlparse(self.path)
        path = parsed_path.path
        query_params = parse_qs(parsed_path.query)

        # Różne odpowiedzi w zależności od ścieżki
        if path == "/":
            # Strona główna
            self.send_response(200)
            self.send_header("Content-type", "text/html; charset=utf-8")
            self.end_headers()

            content = """
            <html>
                <head><title>Prosty Serwer HTTP</title></head>
                <body>
                    <h1>Witaj na prostym serwerze HTTP!</h1>
                    <p>Dostępne endpointy:</p>
                    <ul>
                        <li>/hello - podstawowe powitanie</li>
                        <li>/echo?message=tekst - zwraca przekazany tekst</li>
                        <li>/json - przykładowa odpowiedź JSON</li>
                    </ul>
                </body>
            </html>
            """
            self.wfile.write(content.encode("utf-8"))

        elif path == "/hello":
            # Prosty endpoint tekstowy
            self.send_response(200)
            self.send_header("Content-type", "text/plain; charset=utf-8")
            self.end_headers()
            self.wfile.write("Cześć! To jest prosty serwer HTTP.".encode("utf-8"))

        elif path == "/echo":
            # Echo parametru z zapytania
            message = query_params.get("message", [""])[0]
            self.send_response(200)
            self.send_header("Content-type", "text/plain; charset=utf-8")
            self.end_headers()
            self.wfile.write(f"Otrzymana wiadomość: {message}".encode("utf-8"))

        elif path == "/json":
            # Przykład odpowiedzi JSON
            self.send_response(200)
            self.send_header("Content-type", "application/json")
            self.end_headers()
            data = {"message": "To jest odpowiedź JSON", "status": "ok", "code": 200}
            self.wfile.write(json.dumps(data).encode("utf-8"))

        else:
            # Obsługa nieznalezionej ścieżki
            self.send_response(404)
            self.send_header("Content-type", "text/plain; charset=utf-8")
            self.end_headers()
            self.wfile.write("404 - Nie znaleziono strony".encode("utf-8"))

    def do_POST(self):
        """Obsługa żądań POST"""
        if self.path == "/submit":
            # Odczytanie długości danych
            content_length = int(self.headers["Content-Length"])
            # Odczytanie danych z żądania
            post_data = self.rfile.read(content_length)

            self.send_response(200)
            self.send_header("Content-type", "text/plain; charset=utf-8")
            self.end_headers()
            self.wfile.write(
                f"Otrzymane dane POST: {post_data.decode('utf-8')}".encode("utf-8")
            )
        else:
            self.send_response(404)
            self.send_header("Content-type", "text/plain; charset=utf-8")
            self.end_headers()
            self.wfile.write("404 - Endpoint nie istnieje".encode("utf-8"))


def uruchom_serwer(port=8000):
    """Uruchamia serwer HTTP na określonym porcie"""
    server_address = ("", port)
    httpd = HTTPServer(server_address, ProstaObslugaZapytan)
    print(f"Uruchamiam serwer na porcie {port}...")
    httpd.serve_forever()


if __name__ == "__main__":
    uruchom_serwer()
```

Uruchom ten kod w terminalu:

```bash
python prosty_serwer_http.py
```

gdzie zakładamy, że powyższy kod znajduje się w pliku `prosty_serwer_http.py`. Po uruchomieniu serwera, możesz otworzyć przeglądarkę i przejść pod adres `http://localhost:8000`, aby zobaczyć stronę główną serwera. Możesz również wywołać inne endpointy, np. `http://localhost:8000/hello` lub `http://localhost:8000/json`. 

Przykładowy test serwera za pomocą `curl`:

```bash
curl http://localhost:8000/hello
curl http://localhost:8000/echo?message=TestMessage
curl -X POST -d "dane=testowe" http://localhost:8000/submit
```