# Webscrapping - Beautiful Soup
Alternatywą dla API jest pobieranie informacji bezpośrednio z witryn.

Służy do tego kilka pakietów - zaczniemy od prostych stron bez większych interakcji z użytkownikiem.

Tu przyda nam się pakiet **Beautiful Soup**.

Do ściągania przyda nam się kilka pakietów:


In [None]:
from bs4 import BeautifulSoup
import requests
import pandas as pd
import time

Ściągniemy aktualności dla portalu dotyczącego rynku płatniczego:

https://www.kir.pl/aktualnosci

Na początku zakodujemy w zminnej nazwę strony i numer z aktualnościami:

In [None]:
 webURL = "https://www.kir.pl/aktualnosci"

Na początku chcemy pobrać zawartość naszej strony. Tu warto wiedzieć o jednej sztuczce. Przeglądarki internetowe podczas połączeń podają serwerom tzw. *User-Agent string* - ciąg znaków, który mówi o przeglądarce i systemie operacyjnym.

https://pl.wikipedia.org/wiki/User_agent

Informacje jak wyglądają takie łańcuchy znajdują się na stronach deweloperskich przeglądarek:
*   Chrome: https://www.whatismybrowser.com/guides/the-latest-user-agent/chrome
*   Firefox: https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers/User-Agent

Zastosowanie takiego łańcucha jest często konieczne, aby otrzymać zawartość strony. Robi się to tak:

In [None]:
# Słownik z UA String:
headers = {'User-Agent': 'Mozilla/5.0 (X11; CrOS x86_64 8172.45.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.64 Safari/537.36'}

# Pobieramy stronę
page = requests.get(webURL, headers = headers)

Kolejnym krokiem jest uruchomienie obiektu BS, który będzie czytał naszą stronę.

In [None]:
soup = BeautifulSoup(page.content, 'html.parser', from_encoding="utf-8")

Cała praca z obiektem to w zasadzie powtarzanie dwóch elementów kodu.

Jego określenie będzie wymagać spędzenia czasu z przeglądarką.

In [None]:
# Klasa elementu strony, której szukamy:
statName = "img-text__title"

# Polecenie find.all pobiera wszytskie elementy
temp = soup.find_all(class_= statName)

# Ta komenda pobierze tekst
tempList = [pt.get_text() for pt in temp]

# Drukujemy tekst
print(tempList)

In [None]:
# Drukowanie elementów - tabulatory
print(*tempList)

**Ćwiczenie** - zmień kod, aby wyświetlić teksty opisów, zamiast nagłówków

### BS - pobieranie linków

Możmey wykorzystać pakiet, aby znajdować dowolne elementy na stronie i ich atrybuty. Ten bloczek kodu pozwoli na zebranie wszystkich linków na stronie - zarówno wewnętrznych i wewnętrznych.

Dzieki temu mogę np. zmapowac strony i poruszać się po kolejnych informacjach.

In [None]:
for link in soup.findAll('a'):
    print(link.get('href'))

## Pułapki - strukutra strony
Spróbujmy pobrać tekst wszystkich przemówień prezesów podczas konferencji prasowej [ECB](https://www.ecb.europa.eu/press/pressconf/html/index.pl.html)

In [None]:
webURL = "https://www.ecb.europa.eu/press/pressconf/html/index.pl.html"
page = requests.get(webURL, headers = headers)
soup = BeautifulSoup(page.content, 'html.parser', from_encoding="utf-8")

temp = soup.find_all('a')

In [None]:
temp

## Strony z interakcjami - Selenium

Beautiful Soup to ciekawe rozwiązanie dla prostych stron. Czasem jednak potrzebne są bardziej zaawansowane rozwiązania. W takim przypadku pomaga biblioteka Selenium.

Fizycznie uruchamia ona przeglądarkę i pozwala na sterowanie nią za pomocą kodu.

Do jej wdrożenia potrzebna jest instalacja sterownika.
https://www.selenium.dev/documentation/webdriver/


Dla przeglądarki Chrome informacje znajdują się tutaj:
https://chromedriver.chromium.org/downloads


Wykonanie tych instalacji jest czasochłonne - zobaczymy przykłady bezpośrednio na moim komputerze.

## Co dalej

Poczas kursu nauczyliśmy sie korzystać z różnych API.

Mechanizmy te są uniwersalne - można je wykorzystać także do innych baz danych.

Listing tego typu baz danych prowadzony jest na stronie:
https://github.com/public-apis/public-apis#open-data

Zachęcam do eksplorowania w razie potrzeby.