# Webscrapping - wprowadzenie

Istniejące API serwisów posiadaja ograniczenia bądź dane serwisy w ogóle takich interfejsów nie posiadają. W takich przypadkach można pobierać dane bezpośrednio ze stron HTML wykorzystując ich strukturę. Strony HTML opierają się na tagach oraz klasach arkuszy stylów i te informacje będziemy wykorzystywali.
W tym celu potrzebować będziemy parser języka HTML. W Pythonie wykorzystamy bibliotekę ***BeautifulSoup***.  

Dokumentację do biblioteki znajdziesz pod adresem https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Poniżej kod, który ją importuje.

In [1]:
import sys
!"{sys.executable}" -m pip install beautifulsoup4 --user
from bs4 import BeautifulSoup



### Podstawowe operacje 

Zobaczmy jak działa biblioteka. Poniżej mamy przykładową stronkę HTML.

In [2]:

html_doc = """<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

Poniże przykładowy kod, który tworzy odpowiedni parser dla tej strony i szuka pierwszego elementu typu ```<a>```.

In [3]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')
print(soup.find('a'))

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>


Jeśli chcesz wyciągnąć atrybut taga wykorzystaj funkcję ```get()```, zgodnie z poniższym przykładem:

In [4]:
print(soup.find('a').get("class"))

['sister']


Poniżej znajdziesz listę innych przydatnych funkcji z biblioteki.
- 
- ```element.get_text()``` - pobiera zawartość danego taga
- ```element.text``` - pobranie zawartości (ciała) elementu
- ```element.parent``` - przechodzi do rodzica danego taga
- ```element.next_sibling``` - pobieranie kolejnego elementu na tym samym poziomie
- ```element['class']``` - pobranie wartości atrybutu danego elementu
- ```element.find_all("tag_name")``` - pobiera wszystkie tagi o nazwie tag_name
- ```element.find_all("tag_name", class_="class1 class2 ...")``` - znajduje wszystkie tagi o nazwie tag_name i klasach CSS class1, class2
- ```element.select('.nazwaKlasyCSS')``` - pobieranie tagów po nazwie klasy CSS
- ```element.select('nazwaTaguHTML')``` - pobieranie tagów po nazwie taga
- ```element.select('#IDelementu')``` - pobieranie elementów po ID



### Zadanie nr 4

Napisz kod, który z powyższego HTMLa pobierze i wypisze etykiety linków wraz z odnośnikami w następującym formacie:
```
Elsie - http://example.com/elsie
Lacie - http://example.com/lacie
Tillie - http://example.com/tillie
```

In [11]:
# TO DO zaimplementuj tutaj swoje rozwiązanie
links = soup.find_all('a')
print(*[f"{link.get_text()} - {link.get('href')}" for link in links], sep="\n")    

Elsie - http://example.com/elsie
Lacie - http://example.com/lacie
Tillie - http://example.com/tillie


Mając powyższą wiedzę możemy teraz spróbować wykorzystać ją do ekstracji danych z prawdziwej strony internetowej. W tym celu połączymy działanie obu bibliotek.

Poniższy kod ilustruje przykładowe działanie a więc wejdzie na stronę główną serwisu www.formula1.com, odnalezienie elementu głównego newsa i wyświetlenie jego zawartości.

In [13]:
import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.formula1.com")
pageRootElement = BeautifulSoup(response.text, 'html.parser')

for header in pageRootElement.select('.f1--title'):
    print(header.text)

WATCH: 10 moments of brilliance from four-time champion Sebastian Vettel


### Zadanie nr 5

Napisz kod, który drukuje wszystkie nagłówki ze strony głównej serwisu www.formula1.com. 

In [44]:
# TO DO zaimplementuj tutaj swoje rozwiązanie
import re
response = requests.get("https://www.formula1.com").text
soup = BeautifulSoup(response, 'html.parser')
headers = soup.find_all(re.compile('^h[1-6]$'))

print(*[f'{header.name} - {header.get_text().strip()}' if header.get_text().strip() else f'{header.name} - empty' for header in headers], sep=",\n")

h2 - empty,
h2 - empty,
h2 - Editor's Picks,
h2 - More news,
h3 - FORMULA 1 GULF AIR BAHRAIN GRAND PRIX 2022,
h3 - FORMULA 1 STC SAUDI ARABIAN GRAND PRIX 2022,
h3 - FORMULA 1 HEINEKEN AUSTRALIAN GRAND PRIX 2022,
h3 - FORMULA 1 ROLEX GRAN PREMIO DELL'EMILIA ROMAGNA 2022,
h3 - FORMULA 1 MIAMI GRAND PRIX 2022,
h3 - FORMULA 1 PIRELLI GRAN PREMIO DE ESPAÃA 2022,
h3 - FORMULA 1 GRAND PRIX DE MONACO 2022,
h3 - FORMULA 1 AZERBAIJAN GRAND PRIX 2022,
h3 - FORMULA 1 GRAND PRIX DU CANADA 2022,
h3 - FORMULA 1 BRITISH GRAND PRIX 2022,
h3 - FORMULA 1 GROSSER PREIS VON ÃSTERREICH 2022,
h3 - FORMULA 1 GRAND PRIX DE FRANCE 2022,
h3 - FORMULA 1 MAGYAR NAGYDÃJ 2022,
h3 - FORMULA 1 ROLEX BELGIAN GRAND PRIX 2022,
h3 - FORMULA 1 HEINEKEN DUTCH GRAND PRIX 2022,
h3 - FORMULA 1 PIRELLI GRAN PREMIO DâITALIA 2022,
h3 - FORMULA 1 VTB RUSSIAN GRAND PRIX 2022,
h3 - FORMULA 1 SINGAPORE GRAND PRIX 2022,
h3 - FORMULA 1 JAPANESE GRAND PRIX 2022,
h3 - FORMULA 1 ARAMCO UNITED STATES GRAND PRIX 2022,
h3 - FORMULA 1 GR