# Automatyczne pozyskiwanie danych

## Tomasz Rodak

Wykład 2

---

## HTML

HTML (HyperText Markup Language) to język znaczników definiujący strukturę strony internetowej. Określa, jakie elementy znajdują się na stronie, takie jak nagłówki, akapity, obrazy czy linki.  

### Struktura HTML
Dokument HTML ma **strukturę drzewa**, gdzie każdy element jest **węzłem**, a znaczniki mogą zawierać inne znaczniki jako **dzieci**. Szkielet dokumentu HTML w postaci drzewa przedstawia się następująco:

```
<html>
│
├── <head>
│   ├── <meta charset="UTF-8">
│   └── <title> Tytuł strony </title>
│
└── <body>
    ├── <h1> Nagłówek </h1>
    ├── <p> Akapit </p>
    └── <a href="https://example.com"> Link </a>

```

### Składnia HTML

Składniowo znaczniki HTML umieszczane są w nawiasach `< >`. Zapisz drzewa HTML z poprzedniego punktu w postaci kodu wyglądałby tak:

```html
<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">
    <title>Tytuł strony</title>
</head>
<body>
    <h1>Nagłówek</h1>
    <p>To jest przykładowy akapit.</p>
    <a href="https://example.com">Kliknij tutaj</a>
</body>
</html>
```

- **`<!DOCTYPE html>`** – określa wersję HTML (HTML5).  
- **`<html>`** – główny kontener strony, korzeń drzewa.  
- **`<head>`** – sekcja z meta-informacjami (np. kodowanie, tytuł).  
- **`<body>`** – zawiera widoczną treść strony.  
- **`<h1>` – `<h6>`** – nagłówki.  
- **`<p>`** – akapit.  
- **`<a href="URL">`** – link.  

## Przykłady znaczników

* `<p>` - paragraf;
* `<br>` - przejście do nowego wiersza;
* `<table>` - tabela; `<tr>` - wiersz tabeli; `<td>` - komórka tabeli;
* `<img>` - obrazy;
* `<h1>` aż do `<h6>` - nagłówki;
* `<a>` - hiperłącze;
* `<ul>` - lista nieuporządkowana; `<ol>` - lista uporządkowana; `<li>` - elementy listy;
* `<div>` - grupa elementów (tylko CSS);
* `<span>` - grupowanie tekstu wewnątrz elementów (tylko CSS).

## CSS

CSS (*Cascading Style Sheets*) to język służący do opisywania wyglądu i formatowania dokumentów napisanych w HTML lub XML. Umożliwia oddzielenie treści strony (HTML) od warstwy prezentacji, czyli tego, jak elementy na stronie są wyświetlane.

### Główne cechy CSS:
- **Kaskadowość:** Style mogą być dziedziczone, a reguły określające wygląd mogą nakładać się na siebie. Dzięki temu przeglądarka wybiera najbardziej specyficzne reguły.
- **Modularność:** Style można definiować w osobnych plikach, co pozwala na ponowne wykorzystanie i łatwą konserwację kodu.
- **Responsywność:** CSS umożliwia tworzenie responsywnych układów, które dostosowują się do różnych rozmiarów ekranów.

### Składnia CSS
Podstawowa reguła CSS składa się z selektora oraz bloku deklaracji:

```css
selektor {
  właściwość: wartość;
  właściwość2: wartość2;
  /* kolejne właściwości */
}
```

- **Selektor:** Określa, do jakich elementów HTML mają być zastosowane style. Przykłady selektorów to `h1`, `.klasa`, `#id`.
- **Blok deklaracji:** Znajduje się w nawiasach klamrowych `{}`. Zawiera jedną lub więcej deklaracji.
- **Deklaracja:** Każda deklaracja składa się z właściwości i przypisanej do niej wartości, oddzielonych dwukropkiem, a deklaracje kończy średnik.

### Przykład:
```css
/* Stylowanie nagłówka i paragrafu */
h1 {
  color: blue;
  font-size: 24px;
}

p {
  color: gray;
  line-height: 1.5;
}
```

W powyższym przykładzie:
- Reguła dla selektora `h1` ustawia kolor tekstu na niebieski i rozmiar czcionki na 24 piksele.
- Reguła dla selektora `p` ustawia kolor tekstu na szary oraz określa wysokość linii.

### Przykład

Poprzednia struktura HTML z dodanymi stylami CSS:

```html
<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">
    <title>Tytuł strony</title>
    <style>
        body {
            font-family: Arial, sans-serif;
            background-color: #f4f4f4;
            color: #333;
            text-align: center;
            padding: 20px;
        }
        h1 {
            color: #007BFF;
        }
        p {
            font-size: 18px;
        }
        a {
            display: inline-block;
            margin-top: 10px;
            padding: 10px 20px;
            background-color: #007BFF;
            color: white;
            text-decoration: none;
            border-radius: 5px;
            transition: background-color 0.3s;
        }
        a:hover {
            background-color: #0056b3;
        }
    </style>
</head>
<body>
    <h1>Nagłówek</h1>
    <p>To jest przykładowy akapit.</p>
    <a href="https://example.com">Kliknij tutaj</a>
</body>
</html>
```

###  Klasy CSS

Klasa CSS to sposób na grupowanie elementów, którym chcemy przypisać te same reguły stylów. W HTML dodaje się ją poprzez atrybut `class` w tagu, a następnie definiuje style dla tej klasy w pliku CSS przy użyciu kropki (`.`).

**Przykład klasy CSS:**

  ```css
  .przykladowa-klasa {
    background-color: lightblue;
    font-size: 16px;
    padding: 10px;
  }
  ```

**Przykład użycia w HTML:**

  ```html
  <div class="przykladowa-klasa">
    To jest div z przypisaną klasą.
  </div>
  
  <p class="przykladowa-klasa">
    Ten paragraf także korzysta z tej samej klasy.
  </p>
  ```

### Dziedziczenie w CSS

Dziedziczenie to mechanizm, dzięki któremu niektóre właściwości stylów przypisane do elementu nadrzędnego są przekazywane do jego elementów potomnych (automatycznie lub w wyniku wymuszenia). Dzięki temu nie musimy powtarzać definicji tych właściwości dla każdego elementu z osobna.

#### Struktura DOM

Dokument HTML tworzy drzewo, w którym każdy element (węzeł) jest osadzony wewnątrz innego elementu. Jeśli, dajmy na to, `<p>` znajduje się wewnątrz innego tagu (np. `<div>`, `<article>` lub `<section>`), to właśnie ten element otaczający jest jego rodzicem.

**Przykład:**

```html
<div style="color: blue;">
  <p>Tekst w paragrafie dziedziczy kolor niebieski z rodzica.</p>
</div>
```

W tym przykładzie `<div>` jest elementem nadrzędnym dla `<p>`. Dzięki dziedziczeniu właściwości CSS, jeśli `<p>` nie ma określonego koloru, przejmie kolor ustawiony w `<div>` (o ile właściwość `color` jest dziedziczona, a jest).

Niektóre właściwości, szczególnie te związane z tekstem, są dziedziczone automatycznie. Przykłady to:

* `color` – kolor tekstu.
* `font-family` – rodzaj czcionki.
* `font-size` – rozmiar czcionki.

Wiele właściwości związanych z układem i wyglądem pudełkowym, jak `margin`, `padding`, `border` czy `background`, nie są dziedziczone automatycznie. Oznacza to, że ich ustawienia muszą być definiowane indywidualnie dla każdego elementu, jeżeli chcemy je stosować.

Możemy wymusić dziedziczenie właściwości, nawet jeśli nie jest ono domyślne, ustawiając wartość `inherit`.

**Przykład:**

```css
p {
  background-color: inherit; /* Pochłania wartość background-color z elementu nadrzędnego */
}
```

### Selektory CSS istotne w web scrapingu

#### 1. Selektor elementu
Wybiera wszystkie wystąpienia danego elementu (znacznika) na stronie. Przykład selektora elementu `div`:
```css
div {
  /* wybiera wszystkie elementy <div> */
}
```

#### 2. Selektor klasy
Wybiera elementy, które posiadają określoną klasę. Przykład selektora klasy `.product`:
```css
.product {
  /* wybiera wszystkie elementy z klasą "product" */
}
```



#### 3. Selektor atrybutu

Pozwala wybierać elementy na podstawie obecności atrybutu lub jego konkretnej wartości. Przykład selektora atrybutu `a[href]`:
```css
a[href] {
  /* wybiera wszystkie linki, które mają atrybut href */
}
```

#### 4. Selektor potomków

Wybiera wszystkie elementy będące potomkami zdefiniowanego elementu (niekoniecznie bezpośrednimi). Przykład selektora potomków `div p`:
```css
div p {
  /* wybiera wszystkie <p> wewnątrz dowolnego <div> */
}
```

#### 5. Selektor bezpośrednich potomków

Wybiera tylko elementy, które są bezpośrednimi dziećmi określonego elementu. Przykład selektora bezpośrednich potomków `ul > li`:
```css
ul > li {
  /* wybiera tylko bezpośrednie elementy <li> będące dziećmi <ul> */
}
```

#### 6. Selektory rodzeństwa

Umożliwiają wybieranie elementów, które są sąsiadami danego elementu.

- **Selektor sąsiedniego rodzeństwa (`+`):** Wybiera pierwszy element występujący bezpośrednio po zadanym elemencie. Przykład selektora sąsiedniego rodzeństwa `h2 + p`:
```css
h2 + p {
  /* wybiera pierwszy <p> występujący bezpośrednio po <h2> */
}
```

- **Selektor ogólnego rodzeństwa (`~`):** Wybiera wszystkie elementy, które są rodzeństwem i występują po zadanym elemencie. Przykład selektora ogólnego rodzeństwa `h2 ~ p`:
```css
h2 ~ p {
  /* wybiera wszystkie <p> występujące po <h2> */
}
```

#### 7. Pseudo-klasy

Umożliwiają wybór elementów na podstawie ich stanu lub pozycji w hierarchii DOM.

- **`:first-child`:** Wybiera pierwszy element wśród rodzeństwa. Przykład selektora `ul li:first-child`:
```css
ul li:first-child {
  /* wybiera pierwszy element listy */
}
```

- **`:last-child`:** Wybiera ostatni element.

- **`:nth-child(n)`:** Wybiera n-ty element. Przykład selektora `ul li:nth-child(2)`:
```css
ul li:nth-child(2) {
  /* wybiera drugi element listy */
}
```

## [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

Biblioteka do pobierania danych z dokumentów HTML i XML.

Typowy import:

In [1]:
from bs4 import BeautifulSoup

### Tworzenie zupy

"Zupa" (*soup*) to obiekt reprezentujący sparsowany dokument HTML. Możemy go utworzyć, przekazując do klasy `BeautifulSoup` dokument HTML w postaci ciągu znaków, łańcucha bajtów lub strumienia dostępu do pliku.

Z tekstu:

In [2]:
import requests

## Wyniki Strade Bianche w 2025 roku:
url = 'https://www.procyclingstats.com/race/strade-bianche/2025/result'
r = requests.get(url)

if r.status_code == 200:
    with open('strade.html', 'tw', encoding='utf8') as f:
        f.write(r.text)
        print(f'{r.status_code} :-)')        
else:
    print(f'{r.status_code} :-(')

200 :-)


In [3]:
strade = BeautifulSoup(r.text, 'lxml')

Z łańcucha bajtów:

In [4]:
strade = BeautifulSoup(r.content, 'lxml')

 Ze strumienia tekstu:

In [5]:
with open('strade.html', encoding='utf8') as f:
    strade = BeautifulSoup(f, 'lxml')

### Parsery HTML

`lxml` w wywołaniu

```python
BeautifulSoup(r.text, 'lxml')
```

oznacza nazwę parsera HTML/XML. Czas wywołania oraz wynikowa zupa mogą zależeć od użytego parsera.

Informacje na temat różnych możliwych parserów i ich porównanie znajdziesz [tutaj](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser).

### Obiekty

Najważniejsze obiekty definiowane przez `BeautifulSoup` to

* `BeautifulSoup`
* `Tag`
* `NavigableString`
* `Comment`

### `BeautifulSoup`

Obiekt reprezentujący cały dokument:

In [6]:
type(strade)

bs4.BeautifulSoup

Dokument nie jest znacznikiem i jako taki nie ma unikalnej nazwy. Dlatego atrybut `.name` jest nazwą specjalną dokumentu:

In [7]:
strade.name

'[document]'

### `Tag`

Obiekt `Tag` odpowiada elementowi HTML/XML:

In [8]:
zupa = BeautifulSoup('<b class="boldest">Extremely bold</b>', 'html.parser')
tag = zupa.b
type(tag)

bs4.element.Tag

### Nazwa znacznika

Nazwa znacznika dostępna jest w atrybucie `Tag.name`: 

In [9]:
tag.name

'b'

### Atrybuty

Dostęp do atrybutów znacznika po kluczu jak w słowniku:

In [10]:
tag = BeautifulSoup('<b id="boldest">bold</b>', 'html.parser').b
tag['id']

'boldest'

Wszystkie atrybuty w atrybucie `Tag.attrs`:

In [11]:
tag.attrs

{'id': 'boldest'}

### Atrybuty wielowartościowe

Przechowywane są w typie listowym:

In [12]:
css_soup = BeautifulSoup('<p class="body"></p>', 'html.parser')
css_soup.p['class']

['body']

In [13]:
css_soup = BeautifulSoup('<p class="body strikeout"></p>', 'html.parser')
css_soup.p['class']

['body', 'strikeout']

Jeśli atrybut wygląda jak wielowartościowy, ale w standardzie HTML zdefiniowany jest jako jednowartościowy, to biblioteka pozostawi go w formie tekstu:

In [14]:
id_soup = BeautifulSoup('<p id="my id"></p>', 'html.parser')
id_soup.p['id']

'my id'

### `NavigableString`

Porcja tekstu należąca do znacznika: 

In [15]:
soup = BeautifulSoup('<b class="boldest">Extremely bold</b>', 'html.parser')
tag = soup.b
tag.string

'Extremely bold'

In [16]:
type(tag.string)

bs4.element.NavigableString

### Atrybuty znacznika

#### Droga w dół

* Znacznik *dziecko* jest atrybutem znacznika *rodzic*.
* `.contents`, `.children`
* `.descendants`
* `.string`
* `.strings`, `.stripped_strings`

#### Droga w górę

* `.parent`
* `.parents`

#### Wędrówka w bok

* `.next_sibling`
* `.previous_sibling`
* `.next_siblings`
* `.previous_siblings`

#### Wędrówka naprzód i wstecz

* `.next_element`
* `.previous_element`
* `.next_elements`
* `.previous_elements`

## Przeszukiwanie drzewa

Metody `.find...()`

### Filtry

Obiekty dopasowywane z elementami podczas przeszukiwania drzewa.

### Rodzaje filtrów

* Łańcuch znaków
* Wyrażenie regularne
* Lista
* `True`
* Funkcja

#### Łańcuch znaków

Przykład. Wszystkie znaczniki `<font>`:

In [17]:
strade.find_all('font')

[<font><span class="flag gb"></span>gb</font>,
 <font>road</font>,
 <font class="hideIfMobile">19th</font>,
 <font class="hideIfMobile">(1.UWT)</font>]

#### Wyrażenie regularne

Przykład: Znaczniki zaczynające się literą `b`:

In [18]:
import re

[t.name for t in strade.find_all(re.compile(r'^b'))]

['base', 'base', 'body']

#### Lista

Dopasowuje element z dowolnym filtrem z listy.

Przykład. Znaczniki `<base>` oraz `<f...>`:

In [19]:
strade.find_all(['base', re.compile(r'^f.*')])

[<base href="https://www.procyclingstats.com/race.php"/>,
 <base href="race.php"/>,
 <form action="search.php" class="msearch"><input id="term" type="hidden"/>
 <input class="search4" data-nav="race/-id-" data-nav2="" data-page="race" id="search" name="term" placeholder="search" type="text"/></form>,
 <font><span class="flag gb"></span>gb</font>,
 <font>road</font>,
 <form style="  "><select onchange="window.location.href=this.value; " style="width: calc(100% - 2px);"><option selected="" value="race/strade-bianche/2025/result">2025</option><option value="race/strade-bianche/2024/result">2024</option><option value="race/strade-bianche/2023/result">2023</option><option value="race/strade-bianche/2022/result">2022</option><option value="race/strade-bianche/2021/result">2021</option><option value="race/strade-bianche/2020/result">2020</option><option value="race/strade-bianche/2019/result">2019</option><option value="race/strade-bianche/2018/result">2018</option><option value="race/strade-

#### `True`

Dopasowuje wszystko.

Przykład. Nazwy wszystkich znaczników z dokumentu:

In [20]:
from collections import Counter

Counter([a.name for a in strade.find_all(True)])

Counter({'td': 1750,
         'span': 828,
         'div': 548,
         'a': 538,
         'li': 196,
         'input': 183,
         'tr': 176,
         'option': 79,
         'ul': 30,
         'path': 16,
         'h3': 14,
         'th': 10,
         'svg': 8,
         'g': 8,
         'script': 7,
         'link': 7,
         'meta': 5,
         'font': 4,
         'select': 4,
         'label': 4,
         'form': 3,
         'img': 3,
         'base': 2,
         'html': 1,
         'head': 1,
         'title': 1,
         'body': 1,
         'header': 1,
         'h1': 1,
         'h2': 1,
         'table': 1,
         'thead': 1,
         'tbody': 1})

#### Funkcja

Jednoargumentowa funkcja gra rolę filtra, gdy wywoływana na elementach zwraca wartości `True`/`False`. Dopasowują się wtedy te elementy, dla których uzyskano `True`.

Przykład. Znaczniki, które mają atrybut `id` ale nie `class`:

In [21]:
def has_id_but_no_class(tag):
    return not tag.has_attr('class') and tag.has_attr('id')

strade.find_all(has_id_but_no_class)

[<input id="term" type="hidden"/>,
 <input id="pageid" type="hidden" value="1190"/>,
 <input id="userid" type="hidden" value="0"/>]

Gdy funkcja zostanie przekazana przez nazwę do metody wyszukującej, to nazwa będzie grała rolę atrybutu elementu, a do funkcji zostanie przekazana wartość tego atrybutu. Dopasują się te elementy, dla których funkcja zwróci `True`.

Przykład. Znaczniki posiadające taki atrybut `href`, którego wartość zaczyna się napisem `race`:

In [22]:
def has_race_as_value(href_value):
    return href_value and href_value.startswith('race')

strade.find_all(True, href=has_race_as_value)[:4]

[<base href="race.php"/>,
 <a class="reg" href="races.php">Races</a>,
 <a href="race/tour-de-france">Tour de France</a>,
 <a href="race/giro-d-italia">Giro d'Italia</a>]

### `.find_all()`

Sygnatura metody:

```python
obj.find_all(name, attrs, recursive, string, limit, **kwargs)
```

Sprawdza dopasowanie do filtrów dla wszystkich potomków `obj`. Wynik zwraca w postaci listy.

#### `name`

Odnosi się do nazw znaczników. Pomija stringi. Wartość `name` jest dowolnym filtrem, czyli łańcuchem znaków, wyrażeniem regularnym, listą, funkcją lub wartością `True`.

#### Argumenty `find_all()` podawane nazwą

Argument podany wraz z nazwą, która nie została rozpoznany, czyli argument o nazwie innej niż jedna z `name, attrs, recursive, string, limit`, jest traktowany jako atrybut znacznika o wartości dopasowywanej do filtra.

Przykład. Znaczniki `<a>` o pustym atrybucie `href`:

In [23]:
strade.find_all('a', href='')

[<a class="mobMenu" href="">☰ Menu</a>,
 <a class="more4 toggleNavDropdown" href="">▼</a>,
 <a class="more4 toggleNavDropdown" href="">▼</a>,
 <a class="more4 toggleNavDropdown" href="">▼</a>,
 <a class="more4 toggleNavDropdown" href="">▼</a>,
 <a></a>,
 <a class="clearFilter blue hide" href="" style="padding: 0px 7px; ">clear filter</a>]

Znaczniki, w których wartością atrybutu `class` jest `'reg'`. Ponieważ `class` jest słowem zarezerwowanym w Pythonie, więc stosuje się zastępczą nazwę `class_`:

In [24]:
strade.find_all(class_='reg')[:5]

[<a class="reg" href="index.php">Home</a>,
 <a class="reg" href="races.php">Races</a>,
 <a class="reg" href="teams.php">Teams</a>,
 <a class="reg" href="rankings.php">Rankings</a>,
 <a class="reg" href="statistics.php">Statistics</a>]

Znaczniki, które posiadają atrybut `href` o wartości zaczynającej się od napisu `'race'`:

In [25]:
strade.find_all(href=re.compile(r'^race'))[:5]

[<base href="race.php"/>,
 <a class="reg" href="races.php">Races</a>,
 <a href="race/tour-de-france">Tour de France</a>,
 <a href="race/giro-d-italia">Giro d'Italia</a>,
 <a href="race/vuelta-a-espana">La Vuelta ciclista a España</a>]

Znaczniki, które posiadają atrybut `href` o wartości zaczynającej się od napisu `'race'` i nie posiadają atrybutu `class`:

In [26]:
strade.find_all(href=re.compile(r'^race'), class_=None)[:5]

[<base href="race.php"/>,
 <a href="race/tour-de-france">Tour de France</a>,
 <a href="race/giro-d-italia">Giro d'Italia</a>,
 <a href="race/vuelta-a-espana">La Vuelta ciclista a España</a>,
 <a href="race/world-championship">World Championships</a>]

Znaczniki, które posiadają atrybut `href` o wartości zaczynającej się od napisu `'race'` i nie posiadają atrybutu `class` lub mają ten atrybut pusty:

In [27]:
strade.find_all(href=re.compile(r'^race'), class_='')[:5]

[<base href="race.php"/>,
 <a href="race/tour-de-france">Tour de France</a>,
 <a href="race/giro-d-italia">Giro d'Italia</a>,
 <a href="race/vuelta-a-espana">La Vuelta ciclista a España</a>,
 <a href="race/world-championship">World Championships</a>]

Znaczniki, które posiadają atrybut `href` o wartości zaczynającej się od napisu `'race'` i  posiadają atrybutu `class` pusty lub nie:

In [28]:
strade.find_all(href=re.compile(r'^race'), class_=True)[:5]

[<a class="reg" href="races.php">Races</a>,
 <a class="cur" href="race/strade-bianche/2025/result">Results</a>,
 <a class="" href="race/strade-bianche/2025/result/info">Info▼</a>,
 <a class="" href="race/strade-bianche/2025/result/live">Live</a>,
 <a class="" href="race/strade-bianche/2025/result/game">Game</a>]

Znaczniki, które posiadają atrybut `data-n` o wartości `0`, `1` lub `2`. Tego atrybutu nie można przekazać jako nazwy argumentu. Dlatego korzystamy z parametru `attrs`:

In [29]:
strade.find_all(attrs={'data-n': re.compile(r'^[012]$')})

[<li data-n="1"><a href="race/strade-bianche/2025/result/result/result">Results - Results</a></li>,
 <li data-n="2"><a href="race/strade-bianche/2025/result/info/info">Info - Info</a></li>,
 <li data-n="1"><a href="race/strade-bianche/2025/result/info/complementary-results">Complementary results</a></li>,
 <li data-n="1"><a href="race/strade-bianche/2025/result/info/photos">Finish photo</a></li>,
 <li data-n="1"><a href="race/strade-bianche/2025/result/info/profiles">Profiles</a></li>,
 <li data-n="1"><a href="race/strade-bianche/2025/result/info/time-table">Time table</a></li>]

Znaczniki, w których jedna z wartości atrybutu `class` ma wartość `toggleNavDropdown`:

In [30]:
strade.find_all(class_='toggleNavDropdown')

[<a class="more4 toggleNavDropdown" href="">▼</a>,
 <a class="more4 toggleNavDropdown" href="">▼</a>,
 <a class="more4 toggleNavDropdown" href="">▼</a>,
 <a class="more4 toggleNavDropdown" href="">▼</a>]

#### `string`

Wartością parametru `string` jest dowolny filtr. Metoda przeszukuje wtedy stringi zamiast znaczników.

Przykład. Wszystkie stringi:

In [31]:
strade.find_all(string=True)[:5]

['HTML',
 ' Global site tag (gtag.js) - Google Analytics ',
 '\n',
 '\n',
 "\n  window.dataLayer = window.dataLayer || [];\n  function gtag(){dataLayer.push(arguments);}\n  gtag('js', new Date());\n\n  gtag('config', 'G-2MNJ20S7SJ');\n"]

Stringi składające się z dwóch słów: pierwsze wielkimi literami z zakresu A-Z, drugie zaczyna się wielką literą, dalej małe, zakres a-z:

In [32]:
strade.find_all(string=re.compile(r'^[A-Z]+\s[A-Z][a-z]+$'))[:5]

['INEOS Grenadiers',
 'INEOS Grenadiers',
 'PIDCOCK Thomas',
 'WELLENS Tim',
 'HEALY Ben']

#### `limit`

Ograniczenie z góry liczby znalezionych wyników.

Przykład. 5 pierwszych znaczników `<a>`:

In [33]:
strade.find_all('a', limit=5)

[<a class="logo" href="index.php"></a>,
 <a class="mobMenu" href="">☰ Menu</a>,
 <a class="reg" href="index.php">Home</a>,
 <a class="reg" href="races.php">Races</a>,
 <a class="more4 toggleNavDropdown" href="">▼</a>]

#### `recursive`

Jeśli `False`, to przeszukiwani są tylko bezpośredni potomkowie.

Przykład.

In [34]:
len(strade.body.div.div.find_all('a', recursive=False))

2

In [35]:
len(strade.body.div.div.find_all('a', recursive=True))

67

### Znacznik jest wywoływalny

Znaczniki HTML i obiekty BeautifulSoup są wywoływalne. Wywołanie to odpowiada wywołaniu metody `.find_all()`.

Przykład. Znaczniki `<a>` zawierające atrybut `href` ze słowem `race`:

In [36]:
strade.body('a', href=re.compile('race'))[:5]

[<a class="reg" href="races.php">Races</a>,
 <a href="race/tour-de-france">Tour de France</a>,
 <a href="race/giro-d-italia">Giro d'Italia</a>,
 <a href="race/vuelta-a-espana">La Vuelta ciclista a España</a>,
 <a href="race/world-championship">World Championships</a>]

Znaczniki `<a>` zawierające atrybut `href` ze słowem `race` i posiadające atrybut `class`:

In [37]:
strade.body('a', href=re.compile('race'), class_=True)

[<a class="reg" href="races.php">Races</a>,
 <a class="cur" href="race/strade-bianche/2025/result">Results</a>,
 <a class="" href="race/strade-bianche/2025/result/info">Info▼</a>,
 <a class="" href="race/strade-bianche/2025/result/live">Live</a>,
 <a class="" href="race/strade-bianche/2025/result/game">Game</a>,
 <a class="" href="race/strade-bianche/2025/result/statistics">Stats</a>,
 <a class="" href="race/strade-bianche/2025/result/more">More▼</a>,
 <a class="goto mr10 fs14" href="race/strade-bianche/2025/result/live" style="">LiveStats</a>]

### `.find()`

Sygnatura metody:

```python
obj.find_all(name, attrs, recursive, string, **kwargs)
```

Sprawdza dopasowanie do filtrów dla potomków `obj`. Zwraca pierwsze znalezione dopasowanie lub `None`, jeśli dopasowania nie ma. Argumenty odpowiadają argumentom `.find_all()`.

Niemal ten sam efekt osiągniemy wywołując `.find_all()` z argumentem `limit=1`. Róznica jest taka, że `.find_all()` zwróci listę z jedną wartością lub listę pustą, a `.find()` zwróci znaleziony element lub `None`.

## Pozostałe metody wyszukujące

Metody `.find...()` są wariantami `.find_all()` lub `.find()`. Różnice między nimi są efektem zakresu przeszukiwanego drzewa. Argumenty tych metod odpowiadają argumentom `.find_all()` lub `.find()`.

* `.find_parents()`, `find_parent()`
* `.find_next_siblings()`, `.find_next_sibling()`
* `.find_previous_siblings()`, `.find_previous_sibling()`
* `.find_all_next()`, `.find_next()`
* `.find_all_previous()`, `.find_previous()`

## Przeszukiwanie drzewa z wykorzystaniem selektorów CSS

Funkcja `select()` przeszukuje drzewo z wykorzystaniem selektorów CSS. Zwraca listę znalezionych elementów.

Sygnatura funkcji:

```python
BeautifulSoup.select(selector)
```

lub 

```python
Tag.select(selector)
```

gdzie `selector` to łańcuch znaków zawierający selektor CSS.

Funkcja obsługuje większość standardowych selektorów CSS, takich jak:
   - Selektory tagów: `select('p')` - wszystkie elementy `<p>`
   - Selektory klas: `select('.klasa')` - elementy z klasą "klasa"
   - Selektory ID: `select('#id')` - element z ID "id"
   - Selektory atrybutów: `select('[attr=value]')` - elementy z atrybutem "attr" o wartości "value"
   - Selektory zagnieżdżone: `select('div p')` - elementy `<p>` wewnątrz `<div>`
   - Selektory potomków bezpośrednich: `select('div > p')` - elementy `<p>` będące bezpośrednimi potomkami `<div>`

Zwraca listę obiektów `Tag`.

## Ćwiczenie

Pobierz do pliku CSV tabelę z wynikami wyścigu [Strade Bianche 2025](https://www.procyclingstats.com/race/strade-bianche/2025/result).