# BeautifulSoup

Nu gaan we BeautifulSoup gebruiken om de html-pagina te doorzoeken naar interessante informatie.

We gaan opnieuw naar de syntra home pagina. En we lezen onze html in soup.

In [None]:
import requests
from bs4 import BeautifulSoup, Script


base_url = "https://www.syntra.be"


r = requests.get(base_url)
soup = BeautifulSoup(r.text, 'html.parser')


## find()

Een eerste methode die we kunnen gebruiken, is `find()`. Deze kan je gerbuiken als je op zoek bent naar een element dat slechts 1 maal voorkomt in de html text.

In [None]:
title = soup.find('title')
print(title)
print(title.text)

In [None]:
body = soup.find('body')
print(body.prettify())

In [None]:
main = soup.find('main')
print(main.prettify())

Wanneer je een element, dat meerdere malen voorkomt, met 'find()' zoekt, dan zal enkel het eerste element worden opgehaald.

In [None]:
list_items = soup.find('li')
print(list_items)

## Tag

Je kan de html-elementen ook op een andere manier ophalen.


In [None]:
first_list_item = soup.li
print(first_list_item)

`first_list_item` is een 'Tag' object.

Elk Tag-object heeft een naam.

In [None]:
print(first_list_item.name)

je kan deze naam veranderen.

je ziet ook dat het element zelf veranderd is.

In [None]:
first_list_item.name = 'my_first_list_item'
print(first_list_item.name)
print(first_list_item)

Met `attrs` krijg je alle verschillende attributen die binnen het html-element staan.

In [None]:
first_list_item.attrs

We krijgen een dictionary waarin de verschillende attributen staan. 

In het gevak van ons eerste 'li' element zijn dit enkel classes.

gaan daarom een a element zoeken.

In [None]:
first_link = soup.a

print(first_link)
print(first_link.attrs)

We kunnen elk attribuut van dit element aanroepen zoals met een dictionary.

Wie vindt deze 'link' terug op de pagina ?
wie weet wat de `#content` wil zeggen ? 

In [None]:
print(first_link['class'])
print('------------------')
print(first_link['href'])

## NavigableString

Binnen BeautifulSoup wordt alle text binnen een element bij gehouden in de 'NavigableString'.

Je kan deze gemakkelijk bekomen op volgende manier:


In [None]:
print(first_link.string)

# Navigating the tree

Met BeautifulSoup kunnen we makkelijk door de 'boomstructuur' van de html-file navigeren.

dit kan door verschillende 'tags' na elkaar te gebruiken.

In [None]:
first_link_of_main = soup.body.main.a
print(first_link_of_main)

In [None]:
soup.head.link

## .contents & .children

We zullen nu alle <li>-elementen uit het (navigatie)menu halen. In een kleiner scherm is dit een hamburger-menu.


![](images/menu_syntra_be.png)

In [None]:
menu = soup.body.nav.ul


all_li_of_menu = menu.contents
print(all_li_of_menu)

In [None]:
for li in all_li_of_menu:
    print(li)
    print('------')

In [None]:
all_li_of_menu = menu.children
print(all_li_of_menu)

In [None]:
for li in all_li_of_menu:
    print(li)
    print('------')

## find_all()

We gerbuiken `find_all()` om alle elementen van een bepaald type te vinden.

Zo kunnen we dus alle hyperlinken terugvinden op de ganse pagina.

Dit kan altijd interessant zijn om de ganze structuur van de website in kaart te brengen.

In [None]:
all_links = soup.find_all("a")

print(all_links)

Maar we kunnen `find_all()` ook gebruiken elementen binnen een bepaald deel terug te vinden.

Zo kunnen we alle <a> elementen van onze navigatie-menu in een lijst krijgen.

In [None]:
all_links_of_nav_menu = menu.find_all('a')

for link in all_links_of_nav_menu:
    print(link)

In [None]:
print(type(all_links_of_nav_menu))

## .parent

Soms kan het nodig zijn om terug naar omhoog te gaan in de 'boom struktuur'.

Hiervoor kan je dus parent gebruiken. laten we terug vertrekken van ons 'menu'.

In [None]:
li = menu.ul.li
print(li)

print('---------')

print(li.parent)


Je krijgt dus niet enkel de parent, maar ook alle ondergeschikte elementen van deze parent.

## .parents

`.parents` wordt gebruikt om alle parents van deen element te verkijgen. 

Met andere woorden ga je dus helemaal terug omhoog in de boomstructuur.

In [None]:
li.parents

In [None]:
for parent in li.parents:
    print(parent)
    print('--------------')

## next_sibling & previous_sibling


In [None]:
menu = soup.body.nav.ul
li = menu.ul.li

print(li)


In [None]:
print(li.find_next_sibling())

In [None]:
print(li.find_previous_sibling())

In [None]:
for li in li.next_siblings:
    print(li)

In [None]:
li = menu.ul.li

for li in li.previous_siblings:
    print(li)

## .next_element of .previous_element

In [None]:
li = menu.ul.li

print(li)
print(' ----------- ')
print(li.next_element)



## element met specifiek attribuut

We zoeken een element met een specfiek id. 

Wanneer we zoeken op de pagina (via dev-tools), vinden we onderaan een script terug met een specifiek id.

In [None]:
soup.find('script', id='tmpl-jet-ajax-search-results-item')

We gaan nu de linken in het midden van de pagina proberen te bereiken. 

We vinden dat deze een attribuut `data-id` hebben.

De voorgaande werkwijze werkt niet met `data-id` (omwille van de '-').  Daarom gebruiken we nu de `attrs` optie.

In [48]:
print(soup.find('a', class_='elementor-item'))

<a aria-current="page" class="elementor-item elementor-item-active" href="https://www.syntra.be/">Home</a>


In [49]:
soup.find("div", attrs={'data-id':"f163cbe"})

<div class="elementor-element elementor-element-f163cbe elementor-align-justify elementor-widget elementor-widget-button" data-element_type="widget" data-id="f163cbe" data-widget_type="button.default">
<div class="elementor-widget-container">
<div class="elementor-button-wrapper">
<a class="elementor-button elementor-button-link elementor-size-sm" href="https://www.syntra.be/opleidingen/voltijdse-dagopleidingen/">
<span class="elementor-button-content-wrapper">
<span class="elementor-button-text">Voltijdse dagopleidingen</span>
</span>
</a>
</div>
</div>
</div>

## Custom function

Je kan zelf een functie maken om bepaalde elementen terug te vinden.

In [None]:
def has_id_and_class(tag):
    return tag.has_attr('id') and tag.has_attr('class')


soup.find_all(has_id_and_class)

In [None]:
def has_attr(attr):
    return attr

soup.find_all(href=has_attr)

In [None]:
soup.find_all(target=has_attr)

## find_all() meerdere parameters

https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all

In [None]:
soup.find_all("span", 'elementor-icon-list-icon')

## .css selector

https://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors-through-the-css-property

https://facelessuser.github.io/soupsieve/selectors/



In [None]:
soup.select('title')

In [None]:
soup.select("p:nth-of-type(3)")

In [None]:
soup.select('li > a')