# Suchen von Elementen im DOM

## Suchen von HTML Tags 

- einfachste Methode zum suchen von HTML-Elementen
- die Methode liefert einen Tag zurück, welches weiter durchsucht oder dessen Inhalt extrahiert werden kann
- existiert der angegbene Tag nicht liefert die Methode ```None``` zurück

**Vorteile**
- sehr einfache und gut lesbare Methode
- sehr schnell in der Ausführung
**Nachteil**
- Es wird immer nur der im DOM zuerst auftretende Tag gefunden
    - suchen von mehreren Tags gleichen Typs ist nicht möglich  
    - iterieren über mehrere Tags ist nicht möglich
- Keine spezifischere Suche über CSS-Selektoren, wie Klassen der ID's möglich

In [13]:
# Suchen von Tags
from bs4 import BeautifulSoup

markup = "<p>Das <b>Suchen von Tags</b> ist eine sehr einache Methode die einige Einschränkungen hat.</p><p>Es wird bspw. immer nur der erste gefundene Tag im DOM zurückgegeben</p>"
soup = BeautifulSoup(markup, "html.parser")

print(soup.p)
print(soup.p.b)

<class 'bs4.element.Tag'>
<p>Das <b>Suchen von Tags</b> ist eine sehr einache Methode die einige Einschränkungen hat.</p>
<b>Suchen von Tags</b>


## Suche mit ```.find_all()```

- suchen von Tags mit spezifischen Eigenschaften
- Es können CSS Klassen, Id's und andere Eigenschaften zur Suche verwendet werden
- Liefert eine Liste von Resultaten 
    - gibt eine leere Liste zurück, wenn kein Element die Kriterien erfüllt
    - Jedes Element der Liste ist wiederrum ein Tag der weiter durchsucht oder extrahiert werden kann
- die Methode ```find()``` funktioniert gleich aber liefert wieder nur ein Element zurück
    - treffen die Kriterien auf mehrere Elemente zu wird das erste zurückgegeben
    - treffen die Kriterien auf keines der Elemente zu wird ```None``` zurückgegeben

 
**Vorteile**
- feingranulare und gut lesbare Kriterien zur Suche der Tags
- findet alle auf der Website befindlichen Elemente auf welche die Kriterien zutreffen
- ermöglicht die Suche nach bestimmten String im HTML Dokument und sucht die entsprechenden HTML Tags 

**Nachteile**
- um Tags ohne spezifische Id's oder eindeutige Klassen zu suchen, muss die ```.find_all()``` Methode mehrfach mit angepassten Kriterien ausgeführt werden 

In [6]:
markup = """<body>
            <h1 class='text-bold'>CSS-Selektoren</h1>
            <p class='text-bold'>CSS-Selektoren ermöglichen das identifizieren von <a href='#'>HTML</a> Elementen</p>
            <p id='paragraph' class='text-underline'>Es können Tags, Klassen und Id`s genutzt werden</p>
            </body>"""
soup = BeautifulSoup(markup, "html.parser")
    
print(soup.find_all("h1"))
print(soup.find_all(["h1", "a"]))
print(soup.find_all("p", class_="text-bold"))
print(soup.find_all("p", "text-bold"))
print(soup.find_all(id="paragraph"))
print(soup.find_all(href=True))
print(soup.find_all(href="#"))
print(soup.find_all("a", string="HTML"))

[<h1 class="text-bold">CSS-Selektoren</h1>]
[<h1 class="text-bold">CSS-Selektoren</h1>, <a href="#">HTML</a>]
[<p class="text-bold">CSS-Selektoren ermöglichen das identifizieren von <a href="#">HTML</a> Emelenten</p>]
[<p class="text-bold">CSS-Selektoren ermöglichen das identifizieren von <a href="#">HTML</a> Emelenten</p>]
[<p class="text-underline" id="paragraph">Es können Tags, Klassen und Id`s genutzt werden</p>]
[<a href="#">HTML</a>]
[<a href="#">HTML</a>]
[<a href="#">HTML</a>]


## Exkurs CSS-Selektoren

- genutzt um HTML Elemente zu selektieren um deren Gestaltung anzupassen
- Unterscheidung in Tags, Klassen, Id's und Pseudeoklassen
    - Kombinationen und erweiterte synatktische Methoden zur Selekion   

```html
<!DOCTYPE html>
<html lang="de">
    <head>
        <style type="style/css">
            p {
                color: rgb(50, 50, 50);
                font-size: medium;
            }
            h1 {
                font-size: large;
            }
            #paragraph {
                font-weight: lighter;
            }
            .text-bold {
                font-weight: bold;
            }
            p.text-bold {
                text-decoration: underline;
            }
        </style>
    </head>
    <body>
        <h1 class="text-bold">CSS-Selektoren</h1>
        <p class="text-bold">CSS-Selektoren ermöglichen das identifizieren von HTML Elementen</p>
        <p id="paragraph">Es können Tags, Klassen und Id's genutzt werden</p>
    </body>
</html>
```

### CSS-Selektoren und mögliche Kombination
<table style="float:left; font-size:1.1em" >
    <thead>
        <tr>
            <th>Selektor</th>
            <th>Beispiel</th>
            <th>Erklärung</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>.class</td>
            <td><code>.intro</code></td>
            <td>selektiert alle Tags mit class="intro"</td>
        </tr>
        <tr>
            <td>.class.class</td>
            <td><code>.name1.name2</code></td>
            <td>selektiert alle Tags mit den Klassen .name1 und .name2 (class=".name1.name2")</td>
        </tr>
        <tr>
            <td>.class .class</td>
            <td><code>.name1 .name2</code></td>
            <td>selektiert alle Kindtags mit class="name2" bei deren Elterntag class="name1"</td>
        </tr>
        <tr>
            <td>#id</td>
            <td><code>#intro</code></td>
            <td>selektiert alle Tags mit id="intro"</td>
        </tr>
        <tr>
            <td>tag</td>
            <td><code>p</code></td>
            <td>selektiert alle &lt;p&gt; Tags</td>
        </tr>
        <tr>
            <td>tag.class</td>
            <td><code>p.intro</code></td>
            <td>selektiert alle &lt;p&gt; Tags mit class="intro"</td>
        </tr>
        <tr>
            <td>tag,tag</td>
            <td><code>div, p</code></td>
            <td>selektiert alle &lt;div&gt; und &lt;p&gt; Elemente</td>
        </tr>
        <tr>
            <td>tag tag</td>
            <td><code>div p</code></td>
            <td>selektiert alle &lt;p&gt; Tags inherhalb von &lt;p&gt; Tags</td>
        </tr>
        <tr>
            <td>tag+tag</td>
            <td><code>div + p</code></td>
            <td>selectiert das erste &lt;p&gt; Tag das im DOM direkt nach einem &lt;div&gt; Tag kommen</td>
        </tr>
        <tr>
            <td>tag>tag</td>
            <td><code>div > p</code></td>
            <td>selektiert alle &lt;p&gt; Tags deren Elterntags ein &lt;div&gt; ist</td>
        </tr>
        <tr>
            <td>[attribute]</td>
            <td><code>[href]</code></td>
            <td>selektiert alle Tags die das href Attribut aufweisen</td>
        </tr>
        <tr>
            <td>element[attribute="value"]</td>
            <td><code>a[target="_blank"]</code></td>
            <td>selektiert alle  &lt;a&gt; Tags mit dem Attribut target="_blank"</td>
        </tr>
        <tr>
            <td>element:pseudoclass</td>
            <td><code>p:first-child</code></td>
            <td>selektiert jedes &lt;p&gt; Tag, wenn es das Erste innerhalb seines Elterntags ist</td>
        </tr>
    </tbody>
</table>

## Suche mit ```.select()```

- sucht alle Tags mit Hilfe von CSS-Selektoren
- Liefert eine Liste von Resultaten 
    - gibt eine leere Liste zurück, wenn kein Element gefunden wird
    - jedes Element der Liste ist wiedrum ein Tag der weiter durchsucht werden kann
- die Methode ```.select_one()``` kann wieder zum suchen einzlner Tags genutzt werden

**Vorteile**
- Elemente können auch anhand ihrer Position im DOM gesucht werden
    - Elemente ohne spezifische Eigenschaften können mit einem Methdenaufruf gesucht weden  

**Nachteile**
- langsamer als ```.find_all()```
- schwerer lesbar

In [5]:
markup = """<body>
            <h1 class='text-bold'>CSS-Selektoren</h1>
            <p class='text-bold'>CSS-Selektoren ermöglichen das identifizieren von <a href='#'>HTML</a> Elementen</p>
            <p id='paragraph'>Es können Tags, Klassen und Id`s genutzt werden</p>
            </body>"""
soup = BeautifulSoup(markup, "html.parser")

print(soup.select("h1"))
print(soup.select("h1, a"))
print(soup.select("h1, a"))
print(soup.select("p.text-bold"))
print(soup.select("#paragraph"))
print(soup.select("[href]"))
print(soup.select("[href='#']"))

[<h1 class="text-bold">CSS-Selektoren</h1>]
[<h1 class="text-bold">CSS-Selektoren</h1>, <a href="#">HTML</a>]
[<h1 class="text-bold">CSS-Selektoren</h1>, <a href="#">HTML</a>]
[<p class="text-bold">CSS-Selektoren ermöglichen das identifizieren von <a href="#">HTML</a> Emelenten</p>]
[<p id="paragraph">Es können Tags, Klassen und Id`s genutzt werden</p>]
[<a href="#">HTML</a>]
[<a href="#">HTML</a>]
