# Objektorientiert

## Aufgabe: Crawler

**Aufgabe:**

- Passe den ArticleFetcher so an, dass er die Informationen aus allen Seiten extrahiert

Hier nochmal die URL: http://python.beispiel.programmierenlernen.io/index.php

**Tipps:**

- Schau dir zuerst an, wie du den Button "Zur nächsten Seite" ansteuern kannst.
- Wie greifst du von Python aus auf das "href" - Attribut dieses Buttons zu?
- (Optional): Probier ggf. zuerst, nur die Infos der ersten 2 Seiten zu holen. Kannst du darauf aufbauend das Programm verallgemeinern, so dass es alle Seiten einliest?
- Du kannst dich daran orientieren, ob es einen "Zur nächsten Seite"-Button gibt, oder nicht. Wenn es diesen Button nicht mehr gibt, bist du auf der letzten Seite angelangt. Welcher Schleifentyp bietet sich hier an, wenn du die Schleife erst dann stoppen willst, wenn es den Button nicht mehr gibt?

In [10]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import time  # Timer, um die Webseite bei einer Schleife vor versehentlichem request-spam zu schützen.

In [43]:
class CrawledArticle():  # Damit wird ein Artikel durch den ArticleFetcher gespeichert
    def __init__(self, title, emoji, content, image):
        self.title = title
        self.emoji = emoji
        self.content = content
        self.image = image
        
class ArticleFetcher():
    def fetch(self):
        url = "http://python.beispiel.programmierenlernen.io/index.php"
        articles = []

        while url != "":
            print(url)
            time.sleep(1)  # Hält das Programm für eine Sekunde an
            r = requests.get(url)
            page = BeautifulSoup(r.text, "html.parser")
            
            for card in page.select(".card"):
                title = card.select(".card-title span")[1].text
                emoji = card.select_one(".emoji").text
                content = card.select_one(".card-text").text
                image = urljoin(url, card.select_one("img").attrs["src"])
                
                crawled = CrawledArticle(title, emoji, content, image)
                articles.append(crawled)        
            
            next_button = page.select_one(".navigation .btn")
            if next_button:
                next_page = next_button.attrs["href"]
                next_page = urljoin(url, next_page)
                url = next_page
            else:
                url = ""
    
        return articles

In [44]:
fetcher = ArticleFetcher()
articles = fetcher.fetch()

for article in articles:
    print(article)
    print(article.emoji + " - " + article.title)
    print(article.content + article.image)
    print()

http://python.beispiel.programmierenlernen.io/index.php
http://python.beispiel.programmierenlernen.io/index.php?page=2
http://python.beispiel.programmierenlernen.io/index.php?page=3
http://python.beispiel.programmierenlernen.io/index.php?page=4
http://python.beispiel.programmierenlernen.io/index.php?page=5
http://python.beispiel.programmierenlernen.io/index.php?page=6
<__main__.CrawledArticle object at 0x0000017BAD4FD5B0>
😩 - Polarised modular conglomeration
Optio numquam ut accusantium laborum unde assumenda. Ea et totam asperiores fugiat voluptatem vitae. Et provident nam et mollitia.http://python.beispiel.programmierenlernen.io/img/1.jpg

<__main__.CrawledArticle object at 0x0000017BAD4FD610>
😐 - Cross-group contextually-based middleware
Deleniti atque autem et commodi cupiditate cupiditate. Fuga illum quas aliquam velit. Labore dolor fugit quia id odio nam.http://python.beispiel.programmierenlernen.io/img/2.jpg

<__main__.CrawledArticle object at 0x0000017BAD4FD670>
😌 - De-engineer