# Objektorientiert

## Aufgabe: Crawler

**Aufgabe:**

- Passe den ArticleFetcher so an, dass er die Informationen aus allen Seiten extrahiert

Hier nochmal die URL: http://python.beispiel.programmierenlernen.io/index.php

**Tipps:**

- Schau dir zuerst an, wie du den Button "Zur nächsten Seite" ansteuern kannst.
- Wie greifst du von Python aus auf das "href" - Attribut dieses Buttons zu?
- (Optional): Probier ggf. zuerst, nur die Infos der ersten 2 Seiten zu holen. Kannst du darauf aufbauend das Programm verallgemeinern, so dass es alle Seiten einliest?
- Du kannst dich daran orientieren, ob es einen "Zur nächsten Seite"-Button gibt, oder nicht. Wenn es diesen Button nicht mehr gibt, bist du auf der letzten Seite angelangt. Welcher Schleifentyp bietet sich hier an, wenn du die Schleife erst dann stoppen willst, wenn es den Button nicht mehr gibt?

In [15]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import time  # Timer, um die Webseite bei einer Schleife vor versehentlichem request-spam zu schützen.

In [16]:
class CrawledArticle():  # Damit wird ein Artikel durch den ArticleFetcher gespeichert
    def __init__(self, title, emoji, content, image):
        self.title = title
        self.emoji = emoji
        self.content = content
        self.image = image

class ArticleFetcher():
    def fetch(self):
        url = "http://python.beispiel.programmierenlernen.io/index.php"  # In Variable stecken, wenn mehrmals benutzt wird
        time.sleep(1)  # Hält das Programm für eine Sekunde an
        print(url)  # und danach wird diese Adresse abgefragt
        
        r = requests.get(url)
        page = BeautifulSoup(r.text, "html.parser")
        
        articles = []  # Speicher vorbereitet

        for card in page.select(".card"):
            title = card.select(".card-title span")[1].text
            emoji = card.select_one(".emoji").text
            content = card.select_one(".card-text").text
            image = urljoin(url, card.select_one("img").attrs["src"])  # hier mit urljoin sagen, dass das die relative adresse ist

            crawled = CrawledArticle(title, emoji, content, image)  # Daten vom ArticleFetcher in CrawledArticle laden
            articles.append(crawled)  # Daten vom ArticleFetcher in articles Speicher laden

        return articles

In [17]:
fetcher = ArticleFetcher()
articles = fetcher.fetch()

for article in articles:
    print(article.image)

http://python.beispiel.programmierenlernen.io/index.php
http://python.beispiel.programmierenlernen.io/img/1.jpg
http://python.beispiel.programmierenlernen.io/img/2.jpg
http://python.beispiel.programmierenlernen.io/img/3.jpg
http://python.beispiel.programmierenlernen.io/img/4.jpg
http://python.beispiel.programmierenlernen.io/img/5.jpg
http://python.beispiel.programmierenlernen.io/img/6.jpg
http://python.beispiel.programmierenlernen.io/img/7.jpg
