## Probleme mit relativen URLs

In dieser Lektion lernst du, wie du:

- mit Verlinkungen umgehen kannst
- es schaffst, die richtigen Bild-URLs zu ermitteln.

In [3]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

In [10]:
class CrawledArticle():
    def __init__(self, title, emoji, content, image):
        self.title = title
        self.emoji = emoji
        self.content = content
        self.image = image
        
class ArticleFetcher():
    def fetch(self):
        url = "http://python.beispiel.programmierenlernen.io/index.php"
        r = requests.get(url)
        doc = BeautifulSoup(r.text, "html.parser")
        
        articles = []
        for card in doc.select(".card"):
            emoji = card.select_one(".emoji").text
            content = card.select_one(".card-text").text
            title = card.select(".card-title span")[1].text
            image = urljoin(url, card.select_one("img").attrs["src"])

            crawled = CrawledArticle(title, emoji, content, image)
            articles.append(crawled)
        return articles

In [11]:
fetcher = ArticleFetcher()
articles = fetcher.fetch()

for article in articles:
    print(article.image)

http://python.beispiel.programmierenlernen.io/img/1.jpg
http://python.beispiel.programmierenlernen.io/img/2.jpg
http://python.beispiel.programmierenlernen.io/img/3.jpg
http://python.beispiel.programmierenlernen.io/img/4.jpg
http://python.beispiel.programmierenlernen.io/img/5.jpg
http://python.beispiel.programmierenlernen.io/img/6.jpg
http://python.beispiel.programmierenlernen.io/img/7.jpg


In [10]:
class CrawledApprenticeship():
    def __init__(self, profession, company, url, start, district, qualification, cident):
        self.profession = profession
        self.company = company
        self.url = url
        self.district = district
        self.qualification = qualification
        self.cident = cident
        
class ApprFetcher():
    def fetch(self):
        target = "https://www.lehrstelle-handwerk.de/ausbildung/lehrstellenboerse-praktikumsboerse/lehrstelle-suchen/list"
        rh = requests.get(target)
        site = BeautifulSoup(rh.text, "html.parser")
        apprenticeships = []
        for table in site.find_all("tbody"):
            profession = table.select_one(".lehrstellen").text
       
            for tr in table.find_all("tr"):

                if tr.select_one(".flush") == None:
                    continue
                else:

                    company = tr.select_one(".flush").text
                    url = urljoin("https://www.lehrstelle-handwerk.de", str(tr.select_one("a", href=True)['href']))
                    start =  tr.select_one("a").text
                    cident = str(url)[slice(86,str(url).find("?"))]
                    district = tr.select_one("td[data-label='Stadtteil']").text
                    qualification = tr.select_one("td[data-label='Abschluss']").text
                    
                    apprenticeships.append(CrawledApprenticeship(profession, company, url, start, district, qualification, cident))

                    
        return apprenticeships
    
fetcher = ApprFetcher()
apprs = fetcher.fetch()

for appr in apprs:
    print(appr.profession + " - " + appr.url)


 Anlagenmechaniker für Sanitär-, Heizungs- und Klimatechnik (m/w/d)  Einsatzgebiet: Erneuerbare Energien und Umwelttechnik  - https://www.lehrstelle-handwerk.de/ausbildung/lehrstellenboerse-praktikumsboerse/lehrstelle-suchen/beruf/firma/49066.14525?cHash=f3b8f3a8c019ec7e4078d4417cd650ee
 Anlagenmechaniker für Sanitär-, Heizungs- und Klimatechnik (m/w/d)  Einsatzgebiet: Erneuerbare Energien und Umwelttechnik  - https://www.lehrstelle-handwerk.de/ausbildung/lehrstellenboerse-praktikumsboerse/lehrstelle-suchen/beruf/firma/49984.14530?cHash=d14547bc5dd9bf32bd746badcdfef2f7
 Anlagenmechaniker für Sanitär-, Heizungs- und Klimatechnik (m/w/d)  Einsatzgebiet: Erneuerbare Energien und Umwelttechnik  - https://www.lehrstelle-handwerk.de/ausbildung/lehrstellenboerse-praktikumsboerse/lehrstelle-suchen/beruf/firma/49984.14531?cHash=9a1f0b7d3e371841aef6f5e8cafb44fb
 Anlagenmechaniker für Sanitär-, Heizungs- und Klimatechnik (m/w/d)  Einsatzgebiet: Erneuerbare Energien und Umwelttechnik  - https://ww