# Anwendungsbeispiel: Nachrichten-Crawler

In diesem Beispiel wollen wir Nachrichten von der Webseite des Deutschlandfunk abrufen und indizieren.

In [131]:
import re

INDEX = dict()

def index(url, doc):
    
    for e in doc.xpath("//article[@class='dlf-articledetail']//div[@class='text']"):             
        for word in re.sub("[^\w]+", " ", e.text_content()).split():
            if word in INDEX:
                INDEX[word].add(url)
            else:
                INDEX[word] = { url }
                        

In [132]:
import requests 
import lxml.html as lh
from urllib.parse import urljoin

base = 'https://deutschlandfunk.de'
articles = set()

resp = requests.get(base)
if resp:
    doc = lh.fromstring(resp.content)
    for link in doc.xpath("//article//a"):
        href = urljoin(base, link.get('href'))
        if not href.startswith(base): continue
        articles.add(href)
        
for url in articles:
    print(f"crawling {url}")
    resp = requests.get(url)
    if resp:
        doc = lh.fromstring(resp.content)
        index(url, doc)

crawling https://deutschlandfunk.de/philosoph-celikates-zu-extinction-rebellion-klimaprotest.911.de.html?dram:article_id=461210
crawling https://deutschlandfunk.de/hans-blumenberg-posthum-der-preis-der-wahrheit.700.de.html?dram:article_id=460072
crawling https://deutschlandfunk.de/bolivien-morales-muss-vermutlich-in-die-stichwahl.1939.de.html?drn:news_id=1061430
crawling https://deutschlandfunk.de/armin-nassehi-muster-theorie-der-digitalen-gesellschaft-der.740.de.html?dram:article_id=461417
crawling https://deutschlandfunk.de/presseschau-aus-deutschen-zeitungen.2287.de.html
crawling https://deutschlandfunk.de/justin-trudeau-im-wahlkampf-mr-kanada-muss-kaempfen.724.de.html?dram:article_id=461430
crawling https://deutschlandfunk.de/protest-gegen-shell-konzern-will-alte-oelplattformen-im.697.de.html?dram:article_id=461322
crawling https://deutschlandfunk.de/gasometer-oberhausen-muss-renoviert-werden.732.de.html?dram:article_id=461127
crawling https://deutschlandfunk.de/herausforderungen-f

In [133]:
def search(phrase):
    hits = set()
    for word in (phrase.split() & INDEX.keys()):
        hits |= INDEX[word]
    
    return hits

In [134]:
#print(INDEX)

search('Brexit')
    

{'https://deutschlandfunk.de/abschluss-der-iwf-tagung-lob-zum-schluss.1766.de.html?dram:article_id=461438',
 'https://deutschlandfunk.de/britische-eu-abgeordnete-zum-brexit-aufschub-wir-brauchen.868.de.html?dram:article_id=461286',
 'https://deutschlandfunk.de/grossbritannien-wie-der-brexit-spaltet.1773.de.html?dram:article_id=461443',
 'https://deutschlandfunk.de/herausforderungen-fuer-die-weltwirtschaft-die-unsicherheit.720.de.html?dram:article_id=461442'}

In [None]:


help(links[0])

In [None]:
help(doc)

In [None]:
resp.url

In [None]:
for t in doc.itertext():
    print(t)