# Webdaten via Requests abfragen

Wir sehen uns in diesem Notebook an, wie wir mit Python Webseiten abrufen und die Daten verarbeiten können.

Die Python-Request-Bibliothek vereinfacht HTTP-Anfragen wie das Abrufen von Informationen von Websites, das Senden von Informationen, das Herunterladen von Bildern, das Verfolgen von Umleitungen und vieles mehr.

In [1]:
!pip install requests



In [2]:
import requests

Wir werden Inhalte von https://www.imgur.com beziehen, einer Website für lizenzfreie Bilder.

In [3]:
r = requests.get('https://www.imgur.com')
print(r)

<Response [200]>


Ein Antwortcode von 200 entspricht einer erfolgreichen Anfrage. Wir können alle Methoden und Attribute, die Objekten in Python zur Verfügung stehen, mit 'dir()' einsehen. Wenden wir 'dir()' auf unser Antwortobjekt an:

In [4]:
print(dir(r))

['__attrs__', '__bool__', '__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__enter__', '__eq__', '__exit__', '__format__', '__ge__', '__getattribute__', '__getstate__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__nonzero__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', '_content', '_content_consumed', '_next', 'apparent_encoding', 'close', 'connection', 'content', 'cookies', 'elapsed', 'encoding', 'headers', 'history', 'is_permanent_redirect', 'is_redirect', 'iter_content', 'iter_lines', 'json', 'links', 'next', 'ok', 'raise_for_status', 'raw', 'reason', 'request', 'status_code', 'text', 'url']


Wir sehen, dass wir Dinge wie Kopfzeilen, json, Links, ok status, Statuscodes und vieles mehr haben. Für eine detailliertere Erläuterung der Attribute und Methoden eines Objekts können wir die Methode "help()" auf unser Objekt anwenden:

In [5]:
print(help(r))

Help on Response in module requests.models object:

class Response(builtins.object)
 |  The :class:`Response <Response>` object, which contains a
 |  server's response to an HTTP request.
 |  
 |  Methods defined here:
 |  
 |  __bool__(self)
 |      Returns True if :attr:`status_code` is less than 400.
 |      
 |      This attribute checks if the status code of the response is between
 |      400 and 600 to see if there was a client error or a server error. If
 |      the status code, is between 200 and 400, this will return True. This
 |      is **not** a check to see if the response code is ``200 OK``.
 |  
 |  __enter__(self)
 |  
 |  __exit__(self, *args)
 |  
 |  __getstate__(self)
 |  
 |  __init__(self)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __iter__(self)
 |      Allows you to use a response as an iterator.
 |  
 |  __nonzero__(self)
 |      Returns True if :attr:`status_code` is less than 400.
 |      
 |      This attribute checks if

Wir können den Text des Antwortobjekts mit dem Attribut "text" ausdrucken:

In [6]:
print(r.text)

<!doctype html> <html lang=en> <head> <meta charset=utf-8> <meta name=viewport content="width=device-width,initial-scale=1"> <meta name=description content="Find, rate and share the best memes and images. Discover the magic of the Internet at Imgur." data-react-helmet=true /> <meta name=copyright content="Copyright 2022 Imgur, Inc."/> <link rel=icon type=image/png href=https://s.imgur.com/images/favicon-32x32.png sizes=32x32> <link rel=icon type=image/png href=https://s.imgur.com/images/favicon-96x96.png sizes=96x96> <link rel=icon type=image/png href=https://s.imgur.com/images/favicon-16x16.png sizes=16x16> <link rel=apple-touch-icon-precomposed href=https://s.imgur.com/images/favicon-152.png> <meta name=msapplication-TileColor content=#2cd63c> <meta name=msapplication-TileImage content=https://s.imgur.com/images/favicon-144.png> <link rel=alternate media="only screen and (max-width: 640px)" href=https://m.imgur.com/ > <meta name=p:domain_verify content=834554521765408b9effdc758b69c5e

Wir sehen den HTML-Inhalt der Seite, die wir uns zuvor im Browser angesehen haben. Wir können diesen HTML-Text mit Tools wie BeautifulSoup weiter analysieren. Eine gute Einführung in BeautifulSoup finden Sie unter Einführung in Web Scraping mit BeautifulSoup: https://towardsdatascience.com/introduction-to-web-scraping-with-beautifulsoup-e87a06c2b857

Mehr dazu in einem folgenden Notebook.

Ziehen wir nun ein Bild von der Website.

Klicken Sie mit der rechten Maustaste auf das Bild und dann auf "Untersuchen"
Und kopieren den Link zum Bild.
https://i.imgur.com/oNapoer.jpeg


In [10]:
r = requests.get('https://i.imgur.com/oNapoer.jpeg')
print(r.content)

b'\xff\xd8\xff\xdb\x00C\x00\x08\x06\x06\x07\x06\x05\x08\x07\x07\x07\t\t\x08\n\x0c\x14\r\x0c\x0b\x0b\x0c\x19\x12\x13\x0f\x14\x1d\x1a\x1f\x1e\x1d\x1a\x1c\x1c $.\' ",#\x1c\x1c(7),01444\x1f\'9=82<.342\xff\xdb\x00C\x01\t\t\t\x0c\x0b\x0c\x18\r\r\x182!\x1c!22222222222222222222222222222222222222222222222222\xff\xc0\x00\x11\x08\x08\x00\x06\x00\x03\x01"\x00\x02\x11\x01\x03\x11\x01\xff\xc4\x00\x1c\x00\x00\x02\x03\x01\x01\x01\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x04\x05\x02\x03\x06\x01\x00\x07\x08\xff\xc4\x00O\x10\x00\x02\x01\x03\x03\x02\x05\x03\x01\x07\x03\x03\x02\x02\x00\x17\x01\x02\x03\x00\x04\x11\x05\x12!1A\x06\x13"Qa\x142q\x81\x15#B\x91\xa1\xb1\xc1\x07R\xd1$3br\xe1\xf0\x16C\xf1%4S\x82&c\x92\xa2\x17Ds\xb2\xd256T\x08t\xa3\xc2\xf2\xff\xc4\x00\x1a\x01\x01\x01\x01\x01\x01\x01\x01\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x02\x03\x04\x05\x06\xff\xc4\x001\x11\x01\x01\x00\x02\x02\x03\x00\x02\x01\x04\x01\x03\x03\x04\x03\x00\x00\x01\x02\x11!1\x03\x12A\x04Q"\x05\x132aq\x81\xa1\xc1\x91\xb1\xd1\x14#\

Wir können die Bytes aus dem Bild entnehmen und sie auf unserem Rechner speichern. Wir öffnen eine Datei namens "frau.png" im Modus "write bytes (wb)" und schreiben den Inhalt in die Datei.

In [11]:
with open('img.png', 'wb') as f:
    f.write(r.content)