## DataFrames

- In Python werden DataFrames nur über Zusatzpackages wie [Pandas](https://pandas.pydata.org/pandas-docs/stable/) - unterstützt. 
- Pandas ist eines der umfangreichsten Python Pakete.
- Beim Webscraping ist Pandas besonders für explorative Qualitätskontrollen der Daten und das abspeichern in gängigen Formaten nützlich.

In [2]:
import pandas as pd # import als 'pd' Kürzel für weniger Schreibarbeit

Diktionäre innerhalb von Listen können in Pandas über eine einzige Zeile Code in einen Datensatz transformiert werden, wobei die Keys als Spaltenbezeichnungen interpretiert werden. Als Beispiel lesen wir die verarbeiteten Daten aus der Grundlagenchallenge ein:

In [1]:
%cd "D:\datascraping\data"

[WinError 3] Das System kann den angegebenen Pfad nicht finden: 'D:\\datascraping\\data'
C:\Users\ekara\Documents\GitHub\python_data_scraping\notebooks


In [3]:
import json
with open('guardian_corona_parsed.json', 'r', encoding = 'utf-8') as f:
    guardian = json.load(f)
guardian[0].keys()

dict_keys(['id', 'section', 'url', 'title', 'text', 'chars', 'month', 'tags'])

In [None]:
df = pd.DataFrame(guardian)
df.info()

Ein paar gängige Pandas Befehle:

In [None]:
df['chars'].describe() # Mittelwert

In [None]:
df.section.value_counts()[:5] # Häufigkeitsauszählung

In [None]:
months = [2, 3] # februar und maerz
df[df.month.isin(months)].section.value_counts()[:5] # bedingte Häufigkeit

In [None]:
df.sort_values('month').head(3) # Sortierung über eine oder mehrere Variablen

In [None]:
df.text = df.text.str.lower() # String Funktionen
df.text.head()

Über die Pandas [IO Tools](https://pandas.pydata.org/pandas-docs/stable/io.html) können Datensätze in eine Vielzahl von Formaten exportiert werden:

In [None]:
df.to_excel('guardian_corona.xlsx', 
            encoding = 'utf-8', # Enkodierung
            index = False) # Index Spalte entfernen

# achtung: excel hat einschraenkungen wie z.b. maximale stringlaengen

In [None]:
df.to_csv('guardian_corona.csv', 
            encoding = 'utf-8',
            index = False)

Und wieder eingelesen werden:

In [None]:
df = pd.read_csv('guardian_corona.csv',
                encoding = 'utf-8')
df.head(3)

## API Basics

Wie API's funktionieren:

-  API steht für [Application Programming Interface](https://de.wikipedia.org/wiki/Programmierschnittstelle) (Programmierschnittstelle)
- Eine Vielzahl von Organisationen bieten API's an um Daten und Dienste verfügbar zu machen (Google, Facebook, Wikipedia, …)
- über API's können **strukturierte** Daten abgegriffen werden (oder gepostet werden, je nach Provider) 

- Für uns haben API's zwei entscheidende Vorteile:
    - Der Zugang ist legal und meist klar definiert (z.B. 10.000 Aufrufe pro Tag)
    - Wir müssen keine Scraping Techniken für **unstrukturierte Daten** (z.B. Webseiten) anwenden
    - Für einige API's gibt es Python Packages, die den Datenzugang vereinfachen
- Nachteile: 
     - Wir müssen lernen, wie die API funktioniert (einige Dokumentationen sind sehr gut, andere weniger)
     - Einige APIs verlangen Authentifizierung und / oder sind nicht kostenlos verfügbar

### API Zugriff über Pandas Datareader

Der Pandas Datareader ist eine Zusatzbibliothek, die zunächst installiert werden muss. Über das [magic command](http://ipython.readthedocs.io/en/stable/interactive/magics.html) `!` kann direkt die Shell (Eingabeaufforderung) des Betriebsystems angesprochen werden:

In [None]:
!pip install pandas-datareader --upgrade

- In der [Dokumentation des Pandas Data Readers](https://pandas-datareader.readthedocs.io/en/latest/remote_data.html#world-bank) ist z.B. beschrieben, wie man Daten aus der [World Bank API](http://data.worldbank.org/) abgreifen kann.
- Darüber hinaus können auch Daten von Quandl, OECD, MOEX, Eurostat und anderen Quellen abgegriffen werden.


In [None]:
from pandas_datareader import wb # importiert world bank zugang
search = wb.search('GDP.*current.*US') # suche nach keywords, ergebnis als data frame
search.head(10)

Wenn der gesuchte Indikator gefunden wurde, kann der entsprechende Datensatz über die API gezogen werden:

In [None]:
df = wb.download(indicator = 'NY.GDP.MKTP.CD', country = ['DE', 'FR', 'IT'],
                start = 2010, end = 2019)
df.info()

In [None]:
df.head(6) # Multi-index Datensatz, GDP in Trillionen USD

### Datenverarbeitung

Deskriptiva über gruppierten Datensatz:

In [None]:
df.groupby('country').describe()

Datenstruktur verändern:

In [None]:
df2 = df.reset_index() # indizes als variablen
df2.head()

In [None]:
df2.info()

In [None]:
df2.columns = ['country', 'year', 'gdp'] # spalten umbenennen
df2.year = df2.year.astype(int) # numerischer jahresindikator
df2.info()

### Datenvisualisierung

Um Grafiken innerhalb von Notebooks darzustellen muss zunächst einmalig der Befehl `%matplotlib inline` ausgeführt werden. Das Grafik Package [seaborn](https://seaborn.pydata.org/) kann anschließend für einfache Plots importiert werden. Die wichtigsten Funktionen des Pakets werden in [Online Tutorials](https://seaborn.pydata.org/tutorial.html) erklärt.

Seaborn falls notwendig innerhalb eines Notebooks installieren bzw. upgraden:

In [None]:
!pip install seaborn --upgrade

In [None]:
%matplotlib inline
import seaborn as sns
sns.set(style = 'whitegrid') # visualisierungsstil anpassen

In [None]:
sns.catplot(x = 'year', y = 'gdp', hue = 'country', 
            data = df2, height = 5, kind = 'point');

In [None]:
sns.barplot(x = 'country', y = 'gdp', data = df2);

In [None]:
sns.boxplot(x = 'country', y  = 'gdp', data = df2);

In [None]:
sns.lmplot(x = 'year', y = 'gdp', hue = 'country', data = df2);

### Übungsaufgabe 1

Sucht euch aus der Worldbank API ein Merkmal, das euch interessiert und zieht die Daten aus der API in einen DataFrame. Verwendet anschließend Deskriptiva und/oder einfache Plots, um die Daten zu betrachten. Speichert den Datensatz anschließend in einem Format eurer Wahl, z.B. `csv`, ab. 

*Hinweis: Nützlich für die Aufgabe könnten die Dokumentationen für die Plotting Funktionalität von [Seaborn](https://seaborn.pydata.org/tutorial.html) und [Pandas](https://pandas.pydata.org/pandas-docs/stable/visualization.html).*

In [None]:
# Code Übungsaufgabe 1

### Die Guardian API

- Die [Guardian API](http://open-platform.theguardian.com/explore/) ermöglicht es Metadaten und Volltext zu Artikeln aus der britischen Tageszeitung strukturiert (`JSON`) zu erfassen. 
- Die API hat verschiedene Endpoints (siehe Dokumentation), wobei wir uns hauptsächlich für `/content` interessieren.

In [None]:
%cd "D:\datascraping"

In [None]:
with open('keys/guardian_api.txt', 'r') as f:
    # encoding ist hier nicht relevant
    api_key = f.read()
print(api_key[:10])

Für die Kommunikation brauchen wir:
- die korrekte Basis URL
- ein entsprechend den API Vorgaben definiertes Set an Parametern, die bestimmen, was zurückgegeben wird.

In [None]:
base = 'http://content.guardianapis.com/search'
params = {'api-key': api_key, # API Authorisierung über Key
         'q':'volkswagen'} # Suchanfrage

Das Python Package [requests](http://docs.python-requests.org/en/master/) verarbeitet Base URL und Parameter (+ optional Header) automatisch zu einer validen [HTTP](https://de.wikipedia.org/wiki/Hypertext_Transfer_Protocol) Anfrage.

In [None]:
import requests
print(base)
print(params)
r = requests.get(base, params = params)
data = r.json()

In [None]:
len(data['response']['results'])

Der Python Code konvertiert zu einer URL:

In [None]:
r.url

[Status Code](https://de.wikipedia.org/wiki/HTTP-Statuscode) der HTTP Anfrage:

In [None]:
r.status_code

String Version der API Response:

In [None]:
r.text[:200]

JSON Version (Diktionär) der API Response:

In [None]:
data = r.json()
data['response'].keys()

In [None]:
from pprint import pprint
pprint(data['response']['results'][0])

### Übungsaufgabe 2

- Wie viele Artikel wurden über die obige Anfrage ausgegeben?
- Macht euch mit der [Online Dokumentation](https://open-platform.theguardian.com/documentation/) der API vertraut.
    - Findet einen Weg, mehr Artikel pro Anfrage abzurufen
    - Findet einen Weg, Artikel Volltexte abzurufen
    - Schreibt eine Funktion, in der die API angesteuert wird. Input der Funktion soll ein Suchstring (Parameter `q`) sein. Der Output soll eine Liste mit Diktionären zu den zugehörigen Artikeln (inklusive Volltexte) beinhalten. 

In [None]:
# Code Übungsaufgabe 2

### Pagination

- Bei vielen API's ist es trotz einer Erhöhung der maximalen Rückgabe an Dokumenten bei größeren Datenmengen nicht möglich, alle Treffer auf einmal abzurufen.
- Stattdessen werden die Treffer über Pagination indexiert. Wir müssen demnach einen Weg finden, alle Pages programmatisch aufzurufen.

In [None]:
r = requests.get(base, params = params)
data = r.json()
data['response'].keys()

In [None]:
nr_pages =  data['response']['pages']
size = data['response']['pageSize'] 
page =  data['response']['currentPage']

# Python String Formatting
'Die letzte Anfrage lieferte insgesamt {} Artikel auf Seite {}, \
wobei insgesamt {} Pages verfügbar sind.'.format(size, page, nr_pages)

Eine Möglichkeit um für die TheGuardian API alle Pages aufzurufen:

In [None]:
import time # Paket um für Zeitintervalle und Datumsangaben

In [None]:
def get_guardian(query, 
                 hits = 200, # Wert von 200 wenn kein Input übergeben wird
                 max_hits = 1000): # maximale Anzahl an Artikeln
    base = 'http://content.guardianapis.com/search'
    params = {'api-key': api_key, 'q': query, 'show-fields': 'all',
              'page': 1, # beginn auf seite 1
              'page-size': hits # artikel pro seite
            
             }
    
    articles = []
    r = requests.get(base, params = params)
    resp = r.json()['response']
    pages = resp['pages']
    # anzahl der pages feststellen
    data = resp['results']
    print('Total matches: ' + str(resp['total']))
    print('Current page: '+ str(resp['currentPage']))
    articles += data
    # daten aus aktueller anfrage in liste schieben
    
    for p in range(2, pages + 1):
        print(p)
        # über alle pages iterieren
        time.sleep(1)
        # nach jeder anfrage eine sekunde warten
        params['page'] = p
        # page parameter updaten
        r = requests.get(base, params = params)
        resp = r.json()['response']
        print('Current page: '+ str(resp['currentPage']))
        data = resp['results']
        articles += data
        if len(articles) >= max_hits: # abbruchkriterium
            break
        # daten aus aktueller anfrage in liste schieben
    return articles 

In [None]:
articles = get_guardian('trump', max_hits = 500)

In [None]:
pprint(articles[0])

## Die Twitter API

- Für die [Twitter API](https://developer.twitter.com/en/docs) gibt es bereits spezielle Python Packages, sodass wir nicht "manuell" requests erstellen müssen. 
- Ein sehr gutes Package ist `python-twitter`:
http://python-twitter.readthedocs.io/en/latest/getting_started.html
- Um das Paket zu nutzen muss es zunächst installiert werden.

In [None]:
!pip install python-twitter --upgrade

Für den Zugang zur Twitter API werden mehrere Keys benötigt, welche erst nach der Erstellung einer Twitter App verfügbar sind (Anleitung siehe [hier](https://github.com/cschwem2er/python_data_scraping/raw/master/setup/twitter_api_access.pdf)).

In [None]:
%cd "D:\datascraping"

Nach erfolgreicher Erstellung einer App empfiehlt es sich, die zugehörigen Twitter Credentials (consumer key etc.) in einer Textdatei abzulegen. Anschließend können diese wieder eingelesen werden:

In [None]:
with open('keys/twitter_api.txt', 'r') as f:
    keys = f.read().split() # split ueber zeilenumbrueche

keys[0][:10] # 10 Zeichen des consumer keys

Wir speichern die Authentifizierung im Objekt `api`. Der Zusatzparameter `tweet_mode = 'extended'` ermöglicht es, die vollen Texte von Tweets abzugreifen, die länger als 140 Zeichen sind (siehe [hier](https://developer.twitter.com/en/docs/tweets/tweet-updates)).

In [None]:
import twitter # nicht import python-twitter!
api = twitter.Api(consumer_key = keys[0] ,
                  consumer_secret = keys[1],
                  access_token_key = keys[2],
                  access_token_secret = keys[3],
                  tweet_mode = 'extended', # tweets mit > 140 zeichen abgreifen
                  sleep_on_rate_limit = True) # bei rate limit abwarten

Suchanfrage nach Begriffen oder Hashtags (auf Tweets aus den [vergangenen sieben Tagen](https://developer.twitter.com/en/docs/tweets/search/overview/standard.html) beschränkt):

In [None]:
got = api.GetSearch('#gameofthrones', # suchbegriff
                       count = 100) # maximale trefferanzahl

Tweets werden als spezielle Objekte gespeichert, bei denen einzelnen Attribute über Methodenaufrufe ausgelesen werden.

In [None]:
example_tweet = got[0]
type(example_tweet)

In [None]:
print('id:', example_tweet.id)
print('Text:', example_tweet.full_text) # key 'text' wenn tweet_mode != 'extended'
print('Hashtags:', example_tweet.hashtags)
print('Media:', example_tweet.media)
print('Date:', example_tweet.created_at)
print('Language:', example_tweet.lang)
print('Retweets:', example_tweet.retweet_count)

Alternativ können Tweet Objekte in ein konventionelles Python Diktionär überführt werden:

In [None]:
example_tweet.AsDict()

### Übungsaufgabe 3

Macht euch mit der Twitter API und der Dokumentation des python-twitter Packages vertraut. Findet heraus wie man:
   
   - gezielt einzelne Tweets abgreift (z.B: [Audi Tweet](https://twitter.com/Audi/status/1260266468869996544))
   - mehrere Tweets eines bestimmten Nutzers (z.B. [Jan Böhmermann](https://twitter.com/janboehm)) abgreift 
   - Die Twitter Daten in einen Pandas Datensatz überführt

In [None]:
# Code Übungsaufgabe 3

<br>
<br>


___

                
**Kontakt: Carsten Schwemmer** (Webseite: www.carstenschwemmer.com,  Email: c.schwem2er@gmail.com)