**Web Scraping und Data Mining in Python**

# Pandas Text und Data Munging

Jan Riebling, *University Wuppertal*

# Python I/O

## `file`-Objekte

Funktioniert wie `urlopen` aber spezifisch für Zugriffe auf das eigene Dateisystem.

Die Funktion `open(path, mode)` erlaubt Dateizugriff auf drei verschiedene Arten (`mode`):

* `r`: Lesezugriff.
* `w`: Schreibzugriff.
* `a`: Ans Ende der Datei anhängen.

In [1]:
text = 'Das ist ein Satz.\nDies hier auch.'

f = open('../fileIO.txt', 'w')

f.write(text)

f.close()

In [2]:
with open('fileIO.txt', 'r') as f:
    print(f.read())

Das ist ein Satz.
Dies hier auch.


## oder so...

In [None]:
%cat ../fileIO.txt

In [10]:
%pwd

'/home/jrriebling/git/WebScrapingWorkshop/Skripte'

In [9]:
text = !cat ../fileIO.txt

Liste = !dir /help

Liste

['01.Das\\ Medium\\ Data\\ Problem.ipynb',
 '02.Anaconda\\ Distribution.ipynb',
 '03.Jupyters\\ Infrastruktur.ipynb',
 '04.Wissenschaftliches\\ Schreiben.ipynb',
 '05.Primitive\\ Datentypen.ipynb',
 '06.Sequenzen\\ und\\ Container.ipynb',
 '07.Schleifen\\ und\\ logische\\ Bedingungen.ipynb',
 '08.Funktionen\\ und\\ Klassen.ipynb',
 '09.DataFrames\\ und\\ Serien.ipynb']

# Pandas I/O

## Allgemein

Pandas verfügt über eine Vielzahl von I/O Funktionen, die [hier](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) ausführlich beschrieben werden.

Allgemeines Schema:
    
* Einlesen: `pd.read_` + Name des Formats.
* Speichern: Datenobjekt + `.to_` + Name des Formats.

## `read_html`

Pandas bietet auch eine Funktion zum Einlesen und parsen von HTML an. Diese ist in der Lage HTML-Tabellen (`<table>`) zu lesen und gibt eine Liste von DataFrames zurück.

In [None]:
import pandas as pd

dfs = pd.read_html('https://de.wikipedia.org/wiki/Land_(Deutschland)', 
                   header=0,
                   decimal=',',
                   thousands='.')

df = dfs[0]

In [14]:
dfs[0]

Unnamed: 0,Wappen,Land,Abk.,Haupt­stadt,bevöl­kerungs-reichste Stadta,Beitrittzum Bund,Regierungs-chef,Regierungs-partei(en),Bundes­rats-stimmen,Fläche(km²)[12],Ein-wohner(Mio.)[12],Ein-wohnerje km²[12],Aus­länder(%)[13],Sprachen
0,,Baden-Württemberg,BW,Stuttgart,Stuttgart,1949[14],Winfried Kretschmann (Grüne),Grüne und CDU,6,35748,11.07,310,15.5,Deutsch
1,,Bayern,BY,München,München,1949,Markus Söder (CSU),CSU und Freie Wähler,6,70542,13.077,185,13.2,Deutsch
2,,Berlin,BE,—,—,1990[15],Franziska Giffey (SPD),"SPD, Linke und Grüne",4,891,3.645,4090,18.5,Deutsch
3,,Brandenburg,BB,Potsdam,Potsdam,1990,Dietmar Woidke (SPD),"SPD, CDU und Grüne",4,29654,2.512,85,4.7,"Deutsch, Niedersorbisch, Niederdeutsch"
4,,Bremen,HB,Bremen(de facto),Bremen,1949,Andreas Bovenschulte (SPD),"SPD, Grüne und Linke",3,419,0.683,1629,18.1,"Deutsch, Niederdeutsch"
5,,Hamburg,HH,—,—,1949,Peter Tschentscher (SPD),SPD und Grüne,3,755,1.841,2438,16.4,"Deutsch, Niederdeutsch"
6,,Hessen,HE,Wiesbaden,Frankfurt am Main,1949,Volker Bouffier (CDU),CDU und Grüne,5,21116,6.266,297,16.2,Deutsch
7,,Mecklenburg-Vorpommern,MV,Schwerin,Rostock,1990,Manuela Schwesig (SPD),SPD und Linke,3,23295,1.61,69,4.5,"Deutsch, Niederdeutsch"
8,,Niedersachsen,NI,Hannover,Hannover,1949,Stephan Weil (SPD),SPD und CDU,6,47710,7.982,167,9.4,"Deutsch, Saterfriesisch, Niederdeutsch"
9,,Nordrhein-Westfalen,NW,Düsseldorf,Köln,1949,Hendrik Wüst (CDU),CDU und FDP,6,34112,17.933,526,13.3,"Deutsch, Niederdeutsch"


# Beautiful Soup RegEx

## Syntax

Beautiful Soup erlaubt ebenfalls reguläre Ausdrücke beim Durchsuchen des Baumgraphens. Diese müssen vorher mit `re.compile` kompiliert werden.

In [17]:
import re
from bs4 import BeautifulSoup
from urllib.request import urlopen

def soupify(url, features='html5lib'):
    """Takes a URL, requests it and parses it through BeautifulSoup."""
    with urlopen(url) as response:
        html = response.read()
    soup = BeautifulSoup(html, features=features)
    return soup

In [None]:
## Beispiel

soup = soupify('https://www.spiegel.de/nachrichtenarchiv/artikel-01.01.2021.html')

In [28]:
articles = soup.find_all('article')

pattern = re.compile(r'^m-splus-.+')

[article.a['href'] for article in articles if not article.find(id=pattern)]

['https://www.spiegel.de/politik/deutschland/landtagswahlen-2021-in-thueringen-sachsen-anhalt-mecklenburg-vorpommern-instabile-verhaeltnisse-a-9fb3f53c-6ca6-472a-bcd0-3a040ba2786b',
 'https://www.spiegel.de/sport/darts-wm-2021-in-london-michael-van-gerwen-chancenlos-gegen-dave-chisnall-a-c0a1d985-d5e0-40ed-9e65-bae12b51d879',
 'https://www.spiegel.de/panorama/justiz/bosnien-herzegowina-acht-menschen-sterben-bei-silvesterparty-offenbar-an-gasvergiftung-a-c1fd420b-2371-4107-8e6d-51ecd260ca4a',
 'https://www.spiegel.de/ausland/belarussen-im-exil-die-sicherheitsleute-pruegelten-die-meisten-halb-tot-a-df0c3f86-d49b-46d2-9970-b32afb7b136d',
 'https://www.spiegel.de/panorama/justiz/frankreich-mann-auf-silvesterparty-erschossen-a-f258571a-4b21-4088-a9c1-6d300b2b428d',
 'https://www.spiegel.de/panorama/dortmund-experten-suchen-nach-schlange-in-mehrfamilienhaus-a-e35fb632-e859-4a8f-b323-1280d4317c00',
 'https://www.spiegel.de/ausland/gesetzespaket-zu-verteidigungshaushalt-us-kongress-ueberstimmt

# Pandas RegEx

## Text in pd.Series

* Pandas bietet eine die Möglichkeit Pythons String- und RgEx-Methoden über `Series`-objekte zu vektorisieren.
* [Übersicht](https://pandas.pydata.org/pandas-docs/stable/text.html) des generellen Vorgehens.
* [Auflistung](https://pandas.pydata.org/pandas-docs/stable/text.html#method-summary) der zur Verfügung stehenden Methoden. 
* Methoden an `.str` Attribut der Serie gebunden.

## Data munging / wrangling

Transformation von Rohdaten in ein statistisch/numerisch bearbeitbares Format sowie die dazugehörige Fehlerkorrektur.

In [6]:
## Making all the parties into seperate data points:
df['Regierungs-partei(en)']

NameError: name 'df' is not defined

In [48]:
parties = df['Regierungs-partei(en)']

#parties = parties.str.replace(' und', ',')
#parties.str.split(', ', expand=True)

parties.str.split(r', | und ', expand=True)

Unnamed: 0,0,1,2
0,Grüne,CDU,
1,CSU,,
2,SPD,Linke,Grüne
3,SPD,Linke,
4,SPD,Grüne,
5,SPD,Grüne,
6,CDU,Grüne,
7,SPD,CDU,
8,SPD,CDU,
9,CDU,FDP,


In [None]:
## Exercise: Count parties in federal government

parties.str.split(', ', expand=True)

# RegEx text mining example

## WoS data

Sample of Web of Science SSCI data on scientific publications.

In [30]:
wos_df = pd.read_csv('../Daten/SocWOSSample.csv', index_col=0)

wos_df

FileNotFoundError: [Errno 2] No such file or directory: '../Daten/SocWOSSample.csv'

## Tex mining

Extracting information from plain text data. In this exercise we will try to extract data from the cited references field (`CR`) an create a data set of citations containing:

* Author,
* Year and
* Publication where applicable.

In [142]:
## Exercise:
references = wos_df.CR.str.split('; ?', expand=True).stack()

#references

## Tests
#splits = wos_df.CR.str.split('; ?')
#splits[splits.apply(len) < 15].values

#references.str.extract(r'(?P<Author>.+?), ?(?P<Year>[0-9]{4})?')

#wos_df.CR.str.extractall(r'[;^] ?(?P<Author>.+?), ?(?P<Year>[0-9]{4})?')

wos_df.CR.str.extractall(r'DOI ?(?P<DOI>.+?)[;$]')

Unnamed: 0_level_0,Unnamed: 1_level_0,DOI
Unnamed: 0_level_1,match,Unnamed: 2_level_1
2604,0,10.1086/230701
2604,1,10.1177/095001709591002
2604,2,10.1086/230371
2604,3,10.1086/228904
2604,4,10.2307/202051
2604,5,10.2307/2577190
2604,6,10.2307/2287448
2604,7,10.1037/h0034701
2604,8,10.1086/225469
2604,9,10.2307/2093761


## Fortgeschrittenes Beispiel

In [None]:
with open('../Daten/Fox_News_Network_MSNBC KW1.txt', 'r') as f:
    rawtext = f.read()

print(rawtext[:1000])

In [None]:
## Als pd.Series

text = pd.Series(rawtext)

text

In [None]:
import re
## Extraktion aller relevanter Dokumente

pattern = r'(Dokument [0-9]+ von [0-9]+\n.+?)(?=Dokument [0-9]+ von [0-9]+\n|$)'

df = text.str.extractall(pattern, re.DOTALL)

## Vorsicht: str.extractall gibt immer einen MultiIndex DataFrame zurück!

df

In [None]:
pattern = r'''Dokument (?P<DlNumbering>.+?)
              \n{3}(?P<Network>.+?)
              \n{2}(?P<AirDate>.+?)
              \n{2}SHOW:(?P<Show>.+?)(?P<AirTime>\ [0-9]+:[0-9]+\ \w{2}\ \w{3})
              .+?LENGTH:.+?
              \n{2,}
              (?P<Highlight>HIGHLIGHT: .+?\n{2})?
              (?:\[.+?\] )?(?P<Transcript>.+?)\n{2}?'''

df[0].str.extract(pattern, 
                  re.X | re.S,
                  expand=True)