**Web Scraping und Data Mining in Python**

# Pandas Text und Data Munging

Jan Riebling, **University Wuppertal**

# Python I/O

## `file`-Objekte

Funktioniert wie `urlopen` aber spezifisch für Zugriffe auf das eigene Dateisystem.

Die Funktion `open(path, mode)` erlaubt Dateizugriff auf drei verschiedene Arten (`mode`):

* `r`: Lesezugriff.
* `w`: Schreibzugriff.
* `a`: Ans Ende der Datei anhängen.

In [1]:
text = 'Das ist ein Satz.\nDies hier auch.'

f = open('../fileIO.txt', 'w')

f.write(text)

f.close()

In [2]:
with open('../fileIO.txt', 'r') as f:
    print(f.read())

Das ist ein Satz.
Dies hier auch.


## oder so...

In [5]:
%cat ../fileIO.txt

Das ist ein Satz.
Dies hier auch.

In [4]:
text = !cat ../fileIO.txt

text

['Das ist ein Satz.', 'Dies hier auch.']

# Pandas I/O

## Allgemein

Pandas verfügt über eine Vielzahl von I/O Funktionen, die [hier]() ausführlich beschrieben werden.

Allgemeines Schema:
    
* Einlesen: `pd.read_` + Name des Formats.
* Speichern: Datenobjekt + `.to_` + Name des Formats.

## `read_html`

Pandas bietet auch eine Funktion zum Einlesen und parsen von HTML an. Diese ist in der Lage HTML-Tabellen (`<table>`) zu lesen und gibt eine Liste von DataFrames zurück.

In [38]:
import pandas as pd

dfs = pd.read_html('https://de.wikipedia.org/wiki/Land_(Deutschland)', 
                   header=0,
                   decimal=',',
                   thousands='.')

df = dfs[0]
df

Unnamed: 0,Wappen,Land,Kürzel,Hauptstadt,Beitrittzum Bund,Regierungs-chef,Regierungs-partei(en),Bundesrats-stimmen,Fläche(km²)[12],Ein-wohner(Mio.)[12],Ein-wohnerje km²[12],Ausländer(%)[13],Sprachen
0,,Baden-Württemberg,BW,Stuttgart,1949[14],Winfried Kretschmann (Grüne),Grüne und CDU,6,35751,10.88,304,14.2,Deutsch
1,,Bayern,BY,München,1949,Markus Söder (CSU),CSU,6,70550,12.844,182,12.3,Deutsch
2,,Berlin,BE,—,1990[15],Michael Müller (SPD),"SPD, Linke und Grüne",4,892,3.52,3948,16.3,Deutsch
3,,Brandenburg,BB,Potsdam,1990,Dietmar Woidke (SPD),SPD und Linke,4,29654,2.485,84,3.6,"Deutsch, Niedersorbisch, Niederdeutsch"
4,,Bremen,HB,Bremen (de facto),1949,Carsten Sieling (SPD),SPD und Grüne,3,420,0.671,1599,15.9,"Deutsch, Niederdeutsch"
5,,Hamburg,HH,—,1949,Peter Tschentscher (SPD),SPD und Grüne,3,755,1.787,2366,15.4,"Deutsch, Niederdeutsch"
6,,Hessen,HE,Wiesbaden,1949,Volker Bouffier (CDU),CDU und Grüne,5,21115,6.176,293,15.1,Deutsch
7,,Mecklenburg-Vorpommern,MV,Schwerin,1990,Manuela Schwesig (SPD),SPD und CDU,3,23212,1.612,69,4.0,"Deutsch, Niederdeutsch"
8,,Niedersachsen,NI,Hannover,1949,Stephan Weil (SPD),SPD und CDU,6,47593,7.927,167,8.4,"Deutsch, Saterfriesisch, Niederdeutsch"
9,,Nordrhein-Westfalen,NW,Düsseldorf,1949,Armin Laschet (CDU),CDU und FDP,6,34113,17.866,524,12.7,"Deutsch, Niederdeutsch"


# Beautiful Soup RegEx

## Syntax

Beautiful Soup erlaubt ebenfalls reguläre Ausdrücke beim Durchsuchen des Baumgraphens. Diese müssen vorher mit `re.compile` kompiliert werden.

In [7]:
import re
from bs4 import BeautifulSoup

def soupify(url, features='html5lib'):
    """Takes a URL, requests it and parses it through BeautifulSoup."""
    with urlopen('https://blog.soziologie.de/') as response:
        html = response.read()
    soup = BeautifulSoup(html, features=features)
    return soup

In [8]:
## Beispiel

# Pandas RegEx

## Text in pd.Series

* Pandas bietet eine die Möglichkeit Pythons String- und RgEx-Methoden über `Series`-objekte zu vektorisieren.
* [Übersicht](https://pandas.pydata.org/pandas-docs/stable/text.html) des generellen Vorgehens.
* [Auflistung](https://pandas.pydata.org/pandas-docs/stable/text.html#method-summary) der zur Verfügung stehenden Methoden. 
* Methoden an `.str` Attribut der Serie gebunden.

## Data munging / wrangling

Transformation von Rohdaten in ein statistisch/numerisch bearbeitbares Format sowie die dazugehörige Fehlerkorrektur.

In [6]:
## Making all the parties into seperate data points:
df['Regierungs-partei(en)']

NameError: name 'df' is not defined

In [48]:
parties = df['Regierungs-partei(en)']

#parties = parties.str.replace(' und', ',')
#parties.str.split(', ', expand=True)

parties.str.split(r', | und ', expand=True)

Unnamed: 0,0,1,2
0,Grüne,CDU,
1,CSU,,
2,SPD,Linke,Grüne
3,SPD,Linke,
4,SPD,Grüne,
5,SPD,Grüne,
6,CDU,Grüne,
7,SPD,CDU,
8,SPD,CDU,
9,CDU,FDP,


In [None]:
## Exercise: Count parties in federal government

parties.str.split(', ', expand=True)

# RegEx text mining example

## WoS data

Sample of Web of Science SSCI data on scientific publications.

In [69]:
wos_df = pd.read_csv('Data/SocWOSSample.csv', index_col=0)

wos_df

Unnamed: 0,AU,PY,J9,CR,AB,TC
2604,"Hansen, MN",2001.0,WORK EMPLOY SOC,"HANSEN MN, 2001, EUROPEAN SOCIOLOGICA; Hansen ...",Education in law in Norway must be characteris...,2.0
1560,"Savage, M; Warde, A; Devine, F",2005.0,BRIT J SOCIOL,"Bennett T, 2005, BRIT J SOCIOL, V56, P141, DOI...",This paper explores the potential of Bourdieu'...,13.0
1661,"Connolly, P; Healy, J",2004.0,BRIT J SOCIOL,"CONNOLLY P, 2004, BOYS SCH EARLY YEARS; MURTAG...",This article focuses on the experiences of 7-8...,6.0
1143,"Donaghey, J; Cullinane, N; Dundon, T; Wilkinso...",2011.0,WORK EMPLOY SOC,"WILKINSON A, 2010, OXFORD HDB PARTICIPA, P3; B...",A growing literature has emerged on employee s...,0.0
337,"Andres, HJ; Seeck, T",2007.0,KOLNER Z SOZIOL SOZ,"Scruggs L, 2006, J EUR SOC POLICY, V16, P55, D...",The article tests the hypothesis that welfare ...,3.0
2341,"Schofield, B",2002.0,SOCIOLOGY,"WILKSHEEG S, 2000, MAINSTREAMING REGENE; LATOU...",The language of community is widely diffused i...,14.0
3358,"Krappmann, L",1999.0,BERL J SOZIOL,"GRUNDMANN M, 1999, KONSTRUKTIVISTISCHE; LEU HR...",Every four years the German Federal Government...,0.0
3019,"Neal, M; Morgan, J",2000.0,EUR SOCIOL REV,"*EUR, 1998, COMM DG 15 FREE MOV, P1; MORGAN J,...",The concept of 'professionalization' is common...,9.0
4050,"Need, A; DeGraaf, ND",1996.0,EUR SOCIOL REV,"BECKER JW, 1994, SECULARISATIE NEDERL; BECKER ...","In this article, we examine the influence of i...",20.0
289,"Payne, G",2007.0,SOCIOLOGY,"ADAMS L, 2006, 42 EOC; BREWER M, 2006, POVERTY...","As sociology diversified, and under other acad...",7.0


## Tex mining

Extracting information from plain text data. In this exercise we will try to extract data from the cited references field (`CR`) an create a data set of citations containing:

* Author,
* Year and
* Publication where applicable.

In [142]:
## Exercise:
references = wos_df.CR.str.split('; ?', expand=True).stack()

#references

## Tests
#splits = wos_df.CR.str.split('; ?')
#splits[splits.apply(len) < 15].values

#references.str.extract(r'(?P<Author>.+?), ?(?P<Year>[0-9]{4})?')

#wos_df.CR.str.extractall(r'[;^] ?(?P<Author>.+?), ?(?P<Year>[0-9]{4})?')

wos_df.CR.str.extractall(r'DOI ?(?P<DOI>.+?)[;$]')

Unnamed: 0_level_0,Unnamed: 1_level_0,DOI
Unnamed: 0_level_1,match,Unnamed: 2_level_1
2604,0,10.1086/230701
2604,1,10.1177/095001709591002
2604,2,10.1086/230371
2604,3,10.1086/228904
2604,4,10.2307/202051
2604,5,10.2307/2577190
2604,6,10.2307/2287448
2604,7,10.1037/h0034701
2604,8,10.1086/225469
2604,9,10.2307/2093761


## Fortgeschrittenes Beispiel

In [None]:
with open('../Daten/Fox_News_Network_MSNBC KW1.txt', 'r') as f:
    rawtext = f.read()

print(rawtext[:1000])

In [None]:
## Als pd.Series

text = pd.Series(rawtext)

text

In [None]:
import re
## Extraktion aller relevanter Dokumente

pattern = r'(Dokument [0-9]+ von [0-9]+\n.+?)(?=Dokument [0-9]+ von [0-9]+\n|$)'

df = text.str.extractall(pattern, re.DOTALL)

## Vorsicht: str.extractall gibt immer einen MultiIndex DataFrame zurück!

df

In [None]:
pattern = r'''Dokument (?P<DlNumbering>.+?)
              \n{3}(?P<Network>.+?)
              \n{2}(?P<AirDate>.+?)
              \n{2}SHOW:(?P<Show>.+?)(?P<AirTime>\ [0-9]+:[0-9]+\ \w{2}\ \w{3})
              .+?LENGTH:.+?
              \n{2,}
              (?P<Highlight>HIGHLIGHT: .+?\n{2})?
              (?:\[.+?\] )?(?P<Transcript>.+?)\n{2}?'''

df[0].str.extract(pattern, 
                  re.X | re.S,
                  expand=True)