**Web Scraping und Data Mining in Python**

# Pandas Text und Data Munging

Jan Riebling, *University Wuppertal*

# Python I/O

## `file`-Objekte

Funktioniert wie `urlopen` aber spezifisch für Zugriffe auf das eigene Dateisystem.

Die Funktion `open(path, mode)` erlaubt Dateizugriff auf drei verschiedene Arten (`mode`):

* `r`: Lesezugriff.
* `w`: Schreibzugriff.
* `a`: Ans Ende der Datei anhängen.

In [1]:
text = 'Das ist ein Satz.\nDies hier auch.'

f = open('../fileIO.txt', 'w')

f.write(text)

f.close()

In [2]:
with open('fileIO.txt', 'r') as f:
    print(f.read())

Das ist ein Satz.
Dies hier auch.


## oder so...

In [None]:
%cat ../fileIO.txt

In [10]:
%pwd

'/home/jrriebling/git/WebScrapingWorkshop/Skripte'

In [9]:
text = !cat ../fileIO.txt

Liste = !dir /help

Liste

['01.Das\\ Medium\\ Data\\ Problem.ipynb',
 '02.Anaconda\\ Distribution.ipynb',
 '03.Jupyters\\ Infrastruktur.ipynb',
 '04.Wissenschaftliches\\ Schreiben.ipynb',
 '05.Primitive\\ Datentypen.ipynb',
 '06.Sequenzen\\ und\\ Container.ipynb',
 '07.Schleifen\\ und\\ logische\\ Bedingungen.ipynb',
 '08.Funktionen\\ und\\ Klassen.ipynb',
 '09.DataFrames\\ und\\ Serien.ipynb']

# Pandas I/O

## Allgemein

Pandas verfügt über eine Vielzahl von I/O Funktionen, die [hier](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html) ausführlich beschrieben werden.

Allgemeines Schema:
    
* Einlesen: `pd.read_` + Name des Formats.
* Speichern: Datenobjekt + `.to_` + Name des Formats.

## `read_html`

Pandas bietet auch eine Funktion zum Einlesen und parsen von HTML an. Diese ist in der Lage HTML-Tabellen (`<table>`) zu lesen und gibt eine Liste von DataFrames zurück.

In [None]:
import pandas as pd

dfs = pd.read_html('https://de.wikipedia.org/wiki/Land_(Deutschland)', 
                   header=0,
                   decimal=',',
                   thousands='.')

df = dfs[0]

In [14]:
dfs[0]

Unnamed: 0,Wappen,Land,Abk.,Haupt­stadt,bevöl­kerungs-reichste Stadta,Beitrittzum Bund,Regierungs-chef,Regierungs-partei(en),Bundes­rats-stimmen,Fläche(km²)[12],Ein-wohner(Mio.)[12],Ein-wohnerje km²[12],Aus­länder(%)[13],Sprachen
0,,Baden-Württemberg,BW,Stuttgart,Stuttgart,1949[14],Winfried Kretschmann (Grüne),Grüne und CDU,6,35748,11.07,310,15.5,Deutsch
1,,Bayern,BY,München,München,1949,Markus Söder (CSU),CSU und Freie Wähler,6,70542,13.077,185,13.2,Deutsch
2,,Berlin,BE,—,—,1990[15],Franziska Giffey (SPD),"SPD, Linke und Grüne",4,891,3.645,4090,18.5,Deutsch
3,,Brandenburg,BB,Potsdam,Potsdam,1990,Dietmar Woidke (SPD),"SPD, CDU und Grüne",4,29654,2.512,85,4.7,"Deutsch, Niedersorbisch, Niederdeutsch"
4,,Bremen,HB,Bremen(de facto),Bremen,1949,Andreas Bovenschulte (SPD),"SPD, Grüne und Linke",3,419,0.683,1629,18.1,"Deutsch, Niederdeutsch"
5,,Hamburg,HH,—,—,1949,Peter Tschentscher (SPD),SPD und Grüne,3,755,1.841,2438,16.4,"Deutsch, Niederdeutsch"
6,,Hessen,HE,Wiesbaden,Frankfurt am Main,1949,Volker Bouffier (CDU),CDU und Grüne,5,21116,6.266,297,16.2,Deutsch
7,,Mecklenburg-Vorpommern,MV,Schwerin,Rostock,1990,Manuela Schwesig (SPD),SPD und Linke,3,23295,1.61,69,4.5,"Deutsch, Niederdeutsch"
8,,Niedersachsen,NI,Hannover,Hannover,1949,Stephan Weil (SPD),SPD und CDU,6,47710,7.982,167,9.4,"Deutsch, Saterfriesisch, Niederdeutsch"
9,,Nordrhein-Westfalen,NW,Düsseldorf,Köln,1949,Hendrik Wüst (CDU),CDU und FDP,6,34112,17.933,526,13.3,"Deutsch, Niederdeutsch"


# Beautiful Soup RegEx

## Syntax

Beautiful Soup erlaubt ebenfalls reguläre Ausdrücke beim Durchsuchen des Baumgraphens. Diese müssen vorher mit `re.compile` kompiliert werden.

In [17]:
import re
from bs4 import BeautifulSoup
from urllib.request import urlopen

def soupify(url, features='html5lib'):
    """Takes a URL, requests it and parses it through BeautifulSoup."""
    with urlopen(url) as response:
        html = response.read()
    soup = BeautifulSoup(html, features=features)
    return soup

In [None]:
## Beispiel

soup = soupify('https://www.spiegel.de/nachrichtenarchiv/artikel-01.01.2021.html')

In [28]:
articles = soup.find_all('article')

pattern = re.compile(r'^m-splus-.+')

[article.a['href'] for article in articles if not article.find(id=pattern)]

['https://www.spiegel.de/politik/deutschland/landtagswahlen-2021-in-thueringen-sachsen-anhalt-mecklenburg-vorpommern-instabile-verhaeltnisse-a-9fb3f53c-6ca6-472a-bcd0-3a040ba2786b',
 'https://www.spiegel.de/sport/darts-wm-2021-in-london-michael-van-gerwen-chancenlos-gegen-dave-chisnall-a-c0a1d985-d5e0-40ed-9e65-bae12b51d879',
 'https://www.spiegel.de/panorama/justiz/bosnien-herzegowina-acht-menschen-sterben-bei-silvesterparty-offenbar-an-gasvergiftung-a-c1fd420b-2371-4107-8e6d-51ecd260ca4a',
 'https://www.spiegel.de/ausland/belarussen-im-exil-die-sicherheitsleute-pruegelten-die-meisten-halb-tot-a-df0c3f86-d49b-46d2-9970-b32afb7b136d',
 'https://www.spiegel.de/panorama/justiz/frankreich-mann-auf-silvesterparty-erschossen-a-f258571a-4b21-4088-a9c1-6d300b2b428d',
 'https://www.spiegel.de/panorama/dortmund-experten-suchen-nach-schlange-in-mehrfamilienhaus-a-e35fb632-e859-4a8f-b323-1280d4317c00',
 'https://www.spiegel.de/ausland/gesetzespaket-zu-verteidigungshaushalt-us-kongress-ueberstimmt

# Pandas RegEx

## Text in pd.Series

* Pandas bietet eine die Möglichkeit Pythons String- und RgEx-Methoden über `Series`-objekte zu vektorisieren.
* [Übersicht](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html) des generellen Vorgehens.
* [Auflistung](https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html#method-summary) der zur Verfügung stehenden Methoden. 
* Methoden an `.str` Attribut der Serie gebunden.

## Data munging / wrangling

Transformation von Rohdaten in ein statistisch/numerisch bearbeitbares Format sowie die dazugehörige Fehlerkorrektur.

In [43]:
## Making all the parties into seperate data points:
regp_df = df['Regierungs-partei(en)'].str.split(r',| und ', expand=True)

df['Regierungs-partei(en)'].str.replace(r' und ', ', ').str.get_dummies(', ')

Unnamed: 0,CDU,CSU,FDP,Freie Wähler,Grüne,Linke,SPD
0,1,0,0,0,1,0,0
1,0,1,0,1,0,0,0
2,0,0,0,0,1,1,1
3,1,0,0,0,1,0,1
4,0,0,0,0,1,1,1
5,0,0,0,0,1,0,1
6,1,0,0,0,1,0,0
7,0,0,0,0,0,1,1
8,1,0,0,0,0,0,1
9,1,0,1,0,0,0,0


In [48]:
parties = df['Regierungs-partei(en)']

#parties = parties.str.replace(' und', ',')
#parties.str.split(', ', expand=True)

parties.str.split(r', | und ', expand=True)

Unnamed: 0,0,1,2
0,Grüne,CDU,
1,CSU,,
2,SPD,Linke,Grüne
3,SPD,Linke,
4,SPD,Grüne,
5,SPD,Grüne,
6,CDU,Grüne,
7,SPD,CDU,
8,SPD,CDU,
9,CDU,FDP,


In [51]:
## Exercise: Count parties in federal government

regp_df.stack().str.strip().value_counts()

SPD             12
Grüne           11
CDU              9
FDP              5
Linke            4
CSU              1
Freie Wähler     1
dtype: int64

# RegEx text mining example

## WoS data

Sample of Web of Science SSCI data on scientific publications.

In [52]:
wos_df = pd.read_csv('../Daten/SocWOSSample.csv', index_col=0)

wos_df

Unnamed: 0,index,Authors,Year of Publication,Title,Author Keywords,KeyWords Plus,Abstracts,ISO-4 Journal Abbreviation
0,96,"FAULCONBRIDGE, J; MUZIO, D",2008,Organizational professionalism in globalizing ...,globalization; legal profession; organizationa...,MANAGEMENT; DYNAMICS; LONDON,"Are the challenges of globalization, technolog...",Work Employ. Soc.
1,4342,"WU, XG; XIE, Y",2003,Does the market pay off? Earnings returns to e...,,REFORMING STATE SOCIALISM; INCOME INEQUALITY; ...,Previous work on the market transition in refo...,Am. Sociol. Rev.
2,5096,"PODOLNY, JM; STUART, TE; HANNAN, MT",1996,"Networks, knowledge, and niches: Competition i...",,DYNAMICS; ECOLOGY; ORGANIZATIONS; POPULATIONS;...,The authors develop a conception of an organiz...,Am. J. Sociol.
3,3857,"WIMMER, A",2008,The making and unmaking of ethnic boundaries: ...,,UNITED-STATES; NATION-STATE; IDENTITY; RACE; M...,Primordialist and constructivist authors have ...,Am. J. Sociol.
4,1559,"VANDERSTRAETEN, R",2000,Autopoiesis and socialization: on Luhmann's re...,Niklas Luhmann; autopoiesis; social systems; c...,SOCIAL-SYSTEMS,"In 1984, Niklas Luhmann published Soziale Syst...",Br. J. Sociol.
...,...,...,...,...,...,...,...,...
95,586,"ALBERTH, L; BODE, I; BUHLER-NIEDERBERGER, D",2010,Contingency problems of social interventions. ...,Social intervention; Risk of harm to children;...,,Welfare state moderated social interventions i...,Berliner J. Soz.
96,2614,"PILGRIM, D; ROGERS, A",1994,"TREND REPORT SOMETHING OLD, SOMETHING NEW - SO...",PSYCHIATRY; SOCIOLOGY; SOCIAL CAUSATION; STRUC...,PSYCHOTHERAPY; WOMEN; LIFE,Whilst sociology has taken a consistent intere...,Sociol.-J. Brit. Sociol. Assoc.
97,126,"LUTZ, S; EBERLE, D",2008,Mechanisms of Institutional Change in German C...,Institutional change; Varieties of capitalism;...,1990S,In the debate on the convergence of Rhenish ca...,Berliner J. Soz.
98,4554,"AVERY, RB; RENDALL, MS",2002,Lifetime inheritances of three generations of ...,,WEALTH INEQUALITY; UNITED-STATES; INTERGENERAT...,This article estimates lifetime inheritances b...,Am. J. Sociol.


## Tex mining

Extracting information from plain text data. In this exercise we will try to extract data from the cited references field (`CR`) an create a data set of citations containing:

* Author,
* Year and
* Publication where applicable.

In [63]:
## Exercise:
#references = wos_df.CR.str.split('; ?', expand=True).stack()

#references

## Tests
#splits = wos_df.CR.str.split('; ?')
#splits[splits.apply(len) < 15].values

#references.str.extract(r'(?P<Author>.+?), ?(?P<Year>[0-9]{4})?')

#wos_df.CR.str.extractall(r'[;^] ?(?P<Author>.+?), ?(?P<Year>[0-9]{4})?')

#wos_df.CR.str.extractall(r'DOI ?(?P<DOI>.+?)[;$]')

wos_df.Authors.str.extractall(r'(?P<Author>\w+[\w\-]+),')

Unnamed: 0_level_0,Unnamed: 1_level_0,Author
Unnamed: 0_level_1,match,Unnamed: 2_level_1
0,0,FAULCONBRIDGE
0,1,MUZIO
1,0,WU
1,1,XIE
2,0,PODOLNY
...,...,...
97,0,LUTZ
97,1,EBERLE
98,0,AVERY
98,1,RENDALL


## Fortgeschrittenes Beispiel

In [76]:
with open('../Daten/Fox_News_Network_MSNBC KW1.txt', 'r') as f:
    rawtext = f.read()

print(rawtext[:1000])

﻿



Ausgabeauftrag: Alle Dokumente: 1-72
Zeit des Auftrags: Dienstag,  5. Dezember 2017, 14:32:06 Uhr 

Gesendet von:

ULB BONN
ADENAUER ALLEE 39-41
BONN, DEU 53113


Begriffe: "Schlagwörter"


Quelle: Fox News Network;MSNBC
Projektkennung: 



Dokument 1 von 72


Fox News Network

January 8, 2017 Sunday

SHOW: MEDIA BUZZ 11:00 AM EST

Donald Trump Whipping the Media for Lying About His Stance on CIA, WikiLeaks; Press pushes Back on Trump's Twitter Thoughts; White House Incoming Press Secretary on Whether He Agrees That Journalists are Dishonest; House Republicans Do a 180 on the Congressional Ethics Office; Megyn Kelly Leaves FOX for NBC; WSJ's Gerry Baker says He'd be Careful About Calling Trump or Any Politician a Liar

BYLINE: Howard Kurtz, Charles Lane, Tucker Carlson

GUESTS: Erin McPike, Amy Holmes, Sean Spicer, Joe Concha Gerald Baker

SECTION: NEWS; Domestic

LENGTH: 7808  words

HOWARD KURTZ, FOX NEWS HOST: On our Buzz Media this Sunday, the president- elect whipping the med

In [65]:
## Als pd.Series

text = pd.Series(rawtext)

text

0    ﻿\n\n\n\nAusgabeauftrag: Alle Dokumente: 1-72\...
dtype: object

In [66]:
import re
## Extraktion aller relevanter Dokumente

pattern = r'(Dokument [0-9]+ von [0-9]+\n.+?)(?=Dokument [0-9]+ von [0-9]+\n|$)'

df = text.str.extractall(pattern, re.DOTALL)

## Vorsicht: str.extractall gibt immer einen MultiIndex DataFrame zurück!

df

Unnamed: 0_level_0,Unnamed: 1_level_0,0
Unnamed: 0_level_1,match,Unnamed: 2_level_1
0,0,Dokument 1 von 72\n\n\nFox News Network\n\nJan...
0,1,Dokument 2 von 72\n\n\nFox News Network\n\nJan...
0,2,Dokument 3 von 72\n\n\nFox News Network\n\nJan...
0,3,Dokument 4 von 72\n\n\nFox News Network\n\nJan...
0,4,"Dokument 5 von 72\n\n\nMSNBC\n\nJanuary 8, 201..."
0,...,...
0,67,"Dokument 68 von 72\n\n\nMSNBC\n\nJanuary 2, 20..."
0,68,"Dokument 69 von 72\n\n\nMSNBC\n\nJanuary 2, 20..."
0,69,"Dokument 70 von 72\n\n\nMSNBC\n\nJanuary 2, 20..."
0,70,"Dokument 71 von 72\n\n\nMSNBC\n\nJanuary 2, 20..."


In [77]:
pattern = r'''Dokument (?P<DlNumbering>.+?)
              \n{3}(?P<Network>.+?)
              \n{2}(?P<AirDate>.+?)
              \n{2}SHOW:(?P<Show>.+?)(?P<AirTime>\ [0-9]+:[0-9]+\ \w{2}\ \w{3})
              .+?LENGTH:.+?
              \n{2,}
              (?P<Highlight>HIGHLIGHT: .+?\n{2})?
              (?:\[.+?\] )?(?P<Transcript>.+?)\n{2}?'''

shows_df = df[0].str.extract(pattern, 
                             re.X | re.S,
                             expand=True)

In [79]:
shows_df.to_csv('../Daten/PunditShows.csv.gz', sep='\t')