## Flüchtlingskrise Sentiment Analysis
### Emily Martin, eem80@pitt.edu

In [41]:
# Importing necessary libraries
import pandas as pd
import pickle
import nltk

## The data
#### Shape and acquisition
- Using the four scripts in my repo: [Süddeutsche_zeitung](https://github.com/Data-Science-for-Linguists-2021/Fluechtlingskrise-Sentiment-Analysis/blob/main/Süddeutsche_zeitung.ipynb), [taz](https://github.com/Data-Science-for-Linguists-2021/Fluechtlingskrise-Sentiment-Analysis/blob/main/taz.ipynb), [zeit](https://github.com/Data-Science-for-Linguists-2021/Fluechtlingskrise-Sentiment-Analysis/blob/main/zeit.ipynb) and [Junge Freiheit](https://github.com/Data-Science-for-Linguists-2021/Fluechtlingskrise-Sentiment-Analysis/blob/main/Junge%20Freiheit.ipynb) I was able to scrape the sites for news articles from 2015 using the search terms 'Flüchtling' (refugee) and/or 'Migranten' (migrants). 
- The actual number of articles varies widely per site because of ease of scraping and simply overall newspaper size. For Die TAZ there are 100 articles, from manually compiled links, for  Der Zeit there are 573, from links collected through their API, for Der Süddeutsche Zeitung there are 982 and for Junge Freiheit there are 60. 
- After collecting these articles in the scripts I made them into dataframes which I then pickled. However these pickled files are not available through my repo due to copywrite.

### A quick look at each source

#### Der Zeit
- Der Zeit is one of the largest weekly newspapers in Germany, it is centrist/liberal in its political leanings and kindly supports an API.

In [42]:
# Unpickle the dataframes
zeit_df = pd.read_pickle("zeit_df.pkl")

print(zeit_df.shape)
zeit_df.head()

(573, 5)


Unnamed: 0,title,href,text,release_date,word_count
0,Mahmood im Schilderwald,http://www.zeit.de/2015/51/fuehrerschein-fluec...,Als er vor über zehn Jahren Autofahren gelernt...,2015-12-31T02:51:37Z,1175
1,Zwei zähe Einzelgänger,http://www.zeit.de/2015/51/vorbereitung-auf-da...,"Wo Zou Lei herkommt, ist das Leben nicht leich...",2015-12-31T01:56:01Z,1125
2,Fortsetzung folgt – jetzt,http://www.zeit.de/2016/01/geschichten-2015-fo...,"Lok Leipzig ist ratlos, was aus Mario Basler w...",2015-12-30T09:00:08Z,313
3,Anhaltend hohe Flüchtlingszahlen auf Balkanroute,http://www.zeit.de/gesellschaft/2015-12/slowen...,Auch zum Jahresende kommen weiter täglich Taus...,2015-12-29T22:14:02Z,362
4,Laut Özoğuz schürt Union Vorurteile gegen Flüc...,http://www.zeit.de/politik/deutschland/2015-12...,Opposition und Koalitionspartner kritisieren d...,2015-12-29T08:24:55Z,379


In [43]:
# A little about this dataframe:
zeit_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 573 entries, 0 to 572
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   title         573 non-null    object
 1   href          573 non-null    object
 2   text          573 non-null    object
 3   release_date  573 non-null    object
 4   word_count    573 non-null    int64 
dtypes: int64(1), object(4)
memory usage: 22.5+ KB


In [44]:
zeit_df.describe()
# min of 1, there is at least one article where the link was broken

Unnamed: 0,word_count
count,573.0
mean,562.750436
std,237.382328
min,1.0
25%,384.0
50%,551.0
75%,697.0
max,1945.0


### Die TAZ
-  Die TAZ (Die Tageszeitung) is a daily German newspaper with a modest circulation, it leans left-wing/green and is the most left-ist of the sources. 

In [45]:
# Unpickle and a quick look at the dataframe
taz_df = pd.read_pickle("taz_df.pkl")
print(taz_df.shape)
taz_df.head()

(100, 4)


Unnamed: 0,href,text,word_count,date
0,https://taz.de/Essay-Journalismus-und-Zuwander...,Deutschland hat sich verändert. Die Redaktione...,1232,2015-12-31
1,https://taz.de/Fluechtlingsdebatte-in-den-USA/...,Nach den Anschlägen von Paris wollen nur noch ...,786,2015-11-17
2,https://taz.de/Kommentar-Verfassungsschutz/!50...,Die Reform des V-Leute-Wesens ist eine Charmeo...,266,2015-03-25
3,https://taz.de/NPD-Invasion-in-Fluechtlingsunt...,NPD-Landtagsabgeordnete besuchten eine Erstauf...,561,2015-09-28
4,https://taz.de/Misshandlung-von-Fluechtlingen-...,Per Referendum will Premier Orbán rechtswidrig...,471,2015-04-28


In [46]:
taz_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   href        100 non-null    object
 1   text        100 non-null    object
 2   word_count  100 non-null    int64 
 3   date        100 non-null    object
dtypes: int64(1), object(3)
memory usage: 3.2+ KB


In [47]:
taz_df.describe()
# No broken links/problem areas

Unnamed: 0,word_count
count,100.0
mean,799.43
std,458.021332
min,209.0
25%,495.0
50%,674.0
75%,948.0
max,2846.0


### Der Süddeutsche Zeitung
- Der Süddeustche Zeitung is a daily newspaper with a very wide ciruclation (second largest after Der Zeit), it leans left-liberal.

In [48]:
# Unpickle and aa quick look at the data
sz_df = pd.read_pickle("sz_df.pkl")
print(sz_df.shape)
sz_df.head()

(1000, 4)


Unnamed: 0,href,text,word_count,date
0,https://www.sueddeutsche.de/politik/migration-...,Berlin (dpa) - Die Bundesländer haben für die ...,89,"27. Dezember 2015, 2:45 Uhr"
1,https://www.sueddeutsche.de/politik/migration-...,Rom (dpa) - Im Mittelmeer vor Italien sind auc...,62,"26. Dezember 2015, 20:51 Uhr"
2,https://www.sueddeutsche.de/kultur/rueckblick-...,1 / 12 Quelle: 20th Century Fox Südseefilme si...,1818,"26. Dezember 2015, 17:57 Uhr"
3,https://www.sueddeutsche.de/politik/rueckblick...,Bei dem Blick zurück auf das Jahr 2015 stechen...,451,"26. Dezember 2015, 16:00 Uhr"
4,https://www.sueddeutsche.de/politik/fluechtlin...,Nach einem Brandanschlag auf eine noch nicht f...,387,"26. Dezember 2015, 15:43 Uhr"


In [49]:
sz_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   href        1000 non-null   object
 1   text        1000 non-null   object
 2   word_count  1000 non-null   int64 
 3   date        982 non-null    object
dtypes: int64(1), object(3)
memory usage: 31.4+ KB


In [50]:
sz_df.describe()
# There were 18 broken links
# Fairly short articles

Unnamed: 0,word_count
count,1000.0
mean,368.44
std,282.050192
min,1.0
25%,119.0
50%,331.5
75%,532.25
max,2402.0


### Junge Freiheit
-  Junge Freiheit is a small weekly newspaper with fairly strong right-wing leanings

In [51]:
# Unpickle and a quick look at the data
jf_df = pd.read_pickle("jf_df.pkl")
print(jf_df.shape) # This is the smallest sample
jf_df.head()

(60, 4)


Unnamed: 0,href,text,word_count,date
0,https://jungefreiheit.de/politik/deutschland/2...,POTSDAM. Brandenburgs AfD-Chef Alexander Gaula...,385,18. November 2015
1,https://jungefreiheit.de/debatte/kommentar/201...,Die Norwegerin Linda Hagen ist immer noch ganz...,171,05. November 2015
2,https://jungefreiheit.de/politik/deutschland/2...,"ERFURT. Asylbewerber, die mit der Deutschen Ba...",191,04. November 2015
3,https://jungefreiheit.de/politik/ausland/2015/...,TRIPOLIS. Der libysche „Allgemeine Volkskongre...,262,04. November 2015
4,https://jungefreiheit.de/politik/deutschland/2...,Dreizehn Regierungschefs beschließen auf einem...,729,01. November 2015


In [52]:
jf_df.info()
# All non-null, which is good. Can't really afford to lose more articles from this source

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   href        60 non-null     object
 1   text        60 non-null     object
 2   word_count  60 non-null     int64 
 3   date        60 non-null     object
dtypes: int64(1), object(3)
memory usage: 2.0+ KB


In [53]:
jf_df.describe()

Unnamed: 0,word_count
count,60.0
mean,461.666667
std,323.277373
min,126.0
25%,195.25
50%,356.0
75%,732.75
max,1348.0


## Sentiment Analysis

In [54]:
# Step 1
# Prepare data: remove stop words

# Lemmatization (seems better than stemming)?
# SpaCy has a german lemmetizer (and ger stopwords)


In [None]:
# More notes (3/31): Make a spacy pipeline with sentiments analysis as part of it? (how to use sentiws and how 
# to loop through a list of the texts from each array - figure it out!)

# Or: Use SpaCy for tokenization, lemmatization, removing stop words by creating custom functions? Look into both 
# options. 
# I definitely need to get something with labels, so sentiws seems good
# Much to do....

In [74]:
t = zeit_df.text[0]

In [55]:
import spacy

nlp = spacy.load("de_core_news_sm")

In [75]:
text = t
doc = nlp(text)

#for token in doc:
    #print(token, token.pos_, token.tag_)
    
#for token in doc:
    #print(token, token.morph)
    
for token in doc:
    print(token, token.lemma_)

Als als
er ich
vor vor
über über
zehn zehn
Jahren Jahr
Autofahren Autofahren
gelernt lernen
hat haben
, ,
brauchte brauchen
Mahmood Mahmood

       
      
Shaker Shaker
keinen kein
Führerschein Führerschein
. .
Wozu wozu
auch auch
? ?
In In
seiner sich
Heimat Heimat
Irak Irak
hat haben
ihn ich
nie nie
jemand jemand
nach nach
einer einer

       
      
Fahrerlaubnis Fahrerlaubnis
gefragt fragen
, ,
nicht nicht
mal mal
der der
Polizist Polizist
, ,
der der
ihn ich
einmal einmal
angehalten anhalten
hat haben
. .
Verkehrsregeln Verkehrsregeln

       
      
gebe geben
es ich
zwar zwar
, ,
aber aber
kaum kaum
jemand jemand
halte halte
sich sich
daran daran
. .
" "
Dem der
Nachbarn Nachbar
lässt lässt
man man
die der
Vorfahrt Vorfahrt
, ,
einem einer

       
      
Fremden Fremde
nicht nicht
" "
, ,
sagt sagen
Shaker Shaker
. .
Schilder Schilder
dienten dienen
nur nur
als als
grobe grobe
Orientierung Orientierung
, ,
die der
Ampeln Ampel
seien sein

       
      
fast fast
immer immer
k

schwachen schwach
Gruppen Gruppe
. .
Großen Großen
Handlungsbedarf Handlungsbedarf
sieht sehen
er ich
dagegen dagegen
in in
der der
Bürokratie Bürokratie
. .
" "
Viele viel
Flüchtlinge Flüchtling
haben haben
auf auf
der der
Flucht Flucht
ihre mein
Papiere Papier
verloren verlieren
" "
, ,
sagt sagen
er ich
. .
Ohne ohne
amtlichen amtlich
Ausweis Ausweis
könne können
man man
aber aber
keinen kein
Führerschein Führerschein
beantragen beantragen
. .
Es ich
gebe geben
Gespräche Gespräch
mit mit
den der
Behörden Behörde
, ,
hier hier
die der
Hürden Hürde
herabzusetzen herabsetzen
. .
Als als
weitere weit
Reaktion Reaktion
auf auf
die der
vielen viel
Flüchtlinge Flüchtling
soll soll
bald bald
Arabisch Arabisch
als als
zwölfte zwölfte
mögliche möglich
Fremdsprache Fremdsprache
in in
der der
Prüfung Prüfung
zugelassen zulassen
werden werden
. .
Die der
Vorbereitungen Vorbereitung
laufen laufen
, ,
bestätigt bestätigen
der der
TÜV TÜV
Nord Nord
, ,
die der
Entscheidung Entscheidung
treffe treff

In [76]:
len(doc)
#type(doc)

1410

In [57]:
print(nlp.pipeline)

[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec object at 0x7ff2c1394c50>), ('tagger', <spacy.pipeline.tagger.Tagger object at 0x7ff2c13db470>), ('morphologizer', <spacy.pipeline.morphologizer.Morphologizer object at 0x7ff2c13dbef0>), ('parser', <spacy.pipeline.dep_parser.DependencyParser object at 0x7ff2c10f2ec0>), ('ner', <spacy.pipeline.ner.EntityRecognizer object at 0x7ff2c11606e0>), ('attribute_ruler', <spacy.pipeline.attributeruler.AttributeRuler object at 0x7ff2c1383c80>), ('lemmatizer', <spacy.pipeline.lemmatizer.Lemmatizer object at 0x7ff2c1408910>)]


In [80]:
with nlp.select_pipes(enable="lemmatizer"):
    doc = nlp("machen, mache, machst, macht, machte, gemacht")
for t in doc:
    print(t, t.lemma_)

machen machen
, ,
mache machen
, ,
machst machen
, ,
macht machen
, ,
machte machen
, ,
gemacht machen


In [81]:
from spacy_sentiws import spaCySentiWS
from spacy.language import Language

#nlp = spacy.load('de_core_news_sm')
sentiws = spaCySentiWS(sentiws_path='/Users/emilymartin/Documents/data/SentiWS_v2')

nlp.add_pipe(sentiws)
doc = nlp('Die Dummheit der Unterwerfung blüht in hübschen Farben.')

for token in doc:
    print('{}, {}, {}'.format(token.text, token._.sentiws, token.pos_))

ValueError: [E966] `nlp.add_pipe` now takes the string name of the registered component factory, not a callable component. Expected string, but got <spacy_sentiws.spaCySentiWS object at 0x7ff2b9e18950> (name: 'None').

- If you created your component with `nlp.create_pipe('name')`: remove nlp.create_pipe and call `nlp.add_pipe('name')` instead.

- If you passed in a component like `TextCategorizer()`: call `nlp.add_pipe` with the string name instead, e.g. `nlp.add_pipe('textcat')`.

- If you're using a custom component: Add the decorator `@Language.component` (for function components) or `@Language.factory` (for class components / factories) to your custom component and assign it a name, e.g. `@Language.component('your_name')`. You can then run `nlp.add_pipe('your_name')` to add it to the pipeline.