## Flüchtlingskrise Sentiment Analysis
### Emily Martin, eem80@pitt.edu

In [209]:
# Importing necessary libraries
import pandas as pd
import pickle
import nltk

## The data
#### Shape and acquisition
- Using the four scripts in my repo: [Süddeutsche_zeitung](https://github.com/Data-Science-for-Linguists-2021/Fluechtlingskrise-Sentiment-Analysis/blob/main/Süddeutsche_zeitung.ipynb), [taz](https://github.com/Data-Science-for-Linguists-2021/Fluechtlingskrise-Sentiment-Analysis/blob/main/taz.ipynb), [zeit](https://github.com/Data-Science-for-Linguists-2021/Fluechtlingskrise-Sentiment-Analysis/blob/main/zeit.ipynb) and [Junge Freiheit](https://github.com/Data-Science-for-Linguists-2021/Fluechtlingskrise-Sentiment-Analysis/blob/main/Junge%20Freiheit.ipynb) I was able to scrape the sites for news articles from 2015 using the search terms 'Flüchtling' (refugee) and/or 'Migranten' (migrants). 
- The actual number of articles varies widely per site because of ease of scraping and simply overall newspaper size. For Die TAZ there are 100 articles, from manually compiled links, for  Der Zeit there are 573, from links collected through their API, for Der Süddeutsche Zeitung there are 982 and for Junge Freiheit there are 60. 
- After collecting these articles in the scripts I made them into dataframes which I then pickled. However these pickled files are not available through my repo due to copywrite.

### A quick look at each source

#### Der Zeit
- Der Zeit is one of the largest weekly newspapers in Germany, it is centrist/liberal in its political leanings and kindly supports an API.

In [210]:
# Unpickle the dataframes
zeit_df = pd.read_pickle("zeit_df.pkl")

print(zeit_df.shape)
zeit_df.head()

(573, 5)


Unnamed: 0,title,href,text,release_date,word_count
0,Mahmood im Schilderwald,http://www.zeit.de/2015/51/fuehrerschein-fluec...,Als er vor über zehn Jahren Autofahren gelernt...,2015-12-31T02:51:37Z,1175
1,Zwei zähe Einzelgänger,http://www.zeit.de/2015/51/vorbereitung-auf-da...,"Wo Zou Lei herkommt, ist das Leben nicht leich...",2015-12-31T01:56:01Z,1125
2,Fortsetzung folgt – jetzt,http://www.zeit.de/2016/01/geschichten-2015-fo...,"Lok Leipzig ist ratlos, was aus Mario Basler w...",2015-12-30T09:00:08Z,313
3,Anhaltend hohe Flüchtlingszahlen auf Balkanroute,http://www.zeit.de/gesellschaft/2015-12/slowen...,Auch zum Jahresende kommen weiter täglich Taus...,2015-12-29T22:14:02Z,362
4,Laut Özoğuz schürt Union Vorurteile gegen Flüc...,http://www.zeit.de/politik/deutschland/2015-12...,Opposition und Koalitionspartner kritisieren d...,2015-12-29T08:24:55Z,379


In [211]:
# A little about this dataframe:
zeit_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 573 entries, 0 to 572
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   title         573 non-null    object
 1   href          573 non-null    object
 2   text          573 non-null    object
 3   release_date  573 non-null    object
 4   word_count    573 non-null    int64 
dtypes: int64(1), object(4)
memory usage: 22.5+ KB


In [212]:
zeit_df.describe()
# min of 1, there is at least one article where the link was broken

Unnamed: 0,word_count
count,573.0
mean,562.750436
std,237.382328
min,1.0
25%,384.0
50%,551.0
75%,697.0
max,1945.0


### Die TAZ
-  Die TAZ (Die Tageszeitung) is a daily German newspaper with a modest circulation, it leans left-wing/green and is the most left-ist of the sources. 

In [213]:
# Unpickle and a quick look at the dataframe
taz_df = pd.read_pickle("taz_df.pkl")
print(taz_df.shape)
taz_df.head()

(100, 4)


Unnamed: 0,href,text,word_count,date
0,https://taz.de/Essay-Journalismus-und-Zuwander...,Deutschland hat sich verändert. Die Redaktione...,1232,2015-12-31
1,https://taz.de/Fluechtlingsdebatte-in-den-USA/...,Nach den Anschlägen von Paris wollen nur noch ...,786,2015-11-17
2,https://taz.de/Kommentar-Verfassungsschutz/!50...,Die Reform des V-Leute-Wesens ist eine Charmeo...,266,2015-03-25
3,https://taz.de/NPD-Invasion-in-Fluechtlingsunt...,NPD-Landtagsabgeordnete besuchten eine Erstauf...,561,2015-09-28
4,https://taz.de/Misshandlung-von-Fluechtlingen-...,Per Referendum will Premier Orbán rechtswidrig...,471,2015-04-28


In [214]:
taz_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   href        100 non-null    object
 1   text        100 non-null    object
 2   word_count  100 non-null    int64 
 3   date        100 non-null    object
dtypes: int64(1), object(3)
memory usage: 3.2+ KB


In [215]:
taz_df.describe()
# No broken links/problem areas

Unnamed: 0,word_count
count,100.0
mean,799.43
std,458.021332
min,209.0
25%,495.0
50%,674.0
75%,948.0
max,2846.0


### Der Süddeutsche Zeitung
- Der Süddeustche Zeitung is a daily newspaper with a very wide ciruclation (second largest after Der Zeit), it leans left-liberal.

In [216]:
# Unpickle and aa quick look at the data
sz_df = pd.read_pickle("sz_df.pkl")
print(sz_df.shape)
sz_df.head()

(1000, 4)


Unnamed: 0,href,text,word_count,date
0,https://www.sueddeutsche.de/politik/migration-...,Berlin (dpa) - Die Bundesländer haben für die ...,89,"27. Dezember 2015, 2:45 Uhr"
1,https://www.sueddeutsche.de/politik/migration-...,Rom (dpa) - Im Mittelmeer vor Italien sind auc...,62,"26. Dezember 2015, 20:51 Uhr"
2,https://www.sueddeutsche.de/kultur/rueckblick-...,1 / 12 Quelle: 20th Century Fox Südseefilme si...,1818,"26. Dezember 2015, 17:57 Uhr"
3,https://www.sueddeutsche.de/politik/rueckblick...,Bei dem Blick zurück auf das Jahr 2015 stechen...,451,"26. Dezember 2015, 16:00 Uhr"
4,https://www.sueddeutsche.de/politik/fluechtlin...,Nach einem Brandanschlag auf eine noch nicht f...,387,"26. Dezember 2015, 15:43 Uhr"


In [217]:
sz_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   href        1000 non-null   object
 1   text        1000 non-null   object
 2   word_count  1000 non-null   int64 
 3   date        982 non-null    object
dtypes: int64(1), object(3)
memory usage: 31.4+ KB


In [218]:
sz_df.describe()
# There were 18 broken links
# Fairly short articles

Unnamed: 0,word_count
count,1000.0
mean,368.44
std,282.050192
min,1.0
25%,119.0
50%,331.5
75%,532.25
max,2402.0


### Junge Freiheit
-  Junge Freiheit is a small weekly newspaper with fairly strong right-wing leanings

In [219]:
# Unpickle and a quick look at the data
jf_df = pd.read_pickle("jf_df.pkl")
print(jf_df.shape) # This is the smallest sample
jf_df.head()

(60, 4)


Unnamed: 0,href,text,word_count,date
0,https://jungefreiheit.de/politik/deutschland/2...,POTSDAM. Brandenburgs AfD-Chef Alexander Gaula...,385,18. November 2015
1,https://jungefreiheit.de/debatte/kommentar/201...,Die Norwegerin Linda Hagen ist immer noch ganz...,171,05. November 2015
2,https://jungefreiheit.de/politik/deutschland/2...,"ERFURT. Asylbewerber, die mit der Deutschen Ba...",191,04. November 2015
3,https://jungefreiheit.de/politik/ausland/2015/...,TRIPOLIS. Der libysche „Allgemeine Volkskongre...,262,04. November 2015
4,https://jungefreiheit.de/politik/deutschland/2...,Dreizehn Regierungschefs beschließen auf einem...,729,01. November 2015


In [220]:
jf_df.info()
# All non-null, which is good. Can't really afford to lose more articles from this source

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60 entries, 0 to 59
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   href        60 non-null     object
 1   text        60 non-null     object
 2   word_count  60 non-null     int64 
 3   date        60 non-null     object
dtypes: int64(1), object(3)
memory usage: 2.0+ KB


In [221]:
jf_df.describe()

Unnamed: 0,word_count
count,60.0
mean,461.666667
std,323.277373
min,126.0
25%,195.25
50%,356.0
75%,732.75
max,1348.0


In [222]:
sz_df.text[4]

'Nach einem Brandanschlag auf eine noch nicht fertige Flüchtlingsunterkunft will die Stadt Schwäbisch Gmünd ein Signal gegen Fremdenfeindlichkeit setzen. Am Freitagabend kamen Bürger zu einer Mahnwache zusammen. Mehr als 300 Menschen haben sich nach Angaben der Stadt vor dem Rohbau des Gebäudes versammelt, um für Toleranz und Menschlichkeit\xa0einzustehen. Bei dem Brand am frühen Morgen des ersten Weihnachtsfeiertags wurde niemand verletzt. Die Schäden an dem noch nicht fertigen Gebäude hielten sich in Grenzen, weil die Flammen schnell entdeckt wurden. "Wir können da relativ flott weiterbauen", sagte ein Sprecher der Stadt Schwäbisch Gmünd. Die Unterkunft soll vom Frühjahr an bis zu 120 Flüchtlingen eine Bleibe\xa0bieten. Der Brand in Schwäbisch Gmünd habe sich nicht selbst entzündet, da sind sich die Ermittler nahezu sicher. "Es gibt entsprechende Spuren, die im Moment den Schluss zulassen, dass wir von Brandstiftung ausgehen müssen", sagte der Leiter der Kriminalpolizei Aalen. Detail

In [223]:
sz_df.dropna()

Unnamed: 0,href,text,word_count,date
0,https://www.sueddeutsche.de/politik/migration-...,Berlin (dpa) - Die Bundesländer haben für die ...,89,"27. Dezember 2015, 2:45 Uhr"
1,https://www.sueddeutsche.de/politik/migration-...,Rom (dpa) - Im Mittelmeer vor Italien sind auc...,62,"26. Dezember 2015, 20:51 Uhr"
2,https://www.sueddeutsche.de/kultur/rueckblick-...,1 / 12 Quelle: 20th Century Fox Südseefilme si...,1818,"26. Dezember 2015, 17:57 Uhr"
3,https://www.sueddeutsche.de/politik/rueckblick...,Bei dem Blick zurück auf das Jahr 2015 stechen...,451,"26. Dezember 2015, 16:00 Uhr"
4,https://www.sueddeutsche.de/politik/fluechtlin...,Nach einem Brandanschlag auf eine noch nicht f...,387,"26. Dezember 2015, 15:43 Uhr"
...,...,...,...,...
995,https://www.sueddeutsche.de/wissen/geschichte-...,Frankfurt/Main (dpa) - Bundespräsident Joachim...,383,"3. Oktober 2015, 14:24 Uhr"
996,https://www.sueddeutsche.de/politik/gauck-zur-...,Die Integration von Flüchtlingen ist für Deuts...,503,"3. Oktober 2015, 13:45 Uhr"
997,https://www.sueddeutsche.de/politik/fluechtlin...,Calais (dpa) - Flüchtlinge haben den Eurotunne...,223,"3. Oktober 2015, 12:56 Uhr"
998,https://www.sueddeutsche.de/politik/25-jahre-d...,17 Bilder Quelle: dpa 1 / 17 Willkommen in Fra...,522,"3. Oktober 2015, 11:50 Uhr"


## Sentiment Analysis

In [224]:
# Step 1
# Prepare data: remove stop words

# Lemmatization (seems better than stemming)?
# SpaCy has a german lemmetizer (and ger stopwords)


In [225]:
# More notes (3/31): Make a spacy pipeline with sentiments analysis as part of it? (how to use sentiws and how 
# to loop through a list of the texts from each array - figure it out!)

# Or: Use SpaCy for tokenization, lemmatization, removing stop words by creating custom functions? Look into both 
# options. 
# I definitely need to get something with labels, so sentiws seems good
# Much to do....

In [226]:
# Pipeline ideas: tokenization, remove stop words, lemmatization, sentiment analysis

In [227]:
import spacy
print(nlp.pipeline)

[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec object at 0x7ff2b3a50dd0>), ('tagger', <spacy.pipeline.tagger.Tagger object at 0x7ff2980acc50>), ('morphologizer', <spacy.pipeline.morphologizer.Morphologizer object at 0x7ff2ca9a5290>), ('parser', <spacy.pipeline.dep_parser.DependencyParser object at 0x7ff2b98cc050>), ('attribute_ruler', <spacy.pipeline.attributeruler.AttributeRuler object at 0x7ff2a993e690>), ('lemmatizer', <spacy.pipeline.lemmatizer.Lemmatizer object at 0x7ff2b98c81e0>), ('sentiws', <function sentiws at 0x7ff2dc99b680>)]


In [231]:
nlp = spacy.load("de_core_news_sm", disable=['ner']) #Don't need entity recognition

from spacy_sentiws import spaCySentiWS
from spacy.language import Language

sentiws = spaCySentiWS(sentiws_path='/Users/emilymartin/Documents/data/SentiWS_v2')

nlp.add_pipe('sentiws')
doc = nlp('Die Dummheit der Unterwerfung blüht in hübschen Farben.')

for token in doc:
    print('{}, {}, {}'.format(token.text, token._.sentiws, token.pos_))
    
print(nlp.pipeline)

Die, None, DET
Dummheit, -0.4877, NOUN
der, None, DET
Unterwerfung, -0.3279, NOUN
blüht, 0.2028, VERB
in, None, ADP
hübschen, 0.4629, ADJ
Farben, None, NOUN
., None, PUNCT
[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec object at 0x7ff2c1161410>), ('tagger', <spacy.pipeline.tagger.Tagger object at 0x7ff298960110>), ('morphologizer', <spacy.pipeline.morphologizer.Morphologizer object at 0x7ff2aa07c050>), ('parser', <spacy.pipeline.dep_parser.DependencyParser object at 0x7ff2d0aacfa0>), ('attribute_ruler', <spacy.pipeline.attributeruler.AttributeRuler object at 0x7ff2c13dd460>), ('lemmatizer', <spacy.pipeline.lemmatizer.Lemmatizer object at 0x7ff2baf55910>), ('sentiws', <function sentiws at 0x7ff2dc99b680>)]


In [229]:
from  spacy.lang.de.stop_words import STOP_WORDS
stop = STOP_WORDS


# It works!!!! 
foo = nlp(zeit_df.text[0])

foo_nostop = [token for token in foo if not token.is_stop]
    
print(foo_nostop)

# Should I define a function to do this? Or find a way to write one into the pipeline?

[Autofahren, gelernt, ,, brauchte, Mahmood, 
      , Shaker, Führerschein, ., Wozu, ?, Heimat, Irak, 
      , Fahrerlaubnis, gefragt, ,, mal, Polizist, ,, angehalten, ., Verkehrsregeln, 
      , gebe, ,, halte, ., ", Nachbarn, lässt, Vorfahrt, ,, 
      , Fremden, ", ,, Shaker, ., Schilder, dienten, grobe, Orientierung, ,, Ampeln, 
      , fast, kaputt, ., 
 , Bielefeld, sieht, ., 29-jährige, Iraker, Studium, Ukraine, angekommen, ., Irak, traute, ., sitzt, friedlichen, Westfalen, Steuer, ., bremst, Fahrlehrer, Dirk, Konert, Not, ., Shaker, deutsche, Führerscheinprüfung, bestehen, ., Mediziner, hofft, Landarzt, arbeiten, ., ", Führerschein, undenkbar, ", ,, ., 
 , Hunderttausende, Flüchtlinge, Beruf, nachgehen, ., all, Hürden, Asylanträge, Sprache, fehlende, Fahrerlaubnis, hinzu, ., entstehen, hohe, Kosten, ,, Flüchtlinge, ,, –, Shaker, –, Führerschein, besitzen, ., Fahrerlaubnisse, typischen, Herkunftsländern, Syrien, ,, Afghanistan, Irak, Deutschland, Monate, ", Touristenregelung, ", 

In [235]:
print(nlp.pipeline)

[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec object at 0x7ff2c1161410>), ('tagger', <spacy.pipeline.tagger.Tagger object at 0x7ff298960110>), ('morphologizer', <spacy.pipeline.morphologizer.Morphologizer object at 0x7ff2aa07c050>), ('parser', <spacy.pipeline.dep_parser.DependencyParser object at 0x7ff2d0aacfa0>), ('attribute_ruler', <spacy.pipeline.attributeruler.AttributeRuler object at 0x7ff2c13dd460>), ('lemmatizer', <spacy.pipeline.lemmatizer.Lemmatizer object at 0x7ff2baf55910>), ('sentiws', <function sentiws at 0x7ff2dc99b680>)]


In [244]:
# Trying out the sentiment analyzer on the first 5 texts from zeit
docs = zeit_df.text[:5]

senti_sc = []


for doc in nlp.pipe(docs):
    for token in doc:
        print('{}, {}'.format(token.text, token._.sentiws))
    
#Huh most are None, may have to rethink?
# Flüchtling (refugee) is negative, interesting!!

Als, None
er, None
vor, None
über, None
zehn, None
Jahren, None
Autofahren, None
gelernt, 0.2492
hat, None
,, None
brauchte, None
Mahmood, None

      , None
Shaker, None
keinen, None
Führerschein, None
., None
Wozu, None
auch, None
?, None
In, None
seiner, None
Heimat, None
Irak, None
hat, None
ihn, None
nie, None
jemand, None
nach, None
einer, None

      , None
Fahrerlaubnis, None
gefragt, None
,, None
nicht, None
mal, None
der, None
Polizist, None
,, None
der, None
ihn, None
einmal, None
angehalten, None
hat, None
., None
Verkehrsregeln, None

      , None
gebe, None
es, None
zwar, None
,, None
aber, None
kaum, None
jemand, None
halte, None
sich, None
daran, None
., None
", None
Dem, None
Nachbarn, None
lässt, None
man, None
die, None
Vorfahrt, None
,, None
einem, None

      , None
Fremden, None
nicht, None
", None
,, None
sagt, None
Shaker, None
., None
Schilder, None
dienten, None
nur, None
als, None
grobe, -0.3495
Orientierung, None
,, None
die, None
Ampeln, None
seien, None

 

mit, None
der, None
das, None

      , None
kleine, -0.2715
Mädchen, None
nachmittags, None
ganz, None
allein, None
im, None
Haus, None
bleiben, None
darf, None
., None
Sie, None
spielen, None
Fragespiele, None
und, None

      , None
halten, None
sich, None
dabei, None
an, None
den, None
Händen, None
., None
", None
Wo, None
ist, None
das, None
Brot, None
?, None
Wo, None
ist, None
das, None
Salz, None
?, None
–, None
Das, None
ist, None
in, None
den, None
Bergen, None
., None

      , None
Das, None
ist, None
im, None
Fluss, None
., None
Das, None
ist, None
auf, None
der, None
Weide, None
bei, None
den, None
Pferden, None
., None
", None
Sie, None
malen, None
sich, None
miteinander, 0.3697
aus, None
,, None
wie, None

      , None
das, None
Paradies, 0.004
wäre, None
:, None
Dort, None
haben, None
alle, None
Leute, None
Schuhe, None
und, None
eine, None
schöne, 0.0081
Mütze, None
,, None
Joghurt, None
,, None
Sahne, None
und, None

      , None
Brombeeren, None
,, None
so, None
viel,

ließ, None
er, None
seine, None
Leipziger, None
im, None
Ungewissen, None
–, None
bis, None
die, None
Bulgaren, None
ihm, None

      , None
absagten, None
., None
Da, None
war, None
er, None
wieder, None
da, None
!, None
Das, None
verzeiht, 0.004
ihm, None
manch, None
Lokist, None
nie, None
., None

      
 , None
Plage, None
zwei, None
:, None
Mario, None
rastet, None
gerne, None
aus, None
., None
Sogar, None
mit, None
Prügel, None
droht, -0.3503
er, None
zuweilen, None
:, None
Selbst, None
erlebt, None
vom, None

      , None
Autor, None
dieser, None
Zeilen, None
., None
Denn, None
,, None
ach, None
–, None
wenn, None
ihm, None
etwas, None
gegen, None
den, None
Strich, None
geht, None
,, None
kann, None
Mario, None
mächtig, None

      , None
muffig, None
sein, None
., None

 , None
Plage, None
drei, None
hat, None
damit, None
zu, None
tun, None
., None
Künftig, None
wird, None
er, None
nicht, None
mehr, None
derjenige, None
sein, None
,, None
der, None
bei, None
Lok, None
regiert, 

In [None]:
text = t
doc = nlp(text)

for token in doc:
    print(token, token.pos_, token.tag_)
    
for token in doc:
    print(token, token.morph)
    
for token in doc:
    print(token, token.lemma_)

In [None]:
len(doc)
#type(doc)

In [None]:
with nlp.select_pipes(enable="lemmatizer"):
    doc = nlp("machen, mache, machst, macht, machte, gemacht")
for t in doc:
    print(t, t.lemma_)