_Lizenz: Das folgende Lehrmaterial kann unter einer [CC-BY-SA 4.0](https://creativecommons.org/licenses/by/4.0/legalcode) Lizenz frei verwendet, verbreitet und modifiziert werden._   
 _Authoren: Jana Lasser (jana.lasser@ds.mpg.de)_  
 _Das Lehrmaterial wurde im Zuge des Projektes "Daten Lesen Lernen", gefördert vom Stifterverband und der Heinz Nixdorf Stiftung erstellt._

# Lösungen zu Übung 05 - Allgemein: Daten einlesen, bereinigen und mit Histogrammen visualisieren
### Praktische Hinweise
$\rightarrow$ Übungen sind dafür gedacht, dass ihr sie euch daheim anseht und versucht, ein paar Aufgaben selbst zu lösen. In den Tutorien könnt ihr euch weiter mit dem Lösungen der Aufgaben beschäftigen und dabei Hilfe von den Tutor*innen bekommen.  

$\rightarrow$ Wenn ein Fehler auftritt:
1. Fehlermeldung _lesen_ und _verstehen_
2. Versuchen, selbst eine Lösung zu finden ($\rightarrow$ hier findet das Lernen statt!)
3. Das Problem googlen (Stichwort: Stackoverflow) oder den/die Nachbar*in fragen
4. Tutor*in fragen

$\rightarrow$ Unter <font color='green'>**HINWEIS**</font> werden Hinweise gegeben, die für die Lösung der Aufgabe hilfreich sind und oftmals auch weiterführende Informationen zur Aufgabe liefern.

$\rightarrow$ Mit **(Optional)** gekennzeichnete Übungsteile sind für besonders schnelle Menschen :-).

<a name="top"></a>Inhalt
---
In der nachfolgenden Fallstudie werden wir mehrere Datensätze mit Tweets untersuchen. Dabei vergleichen wir Tweets von "normalen" Twitter-Nutzern mit Tweets von Donald Trump und Tweets von russischen Trollen.

Als Datenquellen verwenden wir öffentlich zugängliche Datensätze von Tweets:
* ["normale" Twitter-User](http://help.sentiment140.com/for-students/)
* [Donald Trump](https://github.com/mkearney/trumptweets)
* [russische Trolle](https://github.com/fivethirtyeight/russian-troll-tweets/)

Für die folgenden Übungen gibt es kein Lehrvideo. Deswegen wird es in den Jupyter-Notebooks zu den Übungen mehr Erklärungen und Zwischenschritte geben. Darüber hinaus haben ab dieser Woche auch nicht mehr alle Übungen der verschiedenen Übungsgruppen den exakt gleichen Inhalt, da einige Themenbereiche etwas unterschiedliche Werkzeuge brauchen als andere. Das Konzept ist aber überall das gleiche.  

Die aktuelle Übung gliedert sich in drei Teile:

* [Daten beschaffen](#daten_beschaffen)
* [Daten erkunden](#daten_erkunden)
* [Daten bereinigen](#daten_bereinigen)

<a name="daten_beschaffen"></a>1. Daten beschaffen
---
**A.** Mache dich mit den Datenquellen vertraut: Wer hat die Daten gesammelt und in welchem Kontext publiziert?    

* ["normale" Twitter-User](http://help.sentiment140.com/for-students/) Diese Daten wurden eigentlich für eine sog. "sentiment Analyse", also eine Analyse der Gefühlslage des Twitter-Nutzers gesammelt. Außerdem sind die Daten auch nicht Open Source. Deshalb stellen wir die Daten nicht selbst zur Verfügung sondern verlassen uns darauf, dass die Studierenden sie sich selbst herunterladen. Die Methode, die der Datensammlung zu Grunde liegt, wird in [dieser Publikation](https://cs.stanford.edu/people/alecmgo/papers/TwitterDistantSupervision09.pdf) beschrieben. 
* [Donald Trump](https://github.com/mkearney/trumptweets) zur Datenquelle der Trump-Tweets gibt es keine genauere Dokumentation. Das sollte uns das hellhörig werden lassen und darauf hinweisen, dass die Datenquelle nicht unbedingt vertrauenswürdig ist. Eine Alternative wäre, die entsprechenden Tweets selbst zu sammeln.
* [russische Trolle](https://github.com/fivethirtyeight/russian-troll-tweets/) Eine sehr gute Beschreibung des Datensatzes sowie der Methoden die angewandt wurden, um die Trolle zu identifizieren gibt es auf dem [GitHub Profil](https://github.com/fivethirtyeight/russian-troll-tweets/) des Projektes. Zum besseren Verständnis der Bedeutung des Datensatzes bietet sich auch [dieser](https://fivethirtyeight.com/features/why-were-sharing-3-million-russian-troll-tweets/) Artikel an.

**B.** Laden der Daten: Den Datensatz der "normalen" User müssen wir erst herunterladen, entpacken und können ihn dann als Pandas DataFrame laden:
* folge dem Link http://cs.stanford.edu/people/alecmgo/trainingandtestdata.zip
* lade das Archiv ```trainingtestdata``` mit dem Datensatz herunter
* entpacke das Archiv
* lies die Datei ```training.1600000.processed.noemoticon.csv``` wie folgt ein: 

In [37]:
# zum Laden und Speichern von Tabellen
import pandas as pd 

# unter diesem Pfad sollte der Datensatz gespeichert sein
pfad_normal = 'data/trainingandtestdata/training.1600000.processed.noemoticon.csv'
tweets_normal_raw = pd.read_csv(pfad_normal, encoding="ISO-8859-1")
tweets_normal_raw.head()

Unnamed: 0,0,1467810369,Mon Apr 06 22:19:45 PDT 2009,NO_QUERY,_TheSpecialOne_,"@switchfoot http://twitpic.com/2y1zl - Awww, that's a bummer. You shoulda got David Carr of Third Day to do it. ;D"
0,0,1467810672,Mon Apr 06 22:19:49 PDT 2009,NO_QUERY,scotthamilton,is upset that he can't update his Facebook by ...
1,0,1467810917,Mon Apr 06 22:19:53 PDT 2009,NO_QUERY,mattycus,@Kenichan I dived many times for the ball. Man...
2,0,1467811184,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,ElleCTF,my whole body feels itchy and like its on fire
3,0,1467811193,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,Karoli,"@nationwideclass no, it's not behaving at all...."
4,0,1467811372,Mon Apr 06 22:20:00 PDT 2009,NO_QUERY,joy_wolf,@Kwesidei not the whole crew


**HINWEIS:** durch das Argument ```encoding``` geben wir explizit an, welchen Standard für die Zeichenkodierung des Textes Pandas verwenden soll, um den Text in dem Datensatz zu interpretieren. Das ist insbesondre wichtig, da Tweets sehr viele Sonderzeichen enthalten können, die nicht im normalen Alphabet abgebildet sind.  
Der hier verwendete Standard [ISO 8859-1](https://de.wikipedia.org/wiki/ISO_8859-1) ermöglicht es, den Tweet-Datensatz ohne Fehler einzulesen. Würden wir das encoding nicht explizit angeben, würde Pandas per Default [UTF-8](https://de.wikipedia.org/wiki/UTF-8) verwenden und einen ```UnicodeDecodeError``` produzieren.  

Beim Einlesen fällt auf, dass der Datensatz keinen "Header" (also eine Kopfzeile mit den Namen der Spalten) enthält. Pandas verwendet automatisch die erste Zeile als Header, was in diesem Fall zu einem Falschen Ergebnis führt, da die erste Zeile bereits Daten enthält. Das können wir umgehen, indem wir beim Laden der Daten einen Header explizit angeben:

In [38]:
tweets_normal_raw = pd.read_csv(pfad_normal, \
            names=['sentiment','ID','Date','Query','User','Tweet'],\
            encoding="ISO-8859-1")
tweets_normal_raw.head()

Unnamed: 0,sentiment,ID,Date,Query,User,Tweet
0,0,1467810369,Mon Apr 06 22:19:45 PDT 2009,NO_QUERY,_TheSpecialOne_,"@switchfoot http://twitpic.com/2y1zl - Awww, t..."
1,0,1467810672,Mon Apr 06 22:19:49 PDT 2009,NO_QUERY,scotthamilton,is upset that he can't update his Facebook by ...
2,0,1467810917,Mon Apr 06 22:19:53 PDT 2009,NO_QUERY,mattycus,@Kenichan I dived many times for the ball. Man...
3,0,1467811184,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,ElleCTF,my whole body feels itchy and like its on fire
4,0,1467811193,Mon Apr 06 22:19:57 PDT 2009,NO_QUERY,Karoli,"@nationwideclass no, it's not behaving at all...."


Die verschiedenen Argumente, um die Funktionsweise der Funktion ```read_csv()``` von Pandas zu modifizieren finden sich in der [Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html) der Funktion. Falls eine Funktion nicht direkt das tut, was du erwartest, ist es oftmals eine gute Idee, als ersten Schritt in der Dokumentation nachzusehen.  

Die anderen beiden Datensätze können wir direkt aus dem Internet herunterladen:

In [39]:
# Bibliotheken zum Laden von Daten aus dem Internet
import requests 
import io

# die URL unter der der Trump-Tweet-Datensatz zu finden ist
url_trump = "https://github.com/mkearney/trumptweets/raw/master/data/trumptweets-1515775693.tweets.csv"

# lies die Information von der in der URL hinterlegten Website aus
# diesmal geben wir das encoding schon an dieser Stelle an
antwort_trump = requests.get(url_trump).content
inhalt_trump = io.StringIO(antwort_trump.decode('ISO-8859-1'))

# lade die Daten in ein DataFrame und zeige die ersten paar Zeilen an
tweets_trump_raw = pd.read_csv(inhalt_trump)
tweets_trump_raw.head()

  interactivity=interactivity, compiler=compiler, result=result)


Unnamed: 0,status_id,created_at,user_id,screen_name,text,source,display_text_width,reply_to_status_id,reply_to_user_id,reply_to_screen_name,...,retweet_verified,place_url,place_name,place_full_name,place_type,country,country_code,geo_coords,coords_coords,bbox_coords
0,x1864367186,2009-05-20 22:29:47,x25073877,realDonaldTrump,Read a great interview with Donald Trump that ...,Twitter Web Client,112,,,,...,,,,,,,,,,
1,x9273573134835712,2010-11-29 15:52:46,x25073877,realDonaldTrump,Congratulations to Evan Lysacek for being nomi...,Twitter Web Client,127,,,,...,,,,,,,,,,
2,x29014512646,2010-10-28 18:53:40,x25073877,realDonaldTrump,I was on The View this morning. We talked abou...,Twitter Web Client,139,,,,...,,,,,,,,,,
3,x7483813542232064,2010-11-24 17:20:54,x25073877,realDonaldTrump,Tomorrow night's episode of The Apprentice del...,Twitter Web Client,140,,,,...,,,,,,,,,,
4,x5775731054,2009-11-16 21:06:10,x25073877,realDonaldTrump,Donald Trump Partners with TV1 on New Reality ...,Twitter Web Client,116,,,,...,,,,,,,,,,


In [40]:
# die URL unter der der Troll-Tweet-Datensatz zu finden ist
url_troll = 'https://github.com/fivethirtyeight/russian-troll-tweets/raw/master/IRAhandle_tweets_1.csv'

# lies die Information von der in der URL hinterlegten Website aus
# auch hier geben wir das encoding schon an dieser Stelle an
antwort_troll = requests.get(url_troll).content
inhalt_troll = io.StringIO(antwort_troll.decode('ISO-8859-1'))

# lade die Daten in ein DataFrame und zeige die ersten paar Zeilen an
tweets_troll_raw = pd.read_csv(inhalt_troll)
tweets_troll_raw.head()

Unnamed: 0,external_author_id,author,content,region,language,publish_date,harvested_date,following,followers,updates,...,account_type,retweet,account_category,new_june_2018,alt_external_id,tweet_id,article_url,tco1_step1,tco2_step1,tco3_step1
0,906000000000000000,10_GOP,"""We have a sitting Democrat US Senator on tria...",Unknown,English,10/1/2017 19:58,10/1/2017 19:59,1052,9636,253,...,Right,0,RightTroll,0,905874659358453760,914580356430536707,http://twitter.com/905874659358453760/statuses...,https://twitter.com/10_gop/status/914580356430...,,
1,906000000000000000,10_GOP,Marshawn Lynch arrives to game in anti-Trump s...,Unknown,English,10/1/2017 22:43,10/1/2017 22:43,1054,9637,254,...,Right,0,RightTroll,0,905874659358453760,914621840496189440,http://twitter.com/905874659358453760/statuses...,https://twitter.com/damienwoody/status/9145685...,,
2,906000000000000000,10_GOP,Daughter of fallen Navy Sailor delivers powerf...,Unknown,English,10/1/2017 22:50,10/1/2017 22:51,1054,9637,255,...,Right,1,RightTroll,0,905874659358453760,914623490375979008,http://twitter.com/905874659358453760/statuses...,https://twitter.com/10_gop/status/913231923715...,,
3,906000000000000000,10_GOP,JUST IN: President Trump dedicates Presidents ...,Unknown,English,10/1/2017 23:52,10/1/2017 23:52,1062,9642,256,...,Right,0,RightTroll,0,905874659358453760,914639143690555392,http://twitter.com/905874659358453760/statuses...,https://twitter.com/10_gop/status/914639143690...,,
4,906000000000000000,10_GOP,"19,000 RESPECTING our National Anthem! #StandF...",Unknown,English,10/1/2017 2:13,10/1/2017 2:13,1050,9645,246,...,Right,1,RightTroll,0,905874659358453760,914312219952861184,http://twitter.com/905874659358453760/statuses...,https://twitter.com/realDonaldTrump/status/914...,,


Schlussendlich speichern wir die "rohen" Datensätze einmal mit der Funktion ```to_csv()``` ab, bevor wir anfangen, sie zu bearbeiten:

In [41]:
tweets_normal_raw.to_csv('data/tweets_normal_raw.csv', index=False, line_terminator='\n')
tweets_trump_raw.to_csv('data/tweets_trump_raw.csv', index=False, line_terminator='\n')
tweets_troll_raw.to_csv('data/tweets_troll_raw.csv', index=False, line_terminator='\n')

NOTIZ (1): Wir benutzen hier das Argument ```line_terminator='\n'```. Das Argument ```line_terminator``` legt fest, welche Buchstabenkombination benutzt wird, um einen Zeilenumbruch zu erzeugen. Tweet-Texte enthalten manchmal Buchstabenkombinationen, die als Zeilenumbrüche interpretiert werden. Das zerstört dann die Formatierung der Tabelle. Wir legen deshalb explizit eine Buchstabenkombination als Zeilenumbruch fest, damit das nicht passiert. Beim laden der so gespeicherten Datensätze müssen wir dann natürlich auch darauf achten, das Argument ```lineterminator``` entsprechend zu setzen (achtung, **kein** Unterstrich hier!).

NOTIZ (2): das Argument ```index=False``` sorgt dafür, dass der Index (also die Zahlen 1, 2, 3, ... am linken Rand der Tabelle) nicht mit abgespeichert werden.

[Anfang](#top)

<a name="daten_erkunden"></a>2. Daten erkunden
---
Zu Beginn möchten wir ein paar grundlegende Dinge über den Datensatz herausfinden: z.B. die enthaltene Information, die Anzahl der Tweets in jedem der Datensätze und die Anzahl der User.  
Die Namen der Spalten eines DataFrame lassen sich über die Variable ```columns``` des DataFrames ansehen:

In [42]:
# eine Liste der im DataFrame "tweets_troll_raw" enthaltenen Spalten
tweets_troll_raw.columns

Index(['external_author_id', 'author', 'content', 'region', 'language',
       'publish_date', 'harvested_date', 'following', 'followers', 'updates',
       'post_type', 'account_type', 'retweet', 'account_category',
       'new_june_2018', 'alt_external_id', 'tweet_id', 'article_url',
       'tco1_step1', 'tco2_step1', 'tco3_step1'],
      dtype='object')

In einem DataFrame können wir auf eine bestimmte Spalte mit ihrem Namen zugreifen:

In [10]:
# zeigt die Spalte mit dem Namen "author" im DataFrame 
# "tweets_troll_raw" an
tweets_troll_raw.author

0                  10_GOP
1                  10_GOP
2                  10_GOP
3                  10_GOP
4                  10_GOP
5                  10_GOP
6                  10_GOP
7                  10_GOP
8                  10_GOP
9                  10_GOP
10                 10_GOP
11                 10_GOP
12                 10_GOP
13                 10_GOP
14                 10_GOP
15                 10_GOP
16                 10_GOP
17                 10_GOP
18                 10_GOP
19                 10_GOP
20                 10_GOP
21                 10_GOP
22                 10_GOP
23                 10_GOP
24                 10_GOP
25                 10_GOP
26                 10_GOP
27                 10_GOP
28                 10_GOP
29                 10_GOP
               ...       
243861    AUSTINLOVESBEER
243862    AUSTINLOVESBEER
243863    AUSTINLOVESBEER
243864    AUSTINLOVESBEER
243865    AUSTINLOVESBEER
243866    AUSTINLOVESBEER
243867    AUSTINLOVESBEER
243868    AU

Mit der Funktion ```unique()``` lassen sich die einzigartigen Einträge in einer Spalte herausfinden:

In [11]:
# eine Liste der User-Namen, wobei jeder User genau einmal
# vorkommt
tweets_troll_raw.author.unique()

array(['10_GOP', '1488REASONS', '1D_NICOLE_', '1ERIK_LEE', '1LORENAFAVA1',
       '2NDHALFONION', '459JISALGE', '4EVER1937', '4EVER_SUSAN',
       '4MYSQUAD', '5EMEN5EMENICH', '5L5_5L5', '666STEVEROGERS', '6DRUZ',
       '71BILALJAMIL1', 'AAASSSSSHHH', 'AAATEST1234', 'AAAVADAKEDAVRAA',
       'AAGN1AA', 'AANTIRACIST', 'AARONALLENALL', 'AARON_M1TCHELL',
       'ABALAKOVAYLIA', 'ABBASSHUKRI', 'ABBYLOPTRT', 'ABELLABAB',
       'ABIGAILCALLME', 'ABIGAILSSILK', 'ABIISSROSB', 'ABISADMASST',
       'ABMERRLINS', 'ABOUTPOLIT', 'ABRAMSREBEKAH', 'ABUNUWASA',
       'ABU_UBAIDA2', 'ACAB_ZONE', 'ACAPARELLA', 'ACEJINEV',
       'ACHSAHORKHAN', 'ACTIVEMIKR', 'ADALESTRTM', 'ADAMCHAPMANJR',
       'ADAMMA_DEFOND', 'ADAM_MATHISSS', 'ADDIE_HOL', 'ADELE_BROCK',
       'ADELIINESTRT', 'ADELINE_GS', 'ADELISTRTT', 'ADKEZLATE',
       'ADLEESTTT', 'ADLEESWOD', 'ADNNELSTR', 'ADRGREERR', 'ADRIANAMFTTT',
       'ADRIASNSS', 'ADRIENNE_GG', 'ADRI_LOW_R', 'AESPARZZA', 'AFEELIUTR',
       'AFIFYAMIRA1', 'AFONIA_ZHI

In [12]:
print('Anzahl Troll Tweets: {}'.format(len(tweets_troll_raw)))
unique_users = len(tweets_troll_raw.author.unique())
print('Anzahl Troll User: {}'.format(unique_users))

Anzahl Troll Tweets: 243891
Anzahl Troll User: 298


### Aufgaben
**A.** Wie heißen die Spalten in den drei Datensätzen und welche Informationen enthalten sie?  

In [13]:
print('Spaltennamen der normalen Tweets:')
print(tweets_normal_raw.columns)
print()

print('Spaltennamen der Trump Tweets:')
print(tweets_trump_raw.columns)
print()

print('Spaltennamen der Troll Tweets:')
print(tweets_troll_raw.columns)

Spaltennamen der normalen Tweets:
Index(['sentiment', 'ID', 'Date', 'Query', 'User', 'Tweet'], dtype='object')

Spaltennamen der Trump Tweets:
Index(['status_id', 'created_at', 'user_id', 'screen_name', 'text', 'source',
       'display_text_width', 'reply_to_status_id', 'reply_to_user_id',
       'reply_to_screen_name', 'is_quote', 'is_retweet', 'favorite_count',
       'retweet_count', 'hashtags', 'symbols', 'urls_url', 'urls_t.co',
       'urls_expanded_url', 'media_url', 'media_t.co', 'media_expanded_url',
       'media_type', 'ext_media_url', 'ext_media_t.co',
       'ext_media_expanded_url', 'ext_media_type', 'mentions_user_id',
       'mentions_screen_name', 'lang', 'quoted_status_id', 'quoted_text',
       'quoted_created_at', 'quoted_source', 'quoted_favorite_count',
       'quoted_retweet_count', 'quoted_user_id', 'quoted_screen_name',
       'quoted_name', 'quoted_followers_count', 'quoted_friends_count',
       'quoted_statuses_count', 'quoted_location', 'quoted_description

**Information in den Spalten für den normalen Tweet-Datensatz** (aus der [Dokumentation](http://help.sentiment140.com/for-students/) des Datensatzes):

_The data is a CSV with emoticons removed. Data file format has 6 fields:_
* _0 - the polarity of the tweet (0 = negative, 2 = neutral, 4 = positive)_
* _1 - the id of the tweet (2087)_
* _2 - the date of the tweet (Sat May 16 23:58:44 UTC 2009)_
* *3 - the query (lyx). If there is no query, then this value is NO_QUERY.*
* _4 - the user that tweeted (robotickilldozr)_
* _5 - the text of the tweet (Lyx is cool)_

**Information in den Spalten für den Troll-Tweet Datensatz** (aus der [Dokumentation](https://github.com/fivethirtyeight/russian-troll-tweets/blob/master/README.md) des Datensatzes):

Header | Definition
---|---------
`external_author_id` | An author account ID from Twitter 
`author` | The handle sending the tweet
`content` | The text of the tweet
`region` | A region classification, as [determined by Social Studio](https://help.salesforce.com/articleView?id=000199367&type=1)
`language` | The language of the tweet
`publish_date` | The date and time the tweet was sent
`harvested_date` | The date and time the tweet was collected by Social Studio
`following` | The number of accounts the handle was following at the time of the tweet
`followers` | The number of followers the handle had at the time of the tweet
`updates` | The number of “update actions” on the account that authored the tweet, including tweets, retweets and likes
`post_type` | Indicates if the tweet was a retweet or a quote-tweet
`account_type` | Specific account theme, as coded by Linvill and Warren
`retweet` | A binary indicator of whether or not the tweet is a retweet
`account_category` | General account theme, as coded by Linvill and Warren
`new_june_2018` | A binary indicator of whether the handle was newly listed in June 2018
`alt_external_id` | Reconstruction of author account ID from Twitter, derived from `article_url` variable and the first list provided to Congress
`tweet_id` | Unique id assigned by twitter to each status update, derived from `article_url`
`article_url` | Link to original tweet. Now redirects to "Account Suspended" page
`tco1_step1` | First redirect for the first http(s)://t.co/ link in a tweet, if it exists
`tco2_step1` | First redirect for the second http(s)://t.co/ link in a tweet, if it exists
`tco3_step1` | First redirect for the third http(s)://t.co/ link in a tweet, if it exists

Zum Trump-Datensatz ist keine explizite Dokumentation des Spalteninhalts vorhanden. Trotzdem sind die meisten Spalten-Namen so deskriptiv gestaltet, dass wir erraten können, welche Information sie enthalten und sie entsprechend verwenden können.

**B.** Sieh dir ein paar Tweets aus den jeweiligen Datensätzen an, indem du auf die Spalte mit dem Tweet-Text und den Index des Tweets zugreifst.  

In [14]:
test_index = 10
print('Ein zufälliger normaler User tweetet:')
print(tweets_normal_raw['Tweet'][test_index])
print()
print('Donald Trump tweetet:')
print(tweets_trump_raw['text'][test_index])
print()
print('Ein zufälliger russischer Troll tweetet:')
print(tweets_troll_raw['content'][test_index])

Ein zufälliger normaler User tweetet:
spring break in plain city... it's snowing 

Donald Trump tweetet:
"...these days...we could all use a little of the power of Trumpative thinking." âBarnesandNoble.com http://tinyurl.com/pqpfvm

Ein zufälliger russischer Troll tweetet:
After the 'genocide' remark from San Juan Mayor the narrative has changed though. @CNN fixes its reporting constantly.


**C.** Wieviele Tweets und User enthält der Datensatz mit "normalen" Tweets, wieviele der Datensatz zu den Trump Tweets?  

In [15]:
# normale User
number_of_tweets_normal = len(tweets_normal_raw)
unique_users_normal = len(tweets_normal_raw.User.unique())
print('Anzahl der normalen User: {}'.format(unique_users_normal))
print('Anzahl der Tweets im normalen Datensatz: {}'.format(number_of_tweets_normal))
print()

# Trump
number_of_tweets_trump = len(tweets_trump_raw)
unique_users_trump = len(tweets_trump_raw.screen_name.unique())
print('Anzahl der User im Trum-Datensatz: {}'.format(unique_users_trump))
print('Anzahl der Tweets im Trump-Datensatz: {}'.format(number_of_tweets_trump))

Anzahl der normalen User: 659775
Anzahl der Tweets im normalen Datensatz: 1600000

Anzahl der User im Trum-Datensatz: 5
Anzahl der Tweets im Trump-Datensatz: 32826


Man würde bei einem Datensatz von Tweets von Donald Trump jetzt erst einmal erwarten, dass nur ein User (nämlich Trump) im Datensatz enthalten ist. Deswegen verwundert es etwas, dass es 5 verschiedene User sind. Welche User sind denn das?

In [16]:
print(tweets_trump_raw.screen_name.unique())

['realDonaldTrump' 'TeamTrump' 'EricTrump' 'DanScavino' 'DonaldJTrumpJr']


**D.** Was ist die mittlere Anzahl an Tweets je User für den Datensatz mit den normalen Usern und den mit den Trollen?  

In [17]:
# Trolle
number_of_tweets_troll = len(tweets_troll_raw)
unique_users_troll = len(tweets_troll_raw.author.unique())

# normale user haben wir schon in 2.C berechnet

print('Anzahl der Tweets / User für die normalen Tweets: {:1.2f}'.format(number_of_tweets_normal / unique_users_normal))
print('Anzahl der Tweets / User für die Trolle: {:1.2f}'.format(number_of_tweets_troll / unique_users_troll))

Anzahl der Tweets / User für die normalen Tweets: 2.43
Anzahl der Tweets / User für die Trolle: 818.43


**E.** **(Optional):** Welcher User im Troll-Datensatz hat die meisten Tweets produziert und wieviele Tweets sind das?  

In [18]:
# der Modus gibt Auskunft über den Eintrag, der
# am häufigsten vorkommt
most_active_user = tweets_troll_raw['author'].mode()
print('Der aktivste Troll-Account im Datensatz ist:')
print(most_active_user)
print()

# filtere das DataFrame nach Einträgen, die vom User
# "AMELIEBALDWIN" stammen
filter_most_active = tweets_troll_raw['author'] == 'AMELIEBALDWIN'
number_most_active = filter_most_active.sum()
print('Der aktivste Troll Account hat {} Tweets abgesetzt.'.format(number_most_active))
print('Das sind {:1.2f}% der Tweets im ganzen Datensatz.'\
      .format(number_most_active / len(tweets_troll_raw) * 100))

Der aktivste Troll-Account im Datensatz ist:
0    AMELIEBALDWIN
dtype: object

Der aktivste Troll Account hat 35261 Tweets abgesetzt.
Das sind 14.46% der Tweets im ganzen Datensatz.


**F.** **(Optional):** der Troll-Datensatz listet auch die Tweet-Sprache. Wieviele Sprachen sind im Datensatz vertreten und wieviele Tweets gibt es je Sprache?

In [19]:
# die verschiedenen Einträge der Spalte "language"
sprachen = tweets_troll_raw.language.unique()
print(sprachen)
print()

# ziehe 1 ab für 'LANGUAGE UNDEFINED'
print('Der Datensatz enthält Tweets in {} verschiedenen Sprachen.'\
     .format(len(sprachen) - 1))

['English' 'Russian' 'Serbian' 'Ukrainian' 'Tagalog (Filipino)' 'Albanian'
 'Italian' 'Romanian' 'Spanish' 'Catalan' 'German' 'Estonian' 'French'
 'Norwegian' 'Vietnamese' 'Dutch' 'Arabic' 'Uzbek' 'Bulgarian'
 'Macedonian' 'Farsi (Persian)' 'Turkish' 'LANGUAGE UNDEFINED' 'Czech'
 'Somali' 'Lithuanian' 'Croatian' 'Slovak' 'Icelandic' 'Slovenian'
 'Japanese' 'Indonesian' 'Pushto' 'Hungarian' 'Finnish' 'Latvian'
 'Portuguese' 'Danish' 'Swedish' 'Malay' 'Polish' 'Korean' 'Hebrew' 'Urdu'
 'Kurdish' 'Hindi' 'Greek' 'Simplified Chinese' 'Thai']

Der Datensatz enthält Tweets in 48 verschiedenen Sprachen.


In [20]:
# erstelle ein Dictionary mit einem Eintrag für jede Sprache
# und einem Counter (der zu Anfang gleich null ist).
sprachen = {s:0 for s in sprachen}

# Im Folgenden iterieren wir über jeden Tweet im Datensatz 
# und erhöhen den Counter für die entsprechende Sprache um 1
for index, row in tweets_troll_raw.iterrows():
    # finde die Tweet-Sprache heraus
    tweet_sprache = row['language']
    # erhöhe den Counter der Sprache im Dictionary um 1
    sprachen[tweet_sprache] = sprachen[tweet_sprache] + 1 
    
print(sprachen)

{'English': 190252, 'Russian': 38411, 'Serbian': 604, 'Ukrainian': 2577, 'Tagalog (Filipino)': 27, 'Albanian': 51, 'Italian': 6235, 'Romanian': 132, 'Spanish': 404, 'Catalan': 76, 'German': 1277, 'Estonian': 96, 'French': 555, 'Norwegian': 127, 'Vietnamese': 105, 'Dutch': 169, 'Arabic': 570, 'Uzbek': 584, 'Bulgarian': 549, 'Macedonian': 369, 'Farsi (Persian)': 105, 'Turkish': 35, 'LANGUAGE UNDEFINED': 33, 'Czech': 5, 'Somali': 20, 'Lithuanian': 21, 'Croatian': 46, 'Slovak': 11, 'Icelandic': 31, 'Slovenian': 7, 'Japanese': 74, 'Indonesian': 10, 'Pushto': 44, 'Hungarian': 10, 'Finnish': 33, 'Latvian': 22, 'Portuguese': 65, 'Danish': 10, 'Swedish': 51, 'Malay': 14, 'Polish': 25, 'Korean': 2, 'Hebrew': 7, 'Urdu': 6, 'Kurdish': 8, 'Hindi': 18, 'Greek': 5, 'Simplified Chinese': 2, 'Thai': 1}


[Anfang](#top)

<a name="daten_bereinigen"></a>3. Daten bereinigen
---
Offensichtlich gibt es im Datensatz der Trump-Tweets nicht nur Tweets von Trump selbst [@realDonaldTrump](https://twitter.com/realdonaldtrump) sondern auch noch von vier anderen Usern. Im Folgenden wollen wir die Datensätze etwas aufräumen, um sie leichter nutzbar zu machen.

In [21]:
# originale Anzahl Tweets
print('Anzahl der Tweets vor Bereinigung: {}'.format(len(tweets_trump_raw)))

# entferne alle Tweets von Usern, die nicht "realDonaldTrump"
# sind aus dem Datensatz.
mask_realDonald = tweets_trump_raw['screen_name'] == 'realDonaldTrump'
tweets_trump_filtered = tweets_trump_raw[mask_realDonald]

# wir sehen: es sind gar nicht so viele Tweets verschwunden.
print('Anzahl der Tweets nach Bereinigung: {}'.format(len(tweets_trump_filtered)))

Anzahl der Tweets vor Bereinigung: 32826
Anzahl der Tweets nach Bereinigung: 32807


Es fällt auf, dass die Spalten in den drei Datensätzen unterschiedlich heißen. Die Spalte mit dem User, der einen Tweet erstellt hat, heißt z.B. ```User``` (normale Tweets), ```screen_name``` (Trump Tweets) und ```author``` (Troll Tweets), obwohl sie die gleiche Information - nämlich den Username - enthält. Um die Daten in Zukunft einfacher handhaben zu können, wollen wir sicherstellen, dass alle Spalten in allen Datensätzen gleich heißen. Außerdem löschen wir alle Spalten mit Informationen, die nicht relevant für uns sind. Dafür erstellen wir basierend auf den DataFrame mit den (gefilterten) Rohdaten ein neues DataFrame, das nur die Spalten (mit den richtigen Namen) enthält, die wir brauchen:

In [22]:
# neues, gesäubertes DataFrame
tweets_trump = pd.DataFrame({'Date':tweets_trump_filtered['created_at'],\
                             'User':tweets_trump_filtered['screen_name'],\
                             'Tweet':tweets_trump_filtered['text']})

### Aufgaben
Generell interessieren wir uns für die Spalten, in denen der Username, das Tweet-Datum und der Tweet-Text enthalten sind. Bei den Troll Tweets möchten wir außerdem die Spalten mit Informationen über die Sprache, die Anzahl der Follower und die Anzahl der gefolgten Accounts.  

**A.** Bereinige auch die Tweets von den normalen Usern, indem du ein neues DataFrame mit den Spalten ```[Date, User, Text]``` basierend auf den Rohdaten erstellst.  

In [23]:
# bereinige die Trump Tweets (Wiederholung aus Übungsblatt)
mask_realDonald = tweets_trump_raw['screen_name'] == 'realDonaldTrump'
tweets_trump_filtered = tweets_trump_raw[mask_realDonald]
tweets_trump = pd.DataFrame({'Date':tweets_trump_filtered['created_at'],\
                             'User':tweets_trump_filtered['screen_name'],\
                             'Tweet':tweets_trump_filtered['text']})

# normale user
tweets_normal = pd.DataFrame({'Date':tweets_normal_raw['Date'],\
                             'User':tweets_normal_raw['User'],\
                             'Tweet':tweets_normal_raw['Tweet']})

**B.** Bereinige die Troll Twees (wie oben die Trump Tweets), behalte zusätzlich auch die Spalten, die die Informationen über die Tweet-Sprache, die Anzahl der Follower und die Anzahl der gefolgten Accounts enthalten.  

In [24]:
# Trolle
tweets_troll = pd.DataFrame({'Date':tweets_troll_raw['publish_date'],\
                             'User':tweets_troll_raw['author'],\
                             'Tweet':tweets_troll_raw['content'],\
                             'Language':tweets_troll_raw['language'],\
                             'Follower':tweets_troll_raw['followers'],\
                             'Following':tweets_troll_raw['following']})
tweets_troll.head()

Unnamed: 0,Date,User,Tweet,Language,Follower,Following
0,10/1/2017 19:58,10_GOP,"""We have a sitting Democrat US Senator on tria...",English,9636,1052
1,10/1/2017 22:43,10_GOP,Marshawn Lynch arrives to game in anti-Trump s...,English,9637,1054
2,10/1/2017 22:50,10_GOP,Daughter of fallen Navy Sailor delivers powerf...,English,9637,1054
3,10/1/2017 23:52,10_GOP,JUST IN: President Trump dedicates Presidents ...,English,9642,1062
4,10/1/2017 2:13,10_GOP,"19,000 RESPECTING our National Anthem! #StandF...",English,9645,1050


**C. (Optional):** Aktuell benutzen wir nur den ersten von 13 Teilen des Troll-Tweet Datensatzes. Wir machen das, da sonst der Datensatz eventuell zu groß werden würde (etwa 1.3 GB). Wenn du möchtest, kannst du aber auch die anderen 12 Datensätze herunterladen und mit dem ersten zu einem einzigen großen Datensatz zusammenfügen. <font color='green'>**HINWEIS:** Benutze dazu am besten die ```concat()``` Funktion von Pandas ([Dokumentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html)). </font> Wie sind die Tweets in dem gesamten Datensatz strukturiert? Wie wurde der Datensatz in einzelne Teile aufgeteilt?   

In [29]:
# url der Troll tweets, diesmal mit einem Platzhalter "{}" für die Zahl
url_troll = 'https://github.com/fivethirtyeight/russian-troll-tweets/raw/master/IRAhandle_tweets_{}.csv'
# Liste, in der wir alle heruntergeladenen Troll-Tweets speichern
tweets_troll_all_raw = []

# iteriere über die Zahlen 1 bis 13, um alle 13 Teile des Datensatzes herunterzuladen
for i in range(1, 14):
    url_troll = url_troll.format(i)
    antwort_troll = requests.get(url_troll).content
    inhalt_troll = io.StringIO(antwort_troll.decode('ISO-8859-1'))
    tweets = pd.read_csv(inhalt_troll)
    # füge den Datensatz-Teil der Liste hinzu
    tweets_troll_all_raw.append(tweets)
    print('Der {}. Datensatzteil beinhaltet {} Tweets.'.format(i, len(tweets)))
    
# Die Tweets liegen alphabetisch sortiert nach User-name vor. 
# Alle Teile des Datensatzes beinhalten genau 243891 Tweets 

Der 1. Datensatzteil beinhaltet 243891 Tweets.
Der 2. Datensatzteil beinhaltet 243891 Tweets.
Der 3. Datensatzteil beinhaltet 243891 Tweets.
Der 4. Datensatzteil beinhaltet 243891 Tweets.
Der 5. Datensatzteil beinhaltet 243891 Tweets.
Der 6. Datensatzteil beinhaltet 243891 Tweets.
Der 7. Datensatzteil beinhaltet 243891 Tweets.
Der 8. Datensatzteil beinhaltet 243891 Tweets.
Der 9. Datensatzteil beinhaltet 243891 Tweets.
Der 10. Datensatzteil beinhaltet 243891 Tweets.
Der 11. Datensatzteil beinhaltet 243891 Tweets.
Der 12. Datensatzteil beinhaltet 243891 Tweets.
Der 13. Datensatzteil beinhaltet 243891 Tweets.


In [30]:
# erstelle aus den Teilen ein einziges DataFrame
tweets_troll_all_raw = pd.concat(tweets_troll_all_raw)
#speichere das neue Data-Frame
tweets_troll_all_raw.to_csv('data/tweets_troll_all_raw.csv', index=False)

In [31]:
# bereinige das DataFrame
tweets_troll_all_bereinigt = pd.DataFrame({'Date':tweets_troll_all_raw['publish_date'],\
                             'User':tweets_troll_all_raw['author'],\
                             'Tweet':tweets_troll_all_raw['content'],\
                             'Language':tweets_troll_all_raw['language'],\
                             'Follower':tweets_troll_all_raw['followers'],\
                             'Following':tweets_troll_all_raw['following']})

print('Der gesamte Datensatz beinhaltet {} Tweets.'.format(len(tweets_troll_all_bereinigt)))
tweets_troll_all_bereinigt.head()

Der gesamte Datensatz beinhaltet 3170583 Tweets.


Unnamed: 0,Date,User,Tweet,Language,Follower,Following
0,10/1/2017 19:58,10_GOP,"""We have a sitting Democrat US Senator on tria...",English,9636,1052
1,10/1/2017 22:43,10_GOP,Marshawn Lynch arrives to game in anti-Trump s...,English,9637,1054
2,10/1/2017 22:50,10_GOP,Daughter of fallen Navy Sailor delivers powerf...,English,9637,1054
3,10/1/2017 23:52,10_GOP,JUST IN: President Trump dedicates Presidents ...,English,9642,1062
4,10/1/2017 2:13,10_GOP,"19,000 RESPECTING our National Anthem! #StandF...",English,9645,1050


**D. (Optional):** Das Format der Spalte "Date" ist noch in allen drei Datensätzen unterschiedlich. Versuche, alle drei unterschiedlichen Zeit- und Datumsangaben in einen String mit dem Format ```YYYY-MM-DD hh:mm:ss``` (Year-Month-Day hour:minute:second) zu überführen. Noch eleganter ist die Benutzung eines [datetime](https://docs.python.org/2/library/datetime.html) Objektes, um Datum und Uhrzeit zu speichern. 

In [25]:
# importiere die Bibliothek datetime
import datetime

# definiere die Funktion "clean_date", die als Input
# einen String bekommt, der eine Datums- und Zeitangabe
# enthält, sowie den typ (trump, normal, troll) des Inputs,
# um den String entsprechend zu formatieren
def clean_date(date_time_raw, typ):
    
    # dictionary in dem jeder Monatsabkürzung eine Ganzzahl
    # zugewiesen wird (im normalen Tweet Datensatz liegen die
    # Monatsangaben als String vor)
    month_dict = {'Jan':1, 'Feb':2, 'Mar':3, 'Apr':4,\
                 'May':5, 'Jun':6, 'Jul':7, 'Aug':8,\
                 'Sep':9, 'Oct':10, 'Nov':11, 'Dec':12}
    
    # überprüfe den Typ der Eingabe
    # Timestamps aus dem Troll-Datensatz folgen dem
    # Muster "monat/tag/jahr stunde:minute"
    if typ == 'troll':
        # teile den String entlang des Leerzeichens in Datum und Zeit
        date, time = date_time_raw.split(' ')
        # teile das Datum entlang des forward-slash in Monat, Tag und Jahr
        month, day, year = date.split('/')
        # teile die Zeit entlang des Doppelpunktes in Stunde und Minute
        hour, minute = time.split(':')
    
    # Timestamps aus dem normalen Datensatz folgen dem
    # Muster "weekday month day hour:minute:second timezone year"
    elif typ == 'normal':
        # teile den String entlang des Leerzeichens in Wochentag,
        # Monat (String-Abkürzung), Tag, Zeit, Zeitzone und Jahr
        weekday, month, day, time, zone, year = date_time_raw.split(' ')
        # teile die Zeit entlang des Doppelpunktes in Stunde, Minute und Sekunde
        hour, minute, second = time.split(':')
        # konvertiere die Monatsangabe mit dem "month_dict" in eine Zahl
        month = month_dict[month]
    
    # Timestamps aus dem Trump-Datensatz folgen dem
    # Muster "year-month-day hour:minute:second"
    elif typ == 'trump':
        # teile den String entlang des Leerzeichens in Datum und Zeit
        date, time = date_time_raw.split(' ')
        # teile das Datum entlang des Bindestrichs in Jahr, Monat und Tag
        year, month, day = date.split('-')
        # teile die Zeit entlang des Doppelpunktes in Stunde, Minute und Sekunde
        hour, minute, second = time.split(':')
    
    # falls die Funktion mit einem unbekannten Typ benutzt
    # wird, geben wir eine Fehlermeldung aus und "None" zurück
    else:
        print('unknown Tweet type!')
        return None
    
    # wir verwandeln Jahr, Monat, Tag, Stunde und Minute in Ganzzahlen
    # da der Datensatz mit den Troll-Tweets keine Informationen über die
    # Sekunden enthält, lassen wir die Sekunden weg und geben uns mit
    # einer minuten-genauen Auflösung der Zeit zufrieden
    year = int(year)
    month = int(month)
    day = int(day)
    hour = int(hour)
    minute = int(minute)
    
    # erstelle ein datetime-Objekt aus Datum und Zeit
    date_time = datetime.datetime(year, month, day, hour, minute)
    
    # gib das datetime-Objekt zurück
    return date_time

In [26]:
# teste die Funktion mit Einträgen aus allen drei Datensätzen
trump_test = tweets_trump.loc[0]['Date']
normal_test = tweets_normal.loc[0]['Date']
troll_test = tweets_troll.loc[0]['Date']

clean_trump = clean_date(trump_test, 'trump')
print(clean_trump)
clean_normal = clean_date(normal_test, 'normal')
print(clean_normal)
clean_troll = clean_date(troll_test, 'troll')
print(clean_troll)

2009-05-20 22:29:00
2009-04-06 22:19:00
2017-10-01 19:58:00


In [27]:
# konvertiere alle Datumsangaben in den drei Datensätzen in datetime-Objekte
tweets_trump['Date'] = tweets_trump['Date'].apply(clean_date, args=['trump'])
tweets_normal['Date'] = tweets_normal['Date'].apply(clean_date, args=['normal'])
tweets_troll['Date'] = tweets_troll['Date'].apply(clean_date, args=['troll'])

In [28]:
# jetzt können wir mit den Datumsangaben ganz einfach rechnen:
# wir bekommen als Ergebnis ein timedelta-Objekt zurück
tweets_trump.loc[0]['Date'] - tweets_trump.loc[4]['Date']

Timedelta('-180 days +01:23:00')

Im Folgenden interessieren wir uns für die Länge der einzelnen Tweets. Diese können wir berechnen und in den DataFrames speichern:

In [29]:
length = []
for tweet in tweets_trump['Tweet']:
    length.append(len(tweet))

tweets_trump['Length'] = length
tweets_trump.head()

Unnamed: 0,Date,User,Tweet,Length
0,2009-05-20 22:29:00,realDonaldTrump,Read a great interview with Donald Trump that ...,112
1,2010-11-29 15:52:00,realDonaldTrump,Congratulations to Evan Lysacek for being nomi...,127
2,2010-10-28 18:53:00,realDonaldTrump,I was on The View this morning. We talked abou...,139
3,2010-11-24 17:20:00,realDonaldTrump,Tomorrow night's episode of The Apprentice del...,140
4,2009-11-16 21:06:00,realDonaldTrump,Donald Trump Partners with TV1 on New Reality ...,116


**E.** Erstelle eine Funktion, die für ein gegebenes DataFrame die Tweet-Länge berechnet und eine neue Spalte mit der Tweet-Länge zum DataFrame hinzufügt. Wende diese Funktion auf alle drei Tweet-Datensätze an.  

In [32]:
# definiere die Funktion "calculate_length", die ein
# DataFrame "df" übergeben bekommt
def calculate_tweet_length(df):
    
    # Liste, in der die Tweet-Längen gespeichert werden
    length = []
    
    # Iteriere über alle Tweets
    for tweet in df['Tweet']:
        # füge Tweet-Länge der Liste hinzu
        length.append(len(tweet))

    # erstelle eine neue Spalte im DataFrame "df",
    # indem der (zuvor noch nicht existenten) Spalte
    # mit dem namen "tweet_length" die Liste "length"
    # zugewiesen wird
    df['tweet_length'] = length
    
# wende die oben definierte Funktion auf alle DataFrames an
calculate_tweet_length(tweets_normal)
calculate_tweet_length(tweets_trump)
calculate_tweet_length(tweets_troll)

# Diese Zeile "einkommentieren" - also das "#" Zeichen löschen, falls du 
# Aufgabe 3.C bearbeitet hast
#calculate_tweet_length(tweets_troll_all)

**F.** **(Optional)** Erstelle eine zweite Funktion, die die Anzahl der Worte je Tweet berechnet und ebenfalls als zusätzliche Spalte dem DataFrame hinzufügt.  

In [33]:
def calculate_word_number(df):
    
    # Liste, in der die Wort-Längen gespeichert werden
    word_number = []
    
    # Iteriere über alle Tweets
    for tweet in df['Tweet']:
        # wir gehen davon aus, dass einzelne Worte durch
        # Leerzeichen getrennt werden
        words = tweet.split(' ')
        word_number.append(len(words))

    # erstelle eine neue Spalte im DataFrame "df",
    # indem der (zuvor noch nicht existenten) Spalte
    # mit dem namen "word_number" die Liste word_number
    # zugewiesen wird
    df['word_number'] = word_number
    
calculate_word_number(tweets_normal)
calculate_word_number(tweets_trump)
calculate_word_number(tweets_troll)

# Diese Zeile "einkommentieren" - also das "#" Zeichen löschen, falls du 
# Aufgabe 3.C bearbeitet hast
#calculate_word_number(tweets_troll_all)

In [34]:
# der Datensatz hat jetzt die beiden neuen Spalten "tweet_length"
# und "word_number"
tweets_normal.head()

Unnamed: 0,Date,User,Tweet,tweet_length,word_number
0,2009-04-06 22:19:00,_TheSpecialOne_,"@switchfoot http://twitpic.com/2y1zl - Awww, t...",115,20
1,2009-04-06 22:19:00,scotthamilton,is upset that he can't update his Facebook by ...,111,22
2,2009-04-06 22:19:00,mattycus,@Kenichan I dived many times for the ball. Man...,89,19
3,2009-04-06 22:19:00,ElleCTF,my whole body feels itchy and like its on fire,47,11
4,2009-04-06 22:19:00,Karoli,"@nationwideclass no, it's not behaving at all....",111,22


**G.** Speichere alle drei Dataframes im Ordner ```/data``` als ```.csv``` Datei unter den Namen
* ```tweets_normal_bereinigt.csv```,
* ```tweets_trump_bereinigt.csv``` und
* ```tweets_troll_bereinigt.csv```.  
Benutze dafür die Funktion [to_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_csv.html) des Dataframes.

In [43]:
tweets_normal.to_csv('data/tweets_normal_bereinigt.csv', encoding='ISO-8859-1', index=False, line_terminator='\n')
tweets_trump.to_csv('data/tweets_trump_bereinigt.csv', encoding='ISO-8859-1', index=False, line_terminator='\n')
tweets_troll.to_csv('data/tweets_troll_bereinigt.csv', encoding='ISO-8859-1', index=False, line_terminator='\n')

# Diese Zeile "einkommentieren" - also das "#" Zeichen löschen, falls du 
# Aufgabe 3.C bearbeitet hast
#tweets_troll_all_bereinigt.to_csv('data/tweets_troll_all_bereinigt.csv', index=False, line_terminator='\n')

[Anfang](#top)