In [1]:
#CSV Bibliothek importieren 
import csv
#Pandas importieren und als pd bezeichnen
import pandas as pd
#Numpy importieren und als np bezeichnen 
import numpy as np
#Json Biliothek importieren
import json
#Obere Schranke für die Größe der Daten auf 100,000,000 setzen  
csv.field_size_limit(100000000)
#Maximale Anzahl von Zeilen und Spalten Zeigen 
pd.options.display.max_columns = None
pd.options.display.max_rows = None
#Vader-Bibliothek importieren
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer

---

# Stimmung der Tweetihalte(Vader)
 

- In diesem Notebook bearbeitet wir, wie die Stimmung der Inhalte für die Tweets in TweetsCov19 berechnet wurde. 
- Die Methoden wurden für die Tweetinhalte in TweetsKB auch benutzt.

1. Dataframe wird gelesen
2. Die Stimmung wird berechnet
3. Vier Stimmungswerte, also neutral, positiv, negativ und Mittelwert werden separiert 
4. Die Ergebnisse werden gespeichert.

---

#### TweetsCov19:

In [2]:
#Labels und Pfad für den TweetsCov19
TweetsCov19_labels = ['Tweet_Id', "Benutzername", 'Zeitstempel', 'Abonnenten', 'Abonnierten', 'Retweets', 'Likes', 'Entities', 'Stimmung', 'Erwähnungen', 'Hashtags', 'URLs', 'Text', 'Ist_gelöscht', 'Anzahl der Erwähnungen', 'Anzahl der Hashtags', 'Anzahl der URLs', 'Domäne', 'Textlänge', 'Lesbarkeit']
TweetsCov19_Pfad =  'C:/Mo/tweetDB/tweetscov19/TweetsCov19_tsv/data_sample/tweetscov19_sample/TweetsCov19_stichprobe_lesbarkeit.tsv'

In [3]:
#Stichprobe von Tweetscov19 lesen

df_tweetscov19 = pd.read_csv(TweetsCov19_Pfad, sep='\t', error_bad_lines=False, names=TweetsCov19_labels)
print('Form:', df_tweetscov19.shape)
df_tweetscov19.head()

Form: (9409841, 20)


Unnamed: 0,Tweet_Id,Benutzername,Zeitstempel,Abonnenten,Abonnierten,Retweets,Likes,Entities,Stimmung,Erwähnungen,Hashtags,URLs,Text,Ist_gelöscht,Anzahl der Erwähnungen,Anzahl der Hashtags,Anzahl der URLs,Domäne,Textlänge,Lesbarkeit
0,1178791637348212736,c57d4fb895c5f4a33d2a2b24709f93b5,2019-09-30 22:00:01+00:00,764191,132,19,180,foodie:Foodie:-2.096663959988218;,1 -1,null;,HalloweenTime?,null;,Has your appetite materialized just as fast as...,True,0,1,0,0,155,76.553
1,1178791641601232896,627f7d4ef584ba33a676a4ebcb861cdb,2019-09-30 22:00:02+00:00,321189,26833,32,43,mainland china:Mainland_China:-1.6252666161640...,1 -1,null;,HongKong,https://www.catholicnewsagency.com/news/amid-h...,The persecution of Catholics in mainland China...,False,0,1,1,catholicnewsagency.com,204,29.468
2,1178791643509612547,7966d5716c1c4f33591b17755184e3d6,2019-09-30 22:00:03+00:00,14209,10623,90,182,brexit:Brexit:-1.582809637810362;hear hear:Hea...,1 -2,null;,Brexit,null;,"Hear, hear..\nEmily: You were an outspoken cri...",False,0,1,0,0,163,79.534
3,1178791644214235137,f17996c036ed4cd981f5448fe00d9ed2,2019-09-30 22:00:03+00:00,2264986,655,60,528,null;,3 -1,amstandardca.,BlueJays,null;,We wrapped up the season with a WINNING week! ...,False,1,1,0,0,132,85.889
4,1178791645371875329,32a54e5f6d8a67de1bffd2e689594dc8,2019-09-30 22:00:03+00:00,171,138,33,117,my family:My_Family:-2.6353832182503094;roll t...,4 -1,null;,null;,null;,Super excited to announce that I will be spend...,False,0,0,0,0,257,61.203


In [4]:
#Hier wird ein Objekt von SentimentIntensityAnalyzer() gelegt.
obj = SentimentIntensityAnalyzer()

#Die Stimmung wird berechnet und in einem Dictionary zurückgegeben
def get_stimmung(te):
    return obj.polarity_scores(te)

#Die spalte Text wird als String definiert
#Die Methode get_stimmung() für alle Tweets wird gerufen.
df_tweetscov19['Text'] = df_tweetscov19['Text'].astype(str)
df_tweetscov19['vader'] = df_tweetscov19.apply(lambda row: get_stimmung(row['Text']) , axis=1)


In [12]:
#Die mthode gibt die negative Stimmung zurück.
#Da das Ergebnis eine positive Zahl ist, wirdes mit -1 multipiliziert, sodass das negative Ergebnis anschaulicher wird.  
def get_vader_neg(text):
    #text = ast.literal_eval(text)
    return -1 * text['neg']

In [13]:
#Die Methode gibt das neutrale Ergebnis zurück
def get_vader_neu(text):
    #text = ast.literal_eval(text)
    return text['neu']

In [14]:
#Die Methode gibt das positve Ergebnis zurück
def get_vader_pos(text):
    #text = ast.literal_eval(text)
    return text['pos']

In [15]:
#Die Methode gibt den Mettelwert für die stimmung zurück.

def get_vader_com(text):
    #text = ast.literal_eval(text)
    return text['compound']

In [16]:
#Die Methode get_vader_pos() wird für alle Tweetinhalte gerufen. Das Ergebnis wird in vader_pos gespeichert. 
df_tweetscov19['vader_pos'] = df_tweetscov19.apply(lambda row: get_vader_pos(row['vader']) , axis=1)

In [17]:
#Die Methode get_vader_neu() wird für alle Tweetinhalte gerufen. Das Ergebnis wird in vader_neu gespeichert. 
df_tweetscov19['vader_neu'] = df_tweetscov19.apply(lambda row: get_vader_neu(row['vader']) , axis=1)

In [18]:
#Die Methode get_vader_neg() wird für alle Tweetinhalte gerufen. Das Ergebnis wird in vader_neg gespeichert. 
df_tweetscov19['vader_neg'] = df_tweetscov19.apply(lambda row: get_vader_neg(row['vader']) , axis=1)

In [19]:
#Die Methode get_vader_com() wird für alle Tweetinhalte gerufen. Der Mittelwert wird in vader_meittelwert gespeichert. 
df_tweetscov19['vader_mittelwert'] = df_tweetscov19.apply(lambda row: get_vader_com(row['vader']) , axis=1)

In [20]:
df_tweetscov19.head()

Unnamed: 0,Tweet_Id,Benutzername,Zeitstempel,Abonnenten,Abonnierten,Retweets,Likes,Entities,Stimmung,Erwähnungen,Hashtags,URLs,Text,Ist_gelöscht,Anzahl der Erwähnungen,Anzahl der Hashtags,Anzahl der URLs,Domäne,Textlänge,Lesbarkeit,vader,vader_pos,vader_neu,vader_neg,vader_mittelwert
0,1178791637348212736,c57d4fb895c5f4a33d2a2b24709f93b5,2019-09-30 22:00:01+00:00,764191,132,19,180,foodie:Foodie:-2.096663959988218;,1 -1,null;,HalloweenTime?,null;,Has your appetite materialized just as fast as...,True,0,1,0,0,155,76.553,"{'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound...",0.0,1.0,-0.0,0.0
1,1178791641601232896,627f7d4ef584ba33a676a4ebcb861cdb,2019-09-30 22:00:02+00:00,321189,26833,32,43,mainland china:Mainland_China:-1.6252666161640...,1 -1,null;,HongKong,https://www.catholicnewsagency.com/news/amid-h...,The persecution of Catholics in mainland China...,False,0,1,1,catholicnewsagency.com,204,29.468,"{'neg': 0.0, 'neu': 0.919, 'pos': 0.081, 'comp...",0.081,0.919,-0.0,0.3182
2,1178791643509612547,7966d5716c1c4f33591b17755184e3d6,2019-09-30 22:00:03+00:00,14209,10623,90,182,brexit:Brexit:-1.582809637810362;hear hear:Hea...,1 -2,null;,Brexit,null;,"Hear, hear..\nEmily: You were an outspoken cri...",False,0,1,0,0,163,79.534,"{'neg': 0.202, 'neu': 0.798, 'pos': 0.0, 'comp...",0.0,0.798,-0.202,-0.6486
3,1178791644214235137,f17996c036ed4cd981f5448fe00d9ed2,2019-09-30 22:00:03+00:00,2264986,655,60,528,null;,3 -1,amstandardca.,BlueJays,null;,We wrapped up the season with a WINNING week! ...,False,1,1,0,0,132,85.889,"{'neg': 0.0, 'neu': 0.624, 'pos': 0.376, 'comp...",0.376,0.624,-0.0,0.8633
4,1178791645371875329,32a54e5f6d8a67de1bffd2e689594dc8,2019-09-30 22:00:03+00:00,171,138,33,117,my family:My_Family:-2.6353832182503094;roll t...,4 -1,null;,null;,null;,Super excited to announce that I will be spend...,False,0,0,0,0,257,61.203,"{'neg': 0.0, 'neu': 0.765, 'pos': 0.235, 'comp...",0.235,0.765,-0.0,0.9117


In [21]:
#Die Spalte vader(Dictionary von Stimmungen) wird gelöscht.
df_tweetscov19 = df_tweetscov19.drop(columns=['vader'])

In [22]:
df_tweetscov19.head()

Unnamed: 0,Tweet_Id,Benutzername,Zeitstempel,Abonnenten,Abonnierten,Retweets,Likes,Entities,Stimmung,Erwähnungen,Hashtags,URLs,Text,Ist_gelöscht,Anzahl der Erwähnungen,Anzahl der Hashtags,Anzahl der URLs,Domäne,Textlänge,Lesbarkeit,vader_pos,vader_neu,vader_neg,vader_mittelwert
0,1178791637348212736,c57d4fb895c5f4a33d2a2b24709f93b5,2019-09-30 22:00:01+00:00,764191,132,19,180,foodie:Foodie:-2.096663959988218;,1 -1,null;,HalloweenTime?,null;,Has your appetite materialized just as fast as...,True,0,1,0,0,155,76.553,0.0,1.0,-0.0,0.0
1,1178791641601232896,627f7d4ef584ba33a676a4ebcb861cdb,2019-09-30 22:00:02+00:00,321189,26833,32,43,mainland china:Mainland_China:-1.6252666161640...,1 -1,null;,HongKong,https://www.catholicnewsagency.com/news/amid-h...,The persecution of Catholics in mainland China...,False,0,1,1,catholicnewsagency.com,204,29.468,0.081,0.919,-0.0,0.3182
2,1178791643509612547,7966d5716c1c4f33591b17755184e3d6,2019-09-30 22:00:03+00:00,14209,10623,90,182,brexit:Brexit:-1.582809637810362;hear hear:Hea...,1 -2,null;,Brexit,null;,"Hear, hear..\nEmily: You were an outspoken cri...",False,0,1,0,0,163,79.534,0.0,0.798,-0.202,-0.6486
3,1178791644214235137,f17996c036ed4cd981f5448fe00d9ed2,2019-09-30 22:00:03+00:00,2264986,655,60,528,null;,3 -1,amstandardca.,BlueJays,null;,We wrapped up the season with a WINNING week! ...,False,1,1,0,0,132,85.889,0.376,0.624,-0.0,0.8633
4,1178791645371875329,32a54e5f6d8a67de1bffd2e689594dc8,2019-09-30 22:00:03+00:00,171,138,33,117,my family:My_Family:-2.6353832182503094;roll t...,4 -1,null;,null;,null;,Super excited to announce that I will be spend...,False,0,0,0,0,257,61.203,0.235,0.765,-0.0,0.9117


In [23]:
#Dataframe wird gespeichert.
pfad_tsv2 = 'C:/Mo/tweetDB/tweetscov19/TweetsCov19_tsv/data_sample/TweetsCov19_sample/TweetsCov19_stichprobe_vader.tsv'
with open(pfad_tsv2, 'w', newline='', encoding="utf-8") as out_file:
        tsv_writer = csv.writer(out_file, delimiter="\t")
        for idx, row in df_tweetscov19.iterrows():
            tsv_writer.writerow(row.values.tolist())