In [1]:
#CSV Bibliothek importieren 
import csv
#Pandas importieren und als pd bezeichnen
import pandas as pd
#Numpy importieren und als np bezeichnen 
import numpy as np
#Json Biliothek importieren
import json
#Obere Schranke für die Größe der Daten auf 100,000,000 setzen  
csv.field_size_limit(100000000)
#Maximale Anzahl von Zeilen und Spalten Zeigen 
pd.options.display.max_columns = None
pd.options.display.max_rows = None

***

# TweetsKB

1. Die Benutzer, die in allen drei Dimensionen eine polarisierte Wertung haben, werden ausgewählt.
2. Die Anzahl der geposteten Tweets, gelöschten Tweets, Löschungsquote und Reputation wird zu der Benutzer hinzugefügt.
3. Dataframe wird gespeichert.

***

In [2]:
#Die Dataframe, die die Benutzer mit politischen Meinungen enthält, wird hier gelesen. 
pfad_tsv1 = 'C:/Mo/tweetDB/tweetscov19/TweetsCov19_tsv/data_sample/dom_label/tweetskb_unique_user_dom_politik.tsv'

df_tweetskb_politik = pd.read_csv(pfad_tsv1, sep='\t', error_bad_lines=False, names=['Username', 'Urls_num', 'neg', 'pos', 'pol_dom_num', 'politic'])
pd.options.display.max_columns = None
print('Shape :', df_tweetskb_politik.shape)
df_tweetskb_politik.head()

Shape : (17303, 6)


Unnamed: 0,Username,Urls_num,neg,pos,pol_dom_num,politic
0,0000Condor,1,-1,0,1,-1.0
1,007AliSohrab,5,-1,0,1,-1.0
2,007Meisie,1,0,1,1,1.0
3,007plus100,1,-1,0,1,-1.0
4,01judith01,1,0,1,1,1.0


In [3]:
#Die Dataframe, die die Benutzer mit wissenschaftlichen Polarisierungen enthält, wird hier gelesen. 
pfad_tsv1 = 'C:/Mo/tweetDB/tweetscov19/TweetsCov19_tsv/data_sample/dom_label/tweetskb_unique_user_dom_science.tsv'

df_tweetskb_science = pd.read_csv(pfad_tsv1, sep='\t', error_bad_lines=False, names=['Username', 'Urls_num', 'neg', 'pos', 'pol_dom_num', 'science'])
pd.options.display.max_columns = None
print('Shape :', df_tweetskb_science.shape)
df_tweetskb_science.head()

Shape : (11311, 6)


Unnamed: 0,Username,Urls_num,neg,pos,pol_dom_num,science
0,01_zebra,4,-1,0,1,-1.0
1,01sth02,1,0,1,1,1.0
2,02MK13B,1,-1,0,1,-1.0
3,08_diane08,1,-1,0,1,-1.0
4,0Ludicris5,4,-2,0,2,-1.0


In [4]:
#Die Dataframe, die die Benutzer mit moderaten Polarisierungen enthält, wird hier gelesen. 
pfad_tsv1 = 'C:/Mo/tweetDB/tweetscov19/TweetsCov19_tsv/data_sample/dom_label/tweetskb_unique_user_dom_moderacy.tsv'

df_tweetskb_moderacy = pd.read_csv(pfad_tsv1, sep='\t', error_bad_lines=False, names=['Username', 'Urls_num', 'neg', 'pos', 'pol_dom_num', 'moderat'])
pd.options.display.max_columns = None
print('Shape :', df_tweetskb_moderacy.shape)
df_tweetskb_moderacy.head()

Shape : (34352, 6)


Unnamed: 0,Username,Urls_num,neg,pos,pol_dom_num,moderat
0,0000Condor,1,0,1,1,1.0
1,007plus100,1,-1,0,1,-1.0
2,01_zebra,4,-1,0,1,-1.0
3,01pod,1,-1,0,1,-1.0
4,01ravenking,2,-1,0,1,-1.0


In [5]:
#Die zwei Dataframes, die die Benutzer mit wissenschaftlichen und politischen Meinunegen enthalten werden vereinigt.
#Es wird eine Schnittmenge der Benutzer berechnet. Nur die Benutzer die in beiden Dimensionen eine Wertung haben, werden ausgewählt.
df_tweetskb_politik = df_tweetskb_politik[['Username', 'politic']]
df_tweetskb_science = df_tweetskb_science[['Username', 'science']]
df_tweetskb_user = pd.merge(df_tweetskb_politik, df_tweetskb_science, on='Username', how='inner')
print('Shape :', df_tweetskb_user.shape)
df_tweetskb_user.head()

Shape : (5173, 3)


Unnamed: 0,Username,politic,science
0,02MK13B,1.0,-1.0
1,08_diane08,-1.0,-1.0
2,0Ludicris5,1.0,-1.0
3,0SilenceDogood,1.0,-1.0
4,1000Steps,-1.0,1.0


In [6]:
#Die erhaltene Dataframe aus der letzten Schritt wird hier mit der Dataframe, die Moderaten und Hardliner enthält zusammengeführt.
#Es wird hier ein Inneres Produkt gebildet, sodass nur die Benutzer, die in allen drei Dimensionen einen Wert haben, werden ausgewählt.
df_tweetskb_moderacy = df_tweetskb_moderacy[['Username', 'moderat']]
df_tweetskb_user = pd.merge(df_tweetskb_user, df_tweetskb_moderacy, on='Username', how='inner')
print('Shape :', df_tweetskb_user.shape)
df_tweetskb_user.head()

Shape : (3264, 4)


Unnamed: 0,Username,politic,science,moderat
0,08_diane08,-1.0,-1.0,1.0
1,0Ludicris5,1.0,-1.0,1.0
2,100blackstone,-1.0,-1.0,1.0
3,10thAmendment,1.0,-0.066667,1.0
4,1175_Susan,1.0,-1.0,1.0


In [8]:
#Die gewonnenen Benutzer werden gespeichert.
pfad_tsv3 = 'C:/Mo/tweetDB/tweetscov19/TweetsCov19_tsv/data_sample/Tweetskb_sample/Users/tweetskb_user_polarisiert_2.tsv'

with open(pfad_tsv3, 'w', newline='', encoding="utf-8") as out_file:
    tsv_writer = csv.writer(out_file, delimiter="\t")
    for idx, row in df_tweetskb_user.iterrows():
        tsv_writer.writerow(row.values.tolist())

***

In [7]:
#Hier wird die Datframe gelesen, die die Anzahl der geposteten und gelöschten Tweets, Löschungsquote und Reputation von Benutzer enthält.
pfad_tsv = 'C:/Mo/tweetDB/tweetscov19/TweetsCov19_tsv/data_sample/Tweetskb_sample/TweetsKB_alle_geloeschten/TweetsKB_all_repu_del_.tsv'

df_tweetskb_user_repu_del = pd.read_csv(pfad_tsv, sep='\t', error_bad_lines=False, names=['Tweet_Id', 'Username', 'Followers', 'Friends', 'is_deleted', 'num_posted', 'num_del', 'Deletion_ratio',  'Reputation'])
pd.options.display.max_columns = None
print('Form :', df_tweetskb_user_repu_del.shape)
df_tweetskb_user_repu_del.head()

Form : (9409841, 9)


Unnamed: 0,Tweet_Id,Username,Followers,Friends,is_deleted,num_posted,num_del,Deletion_ratio,Reputation
0,1178791636039589889,DCComics,3349606,563,False,42,0,0.0,0.999832
1,1179833467644850176,DCComics,3351904,563,False,42,0,0.0,0.999832
2,1180490470125965313,DCComics,3354879,563,False,42,0,0.0,0.999832
3,1187059882534400000,DCComics,3369484,562,False,42,0,0.0,0.999832
4,1190311668141580288,DCComics,3376154,564,False,42,0,0.0,0.999832


In [8]:
#die Features: Anzahl der geposteten und gelöschten Tweets, Löschungsquote und Reputation werden zu der Benutzer mit drei Polarisierungswerten hinzugefügt.
df_tweetskb_user_repu_del = df_tweetskb_user_repu_del[['Username', 'num_posted', 'num_del', 'Deletion_ratio', 'Reputation']]

df_tweetskb_user = pd.merge(df_tweetskb_user, df_tweetskb_user_repu_del, on='Username', how='inner')
print('Form :', df_tweetskb_user.shape)
df_tweetskb_user.head()

Form : (79652, 8)


Unnamed: 0,Username,politic,science,moderat,num_posted,num_del,Deletion_ratio,Reputation
0,08_diane08,-1.0,-1.0,1.0,2,0,0.0,0.520402
1,08_diane08,-1.0,-1.0,1.0,2,0,0.0,0.520402
2,0Ludicris5,1.0,-1.0,1.0,5,5,1.0,0.508025
3,0Ludicris5,1.0,-1.0,1.0,5,5,1.0,0.508025
4,0Ludicris5,1.0,-1.0,1.0,5,5,1.0,0.508025


In [27]:
#Das Ergebniss wird gespeichert.
pfad_tsv3 = 'C:/Mo/tweetDB/tweetscov19/TweetsCov19_tsv/data_sample/Tweetskb_sample/Users/tweetskb_user_post_del_del_rep_1.tsv'

with open(pfad_tsv3, 'w', newline='', encoding="utf-8") as out_file:
    tsv_writer = csv.writer(out_file, delimiter="\t")
    for idx, row in df_tweetskb_user.iterrows():
        tsv_writer.writerow(row.values.tolist())