In [1]:
import pandas as pd
import numpy as np

In [2]:
# lade Datensatz
df = pd.read_csv('american-election-tweets.csv', delimiter=';', 
                 names=['handle','text','is_retweet', 'original_author','time',
                        'in_reply_to_screen_name','is_quote_status','retweet_count',
                        'favorite_count','source_url','truncated'], header=None)

In [3]:
    #df.head()

In [4]:
# entferne uninteressante Informationen aus dem Datensatz
# hier: is_retweet, original_author, is_quote_status_truncated
df_new = df.drop(['is_retweet','original_author','is_quote_status','truncated'],axis=1)
    #df_new.head()

In [5]:
# Formatiere die Zeitangaben der Tweets entsprechend des sql Datentyps timestamp - format: YYYY-MM-DD HH:MI:SS
# ersetze 'T' mit Leerzeichen
df_new['time'] = df_new['time'].str.replace('T',' ')

In [6]:
    #df_new.head()

In [7]:
# hier war mal: ersetze '%' durch den String 'percent', da Zeichen in sql einen wildcard character darstellt
#               df_new['text'] = df_new['text'].str.replace('%',' percent')
# NICHT NÖTIG, DA DURCH DIE RICHTIGE FORMATIERUNG (Mit "...string") 
# IN DER SQL-QUERY DAS % NICHT ALS WILDCARD ERKANNT WIRD

In [8]:
# ersetze Apostrophe aus Tweet-Texten durch doppelte Apostrophe, um sql-Probleme von vornherein auszuschließen
# evtl. Interferenzen zwischen sql und Hochkommata o.Ä. werden durch richtige String-Formatierung in queries verhindert
df_new['text'] = df_new['text'].str.replace("'", "''")

In [9]:
# erster Test, ob es geklappt hat
    #df_new.head(10)

In [10]:
# zweiter Test, ob es geklappt hat
    #df_new.loc[[13]]

In [11]:
# überprüfe, ob alle Spalten, die keinen Null-Eintrag haben dürfen, auch wirklich keinen haben
# hier: handle,text,time,retweet_count,favorite_count,source_url
# gib alle Reihen aus, in denen eine Spalte gegen diese Anforderung widerspricht
assert any(~df_new['handle'].isnull())

In [12]:
assert any(~df_new['text'].isnull())

In [13]:
assert any(~df_new['time'].isnull())

In [14]:
assert any(~df_new['retweet_count'].isnull())

In [15]:
assert any(~df_new['favorite_count'].isnull())

In [16]:
assert any(~df_new['source_url'].isnull())

In [17]:
# will überprüfen, ob Datentypen jeder Spalte einheitlich sind
# gib Datentypen für jede Spalte aus
df_new.dtypes

handle                     object
text                       object
time                       object
in_reply_to_screen_name    object
retweet_count               int64
favorite_count              int64
source_url                 object
dtype: object

In [18]:
# check, ob jede Spalte den jeweiligen Datentyp bedient und gib einen Error aus, falls eine Spalte einen Eintrag mit 
# dem falschen Datentyp hat
# handle,text,time,in_reply_to_screen_name,source_url sind vom Datentyp object
# favorite_count,retweet_count sind vom Datentyp int64
assert df_new.handle.dtype == 'object'

In [19]:
assert df_new.retweet_count.dtype == 'int64'

In [20]:
assert df_new.text.dtype == 'object'

In [21]:
assert df_new.time.dtype == 'object'

In [22]:
assert df_new.in_reply_to_screen_name.dtype == 'object'

In [23]:
assert df_new.favorite_count.dtype == 'int64'

In [24]:
assert df_new.source_url.dtype == 'object'

In [25]:
# gib Anzahl der Objekte in dataframe aus
# 6126 Zeilen
df_new.shape

(6126, 7)

In [26]:
# entferne Duplikate: A und B seien Duplikate <=> A['handle']==B['handle'] und A['time']==B['time']
# unter der Annahme, dass nicht zwei verschiedene Tweets vom selben Account 
# zur exakt selben Zeit gepostet werden können
df_new.drop_duplicates(subset=df_new[[0,2]], keep='first', inplace=False).head(n=10)

Unnamed: 0,handle,text,time,in_reply_to_screen_name,retweet_count,favorite_count,source_url
0,HillaryClinton,The question in this election: Who can put the...,2016-09-28 00:22:34,,218,651,https://studio.twitter.com
1,HillaryClinton,"Last night, Donald Trump said not paying taxes...",2016-09-27 23:45:00,,2445,5308,http://twitter.com
2,HillaryClinton,Couldn''t be more proud of @HillaryClinton. He...,2016-09-27 23:26:40,,7834,27234,https://about.twitter.com/products/tweetdeck
3,HillaryClinton,"If we stand together, there''s nothing we can'...",2016-09-27 23:08:41,,916,2542,https://studio.twitter.com
4,HillaryClinton,Both candidates were asked about how they''d c...,2016-09-27 22:30:27,,859,2882,https://about.twitter.com/products/tweetdeck
5,realDonaldTrump,Join me for a 3pm rally - tomorrow at the Mid-...,2016-09-27 22:13:24,,2181,6172,http://twitter.com/download/iphone
6,HillaryClinton,This election is too important to sit out. Go ...,2016-09-27 21:35:28,,1303,2849,https://about.twitter.com/products/tweetdeck
7,HillaryClinton,When Donald Trump goes low...register to vote:...,2016-09-27 21:25:31,,1833,4954,https://about.twitter.com/products/tweetdeck
8,realDonaldTrump,"Once again, we will have a government of, by a...",2016-09-27 21:08:22,,4132,11239,http://twitter.com/download/iphone
9,HillaryClinton,3) Has Trump offered a single proposal to redu...,2016-09-27 21:00:13,,1087,2824,http://twitter.com


In [27]:
# Prüfe Zeilenanzahl nach Duplikaten-Entfernung
# Anzahl der entries unverändert, also existierten gar keine Duplikate
df_new.shape

(6126, 7)

In [28]:
# konvertiere Datentyp von time(object) in den Datentyp datetime um
# wichtig für das Laden der Daten in die Datenbank (time hat in sql den Typ timestamp)
pd.to_datetime(df_new.time)

0      2016-09-28 00:22:34
1      2016-09-27 23:45:00
2      2016-09-27 23:26:40
3      2016-09-27 23:08:41
4      2016-09-27 22:30:27
5      2016-09-27 22:13:24
6      2016-09-27 21:35:28
7      2016-09-27 21:25:31
8      2016-09-27 21:08:22
9      2016-09-27 21:00:13
10     2016-09-27 20:37:47
11     2016-09-27 20:31:14
12     2016-09-27 20:14:33
13     2016-09-27 20:06:25
14     2016-09-27 19:59:28
15     2016-09-27 19:59:04
16     2016-09-27 19:37:22
17     2016-09-27 19:31:01
18     2016-09-27 18:45:39
19     2016-09-27 18:12:06
20     2016-09-27 18:10:07
21     2016-09-27 18:06:28
22     2016-09-27 18:05:27
23     2016-09-27 18:02:54
24     2016-09-27 17:58:15
25     2016-09-27 17:55:26
26     2016-09-27 17:52:47
27     2016-09-27 17:47:36
28     2016-09-27 17:44:07
29     2016-09-27 17:40:05
               ...        
6096   2016-01-07 11:28:51
6097   2016-01-07 11:15:54
6098   2016-01-07 11:06:43
6099   2016-01-06 23:15:24
6100   2016-01-06 21:09:42
6101   2016-01-06 20:22:41
6

In [29]:
df_new.time = pd.to_datetime(df_new.time)

In [30]:
# passe Spaltennamen an die Attribut-Namen im Schema der Datenbank an
df_new.columns = ['handle','inhalt','zeit','in_reply_to','retweet_count','favorite_count','source_url']
df_new.head()

Unnamed: 0,handle,inhalt,zeit,in_reply_to,retweet_count,favorite_count,source_url
0,HillaryClinton,The question in this election: Who can put the...,2016-09-28 00:22:34,,218,651,https://studio.twitter.com
1,HillaryClinton,"Last night, Donald Trump said not paying taxes...",2016-09-27 23:45:00,,2445,5308,http://twitter.com
2,HillaryClinton,Couldn''t be more proud of @HillaryClinton. He...,2016-09-27 23:26:40,,7834,27234,https://about.twitter.com/products/tweetdeck
3,HillaryClinton,"If we stand together, there''s nothing we can'...",2016-09-27 23:08:41,,916,2542,https://studio.twitter.com
4,HillaryClinton,Both candidates were asked about how they''d c...,2016-09-27 22:30:27,,859,2882,https://about.twitter.com/products/tweetdeck


In [31]:
# ersetze die Null-Einträge bei in_reply_to durch einen leeren String
df_new.in_reply_to.fillna('')

0                     
1                     
2                     
3                     
4                     
5                     
6                     
7                     
8                     
9                     
10                    
11                    
12                    
13                    
14                    
15                    
16                    
17                    
18                    
19      HillaryClinton
20      HillaryClinton
21      HillaryClinton
22                    
23      HillaryClinton
24      HillaryClinton
25      HillaryClinton
26      HillaryClinton
27                    
28      HillaryClinton
29      HillaryClinton
             ...      
6096                  
6097                  
6098                  
6099                  
6100                  
6101                  
6102                  
6103                  
6104                  
6105                  
6106                  
6107                  
6108       

In [32]:
# speichere gereinigten Datentyp
 #df_new.to_csv('cleansed_dataframe.csv')

In [33]:
 #from sqlalchemy import create_engine

In [34]:
# Lade Datensatz in die Datenbank election über die erstellte connection:
 #engine = create_engine('postgres://postgres:postgres@localhost:5432/election')

In [35]:
    #df_new.to_sql(name='tweet',con=engine ,index_label='t_id', schema='e_schema',if_exists='append')

In [36]:
# erstelle neuen dataframe hash_tag mit 2 columns name,abs_hauf
# (h_id wird beim importieren d. Daten durch den Index gestellt)
hash_tag = pd.DataFrame(columns=['name','abs_hauf'])

In [37]:
# behalte nur die rows, in denen der Tweet ein Rautezeichen hat
df_help = df_new[df_new['inhalt'].str.contains("#")]
hash_tag['name'] = df_help['inhalt']
hash_tag

Unnamed: 0,name,abs_hauf
6,This election is too important to sit out. Go ...,
11,"On National #VoterRegistrationDay, make sure y...",
13,"''CNBC, Time magazine online polls say Donald ...",
15,Great afternoon in Little Havana with Hispanic...,
16,In the last 24 hrs. we have raised over $13M f...,
18,It''s #NationalVoterRegistrationDay. Celebrate...,
19,"""I love this country.\nI�m proud of this count...",
20,We don�t want to turn against each other.\nWe ...,
29,"""You can go to https://t.co/tTgeqxNqYm to make...",
30,Join Hillary live in NC for her first rally si...,


In [38]:
# Index stellt später Hashtag_ID => zwei Hashtags in einem Tweet müssen verschiedene IDs haben, deshalb einen 
# neuen fortlaufenden Index erstellen
# Überschreibe den Index
hash_tag.reset_index(drop=True)

Unnamed: 0,name,abs_hauf
0,This election is too important to sit out. Go ...,
1,"On National #VoterRegistrationDay, make sure y...",
2,"''CNBC, Time magazine online polls say Donald ...",
3,Great afternoon in Little Havana with Hispanic...,
4,In the last 24 hrs. we have raised over $13M f...,
5,It''s #NationalVoterRegistrationDay. Celebrate...,
6,"""I love this country.\nI�m proud of this count...",
7,We don�t want to turn against each other.\nWe ...,
8,"""You can go to https://t.co/tTgeqxNqYm to make...",
9,Join Hillary live in NC for her first rally si...,


In [39]:
import re

In [40]:
# finde alle Hashtags mit den folgenden Eigenschaften:
# String beginnt direkt nach einem Rautezeichen und enthält NUR Groß-/Kleinbuchstaben und Zahlen,
# keine Sonderzeichen und kein Leerzeichen
# das Rautezeichen selbst soll nicht gespeichert werden
pat = re.compile(r"#([a-zA-Z0-9]+)")

In [41]:
# gib gleich tags aus und zeige leere Liste in letzter Zeile
tags = []
# speichere das Ergebnis für jeden Zell-Eintrag in einer Liste, da ein Tweet mehrere Hashtags haben kann
for i in hash_tag['name']:
    tags += [pat.findall(i)]

In [42]:
# erstelle ein leeres Set und fülle es mit allen Hashtags aus der Liste tags
# sets enthalten keine Duplikate
# KEIN UNTERSCHIED ZWISCHEN GROß- UND KLEINSCHREIBUNG BEI HASHTAGS -> AUCH DUPLIKATE  ASU MAKE,makE,make entfernt?
set_tags = set()
for l in tags:
    for element in l:
        set_tags.add(element)

In [43]:
# Gib Menge der eindeutigen Hashtags aus
len(set_tags)

429

In [44]:
# erstelle neuen data frame und fülle name-column mit den eindeutigen Hashtags
df_tags = pd.DataFrame(columns=['name','abs_hauf'])
df_tags['name'] = list(set_tags)

In [45]:
df_tags

Unnamed: 0,name,abs_hauf
0,RNCInCLE,
1,HillaryClinton,
2,DivoDeJuarez,
3,NewYork,
4,Obamacare,
5,CreatorsAskHRC,
6,StopCommonCore,
7,FAIL,
8,DemsInPhilly,
9,DisarmHate,


In [46]:
# definiere Zählfunktion für absolute Häufigkeiten
def count_occurrences(hashtag):
    count = 0
    for l in tags:
        if hashtag in l:
            count += 1
    return count

In [47]:
# zähle für jeden Hashtag im set die absolute Häufigkeit in der Liste tags (nicht-eindeutigen Hashtag-Liste)
df_tags.abs_hauf = df_tags.name.apply(count_occurrences)

In [48]:
df_tags

Unnamed: 0,name,abs_hauf
0,RNCInCLE,3
1,HillaryClinton,1
2,DivoDeJuarez,1
3,NewYork,1
4,Obamacare,4
5,CreatorsAskHRC,2
6,StopCommonCore,1
7,FAIL,1
8,DemsInPhilly,51
9,DisarmHate,3


In [49]:
    #df_tags.to_csv('hashtag_dataframe.csv')

In [50]:
    #from sqlalchemy import create_engine
    #engine2 = create_engine('postgres://postgres:postgres@localhost:5432/election')

In [51]:
    #df_tags.to_sql(name='hashtag',con=engine2 ,index_label='h_id', schema='e_schema',if_exists='append')

In [52]:
df_contains = pd.DataFrame(columns=['f_t_id','f_h_id'])

In [53]:
hilfe = df_new[df_new['inhalt'].str.contains("#")]

In [54]:
hilfe2 = pd.DataFrame(columns=['tags'])

In [55]:
hilfe2['tags'] = hilfe['inhalt']

In [56]:
hilfe2['tags'] = tags

In [70]:
hilfe2

Unnamed: 0,tags,id
6,[NationalVoterRegistrationDay],6
11,"[VoterRegistrationDay, MakeAmericaGreatAgain]",11
13,[MAGA],13
15,[ImWithYou],15
16,[MAGA],16
18,[NationalVoterRegistrationDay],18
19,[LoveTrumpsHate],19
20,[StrongerTogether],20
29,[NationalVoterRegistrationDay],29
30,[NationalVoterRegistrationDay],30


In [71]:
#for l in df_tags.name:
 #   df_contains.f_t_id = hilfe2.loc[hilfe2.tags == l].index
  #  df_conatins.f_h_id = df_tags.loc[df_tags.name == l].index

In [72]:
 #hilfe2.loc[hilfe2['tags']=='MAGA'].index[0]

In [73]:
#df_tags.loc[df_tags.name == element].index
hilfe2['id'] = hilfe2.index

In [86]:
s = []
for idx,row in hilfe2.iterrows():
    for l in hilfe2.tags:
        s += hilfe2.id

ValueError: operands could not be broadcast together with shapes (0,) (1269,) 

In [85]:
len(s)


1787