In [348]:
import numpy as np
from numpy.linalg import norm
import pandas as pd
import nltk
from nltk.stem import PorterStemmer
from nltk.tokenize import sent_tokenize, word_tokenize
import re
from nltk import word_tokenize
from nltk.corpus import stopwords
from unidecode import unidecode
import string
from sklearn.feature_extraction.text import CountVectorizer

In [237]:
n_tweets_to_read = 5000 # read the first 5000 tweets
from sklearn.metrics.pairwise import cosine_similarity

def TermDocumentMatrix(docs, docIDs=None):
    '''
    Creates a term-document matrix of size (n_documents, |Vocabulary|) as a pandas 
    dataframe. The columns will correspond to the terms and the rows will be 
    accessible as the given document IDs, if given. The entry (d, t) counts the 
    number of occurences of t in document d.
    '''
    vectorizer = CountVectorizer(lowercase=True, stop_words=None)
    tdm = vectorizer.fit_transform(docs)
    tdm_feature_names = vectorizer.get_feature_names()
    #
    df = pd.DataFrame(tdm.toarray(), columns=tdm_feature_names, dtype="float64")
    if docIDs is not None:
        df.index = docIDs    
    return df

In [57]:
df = pd.read_csv('data/tweets.csv')
df.drop_duplicates(subset ="text", 
                     keep = False, inplace = True)
df.head()

Unnamed: 0.1,Unnamed: 0,date,id,link,retweet,text,author
0,0,Oct 7,784609194234306560,/realDonaldTrump/status/784609194234306560,False,Here is my statement.pic.twitter.com/WAZiGoQqMQ,DonaldTrump
1,1,Oct 10,785608815962099712,/realDonaldTrump/status/785608815962099712,False,Is this really America? Terrible!pic.twitter.c...,DonaldTrump
2,2,Oct 8,784840992734064640,/realDonaldTrump/status/784840992734064641,False,The media and establishment want me out of the...,DonaldTrump
3,3,Oct 8,784767399442653184,/realDonaldTrump/status/784767399442653184,False,Certainly has been an interesting 24 hours!,DonaldTrump
4,4,Oct 10,785561269571026944,/realDonaldTrump/status/785561269571026946,False,Debate polls look great - thank you!\n#MAGA #A...,DonaldTrump


In [85]:
#init
ps = PorterStemmer()

# read input file linewise and store in list
tweets = df.text
  
tweets = list(set(tweets)) # remove duplicate tweets
print("{} unique Tweets loaded\n".format(len(tweets)))
doc = tweets[0].split("\t")
doc

12979 unique Tweets loaded



['Expecting a great crowd of amazing people. Questions will be live! #TrumpToday']

In [353]:
# preprocessing
tweetIDs = df.id
tweetsProcessed = []
#Remove all newlines from inside a string
tweetsProcessed = [tweet.replace('\n','').strip() for tweet in tweets]
#To remove all whitespaces in the beginning and end of the string
#remove the unicodes for the single left and right quote characters
tweetsProcessed[:] = [tweet.replace(u'\u2018',"'").replace(u'\u2019',"'") for tweet in tweetsProcessed] 

#convert n't to  not
tweetsProcessed[:] = [tweet.replace('n\'t',' not') for tweet in tweetsProcessed]  

#remove any sub-string containing 'http'
tweetsProcessed[:] = [re.sub(r"^.*http.*$", '', tweet) for tweet in tweetsProcessed] 

#remove non-ASCII characters
tweetsProcessed[:] = [re.sub(r'[^\x00-\x7F]+','', tweet) for tweet in tweetsProcessed] 

tweetsProcessed[:] = [re.sub("(@[A-Za-z0–9]+)",'',tweet) for tweet in tweetsProcessed ]

#remove tweeter's RT' tags
tweetsProcessed[:] = [tweet.replace('RT','') for tweet in tweetsProcessed] 

#make all words lower case
tweetsProcessed[:] = [tweet.lower() for tweet in tweetsProcessed] 






In [363]:
#more pre processing 


for tweet in tweetsProcessed : 
    count =0
    tweetsProcessed2 = []
    # convert input corpus to lower case.
    tweet = tweet.lower()
    # collecting a list of stop words from nltk and punctuation form
    # string class and create single array.
    stopset = stopwords.words('english') + list(string.punctuation)
    # remove stop words and punctuations from string.
    # word_tokenize is used to tokenize the input corpus in word tokens.
    tweet = " ".join([i for i in word_tokenize(tweet) if i not in stopset])
    # remove non-ascii characters
    tweet = unidecode(tweet)
    tok_doc = word_tokenize(" ".join(tweet))    # tokenize remaining document
    stemmed_doc = [ps.stem(word) for word in tok_doc]
    
    tweetsProcessed2.append(" ".join(stemmed_doc))
    
    print(tok_doc)

    

['e', 'x', 'p', 'e', 'c', 't', 'i', 'n', 'g', 'g', 'r', 'e', 'a', 't', 'c', 'r', 'o', 'w', 'd', 'a', 'm', 'a', 'z', 'i', 'n', 'g', 'p', 'e', 'o', 'p', 'l', 'e', 'q', 'u', 'e', 's', 't', 'i', 'o', 'n', 's', 'l', 'i', 'v', 'e', 't', 'r', 'u', 'm', 'p', 't', 'o', 'd', 'a', 'y']
[]
['g', 'o', 'v', 'e', 'r', 'n', 'o', 'r', 'r', 'i', 'c', 'k', 'p', 'e', 'r', 'r', 'y', 's', 'a', 'i', 'd', '`', '`', 'd', 'o', 'n', 'a', 'l', 'd', 't', 'r', 'u', 'm', 'p', 'o', 'n', 'e', 't', 'a', 'l', 'e', 'n', 't', 'e', 'd', 'p', 'e', 'o', 'p', 'l', 'e', 'r', 'u', 'n', 'n', 'i', 'n', 'g', 'p', 'r', 'e', 's', 'i', 'd', 'e', 'n', 'c', 'y', "'", 'v', 'e', 'e', 'v', 'e', 'r', 's', 'e', 'e', 'n', "'", "'", 't', 'h', 'a', 'n', 'k', 'r', 'i', 'c', 'k']
['r', 'e', 'm', 'e', 'm', 'b', 'e', 'r', 'p', 'r', 'o', 'm', 'o', 't', 'e', 'o', 'n', 'e', 'e', 'l', 's', 'e', 's', 'u', 'c', 'c', 'e', 's', 's', 'l', 'e', 't', 'p', 'e', 'o', 'p', 'l', 'e', 'k', 'n', 'o', 'w']
[]
['`', '`', 's', 'o', 'm', 'e', 't', 'i', 'm', 'e', 's', 

['`', '`', 'c', 'o', 'n', 'g', 'r', 'a', 't', 's', 'v', 'o', 't', 'e', 'd', "'", 'b', 'e', 's', 't', 't', 'w', 'i', 't', 't', 'e', 'r', 'a', 'c', 'c', 'o', 'u', 'n', 't', 'f', 'o', 'l', 'l', 'o', 'w', "'", "'", 'o', 'p', 'e', 'n', 'm', 'i', 'c', 'k', 'p', 'o', 'd', 'c', 'a', 's', 't', 'y', 'o', 'u', 'v', 'e', 'm', 'a', 'd', 'e', 'i', 't', "'", "'"]
['`', '`', 'd', 'o', 'n', 'a', 'l', 'd', 't', 'r', 'u', 'm', 'p', 's', 'e', 'n', 't', 'c', 'h', 'e', 'c', 'k', '2', '5', 'k', 'p', 'a', 'y', 'a', 'b', 'l', 'e', 't', 'a', 'h', 'm', 'o', 'o', 'r', 'e', 's', 's', 'i', '-', 'i', 'f', 'o', 'r', 'w', 'a', 'r', 'd', 'e', 'd', 'c', 'h', 'e', 'c', 'k', 't', 'h', 'a', 'n', 'k', 'u', 'd', 'o', 'n', 'a', 'l', 'd', 't', 'r', 'u', 'm', 'p', 'k', 'i', 'n', 'd', 'p', 'i', 'c', '.', 't', 'w', 'i', 't', 't', 'e', 'r', '.', 'c', 'o', 'm', '/', 'w', 'v', 'g', 'e', 'l', 'w', 'y', 'c', '5', 'w']
['h', 'a', 'p', 'p', 'y', 't', 'h', 'a', 'n', 'k', 's', 'g', 'i', 'v', 'i', 'n', 'g', 'g', 'r', 'e', 'a', 't', 'd', 'a

['`', '`', 'd', 'a', 'd', 'h', 'u', 'g', 'e', 't', 'r', 'u', 'm', 'p', '2', '0', '1', '6', 's', 'u', 'p', 'p', 'o', 'r', 't', 'e', 'r', 's', 'd', 'i', 's', 'a', 'p', 'p', 'o', 'i', 'n', 't', 'e', 'd', '2', '0', '1', '2', 'h', 'a', 'p', 'p', 'e', 'n', '`', '`', 't', 'h', 'a', 'n', 'k', 's']
['6', 't', 'h', 'a', 'n', 'k', 's', 'm', 'e', 'l', 'a', 'n', 'i', 'e']
[]
['f', 'i', 'r', 'e', 'd', 'b', 'u', 's', 'h', 'y', 'l', 'i', 'k', 'e', 'd', 'u', 'm', 'm', 'y', 'j', 'o', 'h', 'n', 's', 'u', 'n', 'u', 'n', 'u', 'o', 'n', '-', 's', 'p', 'e', 'w', 'i', 'n', 'g', 'f', 'a', 'l', 's', 'e', 'i', 'n', 'f', 'o', 'b', 'e', 'a', 't', 'h', 'i', 'l', 'l', 'a', 'r', 'y', 'l', 'o', 't', 'w', 'a', 'n', 't', 's', 'p', 'a', 'r', 't', 't', 'r', 'u', 'm', 'p']
['h', 'a', 't', 'e', 'r', 's', 'l', 'o', 's', 'e', 'r', 's', 'n', 'o', 't', 'h', 'i', 'n', 'g', 'a', 't', 'l', 'a', 'n', 't', 'i', 'c', 'c', 'i', 't', 'y', 'g', 'o', 't', 'l', 'o', 'n', 'g', 't', 'i', 'm', 'e', 'a', 'g', 'o']
['w', 'o', 'n', 'd', 'e', 'r

['s', 'o', 'r', 'r', 'y', 'l', 'o', 's', 'e', 'r', 's', 'h', 'a', 't', 'e', 'r', 's', 'i', '.', 'q', 'o', 'n', 'e', 'h', 'i', 'g', 'h', 'e', 's', 't', '-', 'a', 'n', 'd', 'k', 'n', 'o', 'w', 'p', 'l', 'e', 'a', 's', 'e', 'f', 'e', 'e', 'l', 's', 't', 'u', 'p', 'i', 'd', 'i', 'n', 's', 'e', 'c', 'u', 'r', 'e', "'", 's', 'f', 'a', 'u', 'l', 't']
['`', '`', 'g', 'r', 'a', 'n', 'd', 'm', 'a', 's', 'e', 'a', 't', 't', 'l', 'e', 'm', 'o', 'm', 'n', 'a', 's', 'h', 'v', 'i', 'l', 'l', 'e', 's', 'a', 'i', 'd', 'w', 'o', 's', 'h', 'o', 'p']
[]
['p', 'r', 'i', 'd', 'e', 'o', 'b', 's', 't', 'i', 'n', 'a', 't', 'e', 's', 't', 'u', 'b', 'b', 'o', 'r', 'n', 't', 'o', 'u', 'g', 'h', 't', 'h', 'i', 'n', 'k', 'i', 'm', 'p', 'o', 'r', 't', 'a', 'n', 't', 'q', 'u', 'a', 'l', 'i', 't', 'i', 'e', 's', 'f', 'o', 'u', 'n', 'd', 's', 'u', 'c', 'c', 'e', 's', 's', 'f', 'u', 'l', 'p', 'e', 'o', 'p', 'l', 'e', 't', 'h', 'i', 'n', 'k', 'b', 'i', 'g']
['o', 'b', 'a', 'm', 'a', 'c', 'a', 'r', 'e', 'r', 'e', 'p', 'e'

['`', '`', '3', '8', 'd', 'o', 'n', 'a', 'l', 'd', 'r', 'u', 'n', 's', 'p', 'r', 'e', 's', 'i', 'd', 'e', 'n', 't', 'v', 'o', 't', 'e', "'", 'l', 'l', 'e', 'v', 'e', 'n', 'c', 'a', 'm', 'p', 'a', 'i', 'g', 'n', 't', 'r', 'u', 'm', 'p', 'f', 'o', 'r', 'p', 'r', 'e', 's', 'i', 'd', 'e', 'n', 't', "'", "'", 't', 'h', 'a', 'n', 'k', 's']
['`', '`', 'n', 'e', 'e', 'd', 'g', 'e', 't', 'u', 'n', 's', 't', 'o', 'p', 'p', 'a', 'b', 'l', 'e', 'm', 'a', 'k', 'e', 'i', 't', 'h', 'a', 'p', 'p', 'e', 'n']
['f', 'a', 'n', 't', 'a', 's', 't', 'i', 'c', 'd', 'i', 'n', 'n', 'e', 'r', 'l', 'a', 's', 't', 'n', 'i', 'g', 'h', 't', 'q', 'u', 'a', 't', 't', 'r', 'o', 't', 'r', 'u', 'm', 'p', 's', 'o', 'h', 'o', 'h', 'o', 't', 'e', 'l', "'", 's', 'a', 'l', 'r', 'e', 'a', 'd', 'y', 'o', 'n', 'e', 'h', 'o', 't', 't', 'e', 's', 't', 'n', 'e', 'w', 'r', 'e', 's', 't', 'a', 'u', 'r', 'a', 'n', 't', 's', 'c', 'i', 't', 'y']
[]
['p', 'e', 'r', 's', 'i', 's', 't', 'e', 'n', 'c', 'e', 'k', 'e', 'y', 's', 'u', 'c', 'c'

['`', '`', 'd', 'e', 's', 'p', 'e', 'r', 'a', 't', 'e', 'l', 'y', 'n', 'e', 'e', 'd', 'a', 'n', 'o', 't', 'h', 'e', 'r', 'g', 'r', 'e', 'a', 't', 'p', 'r', 'e', 's', 'i', 'd', 'e', 'n', 't', 'c', 'o', 'm', 'e', 'm', 'r', '.', 't', 'r', 'u', 'm', 'p', 'a', 'm', 'e', 'r', 'i', 'c', 'a', 'n', 'e', 'e', 'd', 's', "'", "'"]
['`', '`', 'd', 'o', 'n', 'a', 'l', 'd', 't', 'r', 'u', 'm', 'p', 'p', 'r', 'e', 's', 'i', 'd', 'e', 'n', 't', "'", "'"]
[]
['w', 'e', 'a', 'k', 'i', 'n', 'e', 'f', 'f', 'e', 'c', 't', 'i', 'v', 'e', 'l', 'e', 'a', 'd', 'e', 'r', 'p', 'a', 'u', 'l', 'r', 'y', 'a', 'n', 'b', 'a', 'd', 'c', 'o', 'n', 'f', 'e', 'r', 'e', 'n', 'c', 'e', 'c', 'a', 'l', 'l', 'm', 'e', 'm', 'b', 'e', 'r', 's', 'w', 'e', 'n', 't', 'w', 'i', 'l', 'd', 'd', 'i', 's', 'l', 'o', 'y', 'a', 'l', 't', 'y']
['l', 'o', 'v', 'e', 'a', 'r', 'i', 'z', 'o', 'n', 'a', 't', 'h', 'a', 'n', 'k', 't', 'r', 'u', 'm', 'p', '2', '0', '1', '6', 'a', 'm', 'e', 'r', 'i', 'c', 'a', 'f', 'i', 'r', 's', 't', 'p', 'i', 'c'

['r', 'e', 'a', 'd', 't', 'w', 'e', 'e', 't', 's', 'd', 'o', 'p', 'e', 's', '-', 'o', 'f', 'c', 'o', 'u', 'r', 's', 'e', 'g', 'e', 't', 't', 'r', 'i', 'a', 'l', '-', 'b', 'u', 't', 'f', 'a', 's', 't', '1', '2', 'y', 'e', 'a', 'r', 'd', 'i', 's', 'a', 's', 't', 'e', 'r']
[]
['`', '`', '4', '6', 'p', 's', 'y', 'c', 'h', 'i', 'a', 't', 'r', 'i', 's', 't', 's', 'h', 'a', 'r', 'v', 'a', 'r', 'd', '.', '.', '.', 't', 'r', 'u', 'm', 'p', 'v', 'e', 'r', 'g', 'e', 'g', 'e', 'n', 'i', 'u', 's', '.', '.', '.', 'p', 'e', 'r', 'r', 'y', 'a', 'v', 'e', 'r', 'a', 'g', 'e', 'i', 'q', '.', '.', 'c', 'a', 'n', "'", 't', 'a', 'b', 's', 'o', 'r', 'b', 'd', 'a', 't', 'a', 'f', 'a', 's', 't', "'", "'"]
['`', '`', 'm', 'u', 'c', 'h', 'h', 'i', 'g', 'h', 'e', 'r', 'i', 'q', 'i', 'd', 'i', 'o', 't', 'l', 'o', 'r', 'd', 's', 'u', 'g', 'a', 'r', '-', "'", 's', 'm', 'u', 'c', 'h', 'm', 'o', 'n', 'e', 'y', "'", "'", 't', 'r', 'u', 'e', 'f', 'r', 'o', 'n', 't', 's']
['`', '`', "'", 'm', 'r', 'e', 'a', 'd', 'y', 's'

['`', '`', '_', 'h', 'a', 'u', 's', 'm', 'a', 'n', 'n', 's', 'e', 'p', 'a', 'r', 'a', 't', 'e', 's', 'w', 'i', 'n', 'n', 'e', 'r', 's', 'l', 'o', 's', 'e', 'r', 's', 'p', 'e', 'r', 's', 'o', 'n', 'r', 'e', 'a', 'c', 't', 's', 'n', 'e', 'w', 't', 'w', 'i', 's', 't', 'f', 'a', 't', 'e', '-', '-', 'd', 'o', 'n', 'a', 'l', 'd', 't', 'r', 'u', 'm', 'p', "'", "'"]
[]
['c', 'h', 'r', 'i', 's', 'm', 'c', 'd', 'a', 'n', 'i', 'e', 'l', 'l', 'o', 'o', 'k', 's', 'l', 'i', 'k', 'e', 'w', 'i', 'n', 'm', 'i', 's', 's', 'i', 's', 's', 'i', 'p', 'p', 'i', 'g', 'r', 'e', 'a', 't', 'n', 'e', 'w', 's', 'b', 'i', 'g', 'v', 'i', 'c', 't', 'o', 'r', 'y', 't', 'e', 'a', 'p', 'a', 'r', 't', 'y']
[]
['`', '`', 'm', 'r', 't', 'r', 'u', 'm', 'p', 't', 'h', 'a', 'n', 'k', 's', 's', 'a', 'y', 'i', 'n', 'g', 'm', 'i', 'l', 'l', 'i', 'o', 'n', 's', 't', 'h', 'i', 'n', 'k', 'i', 'n', 'g', 'n', 'e', 'e', 'd', 't', 'u', 'r', 'n', 'a', 'm', 'e', 'r', 'i', 'c', 'a', 'a', 'r', 'o', 'u', 'n', 'd', 'w', 'a', 'n', 't', 's', '

['t', 'e', 'r', 'r', 'i', 'f', 'i', 'c', 'o', 'b', 'a', 'm', 'a', 'f', 'l', 'y', 'a', 'i', 'r', 'f', 'o', 'r', 'c', 'e', 'o', 'n', 'e', "'", 's', 's', 'h', 'o', 'w', 'b', 'a', 'd', 't', 'i', 'm', 'e', 's', 'r', 'i', 'd', 'i', 'c', 'u', 'l', 'o', 'u', 's']
['k', 'n', 'o', 'w', 'm', 'a', 'y', 't', 'h', 'i', 'n', 'k', 'l', "'", 'm', 't', 'o', 'u', 'g', 'h', 'h', 'a', 'r', 's', 'h', 'a', 'c', 't', 'u', 'a', 'l', 'l', 'y', "'", 'm', 'c', 'o', 'm', 'p', 'a', 's', 's', 'i', 'o', 'n', 'a', 't', 'e', 'p', 'e', 'r', 's', 'o', 'n', 'h', 'i', 'g', 'h', 'i', 'q', 's', 't', 'r', 'o', 'n', 'g', 'c', 'o', 'm', 'm', 'o', 'n', 's', 'e', 'n', 's', 'e']
['`', '`', 's', 'a', 'd', 't', 'r', 'u', 't', 'h', 'r', 'e', 'p', 'u', 'b', 'l', 'i', 'c', 'a', 'n', 's', 'c', 'o', 'n', 'g', 'r', 'e', 's', 's', 'c', 'l', 'u', 'e', 'l', 'e', 's', 's', 'c', 'o', 'm', 'e', 's', 'n', 'e', 'g', 'o', 't', 'i', 'a', 't', 'i', 'o', 'n', "'", "'", 't', 'i', 'm', 'e', 't', 'o', 'g', 'e', 't', 't', 'o', 'u', 'g', 'h']
['`', '`', '

['t', 'h', 'a', 'n', 'k', 'a', 'm', 'a', 'z', 'i', 'n', 'g', 'l', 'a', 'w', 'e', 'n', 'f', 'o', 'r', 'c', 'e', 'm', 'e', 'n', 't', 'o', 'f', 'f', 'i', 'c', 'e', 'r', 's', 'c', 'o', 'l', 'o', 'r', 'a', 'd', 'o', 'm', 'a', 'k', 'e', 'a', 'm', 'e', 'r', 'i', 'c', 'a', 'g', 'r', 'e', 'a', 't', 'a', 'g', 'a', 'i', 'n', 'l', 'e', 's', 'm', 'p', 'i', 'c', '.', 't', 'w', 'i', 't', 't', 'e', 'r', '.', 'c', 'o', 'm', '/', 'g', 'l', 'x', 't', 'q', 'y', 'a', 'q', 'i', 'n']
['`', '`', '1', '8', 'o', 'v', 'e', 'r', 'q', 'u', 'a', 'l', 'i', 'f', 'i', 'e', 'd', 'p', 'r', 'e', 's', 'i', 'd', 'e', 'n', 't', 's', 'i', 'n', 'c', 'e', 'a', 'c', 't', 'u', 'a', 'l', 'l', 'y', 'h', 'e', 'l', 'd', 'j', 'o', 'b', "'", "'", 'g', 'o', 'o', 'd', 'q', 'u', 'e', 's', 't', 'i', 'o', 'n']
['`', '`', 'd', 'o', 'n', 'a', 'l', 'd', 't', 'r', 'u', 'm', 'p', 'k', 'i', 'n', 'g', 'q', 'u', 'o', 't', 'e', 's', 'r', 'e', 'a', 'l', 'l', 'y', 'l', 'i', 's', 't', 'e', 'n', '`', '`', 't', 'h', 'a', 'n', 'k', 's']
['j', 'u', 'd', '

['b', 'e', 'l', 'i', 'e', 'v', 'e', 'p', 'u', 't', 'i', 'n', 'c', 'o', 'n', 't', 'i', 'n', 'u', 'e', 'r', 'e', '-', 'b', 'u', 'i', 'l', 'd', 'r', 'u', 's', 's', 'i', 'a', 'n', 'e', 'm', 'p', 'i', 'r', 'e', 'z', 'e', 'r', 'o', 'r', 'e', 's', 'p', 'e', 'c', 't', 'o', 'b', 'a', 'm', 'a', 'u', '.', 's', '.']
['`', '`', '7', '9', 'r', 'u', 'n', 'p', 'r', 'e', 's', 'i', 'd', 'e', 'n', 't', 'n', 'e', 'e', 'd', 's', 'o', 'm', 'e', 'o', 'n', 'e', 's', 'c', 'a', 'r', 'e', 'd', 'm', 'a', 'k', 'e', 'r', 'i', 'g', 'h', 't', 'c', 'a', 'l', 'l', 's', "'", "'"]
['g', 'o', 'o', 'f', 'y', 'e', 'l', 'i', 'z', 'a', 'b', 'e', 't', 'h', 'w', 'a', 'r', 'r', 'e', 'n', 's', 'o', 'm', 'e', 't', 'i', 'm', 'e', 's', 'r', 'e', 'f', 'e', 'r', 'r', 'e', 'd', 'p', 'o', 'c', 'a', 'h', 'o', 'n', 't', 'a', 's', 'p', 'r', 'e', 't', 'e', 'n', 'd', 'e', 'd', 'n', 'a', 't', 'i', 'v', 'e', 'a', 'm', 'e', 'r', 'i', 'c', 'a', 'n', 'o', 'r', 'd', 'e', 'r', 'a', 'd', 'v', 'a', 'n', 'c', 'e', 'c', 'a', 'r', 'e', 'e', 'r', 'r', 'a

['g', 'o', 'w', 'o', 'r', 'k', 't', 'o', 'd', 'a', 'y', 's', 'm', 'a', 'r', 't', 't', 'h', 'i', 'n', 'k', 'p', 'o', 's', 'i', 't', 'i', 'v', 'e', 'l', 'y', 'w', 'i', 'n']
['c', 'o', 'n', 'g', 'r', 'a', 't', 'u', 'l', 'a', 't', 'i', 'o', 'n', 's', 'g', 'r', 'e', 'a', 't', 'j', 'o', 'b', 'd', 'o', 'n', 'e', 'p', 'o', 'l', 'i', 'c', 'e', 'l', 'a', 'w', 'e', 'n', 'f', 'o', 'r', 'c', 'e', 'm', 'e', 'n', 't', 'c', 'a', 'l', 'i', 'f', 'o', 'r', 'n', 'i', 'a', 's', 'h', 'o', 'o', 't', 'i', 'n', 'g', 's', 'g', 'i', 'v', 'e', 'c', 'r', 'e', 'd', 'i', 't', 'c', 'r', 'e', 'd', 'i', 't', 'd', 'u', 'e']
['`', '`', 'b', 'e', 't', 'u', 'r', 'g', 'r', 'e', 'a', 't', 'b', 'e', 'd', "'", "'", 't', 'r', 'u', 'e']
['p', 'e', 'o', 'p', 'l', 'e', 'a', 's', 'k', 'a', 'c', 't', 'u', 'a', 'l', 'l', 'y', 'v', 'p', 'm', 'a', 'r', 'k', 'e', 't', 'i', 'n', 'g', 't', 'r', 'u', 'm', 'p', 'o', 'r', 'g', 'a', 'n', 'i', 'z', 'a', 't', 'i', 'o', 'n', 'c', 'e', 'l', 'e', 'b', 'a', 'p', 'p', 'r', 'e', 'n', 't', 'i', 'c', '

['`', '`', 'n', 'e', 'e', 'd', 'p', 'r', 'e', 's', 'i', 'd', 'e', 'n', 't', "'", "'"]
[]
['c', 'o', 'm', 'i', 'n', 'g', 'f', 'o', 'r', 'w', 'a', 'r', 'd', 't', 'o', 'd', 'a', 'y', 'w', 'o', 'm', 'a', 'n', 'c', 'e', 'n', 't', 'r', 'a', 'l', 'f', 'a', 'i', 'l', 'i', 'n', 'g', 'h', 'i', 't', 'p', 'i', 'e', 'c', 'e', 'e', 'x', 'p', 'o', 's', 'e', 'd', 'a', 'r', 't', 'i', 'c', 'l', 'e', 'f', 'r', 'a', 'u', 'd']
['`', '`', '_', 'k', 'i', 'n', 'g', 's', 't', 'o', 'n', 'c', 'o', 'u', 'n', 't', 'r', 'y', "'", 's', 'e', 'c', 'o', 'n', 'o', 'm', 'y', 'w', 'o', 'u', 'l', 'd', 'b', 'a', 'c', 'k', 't', 'r', 'a', 'c', 'k', 'b', 'e', 'c', 'a', 'm', 'e', 'n', 'e', 'x', 't', 'p', 'r', 'e', 's', 'i', 'd', 'e', 'n', 't', "'", "'", 't', 'r', 'u', 'e', 't', 'h', 'a', 'n', 'k', 's']
['j', 'o', 'a', 'n', 'r', 'i', 'v', 'e', 'r', 's', '_', 'r', 'i', 'v', 'e', 'r', 's', 'a', 'm', 'a', 'z', 'i', 'n', 'g', 'w', 'o', 'm', 'a', 'n', 'g', 'r', 'e', 'a', 't', 'f', 'r', 'i', 'e', 'n', 'd', 'e', 'n', 'e', 'r', 'g', 'y'

[]
['l', 'e', 'a', 'r', 'n', 'q', 'u', 'i', 't', 'b', 'e', 'c', 'o', 'm', 'e', 's', 'h', 'a', 'b', 'i', 't', 'v', 'i', 'n', 'c', 'e', 'l', 'o', 'm', 'b', 'a', 'r', 'd', 'i']
['g', 'r', 'e', 'a', 't', 'h', 'e', 'a', 'd', 'e', 'd', 't', 'o', 't', 'a', 'l', 'f', 'r', 'e', 'e', 'f', 'a', 'l', 'l', 'w', 'h', 'o', 'o', 'p', 'i', 'g', 'o', 'l', 'd', 'b', 'e', 'r', 'g', 't', 'e', 'r', 'r', 'i', 'b', 'l', 'e', 's', 'a', 'd']
['`', '`', 'm', 'r', '.', 't', 'r', 'u', 'm', 'p', 't', 'e', 'l', 'l', 'p', 'e', 'o', 'p', 'l', 'e', 'v', 'o', 't', 'i', 'n', 'g', 'g', 'o', 'n', 'n', 'a', 'm', 'a', 'k', 'e', 'a', 'n', 'n', 'o', 'u', 'n', 'c', 'e', 'm', 'e', 'n', 't', 'p', 'e', 'o', 'p', 'l', 'e', 's', 't', 'a', 'r', 't', 'b', 'e', 'l', 'i', 'e', 'v', 'i', 'n', 'g', "'", "'", 'w', 'a', 't', 'c', 'h']
['`', '`', '1', '3', 'u', 's', 'l', 'a', 't', 'i', 'n', 'o', 's', 'v', 'o', 't', 'e', 'w', 'a', 'n', 't', 'p', 'a', 'r', 't', 'a', 'm', 'e', 'r', 'i', 'c', 'a', 'n', 'd', 'r', 'e', 'a', 'm', 'i', 'n', 'c', 'l'

['`', '`', '1', 't', 'r', 'u', 'm', 'p', 'k', 'n', 'o', 'w', 's', 'g', 'e', 't', 't', 'h', 'i', 'n', 'g', 's', 'd', 'o', 'n', 'e', 'g', 'u', 't', 's', 's', 'a', 'y', 'n', 'e', 'e', 'd', 's', 's', 'a', 'i', 'd', "'", 'l', 'l', 'd', 'e', 'a', 'l', 'p', 'u', 't', 'i', 'n', 'e', 'f', 'f', 'e', 'c', 't', 'i', 'v', 'e', 'l', 'y', 'a', 'n', 'y', 'o', 'n', 'e', "'", "'"]
['o', 'n', 'e', 'w', 'o', 'r', 's', 'e', 'j', 'u', 'd', 'g', 'e', 'm', 'e', 'n', 't', 'h', 'i', 'l', 'l', 'a', 'r', 'y', 'c', 'l', 'i', 'n', 't', 'o', 'n', 'c', 'o', 'r', 'r', 'u', 'p', 't', 'i', 'o', 'n', 'd', 'e', 'v', 'a', 's', 't', 'a', 't', 'i', 'o', 'n', 'f', 'o', 'l', 'l', 'o', 'w', 's', 'w', 'h', 'e', 'r', 'e', 'v', 'e', 'r', 'g', 'o', 'e', 's']
['e', 'v', 'e', 'r', 'y', 'b', 'u', 's', 'i', 'n', 'e', 's', 's', 's', 'u', 'r', 'p', 'r', 'i', 's', 'e', 's', 'h', 'i', 'd', 'd', 'e', 'n', 'd', 'a', 'n', 'g', 'e', 'r', 's', 'b', 'e', 'n', 'e', 'a', 't', 'h', 's', 'u', 'r', 'f', 'a', 'c', 'e', 'l', 'i', 't', 't', 'l', 'e', 'k

[]
['j', 'e', 'b', 'b', 'u', 's', 'h', 'c', 'o', 'n', 's', 'e', 'r', 'v', 'a', 't', 'i', 'v', 'e', 'b', 'a', 'r', 'a', 'c', 'k', 'o', 'b', 'a', 'm', 'a', '-', 'i', 'f', 'l', 'i', 'k', 'e', 'h', 'e', 'a', 'l', 't', 'h', 'c', 'a', 'r', 'e', 'p', 'l', 'a', 'n', 'k', 'e', 'e', 'p', 'p', 'l', 'a', 'n']
['t', 'e', 'l', 'l', 's', 'a', 'u', 'd', 'i', 'a', 'r', 'a', 'b', 'i', 'a', 'o', 't', 'h', 'e', 'r', 's', 'w', 'a', 'n', 't', 'd', 'e', 'm', 'a', 'n', 'd', 'f', 'r', 'e', 'e', 'o', 'i', 'l', 'n', 'e', 'x', 't', 't', 'e', 'n', 'y', 'e', 'a', 'r', 's', 'p', 'r', 'o', 't', 'e', 'c', 't', 'p', 'r', 'i', 'v', 'a', 't', 'e', 'b', 'o', 'e', 'i', 'n', 'g', '7', '4', '7', 's', '.', 'p', 'a', 'y']
['l', 'i', 'f', 't', 'i', 'n', 'g', 'r', 'i', 'g', 'h', 't', 'u', '.', 's', '.', 's', 'w', 'i', 's', 'c', 'o', 'n', 's', 'i', 'n', 'n', 'o', 'r', 'f', 'o', 'l', 'k', 's', 'e', 'e', 'y', 'a']
['b', 'o', 'u', 'g', 'h', 't', 's', 't', 'o', 'c', 'k', 'y', 'e', 'a', 'r', 'a', 'g', 'o', 'o', 'l', 'd', 'f', 'a', 's'

['`', '`', 'm', 'r', '.', 't', 'r', 'u', 'm', 'p', 'l', 'o', 'v', 'e', 'c', 'e', 'l', 'e', 'b', 'r', 'i', 't', 'y', 'a', 'p', 'p', 'r', 'e', 'n', 't', 'i', 'c', 'e', 'a', 'w', 'e', 's', 'o', 'm', 'e', 'p', 'r', 'e', 's', 'i', 'd', 'e', 'n', 't', 't', 'h', 'a', 'n', 'k', 's']
['`', '`', 'f', 'u', 'e', 'd', "'", "'", 'n', 'e', 'v', 'e', 'r', 'e', 'n', 'd', 'b', 'e', 'c', 'o', 'm', 'e', 't', 'o', 't', 'a', 'l', 'l', 'y', 'i', 'r', 'r', 'e', 'l', 'e', 'v', 'a', 'n', 't']
['g', 'e', 't', 't', 'i', 'n', 'g', 'g', 'r', 'e', 'a', 't', 'c', 'r', 'e', 'd', 'i', 't', 'p', 'r', 'e', 's', 's', 'c', 'o', 'n', 'f', 'e', 'r', 'e', 'n', 'c', 'e', 't', 'o', 'd', 'a', 'y', 'c', 'r', 'o', 'o', 'k', 'e', 'd', 'h', 'i', 'l', 'l', 'a', 'r', 'y', 'a', 'd', 'm', 'o', 'n', 'i', 's', 'h', 'e', 'd', 'p', 'r', 'e', 's', 's', 'c', 'o', 'n', 'f', 'e', 'r', 'e', 'n', 'c', 'e', '1', '7', '9', 'd', 'a', 'y', 's']
[]
['g', 'r', 'e', 'a', 't', 'p', 'a', 'r', 'a', 'd', 'e', 'v', 'i', 'l', 'l', 'a', 'g', 'e', 's', '-', 'l'

['n', 'f', 'l', 'b', 'a', 'r', 'r', 'e', 'd', 'b', 'a', 'l', 'l', 'c', 'a', 'r', 'r', 'i', 'e', 'r', 's', 'u', 's', 'i', 'n', 'g', 'h', 'e', 'l', 'm', 'e', 't', 'c', 'o', 'n', 't', 'a', 'c', 't', 'h', 'a', 'p', 'p', 'e', 'n', 'i', 'n', 'g', 's', 'p', 'o', 'r', 't', 'b', 'e', 'g', 'i', 'n', 'n', 'i', 'n', 'g', 'e', 'n', 'd']
['m', 'u', 'c', 'h', 'm', 'o', 'n', 'e', 'y', 's', 't', 'a', 'n', 'd', 'l', 'o', 's', 'e', "'", 's', 'm', 'u', 'c', 'h', 'r', 'i', 's', 'k', 'a', 's', 's', 'u', 'm', 'e', 't', 'h', 'i', 'n', 'k', 'l', 'i', 'k', 'e', 'b', 'i', 'l', 'l', 'i', 'o', 'n', 'a', 'i', 'r', 'e']
[]
['d', 'i', 's', 'c', 'i', 'p', 'l', 'e', 's', 'g', 'l', 'o', 'b', 'a', 'l', 'w', 'a', 'r', 'm', 'i', 'n', 'g', '1', '5', '0', 's', 'u', 'm', 'm', 'e', 'r', 's', 'y', 'e', 'a', 'r', 's', '2', '0', 'h', 'e', 'a', 't', 'w', 'a', 'v', 'e', 's', 'b', 'a', 'd', 'w', 'o', 'r', 's', 'e', 'c', 'u', 'r', 'r', 'e', 'n', 't', '-', 't', 'h', 'i', 's', 'h', 'a', 'p', 'p', 'e', 'n', 'e', 'd', 'b', '4']
['b', 'u'

KeyboardInterrupt: 

In [None]:
tweetsProcessed2

In [244]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer


tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix_train = tfidf_vectorizer.fit_transform(tweetsProcessed)
tfidf_matrix_test = tfidf_vectorizer.transform(["Hillary Clinton is a Crook"])

cosine_similarity(tfidf_matrix_train,tfidf_matrix_test)


array([[0.        ],
       [0.        ],
       [0.01805352],
       ...,
       [0.        ],
       [0.        ],
       [0.        ]])

In [281]:
result = cosine_similarity(tfidf_matrix_train,tfidf_matrix_test)
result = np.append(result, tweetIDs, axis=1)
tweetIDs= np.asarray(tweetIDs).reshape(12979,1)
tweetIDs.shape
result_sorted=-np.sort(-result,axis=0)

In [299]:
#[int(result_sorted[0][1])]

df.loc[df['id'] ==result_sorted[0][1]].text


5    WHAT THEY ARE SAYING ABOUT THE CLINTON CAMPAIG...
Name: text, dtype: object

In [347]:


def pre_process(corpus):
    # convert input corpus to lower case.
    corpus = corpus.lower()
    # collecting a list of stop words from nltk and punctuation form
    # string class and create single array.
    stopset = stopwords.words('english') + list(string.punctuation)
    # remove stop words and punctuations from string.
    # word_tokenize is used to tokenize the input corpus in word tokens.
    corpus = " ".join([i for i in word_tokenize(corpus) if i not in stopset])
    # remove non-ascii characters
    corpus = unidecode(corpus)
    return corpus

pre_process("Hillary clinton is a crook is a is a the")

'hillary clinton crook'

In [342]:
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix_train = tfidf_vectorizer.fit_transform(tweetsProcessed)
tfidf_matrix_test = tfidf_vectorizer.transform(["i will be in cincinnati, oio tomorrow"])
result = cosine_similarity(tfidf_matrix_train,tfidf_matrix_test)
result = np.append(result, tweetIDs, axis=1)
tweetIDs= np.asarray(tweetIDs).reshape(12979,1)
tweetIDs.shape
result_sorted=-np.sort(-result,axis=0)

result_sorted

array([[4.05920758e-01, 7.86950599e+17],
       [3.57711696e-01, 7.86589173e+17],
       [3.42516493e-01, 7.86340624e+17],
       ...,
       [0.00000000e+00, 1.73747999e+09],
       [0.00000000e+00, 1.70146118e+09],
       [0.00000000e+00, 1.69830894e+09]])

In [339]:
def printTopSimilarTweets(sentence, n=10):
    '''
    Prints the top n tweets from the tweets dataset that are most similar to the 
    given ID's tweet. The result is shown decreasing by the cosine similarity 
    of the tf-idf values.
    '''
    sentence = preprocess(sentence)
    tweetIDs = df.id
    tfidf_vectorizer = TfidfVectorizer()
    tfidf_matrix_train = tfidf_vectorizer.fit_transform(tweetsProcessed)
    tfidf_matrix_test = tfidf_vectorizer.transform([sentence])
    result = cosine_similarity(tfidf_matrix_train,tfidf_matrix_test)
    tweetIDs= np.asarray(tweetIDs).reshape(12979,1)
    tweetIDs.shape
    result = np.append(result, tweetIDs, axis=1)
    
    result_sorted=-np.sort(-result,axis=0)
    print("Query: " + sentence + "\n")
    for i in range(0, n):
        print("{}: ".format(i+1) + df.loc[df['id'] ==result_sorted[i][1]].text + "\n")


In [340]:
printTopSimilarTweets("I will be in Cincinnati, Ohio tomorrow")

Query: i will be in cincinnati, ohio tomorrow

5    1: WHAT THEY ARE SAYING ABOUT THE CLINTON CAMP...
Name: text, dtype: object
6    2: Thank you! #MAGA #AmericaFirstpic.twitter.c...
Name: text, dtype: object
7    3: I will be in Cincinnati, Ohio tomorrow nigh...
Name: text, dtype: object
8    4: Very little pick-up by the dishonest media ...
Name: text, dtype: object
9    5: Thank you Florida- a MOVEMENT that has neve...
Name: text, dtype: object
10    6: The very foul mouthed Sen. John McCain begg...
Name: text, dtype: object
11    7: Disloyal R's are far more difficult than Cr...
Name: text, dtype: object
12    8: With the exception of cheating Bernie out o...
Name: text, dtype: object
13    9: It is so nice that the shackles have been t...
Name: text, dtype: object
14    10: Our very weak and ineffective leader, Paul...
Name: text, dtype: object
