## Twitter Sentiment Analysis

In [1]:
import numpy as np
import pandas as pd
import json

In [2]:
from sklearn.model_selection import train_test_split
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.feature_extraction.text import TfidfVectorizer

In [3]:
df = pd.read_csv('twitter30k_cleaned.csv')

In [4]:
df.head()

Unnamed: 0,twitts,sentiment
0,robbiebronniman sounds like a great night,1
1,damn the person who stolde my wallet may karma...,1
2,greetings from the piano bench photo,1
3,drewryanscott i love it i love you haha forget...,1
4,kissthestars pretty pretty pretty please pakid...,0


In [5]:
df.isnull().sum()

twitts       0
sentiment    0
dtype: int64

In [6]:
df['sentiment'].value_counts()

1    15000
0    15000
Name: sentiment, dtype: int64

## SVM model preparation

In [7]:
def run_svm():
    x = df['twitts']
    y = df['sentiment']

    tfidf = TfidfVectorizer(norm='l1',ngram_range=(1,2),analyzer='word',max_features=5000)
    X = tfidf.fit_transform(x)
    x_train,x_test,y_train,y_test=train_test_split(X,y,test_size=0.25,random_state=0, stratify=y)
    clf = LinearSVC(loss="hinge",penalty='l2')
    clf.fit(x_train,y_train)
    print(x_train.shape)
    print(accuracy_score(y_test,clf.predict(x_test)))
    print(classification_report(y_test,clf.predict(x_test)))
    return tfidf,clf

In [8]:
tfidf,clf = run_svm()

(22500, 5000)
0.7504
              precision    recall  f1-score   support

           0       0.74      0.77      0.75      3750
           1       0.76      0.73      0.75      3750

    accuracy                           0.75      7500
   macro avg       0.75      0.75      0.75      7500
weighted avg       0.75      0.75      0.75      7500



In [9]:
x = "I am really happy thanks a lot for coming with me"

In [10]:
clf.predict(tfidf.transform([x]))

array([1], dtype=int64)

In [11]:
import joblib

In [12]:
joblib.dump(tfidf,'tfidf.pkl')

['tfidf.pkl']

In [13]:
joblib.dump(clf,'clf.pkl')

['clf.pkl']

### Load Model & Predict

In [14]:
import joblib

In [15]:
tfidf = joblib.load('tfidf.pkl')
clf = joblib.load('clf.pkl')

In [16]:
x = "I am a good boy"

In [17]:
clf.predict(tfidf.transform([x]))

array([1], dtype=int64)

### Real-Time Twitter Sentiment Analysis

In [72]:
# !pip install tweepy


In [13]:
consumer_key = "XXXXXXXXXXXXXXXXXXXXXXXXX"
consumer_secret_key = "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
access_token = "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
access_token_secret = "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX"
## Create twitter developer account and get the api keys and tokens and replace those here

In [14]:
import tweepy

auth = tweepy.OAuthHandler(consumer_key, consumer_secret_key)
auth.set_access_token(access_token, access_token_secret)

api = tweepy.API(auth)

In [3]:
public_tweets = api.home_timeline()

In [4]:
# for tweet in public_tweets:
#     print(tweet.text)

In [5]:
# !pip install git+https://github.com/laxmimerit/preprocess_kgptalkie.git

In [20]:
from textblob import TextBlob
import preprocess_kgptalkie as pp
import json
import joblib
import tweepy
import csv

In [21]:
tfidf = joblib.load('tfidf.pkl')
clf = joblib.load('clf.pkl')

In [22]:
def predict_sentiment(x):
    sentiment = clf.predict(tfidf.transform([x]))
    return sentiment[0]

In [29]:
india = 0
china = 0
pakistan=0
track_keyword = ["india","china","pakistan"]

with open('sentiment.csv','w') as f:
    writer = csv.DictWriter(f, fieldnames=track_keyword)
    writer.writeheader()

In [30]:

    
class MyStreamListener(tweepy.StreamListener):

    def on_status(self, status):
        print(status.text)
    def on_data(self,data):
        raw_twitts = json.loads(data)
        try:
            x = raw_twitts['text']
            x = x.lower()
            x = pp.cont_exp(x)
            x = pp.remove_emails(x)
            x = pp.remove_html_tags(x)
            x = pp.remove_rt(x)
            x = pp.remove_special_chars(x)
            x = pp.remove_urls(x)
#             print(x)
#             blob = TextBlob(x)
#             sentiment = blob.sentiment.polarity
            sentiment = predict_sentiment(x)
#             print(sentiment)
            
            global china
            global india
            global pakistan
            
            if 'india' in x and 'china' not in x and 'pakistan' not in x:
                india += sentiment
            elif 'china' in x and 'india' not in x and 'pakistan' not in x:
                china += sentiment
            elif 'pakistan' in x and 'china' not in x and 'india' not in x:
                pakistan += sentiment
            else:
                pass
            print('India : ',india," China : ",china," Pakistan : ",pakistan)
            
            with open('sentiment.csv','a') as f:
                writer = csv.DictWriter(f,fieldnames=track_keyword)
                info = {
                    'india':india,
                    'china':china,
                    'pakistan':pakistan
                }
                writer.writerow(info)
        except:
            pass
    def on_error(self, status_code):
        if status_code == 420:
            print("Error 420")
            #returning False in on_error disconnects the stream
            return False

In [31]:
myStreamListener = MyStreamListener()
myStream = tweepy.Stream(auth = api.auth, listener=myStreamListener)

In [32]:
myStream.filter(track=track_keyword)

India :  0  China :  0  Pakistan :  1
India :  1  China :  0  Pakistan :  1
India :  2  China :  0  Pakistan :  1
India :  2  China :  1  Pakistan :  1
India :  2  China :  1  Pakistan :  1
India :  3  China :  1  Pakistan :  1
India :  3  China :  1  Pakistan :  1
India :  3  China :  1  Pakistan :  1
India :  4  China :  1  Pakistan :  1
India :  4  China :  2  Pakistan :  1
India :  5  China :  2  Pakistan :  1
India :  5  China :  2  Pakistan :  1
India :  5  China :  2  Pakistan :  1
India :  6  China :  2  Pakistan :  1
India :  7  China :  2  Pakistan :  1
India :  7  China :  2  Pakistan :  1
India :  7  China :  3  Pakistan :  1
India :  7  China :  3  Pakistan :  1
India :  7  China :  4  Pakistan :  1
India :  8  China :  4  Pakistan :  1
India :  8  China :  4  Pakistan :  1
India :  8  China :  4  Pakistan :  1
India :  8  China :  4  Pakistan :  1
India :  8  China :  4  Pakistan :  1
India :  8  China :  4  Pakistan :  1
India :  9  China :  4  Pakistan :  1
India :  9  

India :  50  China :  22  Pakistan :  14
India :  51  China :  22  Pakistan :  14
India :  51  China :  22  Pakistan :  14
India :  51  China :  22  Pakistan :  14
India :  51  China :  22  Pakistan :  14
India :  51  China :  22  Pakistan :  14
India :  51  China :  22  Pakistan :  14
India :  51  China :  22  Pakistan :  14
India :  52  China :  22  Pakistan :  14
India :  53  China :  22  Pakistan :  14
India :  53  China :  22  Pakistan :  14
India :  53  China :  22  Pakistan :  14
India :  53  China :  22  Pakistan :  14
India :  53  China :  22  Pakistan :  14
India :  53  China :  23  Pakistan :  14
India :  53  China :  24  Pakistan :  14
India :  54  China :  24  Pakistan :  14
India :  55  China :  24  Pakistan :  14
India :  55  China :  24  Pakistan :  14
India :  55  China :  24  Pakistan :  14
India :  55  China :  25  Pakistan :  14
India :  55  China :  25  Pakistan :  14
India :  55  China :  25  Pakistan :  14
India :  55  China :  26  Pakistan :  14
India :  55  Chi

India :  102  China :  46  Pakistan :  26
India :  102  China :  46  Pakistan :  26
India :  102  China :  46  Pakistan :  26
India :  103  China :  46  Pakistan :  26
India :  103  China :  46  Pakistan :  26
India :  104  China :  46  Pakistan :  26
India :  104  China :  46  Pakistan :  26
India :  104  China :  46  Pakistan :  27
India :  104  China :  46  Pakistan :  27
India :  105  China :  46  Pakistan :  27
India :  106  China :  46  Pakistan :  27
India :  106  China :  46  Pakistan :  27
India :  106  China :  46  Pakistan :  28
India :  106  China :  46  Pakistan :  28
India :  107  China :  46  Pakistan :  28
India :  107  China :  47  Pakistan :  28
India :  107  China :  47  Pakistan :  28
India :  108  China :  47  Pakistan :  28
India :  108  China :  47  Pakistan :  28
India :  108  China :  47  Pakistan :  28
India :  108  China :  47  Pakistan :  28
India :  108  China :  47  Pakistan :  28
India :  109  China :  47  Pakistan :  28
India :  109  China :  47  Pakista

India :  155  China :  72  Pakistan :  35
India :  155  China :  72  Pakistan :  35
India :  155  China :  72  Pakistan :  35
India :  155  China :  72  Pakistan :  35
India :  155  China :  72  Pakistan :  35
India :  156  China :  72  Pakistan :  35
India :  156  China :  72  Pakistan :  35
India :  157  China :  72  Pakistan :  35
India :  157  China :  72  Pakistan :  35
India :  157  China :  72  Pakistan :  35
India :  158  China :  72  Pakistan :  35
India :  158  China :  72  Pakistan :  35
India :  158  China :  72  Pakistan :  35
India :  159  China :  72  Pakistan :  35
India :  159  China :  72  Pakistan :  36
India :  160  China :  72  Pakistan :  36
India :  161  China :  72  Pakistan :  36
India :  161  China :  73  Pakistan :  36
India :  161  China :  73  Pakistan :  36
India :  161  China :  74  Pakistan :  36
India :  161  China :  74  Pakistan :  36
India :  161  China :  74  Pakistan :  37
India :  161  China :  74  Pakistan :  37
India :  161  China :  74  Pakista

India :  193  China :  99  Pakistan :  48
India :  193  China :  99  Pakistan :  48
India :  193  China :  99  Pakistan :  48
India :  193  China :  99  Pakistan :  48
India :  193  China :  99  Pakistan :  48
India :  193  China :  99  Pakistan :  48
India :  194  China :  99  Pakistan :  48
India :  194  China :  99  Pakistan :  48
India :  194  China :  99  Pakistan :  48
India :  195  China :  99  Pakistan :  48
India :  195  China :  99  Pakistan :  48
India :  195  China :  99  Pakistan :  48
India :  195  China :  99  Pakistan :  48
India :  195  China :  99  Pakistan :  48
India :  195  China :  99  Pakistan :  48
India :  196  China :  99  Pakistan :  48
India :  197  China :  99  Pakistan :  48
India :  197  China :  99  Pakistan :  48
India :  197  China :  99  Pakistan :  49
India :  197  China :  99  Pakistan :  49
India :  197  China :  100  Pakistan :  49
India :  197  China :  100  Pakistan :  49
India :  197  China :  100  Pakistan :  49
India :  197  China :  100  Pak

India :  239  China :  123  Pakistan :  61
India :  240  China :  123  Pakistan :  61
India :  240  China :  123  Pakistan :  61
India :  240  China :  123  Pakistan :  61
India :  240  China :  123  Pakistan :  61
India :  240  China :  123  Pakistan :  61
India :  240  China :  123  Pakistan :  61
India :  240  China :  123  Pakistan :  61
India :  240  China :  123  Pakistan :  61
India :  240  China :  123  Pakistan :  62
India :  240  China :  123  Pakistan :  62
India :  240  China :  124  Pakistan :  62
India :  240  China :  124  Pakistan :  62
India :  240  China :  124  Pakistan :  63
India :  241  China :  124  Pakistan :  63
India :  241  China :  124  Pakistan :  63
India :  241  China :  125  Pakistan :  63
India :  241  China :  125  Pakistan :  63
India :  242  China :  125  Pakistan :  63
India :  243  China :  125  Pakistan :  63
India :  243  China :  125  Pakistan :  63
India :  243  China :  125  Pakistan :  63
India :  243  China :  125  Pakistan :  63
India :  24

India :  280  China :  150  Pakistan :  71
India :  280  China :  151  Pakistan :  71
India :  280  China :  151  Pakistan :  71
India :  281  China :  151  Pakistan :  71
India :  281  China :  151  Pakistan :  71
India :  281  China :  151  Pakistan :  71
India :  282  China :  151  Pakistan :  71
India :  283  China :  151  Pakistan :  71
India :  283  China :  151  Pakistan :  71
India :  284  China :  151  Pakistan :  71
India :  285  China :  151  Pakistan :  71
India :  285  China :  151  Pakistan :  71
India :  286  China :  151  Pakistan :  71
India :  286  China :  151  Pakistan :  71
India :  286  China :  152  Pakistan :  71
India :  286  China :  152  Pakistan :  71
India :  286  China :  152  Pakistan :  71
India :  286  China :  153  Pakistan :  71
India :  287  China :  153  Pakistan :  71
India :  288  China :  153  Pakistan :  71
India :  288  China :  153  Pakistan :  72
India :  289  China :  153  Pakistan :  72
India :  289  China :  153  Pakistan :  72
India :  28

India :  322  China :  171  Pakistan :  81
India :  322  China :  171  Pakistan :  81
India :  322  China :  172  Pakistan :  81
India :  322  China :  172  Pakistan :  81
India :  322  China :  172  Pakistan :  81
India :  322  China :  172  Pakistan :  82
India :  322  China :  173  Pakistan :  82
India :  322  China :  173  Pakistan :  82
India :  323  China :  173  Pakistan :  82
India :  324  China :  173  Pakistan :  82
India :  324  China :  173  Pakistan :  83
India :  324  China :  173  Pakistan :  83
India :  324  China :  173  Pakistan :  83
India :  324  China :  174  Pakistan :  83
India :  324  China :  174  Pakistan :  83
India :  324  China :  174  Pakistan :  83
India :  324  China :  174  Pakistan :  83
India :  324  China :  174  Pakistan :  83
India :  325  China :  174  Pakistan :  83
India :  326  China :  174  Pakistan :  83
India :  327  China :  174  Pakistan :  83
India :  328  China :  174  Pakistan :  83
India :  329  China :  174  Pakistan :  83
India :  33

India :  381  China :  196  Pakistan :  98
India :  381  China :  197  Pakistan :  98
India :  382  China :  197  Pakistan :  98
India :  382  China :  197  Pakistan :  98
India :  382  China :  197  Pakistan :  98
India :  382  China :  197  Pakistan :  98
India :  382  China :  197  Pakistan :  98
India :  382  China :  197  Pakistan :  99
India :  382  China :  197  Pakistan :  99
India :  382  China :  197  Pakistan :  99
India :  383  China :  197  Pakistan :  99
India :  383  China :  198  Pakistan :  99
India :  383  China :  198  Pakistan :  100
India :  383  China :  198  Pakistan :  100
India :  383  China :  198  Pakistan :  100
India :  383  China :  198  Pakistan :  100
India :  384  China :  198  Pakistan :  100
India :  384  China :  199  Pakistan :  100
India :  385  China :  199  Pakistan :  100
India :  385  China :  200  Pakistan :  100
India :  385  China :  200  Pakistan :  100
India :  385  China :  200  Pakistan :  100
India :  385  China :  200  Pakistan :  100


India :  434  China :  221  Pakistan :  108
India :  434  China :  221  Pakistan :  108
India :  434  China :  221  Pakistan :  108
India :  434  China :  221  Pakistan :  108
India :  434  China :  221  Pakistan :  108
India :  434  China :  221  Pakistan :  108
India :  434  China :  222  Pakistan :  108
India :  435  China :  222  Pakistan :  108
India :  436  China :  222  Pakistan :  108
India :  437  China :  222  Pakistan :  108
India :  437  China :  222  Pakistan :  108
India :  437  China :  222  Pakistan :  108
India :  438  China :  222  Pakistan :  108
India :  438  China :  222  Pakistan :  108
India :  438  China :  222  Pakistan :  108
India :  438  China :  223  Pakistan :  108
India :  438  China :  223  Pakistan :  108
India :  438  China :  223  Pakistan :  108
India :  438  China :  223  Pakistan :  108
India :  438  China :  223  Pakistan :  108
India :  438  China :  223  Pakistan :  108
India :  439  China :  223  Pakistan :  108
India :  439  China :  223  Paki

India :  485  China :  240  Pakistan :  119
India :  485  China :  240  Pakistan :  120
India :  486  China :  240  Pakistan :  120
India :  486  China :  240  Pakistan :  120
India :  486  China :  240  Pakistan :  120
India :  486  China :  240  Pakistan :  120
India :  487  China :  240  Pakistan :  120
India :  487  China :  241  Pakistan :  120
India :  488  China :  241  Pakistan :  120
India :  489  China :  241  Pakistan :  120
India :  489  China :  241  Pakistan :  120
India :  489  China :  241  Pakistan :  120
India :  489  China :  241  Pakistan :  120
India :  489  China :  241  Pakistan :  120
India :  489  China :  241  Pakistan :  121
India :  489  China :  241  Pakistan :  121
India :  490  China :  241  Pakistan :  121
India :  490  China :  241  Pakistan :  121
India :  490  China :  241  Pakistan :  121
India :  490  China :  241  Pakistan :  121
India :  490  China :  241  Pakistan :  121
India :  490  China :  241  Pakistan :  121
India :  490  China :  242  Paki

ProtocolError: ('Connection broken: IncompleteRead(0 bytes read)', IncompleteRead(0 bytes read))