# Sentiment Analysis ML way

#Given to you short review of some movies. The reviews could talk bad or good about the movie. We can identify the sentiment of the text by looking/reading the words in the sentence. How can we make a machine/system understand the sentiment in the text.

#One way is the ML way. There is a ground truth that is created for some corpus i.e  we have both postive and negative reviews that are tagged with their respective class. This forms the base and the algorithm is trained on this data (after converting this to structured form) and depending on the words used the classification is done (Machine/system tries to obtain a pattern from data).

#Another way is dictionary approach, where we create a dictionary of positive and negative words and explicitly state that these words are positive or negative. We can then count the number of positive and negative words in the sentence and give a score. If the score is positive then its positive else its negative.

#In either cases, there is manual work involved (creating ground truth in case 1 or creating the dictionary in case 2)

In [21]:
import re
import nltk
import random
from nltk.corpus import movie_reviews
from nltk.tokenize import word_tokenize
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import confusion_matrix
#from nltk.classify.scikitlearn import SklearnClassifier

In [2]:
f1 = open("short_reviews/positive.txt","r", errors='replace')   # "r" is for reading
short_pos = f1.readlines()

In [3]:
short_pos[1]

'the gorgeously elaborate continuation of " the lord of the rings " trilogy is so huge that a column of words cannot adequately describe co-writer/director peter jackson\'s expanded vision of j . r . r . tolkien\'s middle-earth . \n'

In [4]:
type(short_pos)

list

In [5]:
short_pos=[re.sub("\n","",i)for i in short_pos]
x_short_pos=short_pos[:1000]
f2 = open("short_reviews/negative.txt","r", errors='replace')
short_neg = f2.readlines()
short_neg=[re.sub("\n","",i)for i in short_neg]
x_short_neg=short_neg[:1000]

In [6]:
x_short_pos[1]

'the gorgeously elaborate continuation of " the lord of the rings " trilogy is so huge that a column of words cannot adequately describe co-writer/director peter jackson\'s expanded vision of j . r . r . tolkien\'s middle-earth . '

In [7]:
type(short_neg)

list

In [8]:
cv=CountVectorizer(stop_words='english',lowercase=True,
                   strip_accents='unicode',decode_error='ignore')
data=x_short_pos+x_short_neg
tdm = cv.fit_transform(data)
Mat = tdm.todense()

In [9]:
Mat.shape

(2000, 7406)

In [10]:
import pandas as pd
Mat = pd.DataFrame(Mat)
Mat['type'] = ['pos']*1000+['neg']*1000
Mat = pd.DataFrame(Mat)
Mat = Mat.sample(frac = 1,random_state=1234)
train = Mat.iloc[:1800]
test = Mat.iloc[1800:]

In [11]:
from sklearn.linear_model import LogisticRegression

In [12]:
logreg = LogisticRegression(C=1e5)
X=train.iloc[:,:-1].as_matrix()
Y=train.iloc[:,-1].as_matrix()


In [13]:
logreg.fit(X,Y)

LogisticRegression(C=100000.0, class_weight=None, dual=False,
          fit_intercept=True, intercept_scaling=1, max_iter=100,
          multi_class='ovr', n_jobs=1, penalty='l2', random_state=None,
          solver='liblinear', tol=0.0001, verbose=0, warm_start=False)

In [14]:
test1=test.iloc[:,:-1].as_matrix()
true=test.iloc[:,-1].as_matrix()
pred=logreg.predict(test1)

In [15]:
pred

array(['pos', 'pos', 'pos', 'pos', 'neg', 'neg', 'pos', 'pos', 'pos',
       'neg', 'neg', 'neg', 'neg', 'pos', 'neg', 'neg', 'pos', 'pos',
       'pos', 'neg', 'pos', 'pos', 'pos', 'pos', 'neg', 'pos', 'neg',
       'pos', 'pos', 'neg', 'pos', 'neg', 'pos', 'pos', 'pos', 'neg',
       'neg', 'pos', 'pos', 'pos', 'neg', 'pos', 'neg', 'pos', 'neg',
       'pos', 'neg', 'pos', 'pos', 'pos', 'pos', 'pos', 'pos', 'pos',
       'pos', 'pos', 'pos', 'neg', 'neg', 'pos', 'pos', 'neg', 'pos',
       'neg', 'neg', 'pos', 'pos', 'pos', 'pos', 'neg', 'neg', 'neg',
       'neg', 'pos', 'pos', 'neg', 'pos', 'pos', 'neg', 'neg', 'pos',
       'neg', 'pos', 'neg', 'neg', 'pos', 'pos', 'neg', 'pos', 'neg',
       'pos', 'pos', 'neg', 'neg', 'neg', 'pos', 'neg', 'pos', 'pos',
       'pos', 'neg', 'pos', 'pos', 'neg', 'pos', 'neg', 'pos', 'neg',
       'neg', 'neg', 'neg', 'neg', 'pos', 'pos', 'pos', 'pos', 'neg',
       'pos', 'neg', 'neg', 'neg', 'neg', 'pos', 'pos', 'neg', 'neg',
       'neg', 'neg',

In [16]:
confusion_matrix(test.iloc[:,-1],pred)

array([[60, 37],
       [33, 70]])

In [17]:
true

array(['pos', 'neg', 'neg', 'neg', 'neg', 'neg', 'pos', 'neg', 'pos',
       'neg', 'pos', 'pos', 'neg', 'pos', 'neg', 'neg', 'neg', 'neg',
       'pos', 'pos', 'pos', 'pos', 'pos', 'pos', 'pos', 'pos', 'pos',
       'neg', 'neg', 'neg', 'pos', 'neg', 'pos', 'neg', 'neg', 'pos',
       'neg', 'neg', 'neg', 'pos', 'pos', 'pos', 'neg', 'pos', 'neg',
       'pos', 'neg', 'pos', 'neg', 'pos', 'neg', 'pos', 'pos', 'pos',
       'pos', 'neg', 'pos', 'neg', 'neg', 'pos', 'neg', 'pos', 'pos',
       'pos', 'pos', 'pos', 'pos', 'neg', 'pos', 'pos', 'neg', 'neg',
       'neg', 'pos', 'pos', 'neg', 'pos', 'pos', 'neg', 'neg', 'pos',
       'neg', 'pos', 'neg', 'pos', 'pos', 'pos', 'neg', 'pos', 'pos',
       'pos', 'pos', 'neg', 'neg', 'pos', 'pos', 'pos', 'pos', 'pos',
       'pos', 'neg', 'pos', 'neg', 'neg', 'pos', 'pos', 'pos', 'neg',
       'neg', 'pos', 'neg', 'neg', 'neg', 'neg', 'pos', 'pos', 'pos',
       'neg', 'neg', 'pos', 'pos', 'neg', 'pos', 'pos', 'pos', 'neg',
       'neg', 'neg',

In [18]:
pred

array(['pos', 'pos', 'pos', 'pos', 'neg', 'neg', 'pos', 'pos', 'pos',
       'neg', 'neg', 'neg', 'neg', 'pos', 'neg', 'neg', 'pos', 'pos',
       'pos', 'neg', 'pos', 'pos', 'pos', 'pos', 'neg', 'pos', 'neg',
       'pos', 'pos', 'neg', 'pos', 'neg', 'pos', 'pos', 'pos', 'neg',
       'neg', 'pos', 'pos', 'pos', 'neg', 'pos', 'neg', 'pos', 'neg',
       'pos', 'neg', 'pos', 'pos', 'pos', 'pos', 'pos', 'pos', 'pos',
       'pos', 'pos', 'pos', 'neg', 'neg', 'pos', 'pos', 'neg', 'pos',
       'neg', 'neg', 'pos', 'pos', 'pos', 'pos', 'neg', 'neg', 'neg',
       'neg', 'pos', 'pos', 'neg', 'pos', 'pos', 'neg', 'neg', 'pos',
       'neg', 'pos', 'neg', 'neg', 'pos', 'pos', 'neg', 'pos', 'neg',
       'pos', 'pos', 'neg', 'neg', 'neg', 'pos', 'neg', 'pos', 'pos',
       'pos', 'neg', 'pos', 'pos', 'neg', 'pos', 'neg', 'pos', 'neg',
       'neg', 'neg', 'neg', 'neg', 'pos', 'pos', 'pos', 'pos', 'neg',
       'pos', 'neg', 'neg', 'neg', 'neg', 'pos', 'pos', 'neg', 'neg',
       'neg', 'neg',

# Work with any other classification model and check if you can improve the accuracies

In [19]:
from sklearn.naive_bayes import MultinomialNB
classifier = MultinomialNB()
classifier.fit(train.iloc[:,:-1],train.iloc[:,-1])
A=classifier.predict(test.iloc[:,:-1])
confusion_matrix(test.iloc[:,-1],A)

array([[63, 34],
       [31, 72]])

In [20]:
A

array(['pos', 'pos', 'pos', 'pos', 'neg', 'neg', 'pos', 'neg', 'pos',
       'pos', 'pos', 'neg', 'neg', 'pos', 'neg', 'neg', 'neg', 'neg',
       'pos', 'neg', 'pos', 'pos', 'pos', 'neg', 'pos', 'pos', 'pos',
       'pos', 'neg', 'neg', 'pos', 'neg', 'pos', 'pos', 'neg', 'pos',
       'pos', 'pos', 'pos', 'pos', 'neg', 'pos', 'pos', 'pos', 'neg',
       'pos', 'pos', 'pos', 'pos', 'pos', 'neg', 'pos', 'pos', 'neg',
       'pos', 'neg', 'pos', 'pos', 'neg', 'pos', 'pos', 'neg', 'neg',
       'pos', 'pos', 'pos', 'pos', 'pos', 'neg', 'pos', 'neg', 'neg',
       'neg', 'neg', 'pos', 'neg', 'neg', 'pos', 'neg', 'pos', 'pos',
       'neg', 'pos', 'neg', 'pos', 'pos', 'pos', 'neg', 'pos', 'neg',
       'neg', 'pos', 'neg', 'neg', 'neg', 'neg', 'pos', 'pos', 'pos',
       'neg', 'neg', 'pos', 'pos', 'neg', 'neg', 'pos', 'pos', 'pos',
       'neg', 'neg', 'neg', 'neg', 'pos', 'pos', 'neg', 'pos', 'pos',
       'neg', 'neg', 'pos', 'pos', 'neg', 'pos', 'pos', 'neg', 'neg',
       'neg', 'neg',

#What else could be done to improve the accuracies

#Solution: There could be some common words in both positive and negative reviews.
    To avoid such words we can consider only adjectives to solve the problem and check if the accuracies improve