# Buildung a lexicon out of negative and positive tweets

In order to find not only sentiment on unigrams or complete sentences, we need build a lexicon that covers ngrams(n>=2). We achieve this by finding bi- and trigrams in a positive and negative. Afterwards the corresponding sentiment score will be calculated.

In [150]:
import pandas as pd
import numpy as np
import re

dfPos = pd.read_csv("data/positive_dataset.csv")
dfNeg = pd.read_csv("data/negative_dataset.csv")
dfPos = dfPos.drop("target", 1)
dfNeg = dfNeg.drop("target", 1)

First step is to clean the data from mentions, retweets or links

In [151]:
def clean_tweets(df):
    df["text"]=df["text"].str.replace("@mention","").str.strip()
    df["text"]=df["text"].str.replace("@\w*","").str.strip()
    df["text"]=df["text"].str.replace("#\w*","").str.strip()
    df["text"]=df["text"].str.replace("http.*[\w\s]*","").str.strip()
    df["text"]=df["text"].str.replace("RT","").str.strip()
    return df

In [152]:
dfPos = clean_tweets(dfPos)
dfNeg = clean_tweets(dfNeg)
dfNeg.head(3)
dfPos.head(3)

Unnamed: 0,text
0,"Good case, Excellent value."
1,Great for the jawbone.
2,The mic is great.


Having a cleaned dataset we define a method to extract ngrams

In [153]:
import nltk
from nltk.util import ngrams
from nltk.collocations import *
from textblob import TextBlob

def extract_ngrams(data, n):
    tempList=[]
#     for tweets in data["text"].iteritems():
    for tweets in data["text"]:
#         one_string = one_string + tweets
#         tweet = TextBlob(str(tweets))
#         print(tweet)
        grams = ngrams(tweets.split(), n)
#         print(grams)
        for gram in grams:
            tempList.append(gram)
    return tempList

In [154]:
bigramsPos = extract_ngrams(dfPos, 2)
bigramsNeg = extract_ngrams(dfNeg, 2)
trigramsNeg= extract_ngrams(dfNeg, 3)
trigramsPos = extract_ngrams(dfPos, 3)

We build dictionaries for bi-/trigrams and count their occurences

In [155]:
from collections import Counter

cntBigramsPos = Counter(bigramsPos)
cntBigramsNeg = Counter(bigramsNeg)
cntTrigramsPos = Counter(trigramsPos)
cntTrigramsNeg = Counter(trigramsNeg)


In [156]:
cntTrigramsNeg.most_common(3)

[(('I', 'had', 'to'), 6),
 (('I', 'could', 'not'), 4),
 (('work', 'with', 'my'), 4)]

In [157]:
cntTrigramsPos.most_common(3)

[(('This', 'is', 'a'), 7),
 (('I', 'love', 'this'), 6),
 (('I', 'am', 'very'), 5)]

We remove entries with less than 10 occurences/values

In [158]:
# Remove margins! AKA occurences below 10 ====>>> wait for data
def remove_occurences_below_10(d):
    dNew = { k : v for k,v in d.items() if v>10}
#     for key, value in cntDict.items():
#         if value <= 10:
#             del cntDict[key]
    return dNew

In [159]:
# # bigramNeg
# print("cntBigramsNeg: ", len(cntBigramsNeg))
# cntBigramsNeg = remove_occurences_below_10(cntBigramsNeg)
# print("cntBigramsNeg: ",len(cntBigramsNeg))
# # bigramPos
# print("cntBigramsPos: ", len(cntBigramsPos))
# cntBigramsPos = remove_occurences_below_10(cntBigramsPos)
# print("cntBigramsPos: ",len(cntBigramsPos))
# # trigramsNeg
# print("cntTrigramsNeg: ", len(cntTrigramsNeg))
# cntTrigramsNeg = remove_occurences_below_10(cntTrigramsNeg)
# print("cntTrigramsNeg: ",len(cntTrigramsNeg))
# # trigramsPos
# print("cntTrigramsPos: ", len(cntTrigramsPos))
# cntTrigramsPos = remove_occurences_below_10(cntTrigramsPos)
# print("cntTrigramsPos: ",len(cntTrigramsPos))

In [160]:
trigramsPosSet = set(cntTrigramsPos)
trigramsNegSet = set(cntTrigramsNeg)
bigramsPosSet = set(cntBigramsPos)
bigramsNegSet = set(cntBigramsNeg)

In [161]:
def calculate_sentiment_score(nrPos, nrNeg):
    sentiment_score = (nrPos - nrNeg) / (nrPos + nrNeg)
    return sentiment_score

In [162]:
# TRIGRAMS
scoresTrigrams={}
for i in trigramsPosSet.intersection(trigramsNegSet):
#     try:
    score = calculate_sentiment_score(cntTrigramsPos[i], cntTrigramsNeg[i])
    # FILTER OUT SCORES E(􀀀-0.1 - 0.1).
    if not -0.1 <= score <= 0.1:
        scoresTrigrams[i] = score
#     except ZeroDivisionError:
#         print("ZeroDivisionError:", i,cntBigramsPos[i], cntBigramsNeg[i])

In [163]:
# BIGRAMS
scoresBigrams= {}
for i in bigramsNegSet.intersection(bigramsPosSet):
    score = calculate_sentiment_score(cntBigramsPos[i], cntBigramsNeg[i])
    # FILTER OUT SCORES E(􀀀-0.1 - 0.1).
    if not -0.1 <= score <= 0.1:
        scoresBigrams[i] = score

In [166]:
scoresBigrams

{('All', 'in'): 0.3333333333333333,
 ('Battery', 'life'): 0.3333333333333333,
 ('I', 'am'): 0.4117647058823529,
 ('I', 'can'): 0.14285714285714285,
 ('I', 'could'): -0.4,
 ('I', 'did'): -0.3333333333333333,
 ('I', "don't"): -0.6,
 ('I', 'found'): -0.3333333333333333,
 ('I', 'got'): 0.6,
 ('I', 'had'): -0.16666666666666666,
 ('I', 'have'): 0.1111111111111111,
 ('I', 'like'): 0.5,
 ('I', 'really'): 0.2,
 ('I', 'received'): 0.5,
 ('I', 'thought'): 0.3333333333333333,
 ('I', 'was'): -0.17647058823529413,
 ('I', 'would'): 0.38461538461538464,
 ("I've", 'had'): 0.14285714285714285,
 ('If', 'you'): -0.75,
 ('It', 'is'): 0.625,
 ('So', 'I'): -0.3333333333333333,
 ('The', 'battery'): -0.3333333333333333,
 ('The', 'design'): -0.3333333333333333,
 ('The', 'only'): -0.3333333333333333,
 ('The', 'sound'): 0.5,
 ('This', 'is'): 0.3,
 ('This', 'item'): 0.3333333333333333,
 ('This', 'phone'): 0.3333333333333333,
 ('This', 'product'): -0.2,
 ('a', 'couple'): -0.2,
 ('a', 'few'): -0.3333333333333333,
 (

In [165]:
scoresTrigrams

{('I', 'bought', 'this'): 0.5,
 ('I', 'could', 'not'): -0.6,
 ('I', 'had', 'to'): -0.7142857142857143,
 ('I', 'have', 'ever'): 0.3333333333333333,
 ('I', 'have', 'to'): -0.3333333333333333,
 ('I', 'received', 'my'): 0.3333333333333333,
 ("I've", 'had', 'this'): -0.3333333333333333,
 ('The', 'battery', 'is'): -0.3333333333333333,
 ('The', 'sound', 'quality'): 0.3333333333333333,
 ('This', 'is', 'a'): 0.5555555555555556,
 ('and', 'it', 'was'): -0.5,
 ('and', 'the', 'sound'): 0.5,
 ('any', 'kind', 'of'): -0.3333333333333333,
 ('as', 'good', 'as'): 0.3333333333333333,
 ('as', 'well', 'as'): 0.3333333333333333,
 ('car', 'charger', 'and'): -0.3333333333333333,
 ('for', 'a', 'few'): 0.3333333333333333,
 ('for', 'the', 'price.'): 0.5,
 ('happy', 'with', 'this'): 0.3333333333333333,
 ('is', 'that', 'the'): -0.3333333333333333,
 ('it', 'for', 'a'): -0.3333333333333333,
 ('it', 'was', 'a'): 0.3333333333333333,
 ('on', 'and', 'off'): -0.3333333333333333,
 ('on', 'the', 'ear.'): -0.3333333333333333