In [3]:
import pandas as pd
import numpy as np
import os
import random
import re

### Path to train and test data

In [6]:
test_path = 'data/balanced_test_set.csv'
train_path = 'data/train_set.csv'

In [7]:
train_data = pd.read_csv(train_path, delimiter=',', quotechar='|', encoding="utf8")
train_data.head()

Unnamed: 0,Tweet,Sentiment
0,<ID> <ID> Då missförstår du mig Hålla låg pro...,0
1,<ID> om drivkraften bara är pengar så förstår jag,0
2,<ID> <ID> Här kan ni köpa in er i mitt andels...,0
3,Föredömligt av @FolksamMedia att inte invester...,1
4,Rutger Arnhults privata bolag emitterar obliga...,0


In [395]:
test_data = pd.read_csv(test_path, delimiter=',', quotechar='|', encoding="utf8")
test_data.head()

Unnamed: 0,Tweet,Sentiment
0,<ID> <ID> jaaa med Calle och Hobbe p,1
1,ÅH VAD JAG ÄLSKAR ATT VARA KVINNA,1
2,Drygt en vecka kvar rösta i kyrkovalet gärna p...,1
3,En lite bra tråd om våld och nazister och sånt...,1
4,På väg hem efter en fantastiskt trevlig AW med...,1


## Sampling
### Do we want to under-sample the majority classes, creating a balanced training set where randomly selected tweets from the majority classes are extracted to match the minority class? Or do we want to under-sample the majority class(es) and over-sample the minority class(es)

#### -1 = negative  |  0 = neutral  |  1 = positive

In [396]:
train_data.groupby('Sentiment').count()

Unnamed: 0_level_0,Tweet
Sentiment,Unnamed: 1_level_1
-1,2551
0,5820
1,2703


In [397]:
# ---- Enter True / False ----
# ---- if False, new varible must be larger than smallest and smaller than largest in table above. -----
only_under_sample = False
no_sampling = False # use ALL training data without any balancing.

new = 3100

if only_under_sample:
    print('Under-sampling, only.')
else:
    print('Under- and over-sampling to create a balanced training set with {} tweets in each class'.format(new))

Under- and over-sampling to create a balanced training set with 3100 tweets in each class


In [398]:
pos = []
neg = []
neu = []
for tweet_tuple in train_data.iterrows():
    tweet = tweet_tuple[1]['Tweet']
    sentiment = int(tweet_tuple[1]['Sentiment'])

    if sentiment == -1:
        neg.append([tweet, sentiment])

    if sentiment == 0:
        neu.append([tweet, sentiment])

    if sentiment == 1:
        pos.append([tweet, sentiment])
            
len_neu = len(neu)
len_neg = len(neg)
len_pos = len(pos)
            
#print(len_neu, ' Neutral')
#print(len_neg, ' Negative')
#print(len_pos, ' Positive')

minimi = min(len_neg, len_neu, len_pos)

if only_under_sample and not no_sampling:
    print('Under-sampling a balanced training data set')
    
    print('Smallest class size: ', minimi)

    np.random.shuffle(pos)
    np.random.shuffle(neg)
    np.random.shuffle(neu)
    
    print('Shuffling new dataset...')
    balanced_data = np.vstack((pos[:minimi], neu[:minimi], neg[:minimi]))

    np.random.shuffle(balanced_data)
    print('Size of training set, with {} in each class:'.format(minimi))
    print(len(balanced_data))
    
elif not only_under_sample and not no_sampling:
    print('Under- and over-sampling a balanced training data set')
    
    remaining_pos = new - len(pos)
    remaining_neg = new - len(neg)

    pos_copy = pos.copy()
    neg_copy = neg.copy()

    upsampled_pos = []
    upsampled_neg = []


    for i in range(remaining_pos):
        rand_id = random.randint(0, len(pos_copy) - 1)
        upsampled_pos.append(pos_copy.pop(rand_id))

    for i in range(remaining_neg):
        rand_id = random.randint(0, len(neg_copy) - 1)
        upsampled_neg.append(neg_copy.pop(rand_id))
        
    pos = np.vstack((pos, upsampled_pos))
    neg = np.vstack((neg, upsampled_neg))

    np.random.shuffle(pos)
    np.random.shuffle(neg)
    np.random.shuffle(neu)
    
    # Note that this line must be changed if the distribution of the training data shifts.
    # It now assumes that pos and neg is over-sampled and that neu is under-sampled!
    balanced_data = np.vstack((pos, neu[:new], neg))
    
    print('Shuffling new dataset...')
    np.random.shuffle(balanced_data)
    print('Size of training set, with {} in each class:'.format(new))
    print(len(balanced_data))
    
elif not only_under_sample and no_sampling:
    balanced_data = np.vstack((pos, neu, neg))
    print('Including ALL available training data <-- unbalanced')
    np.random.shuffle(balanced_data)
    print('size:')
    print(len(balanced_data))

Under- and over-sampling a balanced training data set
Shuffling new dataset...
Size of training set, with 3100 in each class:
9300


### Separate tweets from labels

In [399]:
train_X = [pair[0] for pair in balanced_data]
train_Y = [int(pair[1]) for pair in balanced_data]

test_X = test_data['Tweet'].tolist()
test_Y = test_data['Sentiment'].tolist()

### Helper methods

In [400]:
def reduce_lengthening(text):
    '''
    An ad-hoc spellcheck. No swedish words contains more than two identical characters
    in a sequence. This method finds those and shortens them to two - irregardless of
    whether it's a noun or whatever. ALL occurrences are reduced to only two in order to
    ensure words that are commonly emphazised, i.e såååååå, are included in the vocabulary.
    '''
    pattern = re.compile(r"(.)\1{2,}")
    return pattern.sub(r"\1\1", text)

### Clean and pre-process each tweet. Stemming and stop-word removal is removed from pre-processing stage after empirical findings.

In [401]:
def cleanTweet(tweet):
    
    # Here we have each tweet. Process and add to file.

    # Replaces various URLs with "<URL>"
    filtered = re.sub(r"http\S+", " <URL>", tweet)

    # Replace mentions with anonymous <ID>
    filtered = re.sub(r"@\S+", " <ID>", filtered)

    # Replace haschtags with anonymous <HASCHTAG>
    filtered = re.sub(r"#\S+", " <HASCHTAG>", filtered)

    filtered = reduce_lengthening(filtered)

    # Replace each '-' and '/' with ' - ' and ' / ' because they are common in text
    filtered = filtered.replace("-", " - ")
    filtered = filtered.replace("/", " / ")

    filtered = re.sub('[\'&]+', '', filtered)

    #Remove non-alpha numerical and <> from tweet
    filtered = re.sub('[^0-9a-zA-Z åäöÅÄÖ<>]+', ' ', filtered)

    prev = ''
    sentence = ''
    for word in filtered.split():
        word = word.strip().lower()
        
        # Here you would stem the word

        if not (word == prev and (word == '<id>' or word == '<haschtag>' or word == '<url>')) and not word == 'amp':
            # Here you would ensure the word is not a stop-word
            sentence = sentence + ' ' + word
        prev = word

    return sentence


train_cleaned_tweets = []
for tweet in train_X:
    tweet = cleanTweet(tweet)
    #print(tweet)
    train_cleaned_tweets.append(tweet)
    
test_cleaned_tweets = []
for tweet in test_X:
    tweet = cleanTweet(tweet)
    #print(tweet)
    test_cleaned_tweets.append(tweet)

### Ensure alll dimensions add up

In [402]:
print(len(train_cleaned_tweets), len(train_Y))
print(len(test_cleaned_tweets), len(test_Y))

9300 9300
1008 1008


In [403]:
#count = 0
#for i in range(len(test_cleaned_tweets)):
#    for tweet in train_cleaned_tweets:
#        if tweet == test_cleaned_tweets[i]:
#            print(tweet)
#            print(test_cleaned_tweets[i])
#            count += 1
#print(count)

In [404]:
def createVocabulary(text):
    dic = {}
    for line in text:
        for word in line.split():
            word = word.strip() #Removes blanks and '\n' from the end when needed.
            dic[word] = dic.get(word, 0) + 1
                
    return dic
vocabulary = createVocabulary(train_cleaned_tweets)

In [405]:
print('Number of unique words:')
print(len(vocabulary))

Number of unique words:
18804


### word2index is a dictionary that maps a word to an index, i.e corresponding place in input vector
### index2word is a dictionary that maps an index (from the input vector-space) to a word.

In [406]:
import collections

def createWordMapper(vocabulary, vocabSize):
    '''
    Takes a vocabulary (dictionary) of variable size and a desired vocabulary size as input. 
    Returns the two mappers: word2index & index2word.
    
    NB, when the mappers are created we don't use the original vocabulary anymore (i think).
    '''

    # Order the dictinoary in order to extract the most frequent
    sortedVocabulary = sorted(vocabulary.items(), key=lambda kv: kv[1], reverse=True)

    word2index = collections.OrderedDict()
    index2word = collections.OrderedDict()

    for i in range(vocabSize):
        index = len(word2index)
        word = sortedVocabulary[i][0]
        
        word2index[word] = index
        index2word[index] = word
    word2index['UNK'] = index + 1
    index2word[index + 1] = 'UNK'
            
    return word2index, index2word
    

vocabularySize = len(vocabulary) # Include ALL words in the vocabulary-mappers
word2index, index2word = createWordMapper(vocabulary, vocabularySize - 1)

print('Size of vocabulary: ' +str(len(word2index)))
print('Maximum size of vocabulary: ' + str(len(vocabulary)))


Size of vocabulary: 18804
Maximum size of vocabulary: 18804


### Ilustration

In [407]:
test = word2index.get('bäst')
print('index: ', test)
print('word: ', index2word.get(test))

index:  341
word:  bäst


### Create input vectors with BoW approach

In [408]:
def getVector(tweet):
    vec = np.zeros([vocabularySize, 1])
    for word in tweet.split():
        if word2index.get(word) is not None:
            vec[word2index.get(word)] += 1
        else:
            vec[word2index.get('UNK')] += 1
    return vec
            
train_x_vectorized = []
for tweet in train_cleaned_tweets:
    train_x_vectorized.append(getVector(tweet))
    
test_x_vectorized = []
for tweet in test_cleaned_tweets:
    test_x_vectorized.append(getVector(tweet))

In [409]:
# Remove unnecessary 1-dimension which np creates above
train_x_vectorized = np.squeeze(train_x_vectorized)
test_x_vectorized = np.squeeze(test_x_vectorized)

In [410]:
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

## Linear SVM

In [411]:
from sklearn.svm import LinearSVC
clf_linear = LinearSVC(C=1, max_iter = 10000, verbose=9)

In [412]:
clf_linear.fit(train_x_vectorized, train_Y)

[LibLinear]

LinearSVC(C=1, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=10000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=9)

In [413]:
print("Detailed classification report:")
print()
print("The model is trained on the full development set.")
print("The scores are computed on the full evaluation set.")

y_true, y_pred = test_Y, clf_linear.predict(test_x_vectorized)

print(classification_report(y_true, y_pred))
print()
print('Accuracy on test/evaluation set: ', accuracy_score(y_true, y_pred))
print()
print('Confusion matrix:')
print(confusion_matrix(y_true, y_pred))

Detailed classification report:

The model is trained on the full development set.
The scores are computed on the full evaluation set.
              precision    recall  f1-score   support

          -1       0.70      0.49      0.58       336
           0       0.52      0.68      0.59       336
           1       0.70      0.69      0.70       336

   micro avg       0.62      0.62      0.62      1008
   macro avg       0.64      0.62      0.62      1008
weighted avg       0.64      0.62      0.62      1008


Accuracy on test/evaluation set:  0.6220238095238095

Confusion matrix:
[[166 125  45]
 [ 54 228  54]
 [ 16  87 233]]


### Training a calibrated classifier using platt-scaling, to produce probabilities per class

In [414]:
from sklearn.calibration import CalibratedClassifierCV

clf_calibrated = CalibratedClassifierCV(clf_linear, cv=5) 
clf_calibrated.fit(train_x_vectorized, train_Y)
y_proba = clf_calibrated.predict_proba(test_x_vectorized)

[LibLinear][LibLinear][LibLinear][LibLinear][LibLinear]

### Print tweet, probabilities and prediction per tweet in test set
#### Probabilities: [prob_neg, prob_neu, prob_pos]

In [415]:
for index, i in enumerate(test_X):
    label = y_true[index]
    pred = y_pred[index]

    print()
    print('Original tweet:')
    print(i)
    print()
    print('Preprocessed tweet:')
    print(test_cleaned_tweets[index])
    print()
    print('Probabilities:')
    print('    neg \t neu \t   pos')
    print(y_proba[index])
    print()
    print('Prediction: \t', pred)
    print('label \t\t', label)
    print()
    print('-------------------------')


Original tweet:
<ID>  <ID> jaaa med Calle och Hobbe p

Preprocessed tweet:
 <id> jaa med calle och hobbe p

Probabilities:
    neg 	 neu 	   pos
[0.15624423 0.37441376 0.469342  ]

Prediction: 	 1
label 		 1

-------------------------

Original tweet:
ÅH VAD JAG ÄLSKAR ATT VARA KVINNA

Preprocessed tweet:
 åh vad jag älskar att vara kvinna

Probabilities:
    neg 	 neu 	   pos
[0.04907227 0.14262149 0.80830624]

Prediction: 	 1
label 		 1

-------------------------

Original tweet:
Drygt en vecka kvar rösta i kyrkovalet gärna på Visk till  <URL>

Preprocessed tweet:
 drygt en vecka kvar rösta i kyrkovalet gärna på visk till <url>

Probabilities:
    neg 	 neu 	   pos
[0.02305637 0.58103544 0.39590819]

Prediction: 	 0
label 		 1

-------------------------

Original tweet:
En lite bra tråd om våld och nazister och sånt från en amerikans kontext. <URL>

Preprocessed tweet:
 en lite bra tråd om våld och nazister och sånt från en amerikans kontext <url>

Probabilities:
    neg 	 neu 	   p

-------------------------

Original tweet:
Tittut gött folk  <URL>

Preprocessed tweet:
 tittut gött folk <url>

Probabilities:
    neg 	 neu 	   pos
[0.13637061 0.40105006 0.46257933]

Prediction: 	 1
label 		 1

-------------------------

Original tweet:
Jag fick äran att gå ut på Sjövallen i Åsljunga Åshöjden med Björn Nordqvist i lördags En sån upplevelse  <URL>

Preprocessed tweet:
 jag fick äran att gå ut på sjövallen i åsljunga åshöjden med björn nordqvist i lördags en sån upplevelse <url>

Probabilities:
    neg 	 neu 	   pos
[0.20840988 0.46182119 0.32976893]

Prediction: 	 1
label 		 1

-------------------------

Original tweet:
<ID> Vi ses där   <ID> är en av partners till galan Håller tummarna att ni tar hem det

Preprocessed tweet:
 <id> vi ses där <id> är en av partners till galan håller tummarna att ni tar hem det

Probabilities:
    neg 	 neu 	   pos
[0.04422839 0.30211107 0.65366054]

Prediction: 	 1
label 		 1

-------------------------

Original tweet:
@ThomasTAnders

Original tweet:
Det alltid var roligt

Preprocessed tweet:
 det alltid var roligt

Probabilities:
    neg 	 neu 	   pos
[0.08675494 0.20439138 0.70885368]

Prediction: 	 1
label 		 1

-------------------------

Original tweet:
En stark folkrörelse gör skillnad  <HASCHTAG> öppnar upp för en förändring som borde gjorts för länge sedan Äntligen  <URL>

Preprocessed tweet:
 en stark folkrörelse gör skillnad <haschtag> öppnar upp för en förändring som borde gjorts för länge sedan äntligen <url>

Probabilities:
    neg 	 neu 	   pos
[0.0369448  0.23682228 0.72623292]

Prediction: 	 1
label 		 1

-------------------------

Original tweet:
Verkar som folk aldrig sett lopp från USA Va lite fucking stolt över vad Åke och hans personal lyckats med Inte varje år detta händer

Preprocessed tweet:
 verkar som folk aldrig sett lopp från usa va lite fucking stolt över vad åke och hans personal lyckats med inte varje år detta händer

Probabilities:
    neg 	 neu 	   pos
[0.79854524 0.19534815 0.0061066

    neg 	 neu 	   pos
[0.15759337 0.60637947 0.23602716]

Prediction: 	 0
label 		 1

-------------------------

Original tweet:
<ID> King Island! - välkommen.

Preprocessed tweet:
 <id> king island välkommen

Probabilities:
    neg 	 neu 	   pos
[0.07645224 0.2433791  0.68016866]

Prediction: 	 1
label 		 1

-------------------------

Original tweet:
Tillsammans för cancerforskning! #tillsammansmotcancer #almedalsloppet @ulrikaarehed @heleneHK @socialdemokrat @SkandiaSE https://t.co/yF4QKhlB6k                                                                                                                                                                                                                                                                                                                                                                   

Preprocessed tweet:
 tillsammans för cancerforskning <haschtag> <id> <url>

Probabilities:
    neg 	 neu 	   pos
[0.10119707 0.23032466 0.668478

label 		 0

-------------------------

Original tweet:
Jag har väntat så länge på just denna dag... <URL>

Preprocessed tweet:
 jag har väntat så länge på just denna dag <url>

Probabilities:
    neg 	 neu 	   pos
[0.25936365 0.33187197 0.40876438]

Prediction: 	 1
label 		 0

-------------------------

Original tweet:
<ID> du har fattat detta

Preprocessed tweet:
 <id> du har fattat detta

Probabilities:
    neg 	 neu 	   pos
[0.31325452 0.45263571 0.23410977]

Prediction: 	 0
label 		 0

-------------------------

Original tweet:
<ID> Hur starkt e detta krav

Preprocessed tweet:
 <id> hur starkt e detta krav

Probabilities:
    neg 	 neu 	   pos
[0.1482944  0.49568026 0.35602534]

Prediction: 	 0
label 		 0

-------------------------

Original tweet:
@viola_maj @SkandiaSE Gillar hur du uttrycker dig att man per automatik har rätt till skattemedel med ett läkarintyg. Då hade ingen behövt arbeta och stå för någon annans ”rätt” till ersättning.                                           

 <id> inte alla fick sår grop av vaccinationen

Probabilities:
    neg 	 neu 	   pos
[0.4866749  0.36531639 0.14800871]

Prediction: 	 -1
label 		 0

-------------------------

Original tweet:
 <ID> En ansvarig läkare, fast läkarkontakt, patientansvarig läkare är absolut nödvändigt <ID> <URL>

Preprocessed tweet:
 <id> en ansvarig läkare fast läkarkontakt patientansvarig läkare är absolut nödvändigt <id> <url>

Probabilities:
    neg 	 neu 	   pos
[0.11288353 0.69166009 0.19545638]

Prediction: 	 0
label 		 0

-------------------------

Original tweet:
<ID> Dels det dels att Della Valle alltid är svåra att förhandla med som italiensk konkurrent Tycker säkert att Badelj räcker

Preprocessed tweet:
 <id> dels det dels att della valle alltid är svåra att förhandla med som italiensk konkurrent tycker säkert att badelj räcker

Probabilities:
    neg 	 neu 	   pos
[0.21437559 0.74492435 0.04070006]

Prediction: 	 0
label 		 0

-------------------------

Original tweet:
Johan Hamlin ligger me

Prediction: 	 1
label 		 0

-------------------------

Original tweet:
<ID> Kan bli så att jag citerar dig anonymt i min manual som en blurb på framsidan

Preprocessed tweet:
 <id> kan bli så att jag citerar dig anonymt i min manual som en blurb på framsidan

Probabilities:
    neg 	 neu 	   pos
[0.18470251 0.48748317 0.32781432]

Prediction: 	 0
label 		 0

-------------------------

Original tweet:
 Listar Sveriges 15 största talanger (f 1997 eller senare) på herrsidan, ja eller pojksidan då. <URL>

Preprocessed tweet:
 listar sveriges 15 största talanger f 1997 eller senare på herrsidan ja eller pojksidan då <url>

Probabilities:
    neg 	 neu 	   pos
[0.15639864 0.69837713 0.14522423]

Prediction: 	 0
label 		 0

-------------------------

Original tweet:
<ID> Fyller du år idag

Preprocessed tweet:
 <id> fyller du år idag

Probabilities:
    neg 	 neu 	   pos
[0.33223161 0.4446938  0.22307459]

Prediction: 	 0
label 		 0

-------------------------

Original tweet:
30-9 i skott efte

Att vara nykter en onsdag på liljan är inte ens något jag önskar min värsta fiende

Preprocessed tweet:
 att vara nykter en onsdag på liljan är inte ens något jag önskar min värsta fiende

Probabilities:
    neg 	 neu 	   pos
[0.83264783 0.12520842 0.04214375]

Prediction: 	 -1
label 		 -1

-------------------------

Original tweet:
<ID>  <ID>  <ID>  <ID> gt har tydliga negativa samhällsekeffekter antar jag  <URL>

Preprocessed tweet:
 <id> gt har tydliga negativa samhällsekeffekter antar jag <url>

Probabilities:
    neg 	 neu 	   pos
[0.20915348 0.62093679 0.16990973]

Prediction: 	 0
label 		 -1

-------------------------

Original tweet:
<ID> bara lukten man ska stå ut med

Preprocessed tweet:
 <id> bara lukten man ska stå ut med

Probabilities:
    neg 	 neu 	   pos
[0.14343918 0.52966174 0.32689908]

Prediction: 	 0
label 		 -1

-------------------------

Original tweet:
<ID> Nu glider du ifrån det viktiga och börjar komma med halmgubbsargument

Preprocessed tweet:
 <id> nu glide

[0.3499193  0.62420721 0.02587349]

Prediction: 	 0
label 		 -1

-------------------------

Original tweet:
sov 4h inatt och åkte till jobbet vid 630 känner att jag lever iallafall

Preprocessed tweet:
 sov 4h inatt och åkte till jobbet vid 630 känner att jag lever iallafall

Probabilities:
    neg 	 neu 	   pos
[0.02101431 0.72192805 0.25705764]

Prediction: 	 0
label 		 -1

-------------------------

Original tweet:
Det finns risk när man ger IT-support att man övernyttjar branschspecifika uttryck - eller fluffig bullshit som det kallas i folkmun...

Preprocessed tweet:
 det finns risk när man ger it support att man övernyttjar branschspecifika uttryck eller fluffig bullshit som det kallas i folkmun

Probabilities:
    neg 	 neu 	   pos
[0.33601846 0.6178368  0.04614474]

Prediction: 	 0
label 		 -1

-------------------------

Original tweet:
<ID>  <ID>  <ID>  <ID> För mig är brottslighet handling och inte åsikt om den är en så förfärlig

Preprocessed tweet:
 <id> för mig är brottsli


Probabilities:
    neg 	 neu 	   pos
[0.57003419 0.42156049 0.00840532]

Prediction: 	 -1
label 		 -1

-------------------------

Original tweet:
Nya Sun Kil Moon är en långdragen och musikaliskt tröttande historia Lyssna på Benji igen istället  <URL>

Preprocessed tweet:
 nya sun kil moon är en långdragen och musikaliskt tröttande historia lyssna på benji igen istället <url>

Probabilities:
    neg 	 neu 	   pos
[0.11354914 0.77499776 0.11145309]

Prediction: 	 0
label 		 -1

-------------------------

Original tweet:
Man kan ju undra vad grannarna ovanför mig håller på med just nu Låter som de sågar i golvet Käften

Preprocessed tweet:
 man kan ju undra vad grannarna ovanför mig håller på med just nu låter som de sågar i golvet käften

Probabilities:
    neg 	 neu 	   pos
[0.78530113 0.09598446 0.11871441]

Prediction: 	 -1
label 		 -1

-------------------------

Original tweet:
Kanske hör dåligt Men jag har inte hört vettig förklaring till VARFÖR vi gör så här mot barn o unga  <HAS

label 		 -1

-------------------------

Original tweet:
@Mariela79377749 @arvidpu @SkandiaSE För de flesta landstingen har utbetalningarna redan börjat minska. Detta är ren marknadsföring från @SkandiaSE                                                                                                                                                                                                                                                                                                                                                                 

Preprocessed tweet:
 <id> för de flesta landstingen har utbetalningarna redan börjat minska detta är ren marknadsföring från <id>

Probabilities:
    neg 	 neu 	   pos
[0.18342187 0.43725155 0.37932658]

Prediction: 	 1
label 		 -1

-------------------------

Original tweet:
SLUTAAAAAA IFRÅGESÄTT KVINNOR NÄR DEM BERÄTTAR ATT DE BLIVIT VÅLDTAGNA!!!!!!! TRO PÅ DEM!!!! VAAAAAARFÖR SKULLE DEM LJUGA

Preprocessed tweet:
 slutaa ifrågesätt kvin

### Like above, but only the missclassified tweets

In [416]:
for index, i in enumerate(test_X):
    label = y_true[index]
    pred = y_pred[index]
    if not (label == pred):
        count += 1
        print()
        print('Original tweet:')
        print(i)
        print()
        print('Preprocessed tweet:')
        print(test_cleaned_tweets[index])
        print()
        print('Probabilities:')
        print('    neg \t neu \t   pos')
        print(y_proba[index])
        print()
        print('Prediction: \t', pred)
        print('label \t\t', label)
        print()
        print('-------------------------')



Original tweet:
Drygt en vecka kvar rösta i kyrkovalet gärna på Visk till  <URL>

Preprocessed tweet:
 drygt en vecka kvar rösta i kyrkovalet gärna på visk till <url>

Probabilities:
    neg 	 neu 	   pos
[0.02305637 0.58103544 0.39590819]

Prediction: 	 0
label 		 1

-------------------------

Original tweet:
<ID> Synd värt ett försök

Preprocessed tweet:
 <id> synd värt ett försök

Probabilities:
    neg 	 neu 	   pos
[0.34851497 0.34123529 0.31024974]

Prediction: 	 0
label 		 1

-------------------------

Original tweet:
Brynäs har alltså ledningen med 4-1 just nu - och de fortsätter pressa på! <HASCHTAG>

Preprocessed tweet:
 brynäs har alltså ledningen med 4 1 just nu och de fortsätter pressa på <haschtag>

Probabilities:
    neg 	 neu 	   pos
[0.4701714  0.24561505 0.28421355]

Prediction: 	 -1
label 		 1

-------------------------

Original tweet:
Den som lägger lite tid på sin hälsa och fysik bör inte oroa sig för att jobba länge i livet.

Preprocessed tweet:
 den som lägger 

label 		 1

-------------------------

Original tweet:
<ID>  <ID> Jag kan säga så här att jag är väldigt glad att Spurs har Pochettino som tränare amp inte Wenger

Preprocessed tweet:
 <id> jag kan säga så här att jag är väldigt glad att spurs har pochettino som tränare inte wenger

Probabilities:
    neg 	 neu 	   pos
[0.07676315 0.4449764  0.47826044]

Prediction: 	 0
label 		 1

-------------------------

Original tweet:
Den bubblar så förföriskt i mikron nu Snart mon amour

Preprocessed tweet:
 den bubblar så förföriskt i mikron nu snart mon amour

Probabilities:
    neg 	 neu 	   pos
[0.2165581  0.51709812 0.26634378]

Prediction: 	 0
label 		 1

-------------------------

Original tweet:
<ID> Ren vinst med ensamkommande flyktingpojkar ju Löfven har sagt att tusentals döda försöker ta sig till Sverige  <URL>

Preprocessed tweet:
 <id> ren vinst med ensamkommande flyktingpojkar ju löfven har sagt att tusentals döda försöker ta sig till sverige <url>

Probabilities:
    neg 	 neu 	 

 hjälper er genom att länka här <url>

Probabilities:
    neg 	 neu 	   pos
[0.42506304 0.11458811 0.46034885]

Prediction: 	 1
label 		 0

-------------------------

Original tweet:
Kan rasism vara en form av perceptionsstörning/autism där man blir helt övertygad om att det bara ÄR så?

Preprocessed tweet:
 kan rasism vara en form av perceptionsstörning autism där man blir helt övertygad om att det bara är så

Probabilities:
    neg 	 neu 	   pos
[0.37392824 0.26182896 0.3642428 ]

Prediction: 	 1
label 		 0

-------------------------

Original tweet:
Kreativa domännamn till salu <URL> <HASCHTAG>  <HASCHTAG>  <HASCHTAG>  <HASCHTAG>  <HASCHTAG>   <HASCHTAG>  <HASCHTAG>  <HASCHTAG>  <HASCHTAG>  <HASCHTAG>

Preprocessed tweet:
 kreativa domännamn till salu <url> <haschtag>

Probabilities:
    neg 	 neu 	   pos
[0.15291711 0.3839729  0.46310999]

Prediction: 	 1
label 		 0

-------------------------

Original tweet:
När man nästan måste gå upp ur sängen när man ska snapa för att folk inte

Prediction: 	 0
label 		 -1

-------------------------

Original tweet:
Pausmusiken och dess kvalité, i @Folksam's växel. Det finns utväxlingspotential.                                                                                                                                                                                                                                                                                                                                                                                                                                    

Preprocessed tweet:
 pausmusiken och dess kvalit i <id> växel det finns utväxlingspotential

Probabilities:
    neg 	 neu 	   pos
[0.24855712 0.54244821 0.20899466]

Prediction: 	 0
label 		 -1

-------------------------

Original tweet:
@HasseLedin @SkandiaSE @lidingohulken Vit gubbe, nej du skal inget ha. nej då du kan nog sova tryggt, vart fall i 10,9,8....                                                                

## Save model

### The two crucial parts are the model itself and the word2index mapper.

In [437]:
import os
import pickle


def save_model(path, model, prob_model, w2i):
    dir_name = path.split('.')[0]
    if not os.path.exists(dir_name):
        os.mkdir(dir_name)
    else:
        print('Error: \nChoose different model name for saving, as a folder with that name already exists')
        return
    
    model_path = os.path.join(dir_name, path)
    prob_model_path = os.path.join(dir_name, 'prob_'+path)
    w2i_path = os.path.join(dir_name, 'word2index.pkl')
    init_path = os.path.join(dir_name, '__init__.py')
    
    save_pickle(model_path, model)
    save_pickle(prob_model_path, prob_model)
    save_pickle(w2i_path, w2i)
    
    f = open(init_path, 'w')
    f.close()
    
def save_pickle(path, obj):
    with open(path, 'wb') as f:
        pickle.dump(obj, f)
        
    return

### Where to save the model?

In [439]:
model_save_path = 'linear_svm.pkl' # Must be a .pkl file extension name!


save_model(model_save_path, clf_linear, clf_calibrated, word2index)

## RBF-kernel SVM (Non-linear)

In [59]:
from sklearn.svm import SVC
clf_svc = SVC(C=15, gamma=1e-2, verbose=9)

In [60]:
clf_svc.fit(train_x_vectorized, train_Y)

[LibSVM]

SVC(C=15, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.01, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=9)

In [61]:
print()
print("Detailed classification report:")
print()
print("The model is trained on the full development set.")
print("The scores are computed on the full evaluation set.")

y_true, y_pred = test_Y, clf_svc.predict(test_x_vectorized)

print(classification_report(y_true, y_pred))
print()
print('Accuracy on test/evaluation set: ', accuracy_score(y_true, y_pred))
print()
print('Confusion matrix:')
print(confusion_matrix(y_true, y_pred))


Detailed classification report:

The model is trained on the full development set.
The scores are computed on the full evaluation set.
              precision    recall  f1-score   support

          -1       0.57      0.68      0.62       336
           0       0.56      0.49      0.52       336
           1       0.73      0.68      0.71       336

   micro avg       0.62      0.62      0.62      1008
   macro avg       0.62      0.62      0.62      1008
weighted avg       0.62      0.62      0.62      1008


Accuracy on test/evaluation set:  0.6170634920634921

Confusion matrix:
[[228  72  36]
 [123 165  48]
 [ 47  60 229]]


In [None]:
print(y_pred)