In [43]:
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer
import pandas as pd

import os
from tqdm import tqdm

In [8]:
filepath = '../../data/Tweets/tweets_complete'

In [9]:
df = pd.read_csv(f'{filepath}/2014-01-02.csv')

In [5]:
df.head()

Unnamed: 0.1,Unnamed: 0,user,fullname,timestamp,text
0,1568219,ProjectCoin,Project Coin,2014-01-02,"LIVE: Profit = $40,782.59 (4.39 %). BUY B1148...."
1,1568613,indobtc,Indonesia Bitcoin,2014-01-02,Harga #Bitcoin Per Tanggal 02-01-2014 08:00:04...
2,1568614,bitcoinstuffUK,BitCoin Stuff,2014-01-02,1 BTC = 485.00 GBP at 13:12 January/2/2014 #Bi...
3,1568616,PanamaTicker,PTY TICKER,2014-01-02,2014-01-02 08:11:22 Panamabitcoins ticker is 7...
4,1568617,InfoGerejaBdg,Info Gereja Bandung,2014-01-02,RT @mega_rure\nDoa Fajar @BFABandung untuk men...


In [11]:
files = os.listdir(filepath)
files[:10]

['2014-01-02.csv',
 '2014-01-03.csv',
 '2014-01-04.csv',
 '2014-01-05.csv',
 '2014-01-06.csv',
 '2014-01-07.csv',
 '2014-01-08.csv',
 '2014-01-09.csv',
 '2014-01-10.csv',
 '2014-01-11.csv']

In [14]:
dfs = [pd.read_csv(f'{filepaths}/{i}', engine='python') for i in files[:10]]

In [15]:
len(dfs)

10

### Sentiment analysis using VADER

In [44]:
def calculate_sentiment(sentence):
    sid_obj = SentimentIntensityAnalyzer()
    sentiment_dict = sid_obj.polarity_scores(sentence)        
    return sentiment_dict['neg'], sentiment_dict['neu'], sentiment_dict['pos'], sentiment_dict['compound']

In [25]:
# Test sentiment
test_sentence = 'ANN is like our brain; millions and billions of cells — called neurons, which processes information in the form of electric signals. Similarly, in ANN, the network structure has an input layer, a hidden layer, and the output layer. It is also called Multi-Layer Perceptron as it has multiple layers. The hidden layer is known as a “distillation layer” that distils some critical patterns from the data/information and passes it onto the next layer. It then makes the network quicker and more productive by distinguishing the data from the data sources, leaving out the excess data.'

In [45]:
calculate_sentiment(test_sentence)

(0.023, 0.951, 0.025, 0.0516)

The values provided by the VADER algorithm are follows:
* neg: negative score
* neu: neutral score
* pos: positive score
* compound: sum of above three and normalized between -1 and +1
  * The more closer the value is to +1, the higher the positivity of the text.

In [31]:
dfs[0].iloc[0]['text']

'LIVE: Profit = $40,782.59 (4.39 %). BUY B1148.83 @ $825.80 (#BitStamp). SELL @ $835.00 (#MtGox) #bitcoin #btc\r'

In [40]:
dfs[0].shape[0]

500

In [48]:
def get_sentiments():
    for i, df in tqdm(enumerate(dfs)):
        print(f'Currently at df: {i+1}')
        negative_scores = []
        positive_scores = []
        neutral_scores = []
        compound_scores = []
        
        for j in tqdm(range(df.shape[0])):
            neg, neu, pos, compound = calculate_sentiment(df.iloc[j]['text'])
            negative_scores.append(neg)
            positive_scores.append(neu)
            neutral_scores.append(pos)
            compound_scores.append(compound)
            
        df['negative_score'] = negative_scores
        df['positive_score'] = positive_scores
        df['neutral_score'] = neutral_scores
        df['compound_score'] = compound_scores

In [49]:
get_sentiments()

0it [00:00, ?it/s]
  0%|                                                                                                                                                                    | 0/500 [00:00<?, ?it/s][A
  2%|██▊                                                                                                                                                         | 9/500 [00:00<00:05, 85.66it/s][A

Currently at df: 1



  4%|█████▌                                                                                                                                                     | 18/500 [00:00<00:05, 85.16it/s][A
  5%|████████                                                                                                                                                   | 26/500 [00:00<00:05, 83.26it/s][A
  7%|██████████▌                                                                                                                                                | 34/500 [00:00<00:05, 81.35it/s][A
  8%|█████████████                                                                                                                                              | 42/500 [00:00<00:05, 79.86it/s][A
 10%|███████████████▌                                                                                                                                           | 50/500 [00:00<00:05, 79.65it/s][A
 12%|█████████

 63%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 316/500 [00:04<00:02, 66.17it/s][A
 65%|███████████████████████████████████████████████████████████████████████████████████████████████████▍                                                      | 323/500 [00:04<00:02, 63.52it/s][A
 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                    | 330/500 [00:05<00:02, 64.69it/s][A
 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 337/500 [00:05<00:02, 65.54it/s][A
 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 344/500 [00:05<00:02, 66.33it/s][A
 70%|██████████

Currently at df: 2



  3%|████▋                                                                                                                                                      | 15/500 [00:00<00:06, 70.26it/s][A
  4%|██████▊                                                                                                                                                    | 22/500 [00:00<00:06, 69.36it/s][A
  6%|████████▉                                                                                                                                                  | 29/500 [00:00<00:06, 68.71it/s][A
  7%|███████████▍                                                                                                                                               | 37/500 [00:00<00:06, 69.76it/s][A
  9%|█████████████▉                                                                                                                                             | 45/500 [00:00<00:06, 71.28it/s][A
 11%|█████████

 65%|████████████████████████████████████████████████████████████████████████████████████████████████████                                                      | 325/500 [00:04<00:02, 72.30it/s][A
 67%|██████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 333/500 [00:04<00:02, 70.59it/s][A
 68%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                                                 | 341/500 [00:04<00:02, 68.79it/s][A
 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 348/500 [00:05<00:02, 68.32it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 355/500 [00:05<00:02, 66.82it/s][A
 72%|██████████

Currently at df: 3


  3%|████▎                                                                                                                                                      | 14/500 [00:00<00:07, 68.67it/s][A
  4%|██████▌                                                                                                                                                    | 21/500 [00:00<00:06, 68.75it/s][A
  6%|████████▉                                                                                                                                                  | 29/500 [00:00<00:06, 70.62it/s][A
  7%|███████████▍                                                                                                                                               | 37/500 [00:00<00:06, 71.61it/s][A
  9%|█████████████▉                                                                                                                                             | 45/500 [00:00<00:06, 72.69it/s][A
 11%|██████████

 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                 | 340/500 [00:04<00:02, 73.26it/s][A
 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                              | 348/500 [00:04<00:02, 73.80it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                            | 356/500 [00:04<00:01, 74.47it/s][A
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 364/500 [00:04<00:01, 74.74it/s][A
 74%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                       | 372/500 [00:05<00:01, 73.30it/s][A
 76%|██████████

Currently at df: 4



  3%|████▉                                                                                                                                                      | 16/500 [00:00<00:06, 75.56it/s][A
  5%|███████▍                                                                                                                                                   | 24/500 [00:00<00:06, 74.79it/s][A
  6%|█████████▉                                                                                                                                                 | 32/500 [00:00<00:06, 74.88it/s][A
  8%|████████████▍                                                                                                                                              | 40/500 [00:00<00:06, 76.10it/s][A
 10%|██████████████▉                                                                                                                                            | 48/500 [00:00<00:05, 76.78it/s][A
 11%|█████████

 69%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                | 344/500 [00:04<00:02, 73.03it/s][A
 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 352/500 [00:04<00:02, 72.43it/s][A
 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                           | 360/500 [00:04<00:01, 73.01it/s][A
 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                        | 368/500 [00:04<00:01, 73.93it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                      | 376/500 [00:05<00:01, 71.29it/s][A
 77%|██████████

Currently at df: 5



  3%|████▉                                                                                                                                                      | 16/500 [00:00<00:06, 76.22it/s][A
  5%|███████▍                                                                                                                                                   | 24/500 [00:00<00:06, 75.34it/s][A
  6%|█████████▉                                                                                                                                                 | 32/500 [00:00<00:06, 74.52it/s][A
  8%|████████████▍                                                                                                                                              | 40/500 [00:00<00:06, 73.36it/s][A
 10%|██████████████▉                                                                                                                                            | 48/500 [00:00<00:06, 74.28it/s][A
 11%|█████████

 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 338/500 [00:04<00:02, 60.77it/s][A
 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                               | 345/500 [00:04<00:02, 61.11it/s][A
 70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                             | 352/500 [00:04<00:02, 61.51it/s][A
 72%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                           | 359/500 [00:05<00:02, 63.39it/s][A
 73%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                         | 366/500 [00:05<00:02, 63.53it/s][A
 75%|██████████

Currently at df: 6



  3%|████▋                                                                                                                                                      | 15/500 [00:00<00:07, 68.62it/s][A
  4%|██████▌                                                                                                                                                    | 21/500 [00:00<00:07, 65.67it/s][A
  6%|████████▋                                                                                                                                                  | 28/500 [00:00<00:07, 64.95it/s][A
  7%|██████████▊                                                                                                                                                | 35/500 [00:00<00:07, 66.19it/s][A
  8%|█████████████                                                                                                                                              | 42/500 [00:00<00:06, 66.05it/s][A
 10%|█████████

 61%|█████████████████████████████████████████████████████████████████████████████████████████████▉                                                            | 305/500 [00:04<00:02, 70.15it/s][A
 63%|████████████████████████████████████████████████████████████████████████████████████████████████▍                                                         | 313/500 [00:04<00:02, 71.26it/s][A
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 321/500 [00:05<00:02, 71.79it/s][A
 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                    | 329/500 [00:05<00:02, 73.15it/s][A
 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                  | 337/500 [00:05<00:02, 71.92it/s][A
 69%|██████████

Currently at df: 7



  2%|███▋                                                                                                                                                       | 12/500 [00:00<00:09, 53.77it/s][A
  4%|█████▉                                                                                                                                                     | 19/500 [00:00<00:08, 57.15it/s][A
  5%|████████▎                                                                                                                                                  | 27/500 [00:00<00:07, 60.86it/s][A
  7%|██████████▊                                                                                                                                                | 35/500 [00:00<00:07, 64.07it/s][A
  9%|█████████████▎                                                                                                                                             | 43/500 [00:00<00:06, 66.76it/s][A
 10%|█████████

 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 338/500 [00:04<00:02, 75.02it/s][A
 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                               | 346/500 [00:04<00:02, 75.36it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████                                             | 354/500 [00:04<00:01, 74.44it/s][A
 72%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                          | 362/500 [00:04<00:01, 74.85it/s][A
 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                        | 370/500 [00:05<00:01, 75.44it/s][A
 76%|██████████

Currently at df: 8



  3%|████▎                                                                                                                                                      | 14/500 [00:00<00:07, 66.93it/s][A
  4%|██████▌                                                                                                                                                    | 21/500 [00:00<00:07, 67.21it/s][A
  6%|████████▉                                                                                                                                                  | 29/500 [00:00<00:06, 68.94it/s][A
  7%|███████████▏                                                                                                                                               | 36/500 [00:00<00:06, 68.60it/s][A
  9%|█████████████▋                                                                                                                                             | 44/500 [00:00<00:06, 69.40it/s][A
 10%|█████████

 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 331/500 [00:04<00:02, 73.83it/s][A
 68%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                 | 339/500 [00:04<00:02, 73.98it/s][A
 69%|██████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                               | 347/500 [00:04<00:02, 72.68it/s][A
 71%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 355/500 [00:05<00:02, 71.41it/s][A
 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                          | 363/500 [00:05<00:01, 72.28it/s][A
 74%|██████████

Currently at df: 9



  3%|████▎                                                                                                                                                      | 14/500 [00:00<00:07, 66.77it/s][A
  4%|██████▌                                                                                                                                                    | 21/500 [00:00<00:07, 66.62it/s][A
  6%|████████▋                                                                                                                                                  | 28/500 [00:00<00:07, 65.59it/s][A
  7%|██████████▊                                                                                                                                                | 35/500 [00:00<00:07, 59.15it/s][A
  8%|████████████▍                                                                                                                                              | 40/500 [00:00<00:08, 54.33it/s][A
  9%|█████████

 52%|████████████████████████████████████████████████████████████████████████████████                                                                          | 260/500 [00:05<00:04, 49.37it/s][A
 53%|█████████████████████████████████████████████████████████████████████████████████▉                                                                        | 266/500 [00:05<00:04, 50.74it/s][A
 55%|████████████████████████████████████████████████████████████████████████████████████                                                                      | 273/500 [00:05<00:04, 53.83it/s][A
 56%|██████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 280/500 [00:05<00:03, 57.53it/s][A
 57%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 287/500 [00:05<00:03, 59.46it/s][A
 59%|██████████

Currently at df: 10



  3%|████▎                                                                                                                                                      | 14/500 [00:00<00:07, 68.12it/s][A
  4%|██████▌                                                                                                                                                    | 21/500 [00:00<00:07, 67.35it/s][A
  6%|████████▉                                                                                                                                                  | 29/500 [00:00<00:06, 68.77it/s][A
  7%|███████████▏                                                                                                                                               | 36/500 [00:00<00:06, 68.82it/s][A
  8%|█████████████                                                                                                                                              | 42/500 [00:00<00:06, 65.90it/s][A
 10%|█████████

 60%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                             | 300/500 [00:04<00:03, 62.68it/s][A
 61%|██████████████████████████████████████████████████████████████████████████████████████████████▌                                                           | 307/500 [00:04<00:02, 64.62it/s][A
 63%|████████████████████████████████████████████████████████████████████████████████████████████████▋                                                         | 314/500 [00:04<00:02, 64.56it/s][A
 64%|██████████████████████████████████████████████████████████████████████████████████████████████████▊                                                       | 321/500 [00:05<00:02, 65.08it/s][A
 66%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                                     | 328/500 [00:05<00:02, 65.64it/s][A
 67%|██████████

In [50]:
dfs[0]

Unnamed: 0.1,Unnamed: 0,user,fullname,timestamp,text,sentiment,negative_score,positive_score,neutral_score,compound_score
0,1568219,ProjectCoin,Project Coin,2014-01-02,"LIVE: Profit = $40,782.59 (4.39 %). BUY B1148....",0,0.00,0.847,0.153,0.4404
1,1568613,indobtc,Indonesia Bitcoin,2014-01-02,Harga #Bitcoin Per Tanggal 02-01-2014 08:00:04...,0,0.00,1.000,0.000,0.0000
2,1568614,bitcoinstuffUK,BitCoin Stuff,2014-01-02,1 BTC = 485.00 GBP at 13:12 January/2/2014 #Bi...,0,0.00,1.000,0.000,0.0000
3,1568616,PanamaTicker,PTY TICKER,2014-01-02,2014-01-02 08:11:22 Panamabitcoins ticker is 7...,0,0.00,1.000,0.000,0.0000
4,1568617,InfoGerejaBdg,Info Gereja Bandung,2014-01-02,RT @mega_rure\nDoa Fajar @BFABandung untuk men...,0,0.13,0.751,0.119,-0.0772
...,...,...,...,...,...,...,...,...,...,...
495,1575277,mtgoxtrades,Mt.GoxTrades,2014-01-02,Fri Jan 3 00:28:59 2014 - Traded 0.63293284 B...,0,0.00,1.000,0.000,0.0000
496,1575265,mtgoxtrades,Mt.GoxTrades,2014-01-02,Fri Jan 3 00:32:13 2014 - Traded 0.27059347 B...,0,0.00,1.000,0.000,0.0000
497,1575290,mtgoxtrades,Mt.GoxTrades,2014-01-02,Fri Jan 3 00:12:38 2014 - Traded 2 BTC at 860...,0,0.00,1.000,0.000,0.0000
498,1575292,BTCNewsTicker,BTCNewsTicker,2014-01-02,#BitCoin Marketvalue\nBitCoin.de Last Transact...,0,0.00,1.000,0.000,0.0000


### Sentiment analysis using Twitter-roBERTa-base

In [52]:
from transformers import AutoModelForSequenceClassification
from transformers import TFAutoModelForSequenceClassification
from transformers import AutoTokenizer, AutoConfig
import numpy as np
from scipy.special import softmax

In [53]:
# Preprocess text (username and link placeholders)
def preprocess(text):
    new_text = []
    for t in text.split(''):
        t = '@user' if t.startswith('@') and len(t) > 1 else t
        t = 'http' if t.startswith('http') else t
        new_text.append(t)
    return ' '.join(new_text)

In [54]:
MODEL = f"cardiffnlp/twitter-roberta-base-sentiment-latest"
tokenizer = AutoTokenizer.from_pretrained(MODEL)
config = AutoConfig.from_pretrained(MODEL)
# PT
model = AutoModelForSequenceClassification.from_pretrained(MODEL)
#model.save_pretrained(MODEL)
text = "Covid cases are increasing fast!"
text = preprocess(text)
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
scores = output[0][0].detach().numpy()
scores = softmax(scores)
ranking = np.argsort(scores)
ranking = ranking[::-1]
for i in range(scores.shape[0]):
    l = config.id2label[ranking[i]]
    s = scores[ranking[i]]
    print(f"{i+1}) {l} {np.round(float(s), 4)}")

HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=929.0), HTML(value='')))




To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


HBox(children=(HTML(value='Downloading'), FloatProgress(value=0.0, max=898822.0), HTML(value='')))

ConnectionError: HTTPSConnectionPool(host='huggingface.co', port=443): Read timed out.