In [47]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import nltk
from nltk.corpus import twitter_samples
nltk.download('twitter_samples')

[nltk_data] Downloading package twitter_samples to
[nltk_data]     /home/wsluser/nltk_data...
[nltk_data]   Package twitter_samples is already up-to-date!


True

# Preparing the Dataset

In [48]:
# select the set of positive and negative tweets
all_positive_tweets = twitter_samples.strings('positive_tweets.json')
all_negative_tweets = twitter_samples.strings('negative_tweets.json')
# concatenate the lists, 1st part is the positive tweets followed by the negative
tweets = all_positive_tweets + ["==//=="] + all_negative_tweets
for i in range(len(tweets)):
    tweets[i] = tweets[i].replace('\n', ' ')
    #words = tweets[i].split(" ")
    #for word in words:
    #    if word.startswith("@") or word.startswith("http"):
    #        words.remove(word)
    #tweets[i] = ' '.join(words)
file_content = '\n'.join(tweets)
with open("twitter_english.txt", "w") as f:
    f.write(file_content)

In [49]:
# Thanks to https://www.onlinedoctranslator.com/app/translationprocess
with open('twitter_english.en.uk.txt', 'r') as file:
    file_content = file.read()

In [50]:
file_split = file_content.split("==//==")
all_positive_tweets = file_split[0].split("\n")
all_negative_tweets = file_split[1].split("\n")
sentiments = ([1] * len(all_positive_tweets)) + ([-1] * len(all_negative_tweets))
tweets = all_positive_tweets + all_negative_tweets
df = pd.DataFrame({
    "text": tweets,
    "sentiment": sentiments
})

# Data Preprocessing

In [51]:
# Thanks to https://github.com/skupriienko/Ukrainian-Stopwords
with open("stopwords_ua.txt", "r") as f:
    stopwords_ua = f.read().split("\n")

In [52]:
# Splitting the dataset
X_train, X_test, y_train, y_test = train_test_split(df["text"], df["sentiment"], test_size=0.25, random_state=42)

# Converting text into vectors
vectorizer = CountVectorizer(stop_words=stopwords_ua)
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

# Training the Model

In [53]:
model = LogisticRegression()
model.fit(X_train_vec, y_train)

# Evaluating the Model

In [54]:
predictions = model.predict(X_test_vec)
print("Accuracy:", accuracy_score(y_test, predictions))

Accuracy: 0.7578905313623652


# Making Predictions

In [55]:
new_texts = all_positive_tweets[2000:2020]
new_texts_vec = vectorizer.transform(new_texts)
predictions = model.predict(new_texts_vec)
print(predictions)
display(new_texts)

[ 1  1 -1  1  1  1  1  1 -1  1  1  1  1  1  1  1  1  1  1  1]


['@jayyycgee Ну, ти збираєшся залучити до Team Doom. Отже, The Nasty Crew буде афілійовано. >:)',
 '@jazminbonilla77 Джазмін Бонілла :), хочеш секретний посібник, щоб отримати Free Stars Kim Hollywood? Слід перевірити це зараз, перш ніж ви пропустили мою біографію',
 'Після нашої ери! :)) http://t.co/nrqNiBm7Ks',
 ':) де ти знаходишся? @Hijay09',
 '@yamunakrish3 Круто :-)',
 '@oppentrapp Круто :D',
 '@JCMag82 Привіт, Джоне, зателефонуйте за номером +33 1 64 74 40 00 або зверніться до мерії, щоб дізнатися, чи знайшов хтось Теда. Гарного дня :)',
 'Pixgram — це програма для створення творчих слайд-шоу з фотографіями та музикою, які вам подобаються. Завантажте Pixgram безкоштовно :) https://t.co/iiqnFeiB5s 😒🌚',
 'Сьогодні щасливий день :)) .',
 '@rhutapatil Так, звичайно. :)',
 '@CptFrantastic обережно кусає яблуко, і, здається, все гаразд :) xxx',
 '@davidwarner31 Ого! Айві, я так її люблю, я хочу з нею познайомитися більше, ніж ти! ^-^ Шо мило і мило. :D #Ангел :)',
 "@shraddhaa9, до ре

In [56]:
new_texts = all_negative_tweets[3000:3020]
new_texts_vec = vectorizer.transform(new_texts)
predictions = model.predict(new_texts_vec)
print(predictions)
display(new_texts)

[-1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1  1 -1 -1]


['@charmsham, я не можу переглянути фото.. :( яке це фото?',
 '@taylorswift13 Як мають голосувати Swifties за межами США? :( Дійсно дуже дуже хочу допомогти тобі виграти!',
 '@annayeng sorna :((((',
 '@zora_db Щойно надіслала тобі повідомлення, я вмираю від страждань, Джиме! :(',
 'мені подобається сірий комплект, але я не можу дозволити собі 3 комплекти :(',
 '@chantalYM_ Я зайшов до них і, мабуть, використав близько 6 Гб додаткових даних :(',
 'Завжди хотів побачити Two Door Cinema Club наживо :(',
 '@fenestawindows Тепер ти мене лякаєш :( #Fenestoscope',
 '@AinsworthKeira чи не так? Ах, яка це ганьба. Чому я не така королева шафла, як ти :(',
 '@pablonerudaofic ПІДПИСАЛСЯ ЗА МЕНЕМ ДЯКУЮ, І @justinbieber, БУДЬ ЛАСКА, ТЕЖ ПІДПИШІТЬСЯ :(',
 'тоді все було набагато простіше :( http://t.co/gW0vFMQqzQ',
 '@knives_chau Я не здивований! :(((',
 'сподіваюся, що bb зможе як слід відпочити скоро :(((',
 'Етьєн мене засмучує :(',
 'іноді мені хотілося побути з собою.... :(',
 'Чи можу я плакати