In [17]:
import pandas as pd # библиотека для удобной работы с датафреймами

# библиотека, где реализованы основные алгоритмы машинного обучения
from sklearn.metrics import *
from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression # можно заменить на любой другой классификатор
from sklearn.feature_extraction.text import CountVectorizer # Модель "мешка слов", см. далее
from sklearn.feature_extraction.text import TfidfVectorizer
import nltk # уже знакомая нам библиотека nltk
from nltk.tokenize import word_tokenize # готовый токенизатор библиотеки nltk

# импортируем стоп-слова из библиотеки nltk
from nltk.corpus import stopwords
from string import punctuation

nltk.download('punkt')
nltk.download('stopwords')
noise = stopwords.words('russian') + list(punctuation)

[nltk_data] Downloading package punkt to /Users/nascela/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/nascela/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [2]:
# загружаем положительные твиты
positive = pd.read_csv('positive.csv', sep=';', usecols=[3], names=['text'])
positive['label'] = ['positive'] * len(positive) # устанавливаем метки

# загружаем отрицательные твиты
negative = pd.read_csv('negative.csv', sep=';', usecols=[3], names=['text'])
negative['label'] = ['negative'] * len(negative) # устанавливаем метки

# соединяем вместе
df = positive.append(negative)

  df = positive.append(negative)


In [4]:
x_train, x_test, y_train, y_test = train_test_split(df.text, df.label, test_size=0.2, random_state=42)

In [27]:
vectorizer = CountVectorizer(ngram_range=(1, 1))

vectorized_x_train = vectorizer.fit_transform(x_train)
vectorized_x_test = vectorizer.transform(x_test)

clf = LogisticRegression(random_state=42, max_iter=1000) # фиксируем random_state для воспроизводимости результатов
clf.fit(vectorized_x_train, y_train)

pred = clf.predict(vectorized_x_test)

print(classification_report(y_test, pred))

              precision    recall  f1-score   support

    negative       0.76      0.77      0.77     22480
    positive       0.77      0.77      0.77     22887

    accuracy                           0.77     45367
   macro avg       0.77      0.77      0.77     45367
weighted avg       0.77      0.77      0.77     45367



In [11]:
# инициализируем векторизатор, в качестве переменных используем униграммы
tfidf_vectorizer = TfidfVectorizer(ngram_range=(1, 1))

# обучаем его и сразу применяем к x_train
tfidf_vectorized_x_train = tfidf_vectorizer.fit_transform(x_train)
# применяем обученный векторизатор к тестовым данным
tfidf_vectorized_x_test = tfidf_vectorizer.transform(x_test)

# инициализируем и обучаем классификатор
clf = LogisticRegression(random_state=88, max_iter=1000)
clf.fit(tfidf_vectorized_x_train, y_train)

# применяем обученный векторизатор к тестовым данным
tfidf_vectorized_x_test = tfidf_vectorizer.transform(x_test)

# получаем предсказания и выводим информацию о качестве
pred = clf.predict(tfidf_vectorized_x_test)
print(classification_report(y_test, pred))

              precision    recall  f1-score   support

    negative       0.77      0.74      0.75     22480
    positive       0.75      0.78      0.77     22887

    accuracy                           0.76     45367
   macro avg       0.76      0.76      0.76     45367
weighted avg       0.76      0.76      0.76     45367



In [16]:
smart_vectorizer = CountVectorizer(ngram_range=(1, 1),
                                   tokenizer=word_tokenize,
                                   stop_words=noise)
# обучаем его и сразу применяем к x_train
smart_vectorized_x_train = smart_vectorizer.fit_transform(x_train)

# инициализируем и обучаем классификатор
clf = LogisticRegression(random_state=88, max_iter=1000)
clf.fit(smart_vectorized_x_train, y_train)

# применяем обученный векторайзер к тестовым данным
smart_vectorized_x_test = smart_vectorizer.transform(x_test)

# получаем предсказания и выводим информацию о качестве
pred = clf.predict(smart_vectorized_x_test)
print(classification_report(y_test, pred))



              precision    recall  f1-score   support

    negative       0.77      0.80      0.79     22480
    positive       0.80      0.76      0.78     22887

    accuracy                           0.78     45367
   macro avg       0.78      0.78      0.78     45367
weighted avg       0.78      0.78      0.78     45367



In [18]:
smart_vectorizer = CountVectorizer(ngram_range=(1, 2),
                                   tokenizer=word_tokenize,
                                   stop_words=noise)
# обучаем его и сразу применяем к x_train
smart_vectorized_x_train = smart_vectorizer.fit_transform(x_train)

# инициализируем и обучаем классификатор
clf = LogisticRegression(random_state=88, max_iter=1000)
clf.fit(smart_vectorized_x_train, y_train)

# применяем обученный векторайзер к тестовым данным
smart_vectorized_x_test = smart_vectorizer.transform(x_test)

# получаем предсказания и выводим информацию о качестве
pred = clf.predict(smart_vectorized_x_test)
print(classification_report(y_test, pred))



              precision    recall  f1-score   support

    negative       0.77      0.82      0.79     22480
    positive       0.81      0.76      0.79     22887

    accuracy                           0.79     45367
   macro avg       0.79      0.79      0.79     45367
weighted avg       0.79      0.79      0.79     45367



In [20]:
smart_vectorizer = CountVectorizer(ngram_range=(2, 2),
                                   tokenizer=word_tokenize,
                                   stop_words=noise)
# обучаем его и сразу применяем к x_train
smart_vectorized_x_train = smart_vectorizer.fit_transform(x_train)

# инициализируем и обучаем классификатор
clf = LogisticRegression(random_state=88, max_iter=1000)
clf.fit(smart_vectorized_x_train, y_train)

# применяем обученный векторайзер к тестовым данным
smart_vectorized_x_test = smart_vectorizer.transform(x_test)

# получаем предсказания и выводим информацию о качестве
pred = clf.predict(smart_vectorized_x_test)
print(classification_report(y_test, pred))



              precision    recall  f1-score   support

    negative       0.63      0.82      0.71     22480
    positive       0.75      0.53      0.62     22887

    accuracy                           0.67     45367
   macro avg       0.69      0.68      0.67     45367
weighted avg       0.69      0.67      0.67     45367



In [24]:
smart_vectorizer = CountVectorizer(ngram_range=(5, 5),
                                   tokenizer=word_tokenize,
                                   stop_words=noise)
# обучаем его и сразу применяем к x_train
smart_vectorized_x_train = smart_vectorizer.fit_transform(x_train)

# инициализируем и обучаем классификатор
clf = LogisticRegression(random_state=88, max_iter=1000)
clf.fit(smart_vectorized_x_train, y_train)

# применяем обученный векторайзер к тестовым данным
smart_vectorized_x_test = smart_vectorizer.transform(x_test)

# получаем предсказания и выводим информацию о качестве
pred = clf.predict(smart_vectorized_x_test)
print(classification_report(y_test, pred))



              precision    recall  f1-score   support

    negative       0.52      1.00      0.68     22480
    positive       0.99      0.10      0.18     22887

    accuracy                           0.54     45367
   macro avg       0.76      0.55      0.43     45367
weighted avg       0.76      0.54      0.43     45367



In [28]:
smart_vectorizer = CountVectorizer(ngram_range=(3, 3),
                                   tokenizer=word_tokenize,
                                   stop_words=noise)
# обучаем его и сразу применяем к x_train
smart_vectorized_x_train = smart_vectorizer.fit_transform(x_train)

# инициализируем и обучаем классификатор
clf = LogisticRegression(random_state=88, max_iter=1000)
clf.fit(smart_vectorized_x_train, y_train)

# применяем обученный векторайзер к тестовым данным
smart_vectorized_x_test = smart_vectorizer.transform(x_test)

# получаем предсказания и выводим информацию о качестве
pred = clf.predict(smart_vectorized_x_test)
print(classification_report(y_test, pred))



              precision    recall  f1-score   support

    negative       0.54      0.97      0.69     22480
    positive       0.87      0.18      0.30     22887

    accuracy                           0.57     45367
   macro avg       0.70      0.58      0.50     45367
weighted avg       0.70      0.57      0.49     45367



## исследование величины n в n-граммах показало, что:

**Оптимальными значениями являются** - ngram_range=(1, 2), т.к. они дают самые оптимальные значения метрик



In [35]:
smart_vectorizer = CountVectorizer(ngram_range=(1, 2),
                                   tokenizer=word_tokenize,
                                   stop_words=noise)
# обучаем его и сразу применяем к x_train
smart_vectorized_x_train = smart_vectorizer.fit_transform(x_train)
# применяем обученный векторайзер к тестовым данным
smart_vectorized_x_test = smart_vectorizer.transform(x_test)

from sklearn.linear_model import LogisticRegression

log_clf = LogisticRegression(solver="lbfgs", max_iter=1000, random_state=42)

log_clf.fit(smart_vectorized_x_train, y_train)




# получаем предсказания и выводим информацию о качестве
pred = log_clf.predict(smart_vectorized_x_test)
print(classification_report(y_test, pred))



              precision    recall  f1-score   support

    negative       0.77      0.82      0.79     22480
    positive       0.81      0.76      0.79     22887

    accuracy                           0.79     45367
   macro avg       0.79      0.79      0.79     45367
weighted avg       0.79      0.79      0.79     45367



In [None]:


# инициализируем и обучаем классификатор

# from sklearn.neighbors import KNeighborsRegressor
# from sklearn.linear_model import SGDClassifier
# from sklearn.ensemble import RandomForestClassifier
# from sklearn.multiclass import OneVsRestClassifier

# ovr_clf = OneVsRestClassifier(SVC())
# forest_clf = RandomForestClassifier(random_state=42)
# sgd_clf = SGDClassifier(random_state=42)
# knn_clf = KNeighborsRegressor(n_neighbors = 4, weights = 'distance')


from sklearn.svm import SVC
svm_clf = SVC()


smart_vectorizer = CountVectorizer(ngram_range=(1, 2),
                                   tokenizer=word_tokenize,
                                   stop_words=noise)
# обучаем его и сразу применяем к x_train
smart_vectorized_x_train = smart_vectorizer.fit_transform(x_train)
# применяем обученный векторайзер к тестовым данным
smart_vectorized_x_test = smart_vectorizer.transform(x_test)





svm_clf.fit(smart_vectorized_x_train, y_train)




# получаем предсказания и выводим информацию о качестве
pred = svm_clf.predict(smart_vectorized_x_test)
print(classification_report(y_test, pred))


