# Imports

In [1]:
import pandas as pd #математика
import numpy as np #матрицы
import tensorflow as tf #нейросети
import tflearn #обучение сетей
import re #регулярные выражения

from collections import Counter #создавать коллекции уникальных штук каких-то, пронумерованный словарь
from sklearn.model_selection import train_test_split #разделить тренировочные данные и тестовые наборы
from tflearn.data_utils import to_categorical #конвертировать из класса вектора в класс матрицы бинарной
from nltk.stem.snowball import RussianStemmer # русские стебли слов
from nltk.tokenize import TweetTokenizer # разбивать твит на слова

# Constants

In [2]:
POSITIVE_TWEETS_CSV = 'positive.csv' #имя файла с позитивными твитами
NEGATIVE_TWEETS_CSV = 'negative.csv' #имя файла с негативными твитами

VOCAB_SIZE = 1000 # размер словаря для тренировки

# Load data

In [3]:
tweets_col_number = 3 #столбец с самими твитами (в данном случае третий)

negative_tweets = pd.read_csv(
    'negative.csv', header=None, delimiter=';')[[tweets_col_number]] #читаем таблицу негативных твитов
positive_tweets = pd.read_csv(
    'positive.csv', header=None, delimiter=';')[[tweets_col_number]] #читаем таблицу позитивных твитов

# Stemmer

In [4]:
stemer = RussianStemmer() #переопределяем библиотеку на другое имя
regex = re.compile('[^а-яА-Я ]') #регулярное выражение для кириллицы
stem_cache = {} #пустой словарь кеша слов-стебелей

def get_stem(token): #взятие стебля
    stem = stem_cache.get(token, None) #есть ли стебель в кеше (ключ:значение слово:стебель)
    if stem: #если есть
        return stem #возвращаем его
    token = regex.sub('', token).lower() #применяем регулярное выражение, отбираем тилько кириллицу
    stem = stemer.stem(token) #берем стебель слова
    stem_cache[token] = stem #кешируем его
    return stem #возвращаем стебель

# Vocabulary creation

In [5]:
stem_count = Counter() # словарь-счетчик / меняем имя библиотеки
tokenizer = TweetTokenizer() # разбить твитер / меняем имя библиотеки

def count_unique_tokens_in_tweets(tweets): #считаем одинаковые слова в твитах
    for _, tweet_series in tweets.iterrows():  #для каждого твита построчно
        tweet = tweet_series[3] # в третьем столбце (убираем цифру 3 из столбца)
        tokens = tokenizer.tokenize(tweet) #разбиваем твит на слова
        for token in tokens: #для каждого слова в списке слов
            stem = get_stem(token) #находим стебель
            stem_count[stem] += 1 #заносим в словарь с подсчетом каждого стебля

count_unique_tokens_in_tweets(negative_tweets) #читаем негативные твиты
count_unique_tokens_in_tweets(positive_tweets) #читаем позитивные твиты

In [6]:
print("Total unique stems found: ", len(stem_count)) #сколько всего уникальных слов было прочитанно

Total unique stems found:  91780


In [7]:
vocab = sorted(stem_count, key=stem_count.get, reverse=True)[:VOCAB_SIZE] #список
'''сортируем словарь по количеству слов и ограничеваем его размер до указанного VOCAB_SIZE '''
print(vocab[:100]) #печатаем 100 из них

['', 'не', 'я', 'и', 'в', 'на', 'а', 'что', 'так', 'с', 'эт', 'как', 'у', 'мен', 'мне', 'все', 'но', 'он', 'ты', 'теб', 'ну', 'мо', 'то', 'уж', 'по', 'был', 'ещ', 'за', 'да', 'вот', 'же', 'тольк', 'нет', 'сегодн', 'о', 'прост', 'бы', 'над', 'когд', 'хоч', 'очен', 'к', 'сам', 'ден', 'будет', 'мы', 'от', 'хорош', 'из', 'есл', 'тепер', 'тож', 'буд', 'сво', 'год', 'даж', 'завтр', 'нов', 'дом', 'до', 'там', 'ест', 'вообщ', 'ег', 'вс', 'дела', 'пот', 'одн', 'для', 'больш', 'хот', 'спасиб', 'мог', 'сейчас', 'е', 'себ', 'нас', 'блин', 'раз', 'кто', 'дума', 'утр', 'котор', 'любл', 'поч', 'зна', 'говор', 'лучш', 'нич', 'ил', 'без', 'вы', 'друг', 'тут', 'чтоб', 'всем', 'бол', 'люд', 'сдела', 'сказа']


In [8]:
idx = 2 # второе место
print("stem: {}, count: {}"
      .format(vocab[idx], stem_count.get(vocab[idx]))) #второй по распространенности стебель-'я'
'''
Выводим стебель и его количество упоминаний
'''

stem: я, count: 66045


'\nВыводим стебель и его количество упоминаний\n'

In [9]:
token_2_idx = {vocab[i] : i for i in range(VOCAB_SIZE)} # нумеруем слова в списке слов
len(token_2_idx) #длина словаря

<generator object <genexpr> at 0x7f0fbe7ba728>


1000

In [10]:
token_2_idx['сказа'] # номер слова

99

In [11]:
def tweet_to_vector(tweet, show_unknowns=False): #твит в вектор перевод
    vector = np.zeros(VOCAB_SIZE, dtype=np.int_) # заполняем матрицу np нулями интовыми
    for token in tokenizer.tokenize(tweet): # для каждого слова в твите
        stem = get_stem(token) #берем стебель слова
        idx = token_2_idx.get(stem, None) #берем id данного стебля
        if idx is not None: #если id есть
            vector[idx] = 1 #то единичка в вектор
        elif show_unknowns: #в другом случае написать что программа не знает таких слов
            print("Unknown token: {}".format(token))
    return vector # возвращаем вектор

In [12]:
tweet = negative_tweets.iloc[0][3] #cамый первый твит
print("tweet: {}".format(tweet)) #выводим этот твит
print("vector: {}".format(tweet_to_vector(tweet)[:10])) #переводим первый твит в вектор
print(vocab[5]) #выводим шестое слово в словаре

tweet: на работе был полный пиддес :| и так каждое закрытие месяца, я же свихнусь так D:
vector: [1 0 1 1 0 1 0 0 1 0]
на


# Converting Tweets to vectors

In [13]:
tweet_vectors = np.zeros(
    (len(negative_tweets) + len(positive_tweets), VOCAB_SIZE), #матрица размеров кол-во_твитов х размер словаря
    dtype=np.int_) #интовая матрица
tweets = [] #объявляем список твитов
for ii, (_, tweet) in enumerate(negative_tweets.iterrows()): # ii-(_(столбец), tweet)счетчик-элементов
    tweets.append(tweet[3]) #добавляем твит в таблицу твитов
    tweet_vectors[ii] = tweet_to_vector(tweet[3]) #добавляем твит в таблицу векторов
for ii, (_, tweet) in enumerate(positive_tweets.iterrows()): #тоже самое для положительных твитов
    tweets.append(tweet[3])
    tweet_vectors[ii + len(negative_tweets)] = tweet_to_vector(tweet[3])

# Preparing labels

In [14]:
labels = np.append(
    np.zeros(len(negative_tweets), dtype=np.int_), #матрица заполненная нулями размером под твиты 
    np.ones(len(positive_tweets), dtype=np.int_)) #матрица заполненная единицами под твиты

In [15]:
labels[:10] # первые 10

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [16]:
labels[-10:] # 10 c конца

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

# Preparing the data for the training

In [17]:
X = tweet_vectors #переназначаем твиты
y = to_categorical(labels, 2) #бинарная матрица из 2 столбцов
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
'''разбиваем данные на тренировку и тест в пропорции 0.3'''

MemoryError: 

In [21]:
print(y_test[:10])

NameError: name 'y_test' is not defined

# Building the NN

In [28]:
def build_model(learning_rate=0.1): #темп обучения = 0.1  создание нейросети
    tf.reset_default_graph() # сбрасывает глобальный график по умолчанию
    
    net = tflearn.input_data([None, VOCAB_SIZE]) #заполняет данные сети
    net = tflearn.fully_connected(net, 125, activation='ReLU') #видимо 125 нейронов rectified linear unit (ReLU)
    net = tflearn.fully_connected(net, 25, activation='ReLU') # f(x) = ln(1+exp(x)) или что-то типо такого
    net = tflearn.fully_connected(net, 2, activation='softmax') #softmax function обобщение и бинарный вывод
    regression = tflearn.regression( # определяем регрессию
        net, #сеть наша
        optimizer='sgd', 
        '''Stochastic gradient descent optimizer.
        Оптимизатор стохастического градиентного спуска.
Включает поддержку импульса, разрыва скорости обучения и импульса Нестерова.'''
        learning_rate=learning_rate, #присваиваем темп обучения
        loss='categorical_crossentropy')
    '''В теории информации перекрёстная энтропия между двумя распределениями 
    вероятностей измеряет среднее число бит, 
    необходимых для опознания события из набора возможностей'''
    
    model = tflearn.DNN(net) #Deep Neural Network
    return model #возвращаем модель сети

In [29]:
model = build_model(learning_rate=0.75) #создаем модель

In [30]:
model.fit( #тренируем
    X_train, #инпуты - входящий поток
    y_train, #цели
    validation_set=0.1, #проверка обученной модели
    show_metric=True, #показываем измерения
    batch_size=128, #размер партии учебных материалов в одной итерации
    n_epoch=30) #эпоха - круг прогона

Training Step: 33509  | total loss: [1m[32m0.27954[0m[0m | time: 16.567s
| SGD | epoch: 030 | loss: 0.27954 - acc: 0.9419 -- iter: 142848/142904
Training Step: 33510  | total loss: [1m[32m0.26963[0m[0m | time: 17.970s
| SGD | epoch: 030 | loss: 0.26963 - acc: 0.9399 | val_loss: 1.13499 - val_acc: 0.6951 -- iter: 142904/142904
--


# Testing

In [31]:
predictions = (np.array(model.predict(X_test))[:,0] >= 0.5).astype(np.int_) 
'''тестируем сеть // предсказания для нулевого столбца'''
accuracy = np.mean(predictions == y_test[:,0], axis=0) #выводим погрешность с 0 столбцом для теста
print("Accuracy: ", accuracy) #точнее здесь выводим

Accuracy:  0.691848760488


In [33]:
def test_tweet(tweet): #проверяем твиты
    tweet_vector = tweet_to_vector(tweet, True) #преобразовываем в вектора и показываем неизвестные
    positive_prob = model.predict([tweet_vector])[0][1] #извлекаем результат
    print('Original tweet: {}'.format(tweet))
    print('P(positive) = {:.5f}. Result: '.format(positive_prob),  # 5 знаков после запятой
          'Positive' if positive_prob > 0.5 else 'Negative')

In [34]:
def test_tweet_number(idx): #тестируем твит по индексу
    test_tweet(tweets[idx])

In [36]:
test_tweet_number(120705)

Unknown token: обладает
Unknown token: извлечь
Unknown token: выгоду
Original tweet: Он, якобы, обладает информацией, и может извлечь из нее выгоду. ::-) #RU_FF #FF_RU
P(positive) = 0.63527. Result:  Positive


# Real life testing

In [47]:
tweets_for_testing = [
    "меня оштрафовали по дороге домой",
    "у меня хорошее настроение сегодня"
]
for tweet in tweets_for_testing:
    test_tweet(tweet) 
    print("---------")

Unknown token: оштрафовали
Original tweet: меня оштрафовали по дороге домой
P(positive) = 0.00599. Result:  Negative
---------


# Links
* [Скачать корпус твиттов](http://study.mokoron.com);
* [Ю. В. Рубцова. Построение корпуса текстов для настройки тонового классификатора // Программные продукты и системы, 2015, №1(109), –С.72-78](http://www.swsys.ru/index.php?page=article&id=3962&lang=);