# 1. Connect to database

Creating connection to Microsoft SQL Server and two databases with positive and negative sets. We should use generators for batch processing.

In [13]:
import pyodbc
import numpy as np

batch_size = 10

In [30]:
def positive_data_generator():
    cnxn = pyodbc.connect('Trusted_Connection=yes;DRIVER={SQL Server};SERVER=DESKTOP-1RHDOBR\GORDASQL;DATABASE=positive;UID=pyuser;PWD=pypypy')
    cursor = cnxn.cursor()
    cursor.execute("SELECT [id], [ttext], 1 as label FROM [dbo].[sortpos]")
    
    X, y = [], []
    for row in cursor:
        r_id = row.id
        r_text = row.ttext
        X.append(r_id)
        y.append(r_text)
        
        if len(X) == batch_size:
            npx = np.array(X)
            npy = np.array(y)
            yield npx, npy
            X, y = [], []
    pyodbc.Connection.close(cnxn)

In [28]:
def negative_data_generator():
    cnxn = pyodbc.connect('Trusted_Connection=yes;DRIVER={SQL Server};SERVER=DESKTOP-1RHDOBR\GORDASQL;DATABASE=negative;UID=pyuser;PWD=pypypy')
    cursor = cnxn.cursor()
    cursor.execute("SELECT [id], [ttext], 0 as label FROM [dbo].[sortneg]")
    
    X, y = [], []
    for row in cursor:
        r_id = row.id
        r_text = row.ttext
        X.append(r_id)
        y.append(r_text)
        
        if len(X) == batch_size:
            npx = np.array(X)
            npy = np.array(y)
            yield npx, npy
            X, y = [], []
    pyodbc.Connection.close(cnxn)

# 2. Tokenization
We should encode words as their indexes (computed by overall frequency in the dataset).
Using russian http://www.ruscorpora.ru/en/
#### Step 1. Clear dataset. 
#### Step 2. Select meaningful words.
#### Step 3. Calculate frequency of each word
#### Step 4. Replace words by indexes

In [1]:
import nltk
import string
from nltk.corpus import stopwords

In [3]:
from nltk.corpus import ieer #averaged_perceptron_tagger_ru

In [58]:
stopwords.demo()

AttributeError: 'WordListCorpusReader' object has no attribute 'demo'

In [47]:
def tokenize(file_text):
    #firstly let's apply nltk tokenization
    tokens = nltk.word_tokenize(file_text)

    #let's delete punctuation symbols
    tokens = [i for i in tokens if ( i not in string.punctuation )]

    #deleting stop_words
    stop_words = stopwords.words('russian')
    stop_words.extend(['что', 'это', 'так', 'вот', 'быть', 'как', 'в', '—', 'к', 'на'])
    tokens = [i for i in tokens if ( i not in stop_words )]

    #cleaning words
    tokens = [i.replace("«", "").replace("»", "") for i in tokens]

    return tokens

In [31]:
pdg = positive_data_generator()
ndg = negative_data_generator()

In [35]:
next(pdg)

(array([410279586921189376, 410279593686626305, 410279648573276160,
        410279709126430720, 410279710841925632, 410279711085199360,
        410279750129549312, 410279750352244736, 410279753468633088,
        410279802676203520], dtype=int64),
 array(['@NatahaSergeevna , дурочка ты Наташка ;) во сколько у тебя пробник ?:*',
        'RT @zijelesij: 2061564/2 ну.. можно наверное найти на яндекс.музыка)',
        'Дурачиться утром, делая хорошим настроение друг другу, потрясающе :*',
        'RT @szhurova: Как автобус съел пассажира :-))) http://t.co/pVfTIIyDi5',
        'Что за прикол, уже второй день подряд?))добавляются свингеры) http://t.co/DVPcHHH006',
        'Доброе утро.) как приятно вставать хотя бы на два часа позже.)',
        '@Rudakov_i_a @MP_Blago63 @Filaretov_IA А аккаунт в твиттере?)',
        'С Днём Рождения любимая Айза!!! Ты само совершенство, всегда для меня была самой лучшей!! Я горжусь табой:*** http://t.co/Es1tZ3Fogm',
        'Оказывается, мой заварочный чайник

In [39]:
next(ndg)

(array([408911426514739200, 408911550079336448, 408911823769853952,
        408911903877255168, 408911904736694272, 408911953826828288,
        408912064770736128, 408912288930725888, 408912603533303808,
        408912605055832064], dtype=int64),
 array(['идиотский твиттер!! как же ты глючишь.. ;(',
        'RT @procrastelina: RT если ниже ростом даже чем губин((((',
        '@kakos1904 Бедный мой, ты же в школе. Твоя физика закончится раньше чем я до тебя доеду :( Я б забрал',
        'Спасибо тем кто меня в данный момент поддерживает с моей проблемой,спасибо правда,спасибо тебе ни кто(',
        'а если макарошки отварить и запечь с луком,морковкой,майонезом,чесноком и всякими приправками,будет ОМНОМНОМ! *О* сыра нет,жаль(',
        'завтра по химии диктант, нужно хорошо подготовиться(',
        'Сейчас бы в кроватку, спать ( а ещё дофигища дел не сделано -_-',
        '@No_Name_Okay_ мне обязательно!(\\nв 19:30 начинается..\\nМожет пойдём сейчас и потом ты меня проводишь?',
        

In [40]:
import pymorphy2

In [41]:
morph = pymorphy2.MorphAnalyzer()