In [6]:
import sqlite3
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import operator
import collections
%matplotlib inline

#Getting the data
con = sqlite3.connect('tweetsSpring.db')
data = pd.read_sql("SELECT * from tweets where month = 5 and day != 26",con)
dataLast = pd.read_sql("SELECT * from tweets where month = 5 and day = 26",con)

In [11]:
#Progress
from sys import stdout
def progress(i, n):
    stdout.write("\r%f%%" % (i*100/float(n)))
    stdout.flush()
    if i == n-1:
        stdout.write("\r100%")
        print("\r\n")

In [13]:
import json
import re
import pymorphy2
import Stemmer

class TweetTextParser():

    def __init__(self):
        print 'Invoking Processor...'
        self.morph = pymorphy2.MorphAnalyzer()
        self.stemmer = Stemmer.Stemmer('russian')
        try:
            self.emo_db = json.load(open('pyalchemy/emoji_database','r'))
        except:
            print('No emoji database found')


    def processContents(self, myText):
        myText = re.sub(r'(?i)\b((?:https?://|www\d{0,3}[.]|[a-z0-9.\-]+[.][a-z]{2,4}     /)(?:[^\s()<>]+|\(([^\s()<>]+|(\([^\s()<>]+\)))*\))+(?:\(([^\s()<>]+|(\([^\s()<>]+\)))*\)|[^\s`!()\[\]{};:\'".,<>?«»“”‘’]))', '', myText)
        words = [word for word in re.findall(r'(?u)[@|#]?\w+', myText) if not word.startswith(('@','#'))]
        words = self.stemmer.stemWords(words)
        return words
        
    def resolveEmoji(self, myText):
        emostr = []
        emo_db = self.emo_db
        b = myText.encode('unicode_escape').split('\\')
        c = [point.replace('000','+').upper() for point in b if len(point) > 8 and point[0] == 'U']
        [emostr.append(emo_db[emo[:7]]) for emo in c if emo[:7] in emo_db]
        return myText

textProcessor = TweetTextParser()

Invoking Processor...


In [14]:
from time import time
morph = pymorphy2.MorphAnalyzer()
stemmer = Stemmer.Stemmer('russian')

#Cleaning up the data
t0 = time()
terms = []
n = len(data.index)
#n = 100000
for i in range(n):
    terms.append(textProcessor.processContents(data.content_lower[i]))
print time()-t0

31.3677601814


In [15]:
data['terms'] = terms[:]

In [10]:
print data.created_at.tail
print dataLast.created_at.tail

<bound method Series.tail of 0         2015-05-01 00:00:33
1         2015-05-01 00:00:41
2         2015-05-01 00:00:46
3         2015-05-01 00:01:00
4         2015-05-01 00:01:07
5         2015-05-01 00:01:10
6         2015-05-01 00:01:21
7         2015-05-01 00:01:28
8         2015-05-01 00:01:44
9         2015-05-01 00:02:01
10        2015-05-01 00:02:09
11        2015-05-01 00:02:13
12        2015-05-01 00:02:16
13        2015-05-01 00:02:51
14        2015-05-01 00:02:59
15        2015-05-01 00:03:08
16        2015-05-01 00:03:24
17        2015-05-01 00:03:32
18        2015-05-01 00:03:50
19        2015-05-01 00:03:57
20        2015-05-01 00:04:03
21        2015-05-01 00:04:23
22        2015-05-01 00:04:30
23        2015-05-01 00:04:31
24        2015-05-01 00:04:34
25        2015-05-01 00:04:35
26        2015-05-01 00:04:41
27        2015-05-01 00:04:57
28        2015-05-01 00:05:01
29        2015-05-01 00:05:03
                 ...         
667468    2015-05-25 23:56:09
667469    2

In [16]:
for row in data.index[:10]: 
    for word in data['terms'][row]: print word

Ну
кто
ещ
попадет
на
инвентаризац
есл
не
я
пожалуйст
пуст
утр
все
эт
окажет
дурн
сном
Смотр
я
в
Москв
Сейчас
9
ясн
Утром
7
облачн
небольш
дожд
Днем
11
пасмурн
дожд
Вечер
Аа
ты
в
Москв
Немн
приятн
момент
Ну
взяв
тво
ручк
в
сво
несильн
сжима
да
да
я
в
Москв
Росс
ахаххах
аргументн
аргумент


In [22]:
from collections import Counter
import nltk

words = []
for i in range(n):
    words += terms[i]

fdist = nltk.FreqDist(words)
sortedDist = sorted(fdist.items(), key=operator.itemgetter(1),reverse=True)

sortedDist = [x for x in sortedDist if len(x[0]) > 2]
#allTheWords = [x for x in moreThan3 if x[1] > 1]
interestingVocab = [x[0] for x in sortedDist]
print 'Vocab Length: ', len(interestingVocab)

Vocab Length:  262391


In [23]:
for i in range(10):
    print interestingVocab[i]

что
так
как
Москв
мен
все
мне
был
теб
прост


In [24]:
#Find TF-IDF
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer

trainingList = []
for i in range(n):
    trainingList.append(' '.join(data['terms'][i]))

tfidf_vectorizer = TfidfVectorizer(vocabulary = interestingVocab)
tfidf_matrix_train = tfidf_vectorizer.fit_transform(trainingList)  #finds the tfidf score with normalization

In [131]:
import time
def findSimilarTweets(queryTweet, data, threshold, maxNumber = 0):
    print 'Query:', queryTweet
    
    processedTweet = ' '.join(textProcessor.processContents(queryTweet))
    queryTweetRepresentation = tfidf_vectorizer.transform([processedTweet])
    
    start_time = time.time()
    cosine_similarities = cosine_similarity(queryTweetRepresentation, tfidf_matrix_train)[0]
    totalMatchingTweets = len(cosine_similarities[cosine_similarities>threshold])
    if maxNumber:
        totalMatchingTweets = min(totalMatchingTweets, maxNumber)
    indices = cosine_similarities.argsort()[::-1][:totalMatchingTweets]
    elapsed_time = time.time() - start_time
    print 'time: ', elapsed_time
    print ''
    print 'Results:'
    print data[indices]
    print ''
    print 'cosine scores ==>', cosine_similarities[indices]
    
    return indices

In [132]:
#before
inidiciesOfTweets = findSimilarTweets(u'в метро объявляют станции', data['content'], 0.5, 10)

Query: в метро объявляют станции
time:  0.224648952484

Results:
208048    А в Московском метро станции объявляют знамени...
82540     До боли знакомый голос объявляет станции в метро)
47704          Хочу чтобы в метро станции объявлял патриарх
103067    Я хочу, чтобы станции в метро объявлял Джеймс ...
51625     Голос #ДмитрийГуберниев #губерниев объявляющий...
508327    Наконец то Лолита больше не объявляет мою стан...
30541     Блин, а в метро и правда станции объявляют гол...
222745    @302466 Так круто едишь в метро , а станции те...
107291    @Ryabenko_Nikita и не только он)\nВо всем метр...
111956    Приятно, это тогда, когда тебе в метро объявля...
Name: content, dtype: object

cosine scores ==> [ 0.75964594  0.73711167  0.71805737  0.71462365  0.69707083  0.69212216
  0.68498465  0.6784575   0.67471516  0.6738558 ]


In [None]:
len(data)

In [74]:
print 'Vocab Length: ', len(interestingVocab)

Vocab Length:  15268


In [75]:
print data['cleanText'][0]

Ребята, мы всем рады!


In [53]:
len(trainigList)

673685

In [2]:
from scipy.sparse import csr_matrix

print('hi')

hi


In [45]:
from sparselsh import LSH
from scipy.sparse import csr_matrix

t0 = time()
lsh = LSH( 100,
           tfidf_matrix_train.shape[1],
           num_hashtables=1,
           storage_config={"dict":None})
print time()-t0

NameError: name 'tfidf_matrix_train' is not defined

In [None]:
for ix in xrange(tfidf_matrix_train.shape[0]):
    x = tfidf_matrix_train.getrow(ix)
    lsh.index(x)
    progress(ix,tfidf_matrix_train.shape[0])

6.470348%

In [None]:
from nearpy import Engine
from nearpy.hashes import RandomBinaryProjections

# Dimension of our vector space
dimension = 478524

# Create a random binary hash with 10 bits
rbp = RandomBinaryProjections('rbp', 1000)

# Create engine with pipeline configuration
engine = Engine(dimension, lshashes=[rbp])

# Index 1000000 random vectors (set their data to a unique string)
for index in range(673685):
    v = tfidf_matrix_train[index:index+1]
    engine.store_vector(v, 'data_%d' % index)
    progress(index,673685)

# Create random query vector
query = numpy.random.randn(dimension)

# Get nearest neighbours
N = engine.neighbours(query)