In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import re
import itertools
import pymorphy2
import operator

In [3]:
df1 = pd.read_csv('keyword_names.csv')

In [4]:
df2 = pd.read_csv('keywords_data.csv')

In [5]:
df1.head()

Unnamed: 0,keyword_name
0,устройство +в яндекс такси
1,устроиться яндекс такси
2,сколько зарабатывают таксисты яндекс
3,яндекс такси устроиться +на работу
4,водитель +в яндекс такси


In [6]:
df2.head()

Unnamed: 0,search,visits,guests,clicks,active,costs
0,бишкек яндекс такси для водителей,1,1,1,0,14517
1,городе бишкек кыргызстан работа яндекс такси с...,1,1,1,0,10269
2,как подключить яндекс такси бишкек,1,1,1,1,9762
3,как работает яндекс такси,1,1,1,0,7249
4,как устроится службу яндекс такси без своей ма...,1,1,1,0,9911


In [7]:
# Левенштейн
def damerau_levenshtein_distance(s1, s2):
    d = {}
    lenstr1 = len(s1)
    lenstr2 = len(s2)
    for i in range(-1, lenstr1 + 1):
        d[(i, -1)] = i + 1
    for j in range(-1, lenstr2 + 1):
        d[(-1, j)] = j + 1
    for i in range(lenstr1):
        for j in range(lenstr2):
            if s1[i] == s2[j]:
                cost = 0
            else:
                cost = 1
            d[(i, j)] = min(
                d[(i - 1, j)] + 1,  # deletion
                d[(i, j - 1)] + 1,  # insertion
                d[(i - 1, j - 1)] + cost,  # substitution
            )
            if i and j and s1[i] == s2[j - 1] and s1[i - 1] == s2[j]:
                d[(i, j)] = min(d[(i, j)], d[i - 2, j - 2] + cost)  # transposition
    return d[lenstr1 - 1, lenstr2 - 1]

# Нормированный Левенштейн
def norm_lev(s1, s2):
    return damerau_levenshtein_distance(s1, s2)/max(len(s1), len(s2))

# Косинусное расстояние
from scipy.spatial.distance import cosine

def tanimoto(s1, s2):
    a, b, c = len(s1.split()), len(s2.split()), 0.0

    for sym in s1.split():
        if sym in s2.split():
            c += 1

    return c / (a + b - c)

In [8]:
morph = pymorphy2.MorphAnalyzer()
def normed_word(x):
    p = morph.parse(x)[0]
    return p.normal_form

In [32]:
class WordsTokenizer:
    
    
    def __init__(self):
        self._cos_matrix = None
        self.uniq_words = None
        
    def fit(self, data):
        _uniq_words = set()
        for sentence in data:
            for word in sentence.split():
                word = normed_word(re.sub("\W", "", word)).lower()
                _uniq_words.add(word)
        _uniq_words = list(_uniq_words)
        self.uniq_words = _uniq_words
        self.uniq_words += ['Unknown']
    
    def transform(self, data):
        if self.uniq_words is None:
            raise "Надо сначала вызвать fit() !!!"
            
        _cos_matrix = np.zeros((data.shape[0], len(self.uniq_words)+1))
        for i, sentence in enumerate(data):
            for word_in_sentence in sentence.split(" "):
                # Уберем всякие какашки из слов в запросе (вдруг кто-то решил это делать)
                word_in_sentence = re.sub("\W", "", word_in_sentence)
                word_in_sentence = normed_word(word_in_sentence.lower())
                
                p = 0.1
                is_found = False
                for j, word in enumerate(self.uniq_words):
                    if norm_lev(word, word_in_sentence) < p:
                        _cos_matrix[i][j] += 1
                        is_found = True
                        break
                if not is_found:
                    _cos_matrix[i][-1] += 1
        return _cos_matrix
    
    def fit_transform(self, train_words, data):
        self.fit(train_words)
        return self.transform(data)

In [33]:
class SemanticsClassifiler:
    
    
    def __init__(self):
        pass
    
    # TODO: было бы неплохо обучать его на имеющихся ответах
    def train(self):
        pass
    
    def predict(self, data):
        pass

In [34]:
# ТОКЕНИЗАЦИЯ ЗАПРОСОВ ПО УНИКАЛЬНЫМ СЛОВАМ
tokenizer = WordsTokenizer()
tokenizer.fit(df1['keyword_name'].values)
cos_matrix = tokenizer.transform(df2['search'].values)

In [35]:
tokenizer.uniq_words

['устроиться',
 'отзыв',
 'яндекс',
 'для',
 'подключение',
 'в',
 'свой',
 'форум',
 'зарабатывать',
 'сайт',
 'бишкек',
 'водитель',
 'заработать',
 'условие',
 'стать',
 'на',
 'компания',
 'работа',
 'ли',
 'личный',
 'заработок',
 'можно',
 'подключать',
 'машина',
 'подключить',
 'вакансия',
 'устраиваться',
 'к',
 'официальный',
 'такси',
 'сколько',
 'устройство',
 'работать',
 'подключаться',
 'авто',
 'подключиться',
 'таксист',
 'Unknown']

Ура! Косинусная матрица готова. Теперь считаем расстояния

In [36]:
# Тест i-го индекса
# ТУТ ПОКА БЕЗ ПРОВЕРКИ СИНОНИМОВ И ЧЕРТОВА ЛЕВЕНШТЕЙНА
ind = 22
print(df2['search'][ind])
print(cos_matrix[ind])
for i in np.argwhere(cos_matrix[ind] != 0)[:-1, 0]:
    print(tokenizer.uniq_words[i], end=", ")

требуются водители в яндекс такси бишкек
[ 0.  0.  1.  0.  0.  1.  0.  0.  0.  0.  1.  1.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  1.  0.  0.  0.  0.  0.  0.
  0.  0.  1.]
яндекс, в, бишкек, водитель, такси, 

In [37]:
sem_cos_matrix = tokenizer.transform(df1['keyword_name'])

In [38]:
df2['search'].iloc[5]

'как устроиться в яндекс такси'

In [39]:
sem_cos_matrix.shape

(171, 39)

In [139]:
def check_sem(req, sem):
    
    req = ' '.join([normed_word(re.sub("\W", "", tmp_word).lower()) for tmp_word in req.split(' ')])
    n_sem = ' '.join([normed_word(re.sub("\W", "", tmp_word).lower()) for tmp_word in sem.split(' ')])
    
    vec_req = tokenizer.transform(np.array([req]))
    vec_sem = tokenizer.transform(np.array([n_sem]))

    if '-' in sem:
        minus_words = []
        for part in sem.split('-'):
            minus_words.append(part.split(' ')[0])
        for bad_word in minus_words:
            if bad_word in req.split(' '):
                return 1
    if '+' in sem:
        plus_words = []
        for part in sem.split('+'):
            plus_words.append(part.split(' ')[0])
        for required_word in plus_words:
            if required_word not in req.split(' '):
                return 1
    if '"' in sem:
        if np.count_nonzero(vec_req - vec_sem) == 0:
            return 0
        else:
            return 1
    elif '[' in sem:
        # TODO: здесь пока будет заглушка (`[]` -- это отстой)
        return 1
    else:
        # Пытаемся примерно предсказать
        # самая подгонистая часть
        a = 0.7
        b = 1-a
        s1 = ' '.join(sorted(req.split(' ')))
        s2 = ' '.join(sorted(n_sem.split(' ')))
        return a*cosine(vec_req, vec_sem) + b*norm_lev(s1, s2)

In [140]:
check_sem('яндекс такси работа', 'яндекс такси работать')

0.26190476190476192

In [141]:
t1 = tokenizer.transform(np.array(['подключить яндекс такси']))
t2 = tokenizer.transform(np.array(['подключить такси у яндекса']))
cosine(t1, t2)

0.13397459621556129

In [142]:
# ЭТО ТЕСТЫ
req = "бишкек яндекс такси для водителей"
sem = '"работа в яндекс такси вакансии"'
t = tokenizer.transform(np.array([req, sem]))
print(cosine(t1[0], t2[0]))
print(check_sem(req, sem))

0.133974596216
1


In [143]:
check_sem("бишкек яндекс такси для водителей", '"работа в яндекс такси вакансии"')

1

In [144]:
# Наверно, я все сделал через жопу, но результаты есть!
predictions = dict()
# Бегаем по запросам пользователя
for i, element in enumerate(df2['search'].values):
    elem_distances = {}
    # Бегаем по сематич. ядру
    for j, sem in enumerate(df1['keyword_name'].values):
        elem_distances[sem] = check_sem(element, sem)
    nearest_sem = min(elem_distances, key=elem_distances.get)
    #predictions[sem] = (nearest_sem)
    print('"{}" has nearest {} --- elem_distances={}'
        .format(element, nearest_sem, round(elem_distances[nearest_sem], 3)))

"бишкек яндекс такси для водителей" has nearest яндекс +для водителей --- elem_distances=0.28
"городе бишкек кыргызстан работа яндекс такси сколько зарабатывает яндекс такси водителей" has nearest яндекс такси работа водителем --- elem_distances=0.393
"как подключить яндекс такси бишкек" has nearest подключить яндекс такси --- elem_distances=0.255
"как работает яндекс такси" has nearest яндекс такси работать --- elem_distances=0.142
"как устроится службу яндекс такси без своей машины" has nearest устроиться яндекс такси --- elem_distances=0.538
"как устроиться в яндекс такси" has nearest устроиться водителем +в яндекс такси --- elem_distances=0.211
"как устроиться в яндекс такси без машины в бишкеке" has nearest устроиться водителем +в яндекс такси --- elem_distances=0.401
"как устроиться в яндекс такси в бишкеке" has nearest устроиться водителем +в яндекс такси --- elem_distances=0.281
"как устроиться в яндекс такси на своем авто в бишкеке" has nearest устроиться водителем +в яндекс т

In [None]:
# Запишем результаты
df2['predictions'] = predictions

In [None]:
df2

In [None]:
df2.to_csv('result.csv')

In [None]:
ans_df = pd.read_csv('answers.csv')

In [None]:
ans_df = ans_df.iloc[ans_df['Поисковые фразы'].dropna().index]

In [None]:
ans_df