In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import re
import itertools
import pymorphy2
import operator

In [2]:
df1 = pd.read_csv('keyword_names.csv')

In [3]:
df2 = pd.read_csv('keywords_data.csv')

In [4]:
df1.head()

Unnamed: 0,keyword_name
0,устройство +в яндекс такси
1,устроиться яндекс такси
2,сколько зарабатывают таксисты яндекс
3,яндекс такси устроиться +на работу
4,водитель +в яндекс такси


In [5]:
# Выкинем квадратные скобочки (по просьбе Андрея)
df1 = df1[df1['keyword_name'].apply(lambda x: '[' not in x)]

In [6]:
df2.head()

Unnamed: 0,search,visits,guests,clicks,active,costs
0,бишкек яндекс такси для водителей,1,1,1,0,14517
1,городе бишкек кыргызстан работа яндекс такси с...,1,1,1,0,10269
2,как подключить яндекс такси бишкек,1,1,1,1,9762
3,как работает яндекс такси,1,1,1,0,7249
4,как устроится службу яндекс такси без своей ма...,1,1,1,0,9911


In [7]:
# Левенштейн
def damerau_levenshtein_distance(s1, s2):
    d = {}
    lenstr1 = len(s1)
    lenstr2 = len(s2)
    for i in range(-1, lenstr1 + 1):
        d[(i, -1)] = i + 1
    for j in range(-1, lenstr2 + 1):
        d[(-1, j)] = j + 1
    for i in range(lenstr1):
        for j in range(lenstr2):
            if s1[i] == s2[j]:
                cost = 0
            else:
                cost = 1
            d[(i, j)] = min(
                d[(i - 1, j)] + 1,  # deletion
                d[(i, j - 1)] + 1,  # insertion
                d[(i - 1, j - 1)] + cost,  # substitution
            )
            if i and j and s1[i] == s2[j - 1] and s1[i - 1] == s2[j]:
                d[(i, j)] = min(d[(i, j)], d[i - 2, j - 2] + cost)  # transposition
    return d[lenstr1 - 1, lenstr2 - 1]

# Нормированный Левенштейн
def norm_lev(s1, s2):
    return damerau_levenshtein_distance(s1, s2)/max(len(s1), len(s2))

# Косинусное расстояние
from scipy.spatial.distance import cosine

def tanimoto(s1, s2):
    a, b, c = len(s1.split()), len(s2.split()), 0.0

    for sym in s1.split():
        if sym in s2.split():
            c += 1

    return c / (a + b - c)

In [8]:
morph = pymorphy2.MorphAnalyzer()
def normed_word(x):
    p = morph.parse(x)[0]
    return p.normal_form

In [9]:
strings = df1['keyword_name'].values

In [10]:
# Те, что с []
ker_with_sb = np.array([y.lower() for y in strings[np.where(['[' in x for x in strings])]])

In [11]:
# Те, что с ""
ker_with_q = np.array([re.sub('"', '', y).lower() for y in strings[np.where(['"' in x for x in strings])]])

In [12]:
uniq_words = set()
uniq_words1 = set()
for sentence in df1['keyword_name'].values:
    for word in sentence.split():
        #uniq_words.add((re.sub("\W", "", word)).lower())
        uniq_words.add(normed_word(re.sub("\W", "", word)).lower())

In [13]:
uniq_words = list(uniq_words)
uniq_words.append('как')

In [14]:
cos_matrix = np.zeros((df2.shape[0], len(uniq_words)))
p = 0.2
for i, sentence in enumerate(df2['search']):
    for j, word in enumerate(uniq_words):
        for word_in_sentence in sentence.split(" "):
            # Уберем всякие какашки из слов в запросе (вдруг кто-то решил это делать)
            word_in_sentence = re.sub("\W", "", word_in_sentence)
            word_in_sentence = normed_word(word_in_sentence.lower())
            dist = damerau_levenshtein_distance(word, word_in_sentence)
            norm_dist = dist/max(len(word), len(word_in_sentence))
            if (dist == 0):
            #if norm_dist < p:
                cos_matrix[i][j] += 1

Ура! Косинусная матрица готова. Теперь считаем расстояния

In [15]:
# Тест i-го индекса
# ТУТ ПОКА БЕЗ ПРОВЕРКИ СИНОНИМОВ И ЧЕРТОВА ЛЕВЕНШТЕЙНА
ind = 22
print(df2['search'][ind])
print(cos_matrix[ind])
for i in np.argwhere(cos_matrix[ind] != 0)[:, 0]:
    print(uniq_words[i], end=", ")

требуются водители в яндекс такси бишкек
[ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  1.  1.  0.  0.  0.  0.
  0.  1.  0.  0.  0.  1.  1.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.]
яндекс, в, водитель, такси, бишкек, 

In [16]:
df1.shape

(114, 1)

In [17]:

sem_cos_matrix = np.zeros((df1.shape[0], len(uniq_words)))
for i, sentence in enumerate(df1['keyword_name']):
    for j, word in enumerate(uniq_words):
        for word_in_sentence in sentence.split(" "):
            word_in_sentence = re.sub("\W", "", word_in_sentence)
            word_in_sentence = normed_word(word_in_sentence.lower())
            if norm_lev(word, re.sub("\W", "", word_in_sentence)) < 0.2:
                sem_cos_matrix[i][j] += 1

In [18]:
cosine(cos_matrix[0], sem_cos_matrix[0])

0.55278640450004213

In [37]:
a = 0.3   # a -- вес Лев-на, b -- вес кос. расстояния
b = 1 - a
# Наверно, я все сделал через жопу, но результаты есть!
predictions = []
# Методом пристального взгляда в статистику мы выбрали лучший вес для Лев-на
a = 0.07
b = 1-a
for i, element in enumerate(df2['search']):
    elem_distances = {}
    for j, sem in enumerate(df1['keyword_name']):
        elem_distances[sem] = a*norm_lev(element, sem) + b*cosine(cos_matrix[i], sem_cos_matrix[j])
    nearest_sem = min(elem_distances, key=elem_distances.get)
    predictions.append(nearest_sem)
    #print('"{}" has nearest "{} --- elem_distances={}'
    #    .format(element, nearest_sem, round(elem_distances[nearest_sem], 3)))

In [38]:
# Запишем результаты
df2['predictions'] = predictions

In [40]:
df2

Unnamed: 0,search,visits,guests,clicks,active,costs,predictions
0,бишкек яндекс такси для водителей,1,1,1,0,14517,яндекс +для водителей
1,городе бишкек кыргызстан работа яндекс такси с...,1,1,1,0,10269,яндекс такси работа водителем
2,как подключить яндекс такси бишкек,1,1,1,1,9762,"""подключить яндекс такси"""
3,как работает яндекс такси,1,1,1,0,7249,"""яндекс такси работать"""
4,как устроится службу яндекс такси без своей ма...,1,1,1,0,9911,яндекс такси +на +своей машине
5,как устроиться в яндекс такси,1,1,1,0,14705,"""устроиться водителем в яндекс такси"""
6,как устроиться в яндекс такси без машины в биш...,1,1,1,0,11515,"""работа в яндекс такси Бишкек"""
7,как устроиться в яндекс такси в бишкеке,1,1,1,0,8553,"""работа в яндекс такси Бишкек"""
8,как устроиться в яндекс такси на своем авто в ...,1,1,1,0,7064,"""работа в яндекс на своем авто"""
9,как устроиться в яндекс такси на своем авто кы...,0,0,1,0,13084,"""яндекс такси на своем авто"""


In [41]:
df2.to_csv('result.csv')

In [22]:
ans_df = pd.read_csv('answers.csv')

In [23]:
ans_df = ans_df.iloc[ans_df['Поисковые фразы'].dropna().index]

In [24]:
ans_df

Unnamed: 0,Семантическое ядро,Поисковые фразы,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5
0,устройство +в яндекс такси,как устроится службу яндекс такси без своей ма...,,,,
1,устроиться яндекс такси,как устроиться в яндекс такси без машины в биш...,как устроиться яндекс такси,,,
4,водитель +в яндекс такси,регистрация водителей в яндекс такси бишкек,требуются водители в яндекс такси бишкек,хочешь устраивать водителей в яндекс такси,,
5,яндекс +для водителей,яндекс такси в бишкеке для водителей,требуются водители в яндекс такси бишкек,,,
6,водитель яндекс такси -!в,яндекс такси бишкек водитель,,,,
17,яндекс такси работать,яндекс такси работа,работа яндекс такси россии,я хочу работать яндекс такси бишкек,яндекс такси бишкек работ,условия работы в яндекс такси на авто
46,работа +в яндекс такси Бишкек,работа яндекс такси в бишкеке,условия работы в яндекс такси в бишкеке,работа яндекс такси в бишкеке,,
48,яндекс такси Бишкек работа -!в,городе бишкек кыргызстан работа яндекс такси с...,,,,
49,яндекс устроиться таксистом,яндекс водитель такси,,,,
51,устроиться водителем +в яндекс такси,устройство на работу в яндекс такси бишкеке,,,,
