In [20]:
import string
from typing import Optional

import pandas as pd
from pydantic import BaseModel

df = pd.read_csv("../data/prepared/normal_rubrics_15886.csv")
df.head()

Unnamed: 0,address,name_ru,rating,rubrics,text
0,"Москва, Открытое шоссе, 18Б",Векторус,5.0,3D-услуги;Новые технологии,Я хочу поделиться своим отзывом о 3D принтере ...
1,"Москва, Варшавское шоссе, 17, стр. 6","Lider-3D: Интегратор 3D оборудования, Интернет...",5.0,Магазин электроники;3D-услуги;Изготовление мак...,"Заказал принтер Elegoo N3+ 22 февраля, получил..."
2,"Самарская область, Тольятти, улица Дзержинског...",Goodlikeprint,5.0,3D-услуги,"Заказывал 2 шестеренки дроссельной заслонки, с..."
3,"Москва, Варшавское шоссе, 17, стр. 6","Lider-3D: Интегратор 3D оборудования, Интернет...",5.0,Магазин электроники;3D-услуги;Изготовление мак...,"Всем хочу посоветовать данную организацию, я и..."
4,"Москва, Щербаковская улица, 53, корп. 16",3D-Element,5.0,3D-услуги;Литейное производство;Изготовление м...,Спасибо ребятам за отзывчивость и доброе сердц...


In [21]:
exclude = set(string.punctuation)
df["text"] = df["text"].apply(lambda s: "".join(ch for ch in s if ch not in exclude))
df["text"]

0        Я хочу поделиться своим отзывом о 3D принтере ...
1        Заказал принтер Elegoo N3 22 февраля получил с...
2        Заказывал 2 шестеренки дроссельной заслонки сд...
3        Всем хочу посоветовать данную организацию я из...
4        Спасибо ребятам за отзывчивость и доброе сердц...
                               ...                        
15881    Место туристическое все хорошо организовано Ес...
15882    Арендовали яхту в Адлере через яхтклуб Calypso...
15883    Шикарный яхт клубnОтличное место с красивыми в...
15884    На свежем воздухе  на берегу реки просто замеч...
15885    Кому как не знаюно для меня лично это самое су...
Name: text, Length: 15886, dtype: object

In [89]:
class SearchParams(BaseModel):
    question: str
    keywords: Optional[str] = None
    rubrics: Optional[str] = None


keywords_by_phrases = [
    SearchParams(question="Где поесть вкусную пиццу?", keywords="вкусн", rubrics="Пиццерия"),
    SearchParams(
        question="Салоны красоты с хорошими мастерами",
        keywords="спасибо",
        rubrics="Салон красоты",
    ),
    SearchParams(
        question="Недорогие отели в центре города",
        keywords="(недорого|дешево)",
        rubrics="Гостиница",
    ),
    SearchParams(question="Лучшие бары с коктейлями", keywords="коктейли", rubrics="Бар, паб"),
    SearchParams(question="Где быстро купить продукты?", rubrics="Магазин продуктов|Супермаркет"),
    SearchParams(
        question="Доставка суши с хорошими отзывами",
        keywords="доставка",
        rubrics="Суши-бар",
    ),
    SearchParams(question="Рестораны куда можно с детьми", keywords="дети", rubrics="Ресторан"),
    SearchParams(question="Кофейни с десертами", keywords="десерты", rubrics="Кофейня"),
    SearchParams(
        question="Где купить подарки на праздник?",
        keywords="подарки",
        rubrics="Магазин подарков и сувениров",
    ),
    SearchParams(
        question="Массажные салоны с расслабляющей атмосферой",
        keywords="расслаб",
        rubrics="Массажный салон",
    ),
    SearchParams(
        question="Аптеки с круглосуточным режимом",
        keywords="круглосуточн",
        rubrics="Аптека",
    ),
    SearchParams(
        question="Магазины бытовой химии с акциями",
        keywords="акции",
        rubrics="Магазин хозтоваров и бытовой химии",
    ),
    SearchParams(question="Пиццерии с доставкой", keywords="доставк", rubrics="Пиццерия"),
    SearchParams(question="Супермаркеты рядом с домом", rubrics="Супермаркет"),
    SearchParams(
        question="Где вкусно пообедать недорого?",
        keywords="(недорого|дешево)",
        rubrics="Столовая|Быстрое питание",
    ),
    SearchParams(
        question="Стоматологии с хорошими врачами",
        keywords="спасибо",
        rubrics="Стоматологическая клиника",
    ),
    SearchParams(question="Музеи, где интересно детям", keywords="дети", rubrics="Музей"),
    SearchParams(question="Салоны сделать брови", keywords="бров", rubrics="Ногтевая студия"),
    SearchParams(question="Где заказать торт на день рождения?", rubrics="Кондитерская"),
    SearchParams(question="Лучшие шиномонтажи в районе", rubrics="Шиномонтаж"),
    SearchParams(question="Где можно заказать бизнес-ланч?", keywords="бизнес.?ланч"),
    SearchParams(
        question="Где хорошо делают педикюр?",
        keywords="педикюр",
        rubrics="Ногтевая студия",
    ),
    SearchParams(
        question="Торговые центры с фуд-кортом",
        keywords="фуд-?корт",
        rubrics="Торговый центр",
    ),
    SearchParams(question="Фитнес-клубы с бассейном", keywords="бассейн", rubrics="Фитнес-клуб"),
    SearchParams(
        question="Парикмахерские с детскими мастерами",
        keywords="(дет|ребен)",
        rubrics="Парикмахерская",
    ),
    SearchParams(question="Где есть магазины электроники?", rubrics="Магазин электроники"),
    SearchParams(
        question="Магазины алкоголя с широким выбором",
        keywords="выбор",
        rubrics="Магазин алкогольных напитков",
    ),
    SearchParams(question="Кальянные с уютной атмосферой", keywords="уют", rubrics="Кальян-бар"),
    SearchParams(
        question="Клиники с консультацией терапевта",
        keywords="терапевт",
        rubrics="Медцентр, клиника",
    ),
    SearchParams(question="Автомойки", rubrics="Автомойка"),
    SearchParams(
        question="Строительные магазины с доставкой",
        keywords="доставка",
        rubrics="Строительный магазин",
    ),
    SearchParams(question="Места для свиданий", keywords="(романтическ|свидание)"),
    SearchParams(
        question="Магазины одежды с примерочными",
        keywords="примерочные",
        rubrics="Магазин одежды",
    ),
    SearchParams(question="Спа-салоны с массажем", keywords="массаж", rubrics="Спа-салон"),
    SearchParams(question="Покажи авто детейлинги", keywords="детейлинг"),
    SearchParams(
        question="Автосалоны с тест-драйвом",
        keywords="тест-?драйв",
        rubrics="Автосалон",
    ),
    SearchParams(question="Где подают хороший капучино?", keywords="капучино"),
    SearchParams(
        question="Магазины с большим выбором цветов",
        keywords="большой выбор цветов",
        rubrics="Магазин цветов",
    ),
    SearchParams(question="Эпиляция в салонах красоты", rubrics="Эпиляция"),
    SearchParams(
        question="Где можно покрасить волосы?",
        keywords="краси(ть|ла)",
        rubrics="Салон красоты|Парикмахерская",
    ),
    SearchParams(
        question="Диагностические центры с УЗИ",
        keywords="УЗИ",
        rubrics="Диагностический центр",
    ),
    SearchParams(question="Пекарни со свежим хлебом", keywords="свежее", rubrics="Пекарня"),
    SearchParams(question="Где можно поесть роллы?", keywords="роллы", rubrics="Суши-бар"),
    SearchParams(question="Пункты выдачи", rubrics="Пункт выдачи"),
    SearchParams(
        question="Где есть развлечения для детей?",
        keywords="(для детей|детям)",
        rubrics="Развлекательный центр",
    ),
    SearchParams(
        question="Лучшие косметологии с лазерными процедурами",
        keywords="лазер",
        rubrics="Косметология",
    ),
    SearchParams(
        question="Магазины с посудой и товарами для кухни",
        keywords="посуд",
        rubrics="Товары для дома",
    ),
]

not_found_keywords = []
low_results = []
low_results_treshold = 2
result_data = []

for params in keywords_by_phrases:
    searchres = df

    if params.rubrics:
        searchres = searchres[searchres["rubrics"].str.contains(params.rubrics, regex=True, case=False, na=False)]
    if params.keywords:
        searchres = searchres[searchres["text"].str.contains(params.keywords, regex=True, case=False, na=False)]

    if len(searchres) == 0:
        not_found_keywords.append(params.keywords or params.rubrics)
        continue
    elif len(searchres) < low_results_treshold:
        low_results.append(params.keywords or params.rubrics)

    searchres["question"] = params.keywords or params.rubrics

    result_data.append(
        {
            "question": params.question,
            "names_ru": ";".join(searchres["name_ru"].values.tolist()),
        }
    )
    # print(f"{params.question},{";".join(searchres["name_ru"].values.tolist())}")


if len(not_found_keywords) > 0:
    print(f"\nNot found:\n- {'\n- '.join(not_found_keywords)}")
else:
    print("ALL FOUND")


print(f"\nLow results count:\n- {'\n- '.join(low_results)}")

pd.DataFrame(result_data).to_csv("../data/manual_questions/embeddings_eval.csv", index=False)

  searchres = searchres[searchres["text"].str.contains(params.keywords, regex=True, case=False, na=False)]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  searchres["question"] = params.keywords or params.rubrics
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  searchres["question"] = params.keywords or params.rubrics
  searchres = searchres[searchres["text"].str.contains(params.keywords, regex=True, case=False, na=False)]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats 

ALL FOUND

Low results count:
- (недорого|дешево)
- большой выбор цветов


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  searchres["question"] = params.keywords or params.rubrics
  searchres = searchres[searchres["text"].str.contains(params.keywords, regex=True, case=False, na=False)]
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  searchres["question"] = params.keywords or params.rubrics
  searchres = searchres[searchres["text"].str.contains(params.keywords, regex=True, case=False, na=False)]
