# Лабораторная работа №5 Поисковая система на тегах.

**Цель:**

Научиться разделить места отлова исключений и момент выбора сообщения об
ошибке.

**Смысл:**

Часто в приложениях выдаются неиформативные сообщения об ошибках из-за того,
что невозможно на этапе разработке предугадать. что явялется причиной
возникновения соотвествующего исключения.

**Задача.**

Каждый документ имеет массив слов вида `["tag001", "tag002"]`. Назовем такие слова
тэгами. Документы хранятся в БД. Для решения задачи можно выбрать любую БД.
Указание Если используется реляционная БД, то для поиска по массиву можно
использовать полнотекстовый поиск по полю, если БД не поддерживает работу с json,
как, например, PostgreSQL.

1. Реализовать операцию поиска по произвольному набору набору тэгов. Операция
должна поддерживать пейджинг (полчить страницу N, в каждой страницы по M
документов.).
2. Реализовать запросы - найти документы, которые не содержат tagXXX.
Указание Решение этой задачи в лоб - приводит к полному перебору, чтобы этого
избежать, необходимо ввести специальный тэг, который означает отсутсвие другого
тэга. Тогда задача сводится к предыдущей. Только необходимо контролировать на
уровне встакски, что тэг и тэг, обозначающий его отсуствие невозможно было вставить
в один документ.

In [2]:
import urllib.parse as up
import psycopg2

In [3]:
class DB:
    def __init__(self, url):
        up.uses_netloc.append("postgres")
        self.url = up.urlparse(url)
        self.connection = psycopg2.connect(database=self.url.path[1:], user=self.url.username, password=self.url.password, host=self.url.hostname, port=self.url.port)
        self.cursor = self.connection.cursor()
        self.cursor.execute("CREATE TABLE documents "
                           "(id SERIAL PRIMARY KEY,"
                           "name VARCHAR(255) NOT NULL,"
                           "text TEXT NOT NULL);")
        self.connection.commit()

    def add_data(self, values):
        query = "INSERT INTO documents (name, text) VALUES (%s, %s)"
        self.cursor.executemany(query, values)
        self.connection.commit()

    def search_by_tag(self, tags, is_contains_tags=True, number_of_page=1, number_of_docs_in_page=2):
        if not is_contains_tags:
            tags = ', '.join(['not' + tag for tag in tags.split(", ")])

        self.cursor.execute(
            f"SELECT * FROM documents WHERE \"text\" @@ plainto_tsquery('{tags}') "
            f"ORDER BY id ASC LIMIT {number_of_page * number_of_docs_in_page};"
        )
        result = self.cursor.fetchall()
        print(result[(number_of_page - 1) * number_of_docs_in_page:])


In [4]:
db_url = "postgres://erpqquax:FeDGKDDqYZz2jECHuW3Rve7I9A3-sRdD@snuffleupagus.db.elephantsql.com/erpqquax"
db = DB(db_url)

In [5]:
new_values = [('DOC1', 'tag001, tag002, tag003, notag004, notag005, tag006'),
                  ('DOC2', 'tag001, tag002, notag003, tag004, tag005, tag006'),
                  ('DOC3', 'tag001, notag002, tag003, notag004, notag005, tag006'),
                  ('DOC4', 'tag001, tag002, notag003, tag004, tag005, tag006'),
                  ('DOC5', 'tag001, tag002, tag003, notag004, notag005, tag006'),
                  ('DOC6', 'notag001, tag002, notag003, notag004, notag005, tag006'),
                  ('DOC7', 'tag001, notag002, notag003, notag004, notag005, tag006'),
                  ('DOC8', 'notag001, tag002, tag003, tag004, tag005, tag006'),
                  ('DOC9', 'tag001, tag002, notag003, tag004, notag005, tag006'),
                  ('DOC10', 'nottag001, nottag002, tag003, tag004, tag005, tag006'),
                  ('DOC11', 'nottag001, tag002, nottag003, tag004, tag005, tag006'),
                  ('DOC12', 'nottag001, tag002, tag003, tag004, nottag005, tag006'),
                  ('DOC13', 'nottag001, nottag002, nottag003, nottag004, nottag005, tag006')]

In [6]:
db.add_data(new_values)

In [7]:
db.cursor.execute("select * from documents")
db.cursor.fetchall()

[(1, 'DOC1', 'tag001, tag002, tag003, notag004, notag005, tag006'),
 (2, 'DOC2', 'tag001, tag002, notag003, tag004, tag005, tag006'),
 (3, 'DOC3', 'tag001, notag002, tag003, notag004, notag005, tag006'),
 (4, 'DOC4', 'tag001, tag002, notag003, tag004, tag005, tag006'),
 (5, 'DOC5', 'tag001, tag002, tag003, notag004, notag005, tag006'),
 (6, 'DOC6', 'notag001, tag002, notag003, notag004, notag005, tag006'),
 (7, 'DOC7', 'tag001, notag002, notag003, notag004, notag005, tag006'),
 (8, 'DOC8', 'notag001, tag002, tag003, tag004, tag005, tag006'),
 (9, 'DOC9', 'tag001, tag002, notag003, tag004, notag005, tag006'),
 (10, 'DOC10', 'nottag001, nottag002, tag003, tag004, tag005, tag006'),
 (11, 'DOC11', 'nottag001, tag002, nottag003, tag004, tag005, tag006'),
 (12, 'DOC12', 'nottag001, tag002, tag003, tag004, nottag005, tag006'),
 (13,
  'DOC13',
  'nottag001, nottag002, nottag003, nottag004, nottag005, tag006')]

In [8]:
db.search_by_tag("tag001")


[(1, 'DOC1', 'tag001, tag002, tag003, notag004, notag005, tag006'), (2, 'DOC2', 'tag001, tag002, notag003, tag004, tag005, tag006')]


In [9]:
db.search_by_tag("tag001, tag002")


[(1, 'DOC1', 'tag001, tag002, tag003, notag004, notag005, tag006'), (2, 'DOC2', 'tag001, tag002, notag003, tag004, tag005, tag006')]


In [10]:
db.search_by_tag("tag001", False)


[(10, 'DOC10', 'nottag001, nottag002, tag003, tag004, tag005, tag006'), (11, 'DOC11', 'nottag001, tag002, nottag003, tag004, tag005, tag006')]


In [11]:
db.search_by_tag("tag001", True, 1, 2)


[(1, 'DOC1', 'tag001, tag002, tag003, notag004, notag005, tag006'), (2, 'DOC2', 'tag001, tag002, notag003, tag004, tag005, tag006')]


In [12]:
db.search_by_tag("tag001", True, 2, 2)


[(3, 'DOC3', 'tag001, notag002, tag003, notag004, notag005, tag006'), (4, 'DOC4', 'tag001, tag002, notag003, tag004, tag005, tag006')]


In [13]:
db.search_by_tag("tag001", False, 2, 2)


[(12, 'DOC12', 'nottag001, tag002, tag003, tag004, nottag005, tag006'), (13, 'DOC13', 'nottag001, nottag002, nottag003, nottag004, nottag005, tag006')]


In [14]:
db.search_by_tag("tag006", False, 1, 2)


[]


In [15]:
db.search_by_tag("tag004", False, 1, 4)


[(13, 'DOC13', 'nottag001, nottag002, nottag003, nottag004, nottag005, tag006')]
