# **Отчёт о выполнении работы по теме «Основы веб-скрапинга»**
![](https://drive.google.com/uc?export=view&id=1hWGH-1bhAzCdMJwQbuXbqC6vAwkbLHVM)
***

In [1]:
import requests
from io import StringIO
import pandas as pd
from bs4 import BeautifulSoup
import re
from lxml import html
import time

%load_ext lab_black

In [2]:
#!pip install nb_black

# **Доработанное задание**

<div class="alert alert-block alert-info">

## **Обязательная часть**

Вам необходимо написать функцию, которая будет основана на поиске по сайту [habr.com](https://habr.com/ru/search/). Функция в качестве параметра должна принимать список запросов для поиска (например, ['python', 'анализ данных']) и на основе материалов, попавших в результаты поиска по каждому запросу, возвращать датафрейм вида:

><дата> - <заголовок> - <ссылка на материал>

В рамках задания предполагается работа только с одной (первой) страницей результатов поисковой выдачи для каждого запроса. Материалы в датафрейме не должны дублироваться, если они попадали в результаты поиска для нескольких запросов из списка.
***

In [3]:
def search_habr_megapost(requests_list):

    """Функция осуществляет поиск по сайту habr.com на основании списка запросов и возвращает первую страницу результатов поиска по каждому слову из списка.
    Дубликаты найденных материалов удаляются"""

    df_result = pd.DataFrame()
    for search_query in requests_list:
        response = requests.get(
            "https://habr.com/ru/search/", params={"q": search_query}
        )
        soup = BeautifulSoup(response.text, "html")
        find_ = soup.find_all("article", class_="tm-articles-list__item")
        for el in find_:
            try:
                title = el.find(
                    "h2",
                    class_="tm-article-snippet__title tm-article-snippet__title_h2",
                ).text
                link = el.find("a", "tm-article-snippet__title-link").get("href")
                date = el.find(
                    "span", "tm-article-snippet__datetime-published"
                ).text.split(" в ")[0]
            except AttributeError:
                title = el.find(
                    "a", class_="tm-megapost-snippet__link tm-megapost-snippet__card"
                ).text
                link = el.find(
                    "a", "tm-megapost-snippet__link tm-megapost-snippet__card"
                ).get("href")
                date = el.find(
                    "time", "tm-megapost-snippet__datetime-published"
                ).text.split(" в ")[0]
            row = {"date": date, "title": title, "link": "https://habr.com" + link}
            df_result = pd.concat([df_result, pd.DataFrame([row])])
        df_result = df_result.drop_duplicates().reset_index(drop=True)
    return df_result

In [4]:
requests_list = ["python", "SDSJ", "head"]
search_habr_megapost(requests_list)

Unnamed: 0,date,title,link
0,20 января,Курс «Python для инженеров». Старт 3 потока 31 января,https://habr.com/ru/company/southbridge/news/t/646825/
1,13 декабря 2021,"Жаждущим автоматизации: открытый урок «ChatOps c Errbot на Python», 21 декабря",https://habr.com/ru/company/southbridge/news/t/595093/
2,21 апреля 2020,"Вышел Python 2.7.18, последний релиз ветки Python 2.x",https://habr.com/ru/news/t/498364/
3,6 июля 2021,Python Community Meetup 8/07: видео и материалы встречи,https://habr.com/ru/company/raiffeisenbank/news/t/566370/
4,13 января,"Открытый урок «Пишем Custom Prometheus Exporter на Python», 19 января",https://habr.com/ru/company/southbridge/news/t/645485/
...,...,...,...
40,17 сентября 2012,Паттерны проектирования (Head First Design Patterns),https://habr.com/ru/company/piter/blog/151626/
41,29 марта 2018,Книга «Head First. Паттерны проектирования. Обновленное юбилейное издание»,https://habr.com/ru/company/piter/blog/352202/
42,18 июня 2021,"Rust 1.53.0: IntoIterator для массивов, ""|"" в шаблонах, Unicode-идентификаторы, поддержка имени HEAD-ветки в Cargo",https://habr.com/ru/post/563548/
43,22 ноября 2007,Firefox и HTTP HEAD метод,https://habr.com/ru/post/16539/


In [5]:
#!pip install mitosheet

<div class="alert alert-block alert-info">

## **Дополнительная часть (необязательная)**

Функция из обязательной части задания должна быть расширена следующим образом:

- кроме списка ключевых слов для поиска необходимо объявить параметр с количеством страниц поисковой выдачи. Т.е. при передаче в функцию аргумента 4 необходимо получить материалы с первых 4 страниц результатов;
- в датафрейме должны быть столбцы с полным текстом найденных материалов и количеством лайков:
> <дата> - <заголовок> - <ссылка на материал> - <текст материала> - <количество лайков>

***

In [5]:
def search_habr_full(requests_list, page_count):

    """Функция осуществляет поиск по сайту habr.com на основании списка запросов и возвращает указанное число страниц"""

    df_result = pd.DataFrame()
    for search_query in requests_list:
        for page in range(1, page_count + 1):
            url = "https://habr.com/ru/search/page" + str(page) + "/"
            params = {"q": search_query}
            response = requests.get(url, params=params)
            time.sleep(0.33)
            soup = BeautifulSoup(response.text, "html")
            find_ = soup.find_all("article", class_="tm-articles-list__item")
            df_page_result = pd.DataFrame()
            for el in find_:
                # здесь название, ссылка и "дата" в виде текста, это работает
                try:
                    title = el.find(
                        "h2",
                        class_="tm-article-snippet__title tm-article-snippet__title_h2",
                    ).text
                    link = el.find("a", "tm-article-snippet__title-link").get("href")
                    date = el.find(
                        "span", "tm-article-snippet__datetime-published"
                    ).text.split(" в ")[0]
                except AttributeError:
                    title = el.find(
                        "a",
                        class_="tm-megapost-snippet__link tm-megapost-snippet__card",
                    ).text
                    link = el.find(
                        "a", "tm-megapost-snippet__link tm-megapost-snippet__card"
                    ).get("href")
                    date = el.find(
                        "time", "tm-megapost-snippet__datetime-published"
                    ).text.split(" в ")[0]
                # здесь лайки. class лайков зависит от качественной характеристики оценки, перебираем возмождные варианты
                for element_class in [
                    " ",
                    " tm-votes-meter__value_positive ",
                    " tm-votes-meter__value_negative ",
                ]:
                    class_ = (
                        "tm-votes-meter__value tm-votes-meter__value"
                        + element_class
                        + "tm-votes-meter__value_appearance-article tm-votes-meter__value_rating"
                    )
                    try:
                        likes = el.find("span", class_=class_).text
                        break
                    except AttributeError:
                        pass
                # здесь заканчиваем разбирать лайки и приступаем к поиску полного текста поста по ранее найденной ссылке
                req = requests.get("https://habr.com" + link).text
                soup_full_text = BeautifulSoup(req)
                # здесь перебираем номера версий для постов. Вообще-то версий, если проверять вручную, всего 2, но, для надёжности, сделаем больше
                version = 1
                while version <= 10:
                    try:
                        class_ = (
                            "article-formatted-body article-formatted-body article-formatted-body_version-"
                            + str(version)
                        )
                        full_text = soup_full_text.find(
                            "div", class_=class_
                        ).text.strip()
                        full_text = re.sub(r"\s+", " ", full_text)
                        break
                    except AttributeError:
                        version += 1
                        full_text = "megapost"
                # здесь неуклюже вытаскиваем полный текст из этиго вашего megapost'a
                if full_text == "megapost":
                    resp = requests.get("https://habr.com" + link)
                    soup = BeautifulSoup(resp.text, "html")
                    find_title_text = soup.find_all(
                        "div", class_="t119__preface t-descr t-opacity_70"
                    )
                    find_text = soup.find_all("div", class_="t-text t-text_md")
                    full_text = ""
                    try:
                        i = 0
                        while True:
                            full_text += find_title_text[i].text
                            i += 1
                    except IndexError:
                        pass
                    try:
                        j = 0
                        while True:
                            full_text += find_text[j].text
                            j += 1
                    except IndexError:
                        pass
                # разобрались со всеми данными, формируем страницу
                row = {
                    "date": date,
                    "title": title,
                    "link": "https://habr.com" + link,
                    "text": full_text,
                    "likes": likes,
                }
                df_page_result = pd.concat([df_page_result, pd.DataFrame([row])])
                df_page_result = df_page_result.drop_duplicates()
                # присоединяем страницу к ранее найденному
                df_result = pd.concat([df_result, df_page_result])
    # объединяем найденное и возаращаем результат поиска
    return df_result.drop_duplicates().reset_index(drop=True)

In [7]:
# SDSJ
search_habr_full(requests_list=["sql", "SDSJ"], page_count=1)

Unnamed: 0,date,title,link,text,likes
0,25 октября 2021,Ошибка в экспоненциальной форме записи чисел в MySQL сделала клиентов AWS WAF уязвимыми для внедрения SQL,https://habr.com/ru/news/t/585346/,"Этичные хакеры из Go Secure обнаружили ошибку в MySQL, угрожающую безопасности. Из-за неё клиенты AWS Web Application Firewall (WAF) остались незащищёнными от внедрения SQL. Ещё одна исследовательская группа дополнительно подтвердила, что это влияет на безопасность, и предоставила один из способов, как исправить эту ошибку.В 2013 году в презентации BlackHat под названием «Методы оптимизации и обфуксации SQL» Роберто Сальгадо представил несколько методов обхода для SQL-внедрения. Доклад включал методы для MySQL и MariaDB. В 2018 году хакеры из GoSecure пересмотрели эту презентацию и начали проводить тесты с MySQL и MariaDB. Они обнаружили, что ошибка экспоненциальной формы записи чисел, упомянутая в презентации Сальгадо, имела более широкие последствия. Оказывается, с её помощью можно добиться интересных вещей – интересных с точки взломщика. Эта ошибка позволяет синтаксису SQL оставаться рабочим, даже если он не должен быть таковым, что сбивает с толку средства защиты.Экспоненциальная форма записи чисел (далее экспоненциальная запись) и, в частности, функция «e», была интегрирована во многие языки программирования, включая SQL. Неясно, является ли это частью всех реализаций SQL, но это часть реализации MySQL/MariaDB. Вот пример экспоненциальной записи, интегрированной в SQL-запрос из той самой презентации Роберто Сальгадо 2013 года. Обозначение «e» будет проигнорировано, поскольку оно используется в недопустимом контексте:SELECT table_name FROM information_schema 1.e.tablesТаким образом, предыдущий запрос будет вести себя так же, как:SELECT table_name FROM information_schema .tablesС помощью пары тестов обнаружено, что после команды «1.e» можно использовать следующие символы:( ) . , | & % * ^ /Чтобы проиллюстрировать проблему, авторы обзора привели пример набора данных:Чего можно достичь с помощью команды «1.e» и символов за ней:Приведённый выше запрос равен следующему запросу:Примечательно, что цифра или число в команде «1.e» значения не имеет. Между точкой и функцией «е» может быть любое число или любой набор цифр, но точка является обязательной (например, «1337.1337e» также работает). AWS — продукт CloudFront, который можно комбинировать с AWS WAF с определенными правилами. Они помогают компаниям защитить свои веб-приложения от взлома. Однако во время взаимодействия авторы обнаружили, что правило «База данных SQL» в AWS WAF можно обойти с помощью ошибки, указанной выше.Простой запрос может показать, что WAF блокирует запрос с помощью известной команды 1′ или ′1′=′1:Если использовать экспоненциальную запись в этом простом запросе, получится следующее:Одного такого доказательства достаточно, чтобы объяснить, почему и как работает эта ошибка и продемонстрировать уязвимость безопасности для всех заинтересованных лиц.Сначала ошибку в MySQL и MariaDB проигнорировали, так как никто не увидел последствий. Это никак не влияло на данные и не позволило повышать права, пока не нашелся обход WAF. Теперь, когда есть уязвимость в безопасности, можно выяснить, почему появилась такая ошибка и из-за чего она так себя ведет.Во-первых, MySQL и MariaDB работают, находя признаки в запросе, такие как: числа, строки, комментарии, конец строки и т. д. Как только признак распознан, нужная функция анализирует его.Во-вторых, кусок рассматриваемого кода проверяет целые или вещественные числа, поскольку сначала работает этот сегмент:В-третьих, сегмент кода находит точку и попадает в функцию действительных чисел, и это тот сегмент, который нужен для понимания ошибки:В этот момент сегмент кода уже обработал цифры перед точкой и начинает обрабатывать все цифры после точки. Потом условие проверяет, является ли символ буквой «e» или «E» и переходит к следующему символу. Если следующий за «е» символ не является цифрой, состояние устанавливается в «MY_LEX_CHAR», а затем завершается оператором «break», который возвращается в начало варианта переключения.Наконец, следующим сегментом кода достигнут нужный оператор, и здесь признак полностью забывается и удаляется из запроса:Как видно из примера, оператор «MY_LEX_CHAR» идёт через оператор «MY_LEX_SKIP», потому что, как можно понять из комментария «Unknown or single char token» (то есть неизвестный признак или символ) MySQL просто не знает, что с этим делать в данный момент. В случае с оператором «MY_LEX_SKIP» всё завершается возвратом символа. Если символ не является закрывающей круглой скобкой - «)», то переходим к оператору «MY_LEX_START», который будет искать новый признак. В любом случае, даже если он заканчивается закрытой скобкой, всё равно признак не возвращается, а отбрасывается.Для исправления ошибки достаточно было бы прервать запрос, если признак неверен, вместо того, чтобы его пропустить. Когда MySQL или MariaDB находят начало признака с плавающей запятой и что за ним не идет цифра, они должен прервать запрос.Хакеры отправили исправление в проекты MySQL и MariaDB. В данном случае это не проблема безопасности в MySQL/MariaDB как таковая. Любой WAF или аналогичные продукты игнорируют запросы SQL, сформированные таким образом, поэтому уязвимы. Если запросы в неправильном формате, продукты безопасности не будут рассматривать их как действительный код SQL и просто проигнорируют. Поэтому представленное исправление должно увеличить шансы на быстрое решение.Позже хакеры решили оценить ModSecurity, популярный WAF для Apache и nginx. Он включает в себя библиотеку libinjection, на которую влияет представленная ошибка.Ниже демонстрация возможности modsecurity блокировать вредоносный шаблон для SQL-внедрения. Возвращается запрещённая страница, что является следствием обнаружения.Записи из modsecurity, в которых подчеркивается, что библиотека libinjection была запущена:Обойти эту защиту можно, поставив перед буквальным выражением экспоненциальную запись «1.e». Библиотека Libinjection маркирует этот признак и определяет типы контекстных разделов как в предыдущем случае: комментарии и строки.Libinjection рассматривает строку «1.e» как неизвестную команду SQL и приходит к выводу, что это скорее часть текста, чем часть кода. Такое поведение библиотеки libinjection возможно, когда она встречает неизвестную функции SQL. OWASP Core Rule Set (CRS) указали, что эффективная защита доступна ModSecurity, если установлен уровень в классификации ModSecurity «paranoia level 2». В нём есть функционал к обнаружению скрытых атак.Эта проблема безопасности не похожа на многие другие, так как она может быть легко преуменьшена до простой ошибки синтаксического анализатора. AWS понял риск и решил исправить это в своём WAF, тем более, что это ситуация оставляла клиентов Amazon незащищёнными. Есть надежда, что в перспективе MySQL и MariaDB исправят ошибку, и через десяток лет метод исправления, показанный в данной статье, не понадобится.",+25
1,7 апреля,Яндекс Практикум запускает курс «SQL для работы с данными и аналитики»,https://habr.com/ru/company/yandex_praktikum/news/t/659427/,"Яндекс Практикум разработал курс «SQL для работы с данными и аналитики». За полтора месяца студенты с нуля пройдут путь от новичка до уверенного пользователя SQL. Программа предназначена для начинающих и продолжающих обучение аналитиков, продакт- и проджект-менеджеров, специалистов техподдержки, UX-исследователей и новичков, которые хотят составлять SQL-запросы и работать с СУБД, даже если у них нет опыта в базах данных и html. Выпускники получат удостоверение о повышении квалификации. Чему вы научитесь на курсе Проводить маркетинговые исследования, чтобы оценить успешность бизнеса или продукта. Находить и отфильтровывать данные при помощи SQL-запросов. Рассчитывать продуктовые метрики, чтобы сравнивать товары и услуги. Хранить, обрабатывать и управлять данными в СУБД. Как проходит обучение Курс занимает 1,5 месяца. Обучение построено так, чтобы сразу отрабатывать полученные знания на практике. Основная часть: теория и SQL-тренажёр. Учебный материал разбит на два блока: базовый SQL и продвинутый SQL. Каждый из блоков представлен в двух форматах: текст и видеоуроки. Каждый теоретический блок сразу закрепляется на практике — в SQL-тренажёре. Все задания представляют из себя именно то, с чем можно столкнуться в реальных рабочих ситуациях. Еженедельные вебинары с наставником. На вебинарах студенты смогут задать любые вопросы, связанные как с решением учебных задач, так и с тем, с чем они столкнулись в своих реальных рабочих процессах. Курсовые проекты. По итогам прохождения каждого из двух блоков студенты выполнят бизнес-проект на основе требований заказчиков. Дополнительная теория и практика в SQL-тренажёре. Помимо основной программы, на курсе есть дополнительный блок теории, который поможет больше узнать о базах данных и их применении, а также освоить дополнительные инструменты и возможности SQL. В тренажёре есть задачи разной сложности. Их можно решать в свободном режиме, сравнивать свои решения с эталонными и исправлять, если допустили ошибку. В ходе обучения студентов сопровождают наставники, кураторы и служба поддержки. Выпускники станут частью комьюнити, которое объединяет специалистов и единомышленников с экспертизой в разных областях. Вместе с сообществом вы сможете обмениваться опытом, разбирать сложные задачи и помогать друг другу в учёбе. Подробности Курс длится 1,5 месяца. Для успешного прохождения мы рекомендуем уделять обучению 8-10 часов в неделю. На курсе есть бесплатная вводная часть: вы можете выполнить несколько заданий в SQL-тренажёре, примерить процесс обучения на себя и после этого принять решение. Ознакомиться с программой и записаться на курс можно на сайте.",+2
2,30 июня 2021,Решения Quest для управления и мониторинга Microsoft SQL Server — анонс вебинара,https://habr.com/ru/company/galssoftware/news/t/565380/,,+3
3,24 августа,"Python, SQL, С и Java стали самыми популярными языками программирования в ежегодном рейтинге IEEE Spectrum",https://habr.com/ru/news/t/684376/,"Американский журнал IEEE Spectrum опубликовал ежегодный рейтинг языков программирования. Для оценки относительной популярности разных языков рейтинг учитывает несколько показателей из разных источников, таких как GitHub, Google, Stack Overflow, Twitter и IEEE Xplore. Всего было составлено три рейтинга с упором на различные ключевые факторы. Самыми популярными языками в этих рейтингах стали Python, SQL, С и Java. Первый рейтинг Spectrum ориентирован на предпочтения и профессиональное мнение инженеров IEEE (Института инженеров электротехники и электроники). Здесь в пятёрку лучших входят Python, C, C++, C# и Java. При этом журнал отмечает, что совокупная популярность C и больших C-подобных языков намного превосходит Python. В пятёрку наименее популярных языков в этом рейтинге попали: Elm, Raku, WebAssembly, CoffeeScript, Eiffel.Рейтинг Jobs ориентируется на данные с сайта вакансий IEEE и CareerBuilder. В этом рейтинге в пятёрке лучших находятся SQL, Java, Python, JavaScript и С#. Нижние пять строчек занимают Raku, Eiffel, F#, J, D.Просмотрев сотни вакансий, аналитики пришли к выводу, что лидерство SQL заключается не в том, что многие работодатели ищут только программистов SQL. Как правило, работодателям нужно знание какого-то определённого языка вместе с SQL. Таким образом, IEEE отмечает, что знание SQL может стать «очень ценной стрелой в колчане». Третий рейтинг Trending основан на показателях роста популярности, и в нём снова лидирует Python. Кроме него в пятёрке самых популярных оказались Java, C, JavaScript и C++. Нижние пять строчек занимают TLC, Elm, WebAssembly, CoffeeScript и Eiffel.В середине августа этого года TIOBE Software представила свой рейтинг самых популярных языков программирования. По сравнению с прошлым годом Python прибавил в популярности 3,56%, переместившись со второго на первое место с показателем 15,42%. Это самый высокий показатель популярности данного языка программирования за всё время существования рейтинга. Самый низкий был зафиксирован в 2003 году (0,97%), когда Pyhton занимал 13-е место в рейтинге.",+3
4,30 октября,Топ полезных SQL-запросов для PostgreSQL,https://habr.com/ru/post/696274/,"Статей о работе с PostgreSQL и её преимуществах достаточно много, но не всегда из них понятно, как следить за состоянием базы и метриками, влияющими на её оптимальную работу. В статье подробно рассмотрим SQL-запросы, которые помогут вам отслеживать эти показатели и просто могут быть полезны как пользователю.Зачем следить за состоянием PostgreSQL?Мониторинг базы данных также важен, как и мониторинг ваших приложений. Необходимо отслеживать процессы более детализировано, чем на системном уровне. Для этого можно отслеживать следующие метрики:Насколько эффективен кэш базы данных?Какой размер таблиц в вашей БД?Используются ли ваши индексы?И так далее.Мониторинг размера БД и её элементов1. Размер табличных пространствSELECT spcname, pg_size_pretty(pg_tablespace_size(spcname)) FROM pg_tablespace WHERE spcname<>'pg_global';После запуска запроса вы получите информацию о размере всех tablespace созданных в вашей БД. Функция pg_tablespace_size предоставляет информацию о размере tablespace в байтах, поэтому для приведения к читаемому виду мы также используем функцию pg_size_pretty. Пространство pg_global исключаем, так как оно используется для общих системных каталогов.2. Размер баз данныхSELECT pg_database.datname, pg_size_pretty(pg_database_size(pg_database.datname)) AS size FROM pg_database ORDER BY pg_database_size(pg_database.datname) DESC;После запуска запроса вы получите информацию о размере всех баз данных, созданных в рамках вашего экземпляра PostgreSQL.3. Размер схем в базе данныхSELECT A.schemaname, pg_size_pretty (SUM(pg_relation_size(C.oid))) as table, pg_size_pretty (SUM(pg_total_relation_size(C.oid)-pg_relation_size(C.oid))) as index, pg_size_pretty (SUM(pg_total_relation_size(C.oid))) as table_index, SUM(n_live_tup) FROM pg_class C LEFT JOIN pg_namespace N ON (N.oid = C .relnamespace) INNER JOIN pg_stat_user_tables A ON C.relname = A.relname WHERE nspname NOT IN ('pg_catalog', 'information_schema') AND C .relkind <> 'i' AND nspname !~ '^pg_toast' GROUP BY A.schemaname;После запуска запроса вы получите детальную информацию о каждой схеме в вашей базе данных: суммарный размер всех таблиц, суммарный размер всех индексов, общий суммарный размер схемы и суммарное количество строк во всех таблицах схемы.4. Размер таблицSELECT schemaname, C.relname AS ""relation"", pg_size_pretty (pg_relation_size(C.oid)) as table, pg_size_pretty (pg_total_relation_size (C.oid)-pg_relation_size(C.oid)) as index, pg_size_pretty (pg_total_relation_size (C.oid)) as table_index, n_live_tup FROM pg_class C LEFT JOIN pg_namespace N ON (N.oid = C .relnamespace) LEFT JOIN pg_stat_user_tables A ON C.relname = A.relname WHERE nspname NOT IN ('pg_catalog', 'information_schema') AND C.relkind <> 'i' AND nspname !~ '^pg_toast' ORDER BY pg_total_relation_size (C.oid) DESCПосле запуска запроса вы получите детальную информацию о каждой таблице с указанием её схемы, размера без индексов, размере индексов, суммарном размере таблицы и индексов, а также количестве строк в таблице.Контроль блокировокЕсли вашей базой данных пользуется большего одного пользователя, то всегда есть риск взаимной блокировки запросов и появления очереди с большим количеством запросов, которые будут находиться в ожидание. Чаще всего такое может возникнуть при обработке большого количества запросов, использующих одинаковые таблицы. Они будут мешать завершиться друг другу и не давать запуститься другим запросам. Больше об этом можно прочитать в официальной документации. Мы же рассмотрим способы нахождения блокировок и их снятия.1. Мониторинг блокировокSELECT COALESCE(blockingl.relation::regclass::text, blockingl.locktype) AS locked_item, now() - blockeda.query_start AS waiting_duration, blockeda.pid AS blocked_pid, blockeda.query AS blocked_query, blockedl.mode AS blocked_mode, blockinga.pid AS blocking_pid, blockinga.query AS blocking_query, blockingl.mode AS blocking_mode FROM pg_locks blockedl JOIN pg_stat_activity blockeda ON blockedl.pid = blockeda.pid JOIN pg_locks blockingl ON (blockingl.transactionid = blockedl.transactionid OR blockingl.relation = blockedl.relation AND blockingl.locktype = blockedl.locktype) AND blockedl.pid <> blockingl.pid JOIN pg_stat_activity blockinga ON blockingl.pid = blockinga.pid AND blockinga.datid = blockeda.datid WHERE NOT blockedl.granted AND blockinga.datname = current_database();Данный запрос показывает всю информацию о заблокированных запросах, а также информацию о том, кем они заблокированы.2. Снятие блокировокSELECT pg_cancel_backend(PID_ID); OR SELECT pg_terminate_backend(PID_ID);PID_ID - это ID запроса, который блокирует другие запросы. Чаще всего хватает отмены одного блокирующего запроса, чтобы снять блокировки и запустить всю накопившуюся очередь. Разница между pg_cancel_backend и pg_terminate_backend в том, что pg_cancel_backend отменяет запрос, а pg_terminate_backend завершает сеанс и, соответственно, закрывает подключение к базе данных. Команда pg_cancel_backend более щадящая и в большинстве случаев вам её хватит. Если нет, используем pg_terminate_backend. Показатели оптимальной работы вашей БД1. Коэффициент кэширования (Cache Hit Ratio)SELECT sum(heap_blks_read) as heap_read, sum(heap_blks_hit) as heap_hit, sum(heap_blks_hit) / (sum(heap_blks_hit) + sum(heap_blks_read)) as ratio FROM pg_statio_user_tables; Коэффициент кэширования - это показатель эффективности чтения, измеряемый долей операций чтения из кэша по сравнению с общим количеством операций чтения как с диска, так и из кэша. За исключением случаев использования хранилища данных, идеальный коэффициент кэширования составляет 99% или выше, что означает, что по крайней мере 99% операций чтения выполняются из кэша и не более 1% - с диска.2. Использование индексовSELECT relname, 100 * idx_scan / (seq_scan + idx_scan) percent_of_times_index_used, n_live_tup rows_in_table FROM pg_stat_user_tables WHERE seq_scan + idx_scan > 0 ORDER BY n_live_tup DESC;Добавление индексов в вашу базу данных имеет большое значение для производительности запросов. Индексы особенно важны для больших таблиц. Этот запрос показывает количество строк в таблицах и процент времени использования индексов по сравнению с чтением без индексов. Идеальные кандидаты для добавления индекса - это таблицы размером более 10000 строк с нулевым или низким использованием индекса.3. Коэффициент кэширования индексов (Index Cache Hit Rate)SELECT sum(idx_blks_read) as idx_read, sum(idx_blks_hit) as idx_hit, (sum(idx_blks_hit) - sum(idx_blks_read)) / sum(idx_blks_hit) as ratio FROM pg_statio_user_indexes;Данный коэффициент похож на обычный коэффициент кэширования, но рассчитывается на данных использования индексов.4. Неиспользуемые индексыSELECT schemaname, relname, indexrelname FROM pg_stat_all_indexes WHERE idx_scan = 0 and schemaname <> 'pg_toast' and schemaname <> 'pg_catalog'Данный запрос находит индексы, которые созданы, но не использовались в SQL-запросах.5. Раздувание базы данных (Database bloat)SELECT current_database(), schemaname, tablename, /*reltuples::bigint, relpages::bigint, otta,*/ ROUND((CASE WHEN otta=0 THEN 0.0 ELSE sml.relpages::float/otta END)::numeric,1) AS tbloat, CASE WHEN relpages < otta THEN 0 ELSE bs*(sml.relpages-otta)::BIGINT END AS wastedbytes, iname, /*ituples::bigint, ipages::bigint, iotta,*/ ROUND((CASE WHEN iotta=0 OR ipages=0 THEN 0.0 ELSE ipages::float/iotta END)::numeric,1) AS ibloat, CASE WHEN ipages < iotta THEN 0 ELSE bs*(ipages-iotta) END AS wastedibytes FROM ( SELECT schemaname, tablename, cc.reltuples, cc.relpages, bs, CEIL((cc.reltuples*((datahdr+ma- (CASE WHEN datahdr%ma=0 THEN ma ELSE datahdr%ma END))+nullhdr2+4))/(bs-20::float)) AS otta, COALESCE(c2.relname,'?') AS iname, COALESCE(c2.reltuples,0) AS ituples, COALESCE(c2.relpages,0) AS ipages, COALESCE(CEIL((c2.reltuples*(datahdr-12))/(bs-20::float)),0) AS iotta /* very rough approximation, assumes all cols */ FROM ( SELECT ma,bs,schemaname,tablename, (datawidth+(hdr+ma-(case when hdr%ma=0 THEN ma ELSE hdr%ma END)))::numeric AS datahdr, (maxfracsum*(nullhdr+ma-(case when nullhdr%ma=0 THEN ma ELSE nullhdr%ma END))) AS nullhdr2 FROM ( SELECT schemaname, tablename, hdr, ma, bs, SUM((1-null_frac)*avg_width) AS datawidth, MAX(null_frac) AS maxfracsum, hdr+( SELECT 1+count(*)/8 FROM pg_stats s2 WHERE null_frac<>0 AND s2.schemaname = s.schemaname AND s2.tablename = s.tablename ) AS nullhdr FROM pg_stats s, ( SELECT (SELECT current_setting('block_size')::numeric) AS bs, CASE WHEN substring(v,12,3) IN ('8.0','8.1','8.2') THEN 27 ELSE 23 END AS hdr, CASE WHEN v ~ 'mingw32' THEN 8 ELSE 4 END AS ma FROM (SELECT version() AS v) AS foo ) AS constants GROUP BY 1,2,3,4,5 ) AS foo ) AS rs JOIN pg_class cc ON cc.relname = rs.tablename JOIN pg_namespace nn ON cc.relnamespace = nn.oid AND nn.nspname = rs.schemaname AND nn.nspname <> 'information_schema' LEFT JOIN pg_index i ON indrelid = cc.oid LEFT JOIN pg_class c2 ON c2.oid = i.indexrelid ) AS sml ORDER BY wastedbytes DESC;Раздувание базы данных - это дисковое пространство, которое использовалось таблицей или индексом и доступно для повторного использования базой данных, но не было освобождено. Раздувание происходит при обновлении таблиц или индексов. Если у вас загруженная база данных с большим количеством операций удаления, раздувание может оставить много неиспользуемого пространства в вашей базе данных и повлиять на производительность, если его не убрать. Показатели wastedbytes для таблиц и wastedibytes для индексов покажет вам, есть ли у вас какие-либо серьезные проблемы с раздуванием. Для борьбы с раздуванием существует команда VACUUM.6. Проверка запусков VACUUMSELECT relname, last_vacuum, last_autovacuum FROM pg_stat_user_tables;Раздувание можно уменьшить с помощью команды VACUUM, но также PostgreSQL поддерживает AUTOVACUUM. О его настройке можно прочитать тут.Ещё несколько запросов, которые могут быть вам полезны1. Показывает количество открытых подключенийSELECT COUNT(*) as connections, backend_type FROM pg_stat_activity where state = 'active' OR state = 'idle' GROUP BY backend_type ORDER BY connections DESC;Показывает открытые подключения ко всем базам данных в вашем экземпляре PostgreSQL. Если у вас несколько баз данных в одном PostgreSQL, то в условие WHERE стоит добавить datname = 'Ваша_база_данных'.2. Показывает выполняющиеся запросыSELECT pid, age(clock_timestamp(), query_start), usename, query, state FROM pg_stat_activity WHERE state != 'idle' AND query NOT ILIKE '%pg_stat_activity%' ORDER BY query_start desc;Показывает выполняющиеся запросы и их длительность.ЗаключениеВсе запросы выше собраны мной из интернета при появлении каких-либо вопросов или проблем в моей базе данных. Если есть ещё запросы, которые могут быть полезны для пользователей PostgreSQL, буду рад, если вы поделитесь ими в комментариях. Надеюсь, статья поможет вам и сохранит ваше время.",+76
...,...,...,...,...,...
20,25 декабря 2017,Новый подход к спортивному анализу данных: какие шаблоны «рвет» SDSJ,https://habr.com/ru/article/344806/,"Специалистам по data science сейчас есть где разгуляться — один Kaggle с его активностью по спортивному анализу данных чего стоит. Но время идет и метрики, по которым определяются победители конкурсов, постепенно устаревают или приедаются — в большинстве случаев используются классические выборки данных. А что, если вместо этого предложить разработать полноценную модель в Docker с конечным решением-моделью?Таким путем пошел Сбербанк. В ноябре в рамках серии мероприятий по машинному обучению и искусственному интеллекту Sberbank Data Science Journey на онлайн-соревновании Data Science Contest задачи были именно «докерными». Финальное мероприятие Sberbank Data Science Day и подведение итогов конкурса с призовым фондом в 2 миллиона рублей прошло 11 ноября в Tesla Place.Мы там были и активно общались со спикерами и участниками. Андрей Черток, глава исследовательского подразделения Сбербанка в общении задал тон остальным спикерам. В перерывах удалось поймать одного из организаторов — Алексея Натекина, — одного из спикеров — Михаила Бурцева и среди участников — Сергея Свиридова.Их мы расспросили про новый формат, «передали привет» Kaggle, нашли новую, неожиданную сторону докерных конкурсов и вытащили оптимальные алгоритмы ML для победы. Но обо всем по порядку.— Как вы оцениваете результаты мероприятия?— По сравнению с прошлым годом, мы вышли на новый уровень — по количеству участников Sberbank Data Science Day, по уровню спикеров и по сложности задач. В рамках соревнования мы создали первый в России набор данных для создания вопросно-ответных систем, аналог американского датасета. Это можно считать достижением для всего переднего края русскоязычных датасетов, комьюнити по диалоговым системам и задачам анализа текстов.— Какие практические цели ставил Сбербанк, устраивая конкурс?— Сейчас актуальны задачи по созданию диалоговых систем, в частности, вопросно-ответных систем. На прошлой неделе мы вернулись с международной конференции NIPS, где этой теме было посвящено множество секций. Мы не хотим отставать, и наш конкурс, надеемся, помогает российскому научному сообществу в решении этой сложной задачи, связанной с созданием диалоговых систем и датасетов. Также мы заинтересованы в развитии технологий, связанных с диалоговыми системами, так как наш банк проходит существенную цифровую трансформацию. Мы заинтересованы во внедрении технологий в банковскую сферу. Благодаря таким соревнованиям, мы находим людей и получаем алгоритмы, модели и продукты, которые внедряем в бизнес-процессы банка. Еще одна важная цель - позиционирование банка как технологического лидера в области искусственного интеллекта. После таких конкурсов кто-то приходит к нам работать, с кем-то мы делаем совместные проекты. Это хороший драйвер для дальнейших активностей. — Сбербанк уделяет особое внимание BigData, развивает инфраструктуру, привлекает специалистов… А есть ли какие-то кейсы применения машинного обучения?BigData актуально для вопросов кибербезопасности: есть большой массив данных для анализа, есть проекты, где в автоматическом режиме решаются классические задачи антифрода. Еще один кейс — банковская ликвидность. Вся система банкоматов переходит на управление моделями МО, которая прогнозирует спрос наличности в банкоматах и оптимальным образом перераспределяет ее во всей сети. — Да, конечно. Наша AI-трансформация осуществляется и благодаря внедрению моделей машинного обучения в те или иные процессы банка. Ведется реестр моделей инициатив от разных блоков, создано сообщество датасайнтистов в банке. Насчитывается порядка нескольких сотен проектов по внедрению моделей машинного обучения и автоматизации процессов в повседневные бизнес-задачи. Модели скоринга, модели принятия решений о выдаче кредитов для юридических и корпоративных клиентов, розничный бизнес: таргетинг, взаимодействие с клиентом, формирования предложения о продуктах. Практически все автоматизировано, везде используются модели машинного обучения. В общем, модели и алгоритмы, основанные на анализе больших данных, создаются для оптимизации тех или иных процессов, уменьшения затрат на эти процессы, улучшения клиентского опыта при взаимодействии с банком. Серьезная тема связана с анализом тестов, НЛП, диалоговыми системами. Уже сейчас есть достаточно кейсов, где мы внедряем эти технологии. А в ближайшие месяцы мы планируем запустить несколько проектов, автоматизированных за счет моделей машинного обучения. — В феврале вы рассказывали о разработке чат-бота. На какой стадии он сейчас?— Есть несколько чат-ботов, каждый создан для решения различных задач. Некоторые уже в продакшене, некоторые на стадии пилотирования. Уровень развития технологии остановился на стадии сценарных алгоритмов. Нам нужно заранее прописать некий алгоритм действий, которому будет следовать чат-бот. На данный момент это скорее ""умный поисковик"" по базе данных. Это новый для нас вызов: нужно создать системы, способные улавливать контекст общения с клиентом и персонифицировать его. Еще есть риск, что такие чат-боты могут неверно понять вопрос клиента и ответить какую-то глупость. Процент ситуаций, когда бот неправильно понимает контекст или вопрос, сейчас достигает 15%. Это недопустимый уровень, чтобы полноценно внедрять текущие решения. Мы прогнозируем в течение 2-3 лет создание более тонких и точных систем, и здесь у нас есть целый ряд проектов, в том числе, с университетами. В качестве примера можно привести iPavlov с физтехом. Здесь ведется большая работа. Чтобы решать такие задачи, мы проводим подобные соревнования, сотрудничаем с лабораториями и привлекаем в банк самых лучших людей. — Почему решили сменить формат конкурса и во что это вылилось?— Да, в этот раз совершенно новый формат конкурса — «докерные» решения, и к нему нужен новый подход. Специалистам гораздо привычней работать с csv и подгонять данные под выборку, а здесь мы требуем полностью рабочую модель. Была мысль использовать телеграм-бота, но побоялись сжечь все ресурсы еще до подведения итогов конкурса.«Докерные» задачи хороши тем, что на выходе получается воспроизводимое решение, пусть его делать дольше и сложнее. Такие задачи защищены от «болячек» Kaggle — нельзя разместить тестовую выборку и искать утечки.На Kaggle существует масса конкурсов с какими-то уязвимостями: либо нет рандомных классов, либо находятся утечки данных по результатам лидерборда. Здесь же такое не проходит: у участников просто нет доступа к тестовому множеству. Если бы по условиям конкурса не сказали, сколько в тестовом множестве точек, участники бы самостоятельно не могли это никак узнать. Конечно, алгебраически можно проверить, что в множестве содержится именно указанное количество точек. Но это нетривиально и требует огромных усилий.Вообще, «докерный» конкурс по вычислительным мощностям обходится тяжело — прислали суммарно около 5500 тысяч решений по задаче А и 1200 решений по задаче Б. Разница в ресурсоемкости при проверке задачи Б по сравнению с задачей А была примерно в 20000 раз. Было «сожжено» около 500 часов работы супермощной многоядерной машины.— Почему именно Docker?— Хотелось сделать что-то крутое. Есть такая штука как SQAD — Stanford question answering dataset. По сути, для конкурса собрали такой датасет для русского языка. Получилось даже больше участников, чем на SQAD'e, при этом SQAD'ом занимается профессиональная лаборатория на протяжении полутора лет. Приятно видеть, что человек с первого места в конкурсе смог даже на небольшом датасете получить качество. В итоге, эксперимент получился удачным. Дальше будет все больше и больше аналогичных конкурсов.— Как думаете, в чем основная проблема типичных csv-like конкурсов?— В соревнованиях должна появляться какая-то конструктивная составляющая. Грустно наблюдать, что последние несколько лет каждое третье соревнование содержит серьезные недочеты. Поначалу это было на грани между «обидно» и «интересно». Вроде бы, появлялись какие-то новые челленджи с точки зрения безопасности. Потом люди привыкли к этому и стали уже с готовностью искать в данных лики. Сейчас это скорее популярный мемасик: люди смеются над тем, что лидерборд очередного конкурса на Kaggle состоит практически целиком из идеальной метрики.— Ты думаешь, что Kaggle будет постепенно переходить к формату «докерных» соревнований?— Kaggle давно пора нанять хотя бы одного data scientist'а, который будет прорешивать конкурсы. Будем честны, «утекший» конкурс — это целиком проваленное соревнование. Если бы у них были люди, которые в этом хоть немного разбираются, дело обстояло бы лучше.Если «докерных» соревнований будет больше, это приведет к совершенно новым возможностям как для отдельных людей, так и для больших компаний. После проведения таких конкурсов, может быть, начнут появляться marketplace решения. Сейчас у желающих отдать задачу на аутсорс есть два выхода: можно либо купить доступ к какой-нибудь API с надеждой, что она сделана не совсем криво, или обратиться к аутсорсерам/консалтерам и думать, что они сделают что-то сопоставимое по качеству. «Докерный» формат соревнований предлагает альтернативу. Это отличный способ решения задач внешними для компании людьми.— А сейчас часто практикуется схема, когда несколько моделей обучают путем конкуренции друг с другом (например, заставляют двух чат-ботов общаться друг с другом)?— Такое, конечно же, есть. Вот простой пример. Как-то мы взяли нашего чат-бота и заставили общаться сам с собой: то, что он говорил, отправлялось ему же. Озвучили мы это голосами из Yandex SpeechKit. Получилось прикольно, подняли себе настроение.Теперь более серьезный пример. Предположим, мы купили API Алисы из Яндекса и хотим разобрать его по кусочкам: часть блоков оставить, часть переиспользовать, часть написать самостоятельно и в итоге создать новый продукт на базе уже готовой технологии. «Докерный» формат разработки очень бы облегчил нам эту задачу. Конечно, Алиса — не очень правильный пример. Это сложная система, рассчитанная на большое количество пользователей. Мне сложно представить себе какой-нибудь CRT, который сможет разобрать Алису по частям.Более удачный вариант: выложенные в open source решения для предсказания временных рядов. Типичные решения, побитые на простые блоки и готовые работать с вашими данными, были бы интересны людям и пользовались спросом.— Расскажите, какие технологии использовали участники конкурса? Потенциальные победители обучали нейронки или использовали другие подходы?— Сейчас так или иначе топ-10 лидерборда использует архитектуру DRQA, разработанную командой FAIR (Facebok AI Research). Есть ребята из топ-10, которые сказали, что у них в основе лежит не сам DRQA, а какой-то немного по-другому навороченный bidirectionаl, attention плюс еще что-то. Но в любом случае у всех из топ-10 в основе лежали рекуррентные нейронные сети. Надо было брать внешние эмбеддинги, потому что самостоятельно на датасете вопросов-ответов эмбеддинг нормально не обучишь.В оригинальной статье про DRQA парни из Facebook советовали брать предобученный эмбеддинг, а потом подгонять его. Среди топ-1000 должны быть первые слова вопросов: «Как», «Когда», «Какой» и т.д.— Для обучения нейросетей нужно много вычислительных ресурсов. Как эту проблему решали участники конкурса?— Сами LSTM обучались не так долго, как мы ожидали. Одной видеокарточки за глаза хватало. За ночь получить какой-то приемлемый результат точно было можно.Есть нюанс про связь между использованием нейросетей, вычислительными ресурсами и конкурсами. Сейчас на задачах, где может помогать deep learning, проявляется интересный эффект: доминирование GPU. Во многих конкурсах без видеокарточек вообще никак не получится конкурировать с другими участниками. Например, на идущем сейчас на kaggle конкурсе discount у ребят одна эпоха обучается несколько дней.Была вероятность, что у нас обязательным условием победы тоже станет наличие GPU. Но первый же участник, который корректно обучил DRQA для наших данных, справился без наличия огромных вычислительных мощностей. На встрече на одной из ML-тренировок он рассказал, что все учил на CPU, видеокарточки у него нет.Итог: не всегда нужно больше слоев. «More layers» — это скорее мем, или же случай из жизни представителя очень серьезной лаборатории, у которой видеокарточек столько, что можно шутки ради смотреть как быстро обучается ImageNet, а также играться в meta-learning. Нормальный meta-learining начался со статей про «Learn gradient descent using gradient descent». Типичный пример: одной нейронной сетью ты учишь более сложные архитектуры решать задачи, например, обучать новые правила оптимизации. Таким в Гугле занимаются, и очень успешно.— Как вам в целом мероприятие? Оправдала ли цель средства?— Я принимал участие в разработке и организации Sberbank Data Science Journey, было интересно посмотреть, что получится. Я перфекционист — думаю, некоторое можно было сделать лучше или вообще поменять. Очень приятно, что практически не было ограничений ресурсов: большой зал, огромные экраны — инфраструктура что надо.— Получилось ли сделать «идеальную» для data scientist'а программу?— Одна из главных задач - постараться оставить довольными всех: на этом мероприятии есть и награждение, и бизнес-секции, и доклады для data scientist'ов.С точки зрения реализации, а также оценок «получилось/не получилось» очень сложно что-то говорить. Мы обсуждаем это посреди мероприятия, но уже можно сказать, что как бы ни было грустно, титул самого популярного и посещаемого мероприятия в СНГ по data science перешел на какое-то время от Data Fest к тому, что происходит здесь. На Data Fest было около 1700 человек, а у нас было 1750 розданных бейджиков уже с самого утра. Я думаю, будет 2100-2200. Зарегистрировалось 3400 человек.— Как вы прокомментируете формат посылок в соревновании? «Докерный» формат против классических csv'шек?— Этот конкурс далеко не первый, где используются докерные посылки. Мы делали аналогичную вещь, но более кустарным способом. Сейчас мы делаем соревнование для NIPS (NIPS Conversational Challenge). Там боты из разных институтов общаются с людьми, а люди оценивают их умение вести беседу. Эти боты запущены на нашей инфраструктуре. Для интерактивных задач это единственный способ адекватно оценить качество модели. Кроме того, такой подход позволяет избежать читерства: ты получил код, знаешь, что он не имеет доступа ни к каким внешним ресурсам.— Применяется ли такой подход к оцениванию моделей в бизнесе/промышленных задачах?— Да, такой подход применяется все чаще и чаще. Тендер — это фактически соревнование. Почему Google купил Kaggle? Они освоили соревновательное оценивание моделей, сделали marketplace для поиска решений нестандартных задач крупными компаниями. Идеология соревнований начинает использоваться все чаще. Она позволяет людям удаленно участвовать в конкурсах и удаленно презентовать решения тем, кто заинтересовался задачей. Такая среда помогает людям находить друг друга. Получается настоящий dating сервис для data scientist'ов.— Как тебе мероприятие в целом?— С моей точки зрения, все отлично сделано. Люди пришли, общаются. Очень удобно, что в дальней части зала лекция идет, а здесь можно стоять, разговаривать. Еще понравилось, что пригласили хороших выступающих. Думаю, что мероприятие уже удалось, хоть оно еще и не закончилось.— Участвовали ли Вы или, может быть, ваши ребята из iPavlov в контесте?— Поскольку мы аффилированы с этим проектом, нам не удалось поучаствовать в соревновании. Один из компонентов ведения диалогов — это ответы на вопросы. Для этого соревнования был создан специальный набор данных на русском языке, аналог американского датасета. Это открывает совершенно новые возможности для построения диалоговых систем и раскрутке их на российском рынке.— Что скажешь про «докерный» формат конкурса? Может быть, стоило провести соревнование в типичном для кэглеров формате?— Сейчас есть общая тенденция на подобные вещи: выгружать в качестве результата не просто метки классов, а готовый работающий прототип. Все используют разные подходы, библиотеки. Возможность у себя развернуть чужое решение и понять, как оно работает — это очень эффективный подход.— Какие алгоритмы машинного обучения кажутся тебе подходящими для решения задач конкурса?— Хочу отметить RL, эта область сейчас активно развивается. На данном этапе практических хороших результатов не так много, все они сосредоточены внутри крупных компаний. Но я думаю, что продвижение RL в бизнес — вопрос всего пары лет.— А что насчет хайпа вокруг нейронных сетей? Оправдан ли он?— Нейронная сеть — универсальный аппроксиматор. Хорошо обученная сеть позволяет получать адекватные результаты. Прорывы в deep RL были вызваны тем, что мы совместили хорошо известные еще с 70-80-х подходы reinforcement learning с глубокими нейронными сетями. К тому же, с использованием нейронной сети нам не нужно генерировать фичи, сеть сама выучивает представление.— Как тебе мероприятие в целом?— В целом очень понравилось. Организация на высоком уровне: и техническая часть, докладчики, тайминги, процесс с точки зрения пропусков, фуршеты. Редко такое встретишь на конференциях, многие часто фейлятся и забывают какие-то важные детали. Очень приятно, что на это мероприятие есть спрос: приходят как начинающие, так и профессионалы.— Участвовал в контесте? Решал обе задачи?— Я участвовал только в одной части, но у меня не было на это достаточно времени. Добрался до 20 места и на этом остановился.Все спикеры единогласны: машинное обучение уже давно перестало быть игрушкой и становится серьезным инструментом, решающим бизнес-задачи. Усложнение конкурсов, объединение энтузиастов в группы и приобретение стартапов крупными корпорациями — очередной шаг в расширении и масштабировании новых технологий. Что же будет дальше?",+21
21,28 сентября 2018,Приглашаем на Sberbank Data Science Journey 2018 — гонку алгоритмов машинного обучения,https://habr.com/ru/company/sberbank/blog/424635/,"Этой осенью мы вновь организуем большое соревнование по машинному обучению Sberbank Data Science Journey. Каждый год мы охватываем какую-то новую тему и теперь приглашаем вас попробовать силы в AutoML. Если конкретнее — в разработке очень умелого мета-алгоритма, способного самостоятельно создавать модели машинного обучения: с обработкой данных, построением признаков, обучением моделей, подбором их параметров и предсказанием целевой переменной. В этом году за решение задачи мы наградим сразу 13 команд. Остальные подробности — далее в посте. Условия и расписание Условия задачи этого года подробно изложены на GitHub. Если вкратце, то нужно создать алгоритм машинного обучения, который автоматически выполняет предобработку данных, выбор семейства моделей, а также подбор гиперпараметров. И, конечно, соответствует всем поставленным условиям. Для работы, помимо этих условий, дается публичный набор датасетов. Каждой команде участников будет предоставлен личный кабинет на сайте конкурса. В команду могут входить максимум четыре человека. Во время соревнования, с 19 сентября по 3 ноября участники смогут загружать в личный кабинет до пяти решений-алгоритмов ежедневно. Все эти решения попадают в общий рейтинг, где в режиме онлайн регулярно проверяются на наборе закрытых тестовых данных. Из результатов составляется таблица общего зачета, открытая всем — можно всегда прикинуть свои успехи. Загрузка решений будет доступна до 3 ноября, 23:59:59 (здесь и далее — по московскому времени). Среди всех своих загруженных решений каждая команда должна будет выбрать два, которые представят ее в финале. На это дополнительно дается 12 часов. Дедлайн по выбору — 4 ноября, 12:00. И наконец, следующие 12 часов мы будем прогонять данные на финальных решениях и объявим призерова на сайте соревнования к концу этого периода. Награды Разработчики десяти решений с наибольшим итоговым рейтингом будут награждены денежными призами: 1 000 000 рублей за первое место, 500 000 — за второе, 300 000 — за третье, 200 000 — за четвертое и пятое. Все остальные места до десятого включительно получат по 100 000 рублей. Кроме того, если команда не поленится опубликовать решение на GitHub, то может получить еще 100 000 рублей. Мы разыграем три таких премии среди наилучших решений, которые будут выложены для публичного пользования. И кстати, этот дополнительный приз не исключает основной. Официальное награждение пройдет 10 ноября на конференции «Sberbank Data Science Day». О конфе мы еще напишем дополнительно. Транспортные расходы разработчиков из других городов берем на себя, но даже если и это не заманит вас в столицу, приз все равно выплатим. На случай разных непоняток вся информация о мероприятии сухим юридическим языком доступна в отдельном документе. Если не нашли ответ там или вопрос касается технической части, задавайте его на форуме или в комментариях к посту. Будем рады вашему участию! Полезные ссылки: Сайт Sberbank Data Science Journey 2018 Интервью с участниками и организаторами SDSJ 2017 Отчет с SDSJ 2016",+12
22,9 ноября 2018,Прямая трансляция Sberbank Data Science Day 10 ноября,https://habr.com/ru/company/sberbank/blog/429320/,"Привет! 10 ноября (уже завтра!) в Москве в киноцентре «Октябрь» пройдет большая конференция Sberbank Data Science Day, где будут награждение победителей SDSJ 2018, выступления большого количества международных и российских экспертов в области Data Science, секции про ML и применение искусственного интеллекта в науке и бизнесе. И еще много интересного! Прямую трансляцию можно посмотреть тут. Под катом и на сайте программа. Также рассказываем, как оценивали победителей Sberbank Data Science Journey. Программа Конференция разделена на несколько тематических блоков, вот расписание: Основной зал 11:00 – 11:30. Открытие конференции. 11:30 – 12:30. Панельная дискуссия «Технологии анализа данных и искусственного интеллекта в цифровой экономике» 12:30 – 13:15. «Биологически-обусловленные методы и архитектуры в глубоком обучении». Сергей Бартунов, Deep Mind 13:15 – 14:00. «Conversational Agents as Intelligent Digital Companion to Understand Human Emotion and Express its Emotion». Soo-Young Lee, KAIST 15:00 – 15:45. «Масштабируемое автоматическое машинное обучение». Андрей Спиридонов, H2O 15:45 – 16:30. Панельная дискуссия «Тренд на инновации: применение DS/AI и улучшение клиентского опыта» 17:15 – 18:00 Торжественное награждение победителей соревнований Sberbank Data Science Journey и КлассикAI (соревнование по стихосложению с помощью искусственного интеллекта) Зал «Наука» 12:30 – 13:45.DS/AI технологии: AutoML 13:45 – 14:45.DS/AI технологии: Computer Vision 14:45 – 15:45.DS/AI технологии: Natural Language Processing (NLP) 15:45 – 16:30.DS/AI технологии: Reinforcement Learning 16:30 – 17:15.DS/AI технологии: Speech Analytics Зал «Бизнес» (зал 1) 12:30 – 13:45.Применение DS/AI в банковской и финансовой сферах 13:45 – 15:00.Применение DS/AI в медицине и биоинформатике 15:00 – 16:15.Применение DS/AI в банковской и финансовой сферах 16:15 – 17:15.Brainwriting: создаем платформу для AI исследований Зал «Бизнес» (зал 2) 12:30 – 14:45.Применение DS/AI в ритейле 14:45 – 16:30.Применение DS/AI в промышленности 16:30 – 17:15.Применение DS/AI в медиа и телекоме Зал «Сообщество» 12:30 – 13:15.Презентация постеров «Poster Session Lightning Talk» 13:15 – 15:00.Презентация открытых проектов в сфере DS/AI «AI Open Projects» 15:00 – 15:45.Разбор решений соревнования КлассикAI 15:45 – 17:15.Разбор решений соревнования Sberbank Data Science Journey Победители Sberbank Data Science Journey В этом году мы предложили решить задачи c использованием технологии AutoML. До конца 3 ноября участники выгружали свои решения, в следующие 12 часов выбирали из своих решений лучшие. Теперь выбор за жюри. На конференции мы наградим победителей Sberbank Data Science Journey. Участникам были предоставлены готовые наборы данных от Сбербанка. Все 24 датасета, задействованных в соревновании, были собраны различными департаментами: блоком розницы, блоком рисков и блоком технологий. Все они были специальным образом подготовлены и обезличены. В основу легла такая информация, как: Доля одобренного лимита Время доставки карты Различные виды скоринга Отклики на предложение карты Отклик на прочие предложения продуктов Поломки банкоматов Информация о снятии наличных в банкоматах Остатки средств на счетах и другая информация Для оценивания решений были выделены группы датасетов: check (открытый для участников), public (скрытый от участников, но можно видеть результат во время соревнования), private (набор, на котором подводятся итоги соревнования) В каждом таком наборе три задачи на регрессию и пять на бинарную классификацию. Решения работали на наборах данных различных размеров: от 1Мб и 300 строк до 1Гб и 1млн строк. Жюри еще до начала соревнования подготовило датасеты, тестирующая система уже проверила их в автоматическом режиме, а на сайте сейчас можно видеть результаты (с учетом ограничений, связанных с интригой). Решения принимались в формате архивов с кодом. Участникам нужно было построить алгоритм, который реализует полный цикл решения задачи машинного обучения автоматически, получая на вход данные, а на выходе возвращая готовый ответ. Решения участников должны были вписаться в заданные ограничения: решению доступны ресурсы решение не имеет доступа к ресурсам интернета максимальный размер упакованного и распакованного архива с решением: 1 Гб архив распаковывается в файловую систему, находящуюся в оперативной памяти (ramfs), доступную решению для записи остальное содержимое контейнера доступно только для чтения CSV с набором данных не превышает 3 Гб Ограничения нужны для того, чтобы достичь честного сравнения, поставив участников в равные технические условия. Вот что представляет собой система оценки в данном соревновании: Для каждой задачи (датасету) по тестовой части выборки считается метрика, специфичная для задачи (RMSE для регрессии, ROC-AUC для бинарной классификации). Для каждой задачи (датасета) производится перевод значения метрик участников в общую шкалу по следующей схеме. За наилучшее по метрике решение (среди всех отправленных и успешно протестированных решений) дается 1 балл, бейзлайн-решение оценивается в 0 баллов. Участники, находящиеся по метрике между наилучшим и бейзлайн-решениями получают пропорциональное количество баллов между 0 и 1. Решения по качество нижу бейзлайна оцениваются в 0 баллов. Если наилучшее решение и бейзлайн решения совпадают, то все участники получают 0 баллов. Если решение участника выдаёт на задаче ошибку или не проходит по временному ограничению, то оно получают за эту задачу 0 баллов. Итоговый результат каждого участника считается как сумма результатов по каждой задачи после преобразования в общую шкалу. В общем лидерборде участники ранжируются по итоговому результату. Итоги соревнования доступны здесь. Кроме основного зачета, участники боролись за приз в номинации “Лучшее публичное решение”. На протяжении всего конкурса они публиковали свои подходы к решению задачи AutoML на GitHub, а победители определились по количеству GItHub stars. На конференции будет отдельная секция, посвященная SDSJ’18, где победители расскажут о своих решениях и ответят на все вопросы. Еще раз оставляем ссылку на онлайн трансляцию конференции, чтобы все заинтересовавшиеся могли посмотреть Sberbank Data Science Day.",+11
23,28 декабря 2016,"Отчёт со Sberbank Data Science Day: решения, победители, интервью",https://habr.com/ru/article/318160/,"В ноябре Сбербанк провел серию мероприятий по машинному обучению и искусственному интеллекту Sberbank Data Science Journey. Финальное мероприятие, Data Science Day, прошло 12-го ноября на площадке DI Telegraph. Его посетило более 1000 человек.Data Science Day завершал месячный конкурс, ставший самым крупным по количеству участников и зарегистрировавшихся в СНГ: более 700 человек отправили свои решения, более 3000 зарегистрированных участников работали с данными, а также сгенерировали более 30Гб данных. Data Science Day открылся видео-приветствием Германа Грефа. Затем пришедших data scientists со сцены поприветствовал Заместитель Председателя Правления Сбербанка Вадим Кулик.Вадим Кулик рассказал об основных принципах data-driven организаций, требованиях к современным ИТ-платформам и о стратегических направлениях развития технологий Сбербанка.Далее на сцену поднялся старший вице-президент Сбербанка Александр Ведяхин и рассказал об интересных кейсах Сбербанка в области машинного обучения и искусственного интеллекта.Следующий блок открывали приглашённые специалисты мирового уровня в области анализа данных и искусственного интеллекта. Профессор Университета Амстердама Маартин де Рийке на примере задач информационного поиска рассказал про бурно развивающуюся парадигму Reinforcement Learning, являющуюся предвестником искусственного интеллекта в его широком понимании. Уже сейчас в банке начинаются эксперименты с данным подходом при решении прикладных задач (рекомендательные системы, персональные предложения клиентам).Senior Data-Scientist международной компании H2O Дмитрий Ларько рассказал про одну из самых важных проблем использования методов машинного обучения - интерпретируемость получаемых результатов (проблема ""чёрного ящика""). Дмитрий рассмотрел подходы к интерпретации результатов, полученных в ходе применения таких моделей, которые могут значительно улучшить доверие бизнес-аналитиков к использованию современных методов машинного обучения.Выступление профессора Константина Воронцова было посвящено изящному применению тематического моделирования для анализа транзакционных данных банка. Транзакционная история интерпретируется как набор предложений, а алгоритмы тематического моделирования позволяют выделить основные стереотипы поведения клиентов банка. Это даёт возможность более точно описывать группы клиентов для персональных предложений.Выступление Дмитрия Ветрова было посвящено актуальной теме стохастических вычислительных графов, которые в последний год получили широкое распространение в алгоритмах deep learning . Добавление случайных узлов значительно расширяет возможности применения данного метода машинного обучения и позволяет находить сложные зависимости в данных (распознавание изображений, машинный перевод, системы Q&A). Этот подход имеет прямое применение при разработке более точных подходов к решению, в частности, задач банков, использующих методы машинного обучения.Конкурс состоял из двух частей: прием-онлайн заявок был открыт с 7 октября до 6 ноября , а финал конкурса состоялся 12 ноября на Data Science Day, куда были приглашены авторы 5 отобранных проектов-финалистов. Обязательным условием конкурса являлось то, что все проекты должны были основываться на данных банка (данные были обезличены и специальным образом модифицированы), но при этом было разрешено обогащать данные из открытых источников. На основе полученных данных было необходимо выявить одну бизнес-задачу банка и разработать для неё решение. Технологический стек решений и тематика задач оставались на усмотрение участников. По результатам онлайн-этапа было собрано 35 заявок от различных команд и стартапов в области дата-сайнс, среди которых были отобраны пять лучших команд. На Data Science Day состоялся финал конкурса в виде питч-сессий по 7 минут каждая. Победителей выбрало жюри, состоящее из топ-менеджеров Сбербанка и представителей компаний-партнёров.Все финалисты получили возможность встретиться с топ-менеджерами банка и обсудить возможности сотрудничества.Ниже мы опишем краткие тезисы проектов команд со ссылками на презентации.Команда 1Factor представила одно из наиболее интересных решений, использующее объединение разных типов данных: история транзакций клиентов (данные были обезличены и специальным образом модифицированы) и геолокационные данные. Наиболее ценным является алгоритм, который находит соответствия между этими данными при том, что оба датасета являлись обезличенными! После того, как удалось сделать такой матчинг данных, стало возможным отслеживать перемещения клиентов и, как следствие, выяснять популярность у этих клиентов тех или иных предприятий малого и среднего бизнеса. Анализ динамики трафика клиентов предприятий позволяет, в частности, оценивать кредитные риски такой организации, что, несомненно, представляет большую ценность для банка. Решением жюри команда участвовала в соревновании вне конкурса, но получила специальный приз ""за лучшую синергию данных"". Команда RooX Solutions представила проект по выработке рекомендаций клиентам банка на основе анализа транзакций для повышения благосостояния. В частности, речь идёт об увеличении накоплений, о льготном кредитовании кассовых разрывов или временном ограничении необязательных расходов. Особенностью проекта стало объединение экспертной экономической модели и алгоритмов машинного обучения для прогнозирования и генерации сигналов для клиентов в нужный момент. Модель включала в себя индексы роста благосостояния и финансовой стабильности (см. рисунок), т.е. устойчивости клиента к возможным внезапным сокращениям доходов. На основании прогноза постоянных и переменных расходов и доходов за месяц, а также значений индексов и анализа их волатильности определялись клиенты, которым окажутся полезными те или иные рекомендации. Ещё одной особенностью проекта являлось то, что для решения задачи прогнозирования команда использовала регрессию с доверительными интервалами и делала прогноз не на месяц вперёд, а до конца текущего месяца. Таким образом удалось получить сужающиеся по ходу месяца интервалы и, начиная где-то с середины месяца, достаточную уверенность в прогнозе для того, чтобы делать обоснованные рекомендации.Команда Alone.io объективно являлась самой сильной среди всех команд с точки зрения компетенций решения задач в области data science-В ее составе - двое из списка Топ-20 Kaggle. Один из них (Дмитрий Алтухов) занял второе место в нашем Data Science Contest. Свой бизнес-проект для Startup Challenge они построили на основе решения задачи из контеста о прогнозировании трат клиентов в различных категориях (так называемых MCC-кодах). Имея хороший алгоритм прогнозирования трат клиентов, например, в тех или иных категориях, можно предугадывать некоторые факты из жизни клиента (например, факт поездки за рубеж). Методом скользящего окна производится анализ покупок клиента и поиск закономерностей в его поведении. В случае пошагового анализа вероятность покупки увеличивается перед самим событием (см. рисунок). Данное решение можно использовать для увеличения взаимодействия с клиентом с помощью персональных предложений. Командой MCC2VEC были предложены модели с применением word2vec алгоритмов, переводящих слова в вектора. Разработанные в 2013 году командой разработчиков Google под руководством Томаса Миколова, на сегодняшний день подобные алгоритмы используются для интерпретации и написания текста. При этом участники предложили интерпретировать последовательность транзакций клиентов как текст. То есть транзакции клиента разбиваются на предложения, которые, в свою очередь, разделяются между собой точками в случае, если между ними более 12 часов.Выступающие в данном случае в роли «слов» MCC-коды, обрабатываются с помощью алгоритмов word2vec, в результате чего каждому коду соответствует стомерное представление, то есть просто стомерный вектор чисел. Два MCC-кода рассматриваются как близкие или далекие в зависимости от величины cos угла между ними. С учетом этого, для каждой MCC-траты клиента можно суммировать полученные вектора (с некоторыми нормализациями), напрямую соотнести клиента и получить client2vec.На следующем этапе применяется техника t-SNE или t-distributed stochastic neighbor embedding. После чего клиенты «проецируются» на двумерную плоскость, что позволяет выделить определенные кластеры. В итоге было получено 15 категорий клиентов, объединенных некими признаками.Аналогично данный алгоритм может быть использован в случае антифрода. В этом случае клиент и совершенная транзакция также соотносятся со стомерными векторами, после чего происходит оценка того, насколько эти вектора близки или далеки друг от друга, что помогает отметить нехарактерную для данного клиента операцию, а алгоритму при этом позволяет адаптироваться к изменениям в его поведении.Победителем Startup Challenge стала команда из Санкт-Петербурга SD Data. За неделю до Data Science Day они стали победителями хакатона Neurohack 2.0 в треке Сбербанка и фактически с решением, придуманным за 36 часов на самом хакатоне, были приглашены в финал. Поздравляем со столь впечатляющим результатом! Команда смогла ""запаковать"" в бизнес-решение достаточно простую идею о том, как можно искать подозрительные транзакции. Разработчики предложили отложить в системе координат по оси Х все сделанные клиентом переводы, а по оси Y – его покупки. При этом все переводы, находящиеся ниже биссектрисы угла Y0Х, отмечаются как подозрительные, так как находятся за пределами порога разумного числа переводов (количество покупок меньше, чем количество переводов).Фактически это один из возможных способов разметить выборку клиентов относительно мошеннических операций. Затем уже, используя различные методы машинного обучения (xgboost, k-means кластеризация), разработчики смогли расширить изначальный список подозрительных транзакций и выявить различные наиболее типичные схемы вывода денег и разбить их на основные типы (субъекты малого предпринимательства, мошенники, благотворительность). Например, были выявлены такие предполагаемые схемы как ""Прогон средств"" и ""Вывод денег за рубеж"" В качестве решения команда предложила ввести комиссию за получение входящих средств при превышении некоторого количества входящих переводов в месяц, установить минимальный временной промежуток для дальнейшего перевода средств, а также дополнительно изучать аккаунты с преобладающей нестандартной схемой вывода поступивших средств.В ноябре Сбербанк провел серию мероприятий по машинному обучению и искусственному интеллекту (SDSJ.ru), финальное мероприятие которого - Data Science Day - 12-го ноября на площадке DI Telegraph посетило более 1000 человек. Андрей Черток (директор по исследованиям и разработкам, Сбербанк) рассказал о ключевых аспектах, необходимых для проведения успешного соревнования в области анализа данных. Соревнование случилось благодаря объединению усилий большого количества людей с нужным набором компетенций. Отдельно было рассказано об институте соревнований и их полезности для бизнеса как об одном из инструментов выстраивания связей между компаниями, научным и data-science сообществами. Такого рода соревнования вряд ли могут иметь прямое business value для компаний как прямой инструмент решения прикладных задач в контексте прямого внедрения решений победителей в продакшн (за редким исключением). С другой стороны, открытость банка с точки зрения возможности поработать с реальными данными о транзакциях открывает много новых перспектив по развитию методов исследования данных. Принцип открытости сейчас заложен в основу развития многих мировых ИТ-компаний, одной из которых стремится стать Сбербанк.Александр Фонарёв (Chief Data Scientist, SBDA Rubbles) выступил с интересной лекцией о том, как проходила подготовка задач для соревнования. Организаторы потратили очень много времени на подготовку данных, корректную постановку задач и их тщательное прорешивание. Для того, чтобы соревнование было интересным для пользователей, нужно избежать большого количества проблем, таких как лики в данных, неустойчивость решений на обучающей и тестовой выборках, а также сделать постановки задач такими, чтобы они допускали выбор разных подходов к их решению, а также были достаточно интересными с точки зрения поиска наиболее эффективных признаков, которые подаются на вход в модели прогнозирования. Отдельной сложностью при подготовке соревнования был поиск оптимальной формулы расчёта итогового рейтинга и, в особенности, взвешивающих коэффициентов по задачам (для того, чтобы участники ""в среднем"" решали все задачи). Третье место в конкурсе занял Василий Рубцов. Василий представил решение по задаче B о прогнозировании суммарных трат всех клиентов на месяц вперёд в тех или иных категориях. Простые модели использовали линейные регрессии на основе средних (за последнюю неделю/месяц/год, средневзвешенные траты, среднее по дням недели) в качестве регрессоров. Более сложные модели строились либо как разность базовых, либо как их блендинг с некоторыми обобщениями.Дмитрий Алтухов, занявший в контесте второе место, рассказал о своих подходах к решению задачи C, в которой требовалось предсказать объём трат в следующем месяце в каждой из 184 категорий для 3000 пользователей. Структура решения, как обычно, состояла в применении достаточно стандартных подходов: Извлечение базовых признаков. Для извлечения базовых признаков используем различные меры за последние пять месяцев (объём трат, количество трат и std трат) в различных измерениях (месяц, пользователь, mcc; месяц, пользователь; месяц, mcc). Построение линейных моделей для каждого пользователя. У каждого пользователя выделялся уникальный характер трат (регулярность, количество), затем для каждого из них строилась сильно регуляризованная ridge-регрессия на базовых признаках; Построение линейных моделей для каждого MCC-кода. Поскольку MCC-кодов было не так много, как пользователей, однако, структура трат по ним достаточно сложна для описания одной общей моделью. При этом можно заметить, что траты по некоторым кодам связаны друг с другом, поэтому помимо базовых признаков в модель добавлялись траты за предыдущий месяц по каждому из MCC-кодов; Объединение всех признаков в XGBoost. В итоговую модель были включены как базовые признаки, так и предсказания, полученные с помощью пользовательских/MCC-регрессий. Лёгкий постпроцессинг решений. Приведение решений к ""адекватному"" виду (например, если предсказание получилось меньше нуля, то в качестве ответа выдаём ноль). Дмитрий Афанасьев, занявший в соревновании первое место, рассказал о решении самой простой задачи о предсказании пола клиента по его транзакциям (пол был известен для 12000 человек, предлагалось вычислить вероятность оказаться мужчиной оставшимся 3000 клиентам). Основные наблюдения Дмитрия по поводу данных и контеста состояли в том, что из текстовых описаний MCC-кодов и типов транзакций тяжело что-то получить, при этом MCC-коды важнее типов транзакций. Специфика соревнования подсказывает, что обучение и корректная валидация моделей гораздо важнее, чем опора при поиске решения на результаты публичного рейтинга. Задача выглядела достаточно классической, поэтому интуиция подсказывала, что наиболее оправданным является применение неглубоких деревьев с малым количеством признаков на агрегатах (на сырых транзакционных данных модели не работают). Базовые признаки были связаны со стандартными производными от трат (сумма, количество, min/max), параметры xgboost: eta = 0.02, depth = 3, subsample = 0.6. Ключевыми признаками также являлись ""мужские"" и ""женские"" траты в разрезах по различным MCC-категориям и типам транзакций и другие более специфические (например, объединение MCC-кодов в пары: если после покупки в магазине женской одежды идёт покупка в магазине мужской, то это снижает вероятность того, что данный клиент - женщина). Сверху также навешивался стекинг наивного байеса как признака, в котором траты в MCC-кодах использовались как простой bag of words. Более подробно про решение задачи A - в презентации (ссылка) и видео-выступлении (ссылка). В завершении Data Science Day у участников была возможность пообщаться в неформальной обстановке во время фуршета, приобрести новые, полезные контакты, и хорошо провести время. Data Science Journey – это не просто разовое мероприятие в области анализа данных, машинного обучения и искусственного интеллекта, а начало новой и прочной традиции: такие «Путешествия» мы планируем проводить на регулярной основе. Ждите наших новых мероприятий!",+31
