Skip to content

Commit

Permalink
Update reporting infomation
Browse files Browse the repository at this point in the history
  • Loading branch information
enclaved committed Jun 15, 2020
1 parent b0337b7 commit f68f44c
Showing 1 changed file with 29 additions and 15 deletions.
44 changes: 29 additions & 15 deletions reporting.md
Original file line number Diff line number Diff line change
Expand Up @@ -8,9 +8,9 @@

## Сырые отчеты

Сырые отчеты являются покликовыми, то есть содержат информацию о каждом клике, который был обработан нашей системой.
Сырые отчеты являются покликовыми, то есть содержат информацию о каждом переходе, который был обработан нашей системой.
Их можно скачать в формате [CSV](https://ru.wikipedia.org/wiki/CSV) при помощи кнопки «CSV-файл». В выпадающем меню
будут две опции: скачать полный отчет или только по тем кликам, для которых сработал один или несколько фильтров.
будут две опции: скачать полный отчет или только по тем переходам, для которых сработал один или несколько фильтров.
Охват отчета будет ограничен выбранным диапазоном дат. Далее скачанный файл может быть импортирован в Microsoft Excel
или другое ПО для работы с таблицами.

Expand All @@ -20,7 +20,7 @@

## Колонки сырого отчета

Сырые отчеты могут содержать одну или две строки на каждый клик. Первая строка соответствует отдаче посетителю скрипта
Сырые отчеты могут содержать одну или две строки на каждый переход. Первая строка соответствует отдаче посетителю скрипта
для сбора машинного отпечатка браузера. Вторая строка, если она есть, соответствует сканированию отпечатка и принятию
решения --- пропустить или отфильтровать. Второй строки может не быть, если посетитель по тем или иным причинам не смог
сформировать или отправить нам отпечаток.
Expand All @@ -31,9 +31,13 @@
* ip_address --- IP-адрес посетителя в формате IPv6 (для адресов IPv4 используется стандартное преобразование
[IPv4-to-IPv6 mapping](https://ru.wikipedia.org/wiki/IPv6#%D0%97%D0%B0%D1%80%D0%B5%D0%B7%D0%B5%D1%80%D0%B2%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5_%D0%B0%D0%B4%D1%80%D0%B5%D1%81%D0%B0_IPv6[11][12]));
* stream_id --- ID потока, в котором произошло событие;
* sub_id --- [sub ID](streams.md#sub-id) клика;
* click_id --- [click ID](streams.md#click-id) (уникальный идентификатор клика);
* sequence --- этап обработки клика: 0 --- сбор отпечатка, 1 --- сканирование отпечатка;
* country_code -- [ISO 3166-1 alpha-2](https://ru.wikipedia.org/wiki/ISO_3166-1_alpha-2) код страны посетителя;
* os -- название и версия операционной системы посетителя;
* browser -- название браузера посетителя;
* cost -- цена перехода, если передана через параметр ссылки;
* sub_id --- [sub ID](streams.md#sub-id) перехода, если передан через параметр ссылки;
* click_id --- [click ID](streams.md#click-id) (уникальный идентификатор перехода), если передан через параметр ссылки;
* sequence --- этап обработки перехода: 0 --- сбор отпечатка, 1 --- сканирование отпечатка;
* valid --- 1, если посетителя пропустили на контент, 0 в противном случае (имеет смысл только при sequence = 1);
* tags --- список мнемонических тэгов, обозначающих конкретные фильтры или иные причины для принятия решения
(в основном для внутреннего использования).
Expand All @@ -45,13 +49,13 @@
* `REVIEW`, `MONEY`, `WHITE` -- решение принято клиентом путем установки режима потока: «Модерация», «Контент» и
«Белая страница» соответственно;
* `GEO`, `OS`, `BROWSER` -- решение принято клиентом путем задания таргетинга для потока;
* `IP`, `IP1` -- IP-адрес находится в наших черных списках: прокси-сервисы, VPN- и хостинг-провайдеры,
* `IP`, `IP*` -- IP-адрес находится в наших черных списках: прокси-сервисы, VPN- и хостинг-провайдеры,
антивирусные, скоринговые и ИБ-компании, модераторы и т.п.;
* `IPSLB`, `IPSB` -- IP-адрес находится в черном списке потока;
* `TOR` -- посетители с известных выходных узлов [Tor](https://www.torproject.org/);
* `GOOGLE` -- посетители, чей user agent указывает на их принадлежность к Google или их партнерам;
* `BOT` -- посетители, чей user agent явно указывает на то, что они боты;
* `EMU` -- клики из известных эмуляторов устройств и систем виртуализации;
* `EMU` -- переходы из известных эмуляторов устройств и систем виртуализации;
* `UARE` -- посетители, отфильтрованные регулярным выражением потока для user agent;
* `REF` -- посетители, отфильтрованные регулярным выражением потока для referer.

Expand All @@ -76,15 +80,15 @@

Каждый агрегированный отчет в левой части состоит из колонок, по которым осуществлялась группировка, за которыми
идут колонки статистики. Некоторые из них могут содержать значение в процентах, отображенное серым цветом, ---
это процент от общего числа кликов, выводимый для удобства.
это процент от общего числа переходов, выводимый для удобства.

Список статистических колонок с пояснениями:

* Переходы --- общее число кликов, то есть переходов на файл `index.php`; от него считаются проценты в других колонках.
* Переходы --- общее число переходов на файл `index.php`; от него считаются проценты в других колонках.

* Уники --- приблизительное число уникальных посетителей с точки зрения уникальности их IP-адресов.

* Отпечатки --- число посетителей, которые при обработке сформировали и успешно отправили нам JavaScript-отпечаток для
* FP --- число посетителей, которые при обработке сформировали и успешно отправили нам JavaScript-отпечаток для
анализа. Это число может быть меньше, чем число кликов, по разным причинам, но как правило разницу составляют
«тупые» клик-боты, которые не в состоянии выполнять JavaScript.

Expand All @@ -96,13 +100,23 @@
попали на белую страницу, если бы могли выполнять JavaScript (впрочем, проблему JavaScript мы решаем другим способом
через «meta refresh»).

* Тех. потери --- это технические потери, число посетителей, которые не смогли сформировать и отправить отпечаток.
* GIVT --- «general invalid traffic» --- это технические потери, число посетителей, которые не смогли сформировать и отправить отпечаток.
Как упоминалось ранее, это как правило «тупые» боты с ограниченной поддержкой JavaScript. Другая распространенная
причина технических потерь --- сетевой лаг, особенно наглядный при работе с трафиком с плохим Интернет-соединением:
посетители успевают закрыть окно или вкладку прежде, чем отпечаток будет отправлен и обработан.
посетители успевают закрыть окно или вкладку прежде, чем отпечаток будет отправлен и обработан. На данный момент в эту же
колонку попадут все переходы, которые произошли, когда поток находился в режиме «Контент», «Белая страница» или «Модерация»
при отключенном сборе отпечатков, так как во всех этих режимах не проиходит обработки отпечатков. Мы планируем изменить
эту логику подсчета GIVT в будущем для отражения более объективных данных по техническим потерям.

* Отфильтровано --- число отпечатков, которые были осознанно отфильровано алгоритмами Adspect. Это может быть грубой
метрикой современного продвинутого кликфрода в вашем трафике.
* SIVT --- «sophisticated invalid traffic» --- число отпечатков, которые были осознанно отфильровано алгоритмами Adspect.
Это может быть грубой метрикой современного продвинутого кликфрода в вашем трафике. Сюда же входят модераторы и переходы,
заблокированные ручными фильтрами потока.

* Расход --- это суммарный расход средств на трафик, посчитанный как сумма цен каждого перехода, если они были переданы через
соответствующий параметр ссылки.

* Расход (боты) --- расход средств на трафик, который был направлен на белую страницу. Если настроена передача цены перехода
через параметр ссылки, то эта метрика точно отражает потери бюджета на фильтрации.

* Качество --- это процент показов контент-страницы от общего числа кликов. Это наилучший показатель для оценки качества
трафика в целом и может быть использован для сравнения различных источников, площадок, спотов и т.п. Особую ценность
Expand Down

0 comments on commit f68f44c

Please sign in to comment.