Skip to content

Commit

Permalink
Description of some tags
Browse files Browse the repository at this point in the history
  • Loading branch information
enclaved committed May 29, 2020
1 parent f2fde98 commit 214a4bd
Showing 1 changed file with 19 additions and 2 deletions.
21 changes: 19 additions & 2 deletions reporting.md
Original file line number Diff line number Diff line change
Expand Up @@ -28,14 +28,31 @@
Сырые отчеты состоят из следующих колонок:

* timestamp --- дата и время события;
* ip_address --- IP-адрес посетителя (для адресов IPv4 используется
* ip_address --- IP-адрес посетителя в формате IPv6 (для адресов IPv4 используется стандартное преобразование
[IPv4-to-IPv6 mapping](https://ru.wikipedia.org/wiki/IPv6#%D0%97%D0%B0%D1%80%D0%B5%D0%B7%D0%B5%D1%80%D0%B2%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5_%D0%B0%D0%B4%D1%80%D0%B5%D1%81%D0%B0_IPv6[11][12]));
* stream_id --- ID потока, в котором произошло событие;
* sub_id --- [sub ID](streams.md#sub-id) клика;
* click_id --- [click ID](streams.md#click-id) (уникальный идентификатор клика);
* sequence --- этап обработки клика: 0 --- сбор отпечатка, 1 --- сканирование отпечатка;
* valid --- 1, если посетителя пропустили на контент, 0 в противном случае (имеет смысл только при sequence = 1);
* tags --- список мнемонических тэгов для проверок, которые посетитель не прошел.
* tags --- список мнемонических тэгов, обозначающих конкретные фильтры или иные причины для принятия решения
(в основном для внутреннего использования).

Конкретный смысл многих тэгов является коммерческой тайной --- мы не раскрываем наши алгоритмы фильтрации.
Однако, ниже мы приведем расшифровку некоторых из них, которые могут быть использованы в качестве доказательства
наличия ботов в трафике (например, при требовании денежных компенсаций у рекламных сетей) или для отладки:

* `REVIEW`, `MONEY`, `WHITE` -- решение принято клиентом путем установки режима потока: «Модерация», «Контент» и
«Белая страница» соответственно;
* `IP`, `IP1`, `ZIPBL` -- IP-адрес находится в наших черных списках: прокси-сервисы, VPN- и хостинг-провайдеры,
антивирусные, скоринговые и ИБ-компании, модераторы и т.п.;
* `IPSLB`, `IPSB` -- IP-адрес находится в черном списке потока;
* `TOR` -- посетители с известных выходных узлов [Tor](https://www.torproject.org/);
* `GOOGLE` -- посетители, чей user agent указывает на их принадлежность к Google или их партнерам;
* `BOT` -- посетители, чей user agent явно указывает на то, что они боты;
* `EMU` -- клики из известных эмуляторов устройств и систем виртуализации;
* `UARE` -- посетители, отфильтрованные регулярным выражением потока для user agent;
* `REF` -- посетители, отфильтрованные регулярным выражением потока для referer.

## Агрегированные отчеты

Expand Down

0 comments on commit 214a4bd

Please sign in to comment.