In [5]:
import glob
import os
import pandas as pd

In [3]:
prefix = '/home/tass/database/rutube_test/'

## Наши файлы

In [7]:
print('\n'.join(os.path.basename(flnm) for flnm in glob.glob(os.path.join(prefix, '*'))))

personal_events.csv
creative.tsv
thematic.tsv
interactive_item.tsv
interactive.tsv


## Описание данных

### Файлы
* Основной файл - personal_events.csv - лог событий ответа на вопросы. Содержит 4 типа событий:
  * 'personal_start' - начало вопроса, 
  * 'personal_choice' - выбор варианта ответа, 
  * 'personal_wrong' - некая ошибка (редко случается), 
  * 'personal_success' - ответ принят.
* user_id - ID пользователя
* creative_id - ID рекламного ролика, после просмотра которого показывается вопрос
* interactive_id - ID вопроса
* interactive_item_id - ID ответа

Все tsv файлы - это вспомогательные словари.

### Как происходит процесс: 
1. пользователь заходит на Rutube LiST 
2. ему показывается рекламный креатив (ролик) 
3. После этого задается вопрос о содержимом ролика (их нет в выгрузке) 
4. Затем персональный вопрос. Иногда персональные вопросы связаны с содержимым ролика, иногда - нет. 
5. После этого открывается доступ на просмотр контента. По истечение некоторого времени, если пользователь хочет посмотреть что-то ещё, весь процесс повторяется. Соотвественно одному пользователю может показываться один и тот же рекламный креатив и даже задаваться те же самые вопросы (но таких случаев должно быть не много). 

### Задача

* Найти пользователей, отвечающих нечестно / рандомно / незаинтересовано, т.е. тех, чьи ответы не имеют никакого значения для заказчика. Объяснить критерии выявления

## Смотрим формат и размеры файлов

### personal events

In [8]:
personal_events = pd.read_csv(os.path.join(prefix, 'personal_events.csv'))

In [11]:
personal_events.head(n=10)

Unnamed: 0,created,event_type,user_id,creative_id,interactive_id,interactive_item_id
0,2019-06-16 21:00:52,personal_start,6050757,16,109,0
1,2019-06-16 21:00:53,personal_choice,6050757,16,109,464
2,2019-06-16 21:00:53,personal_success,6050757,16,109,0
3,2019-06-16 21:01:57,personal_start,5816185,30,126,0
4,2019-06-16 21:02:09,personal_success,5816185,30,126,0
5,2019-06-16 21:02:12,personal_choice,5816185,30,126,525
6,2019-06-16 21:07:58,personal_start,5994588,31,88,0
7,2019-06-16 21:08:05,personal_choice,5994588,31,88,371
8,2019-06-16 21:08:05,personal_success,5994588,31,88,0
9,2019-06-16 21:09:36,personal_start,5740927,1,99,0


In [10]:
personal_events.shape

(28767309, 6)

## creative.tsv

In [16]:
creative = pd.read_csv(os.path.join(prefix, 'creative.tsv'), sep='\t')

In [20]:
creative.head(n=20)

Unnamed: 0,id,title,thematic_id
0,1,Черный креатив,1
1,2,Белый креатив,1
2,3,Creative 3 ТНТ Music,2
3,4,Creative 4 Hockey,7
4,5,Creative 9 may,1
5,6,Teaser TNT Music Мужчины,2
6,7,Teaser TNT Music Женщины,2
7,10,тестовый креатив (Таргет на Рината),1
8,11,Teaser TNT Music Женщины 2.0,2
9,12,Teaser TNT Music Мужчины 2.0,2


In [18]:
creative.shape

(63, 3)

### thematic.tsv

In [21]:
thematic = pd.read_csv(os.path.join(prefix, 'thematic.tsv'), sep='\t')

In [22]:
thematic.shape

(11, 2)

In [23]:
thematic

Unnamed: 0,id,title
0,1,LiST
1,2,TNT Music
2,3,Дом-2
3,4,Ёлка
4,5,ГПМРТВ (анонсы)
5,6,BeachControl
6,7,Хоккей
7,8,BalziRossi
8,9,LiST недвижимость
9,10,Игра


### interactive_item.tsv

In [25]:
interactive_item = pd.read_csv(os.path.join(prefix, 'interactive_item.tsv'), sep='\t')

In [26]:
interactive_item.shape

(888, 3)

In [27]:
interactive_item.head(n=20)

Unnamed: 0,id,title,interactive_id
0,1,Мужской,1
1,2,Женский,1
2,3,до 18,2
3,4,18-25,2
4,5,26-35,2
5,6,45+,2
6,7,Да,3
7,8,Нет,3
8,9,Регулярно,4
9,10,Редко,4


In [28]:
print('\n'.join(title for title in interactive_item.title))

Мужской
Женский
до 18
18-25
26-35
45+
Да
Нет
Регулярно
Редко
Никогда
Планирую начать
Наемный работник
Руководитель/Владелец бизнеса
Учащийся
Безработный
Россия
Украина
СНГ
Другое
Раз в неделю
Раз в месяц
Раз в 3 месяца
Реже перечисленного
Раз в неделю
Раз в месяц
Раз в 3 месяца
Реже перечисленного
Магазины у дома
Супермаркеты
Гипермаркеты
Покупаю на рынке
Женат/Замужем
Холост
Разведен/Разведена
В отношениях
Нет детей
1
2
Больше двух
Собака
Кошка
Другое
Никаких нет
Один раз в год
Два раза в год
Больше трех раз в год
Не путешествую
Самолет
Поезд
Автомобиль
Другое
Реже перечисленного
1-2 раза в месяц
1-2 раза в неделю
Не употребляю
Не курю
Курю сигареты
Курю электронные сигареты
Курю кальян
До 30 тыс. рублей
От 30 до 60 тыс. рублей
От 60 до 100 тыс. рублей
Выше 100 тыс. рублей
iPhone
Samsung
Другое
Xiaomi
Да
Нет
Высшее
Среднее
Без образования
Среднее профессиональное
В пределах своей страны
За границу
Не путешествую
Регулярно
Иногда
Смотрю отдельные эпизоды
Не смотрю
СТС
ТНТ
Первый
ЮТВ
Вн

### interactive.tsv

In [29]:
interactive = pd.read_csv(os.path.join(prefix, 'interactive.tsv'), sep='\t')

In [30]:
interactive.shape

(193, 2)

In [31]:
interactive.head(n=20)

Unnamed: 0,id,title
0,1,Укажите Ваш пол
1,2,Укажите Ваш возраст
2,3,Есть ли у вас автомобиль?
3,4,Как часто Вы занимаетесь спортом?
4,5,Какова ваша профессиональная деятельность?
5,6,Укажите Ваше гражданство
6,7,Как часто Вы посещаете кинотеатры?
7,8,Как часто Вы посещаете рестораны?
8,9,Какие магазины Вы посещаете?
9,10,Ваше семейное положение?


In [32]:
print('\n'.join(title for title in interactive.title))

Укажите Ваш пол
Укажите Ваш возраст
Есть ли у вас автомобиль?
Как часто Вы занимаетесь спортом?
Какова ваша профессиональная деятельность?
Укажите Ваше гражданство
Как часто Вы посещаете кинотеатры?
Как часто Вы посещаете рестораны?
Какие магазины Вы посещаете?
Ваше семейное положение?
Сколько у Вас детей?
Какое домашнее животное у Вас есть?
Как часто Вы путешествуете?
Какой вид транспорта Вы предпочитаете для путешествий?
Как часто Вы употребляете алкоголь?
Ваше отношение к курению?
Ваш доход в месяц?
Каким смартфоном Вы пользуетесь?
Вы вегетарианец?
Какое у Вас образование?
Какие путешествия Вы предпочитаете?
Смотрите ли Вы телешоу Дом-2?
На каком канале идет шоу Дом-2?
Какое у Вас отношение к шоу Дом-2?
Что по Вашему мнению стоило бы добавить в шоу Дом-2?
Какое шоу Вам нравится больше?
Кто из ведущих шоу Дом-2 Вам больше всех нравится?
Кто из ведущих Дом-2 Вам меньше всего нравится?
Видели ли Вы новое шоу Спаси свою любовь?
Какое у Вас отношение к шоу Спаси Свою Любовь?
Где Вы сегод