<a href="https://colab.research.google.com/github/Starnatvl/sber-autosubscription/blob/main/notebooks/01_data_structure_StrikNa.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Соотношение датасетов `ga_sessions.csv` и `ga_hits.csv**`

| Характеристика       | `ga_sessions.csv` (Сессии)               | `ga_hits.csv` (События)                 |
|----------------------|------------------------------------------|------------------------------------------|
| **Уровень данных**   | Сессионный уровень                      | Событийный уровень                      |
| **Описание**         | Одна строка = один визит на сайт        | Одна строка = одно действие в визите    |
| **Ключевые поля**    | `session_id`, `client_id`               | `session_id`, `hit_number`              |
| **Примеры данных**   | UTM-метки, устройство, геолокация       | Просмотры страниц, клики, отправка форм |
| **Роль в анализе**   | Контекст визита (источник, устройство)  | Поведение пользователя на сайте         |
| **Связь**           | Связывается по `session_id`             | Присоединяется к сессиям                |

# 1. Датасет: ga_sessions.csv

Описание: Данные о сессиях пользователей

Тип: CSV

Размер: 370,1 МБ


## **Анализ структуры DataFrame (Сессии)**

| # | Колонка                    | Non-Null Count | % Заполненности | Dtype   | Описание                          | Проблемы              | Рекомендации                     |
|---|----------------------------|----------------|------------------|---------|-----------------------------------|-----------------------|----------------------------------|
| 0 | `session_id`               | 1,860,042      | 100%             | object  | Уникальный ID сессии              | -                     | Ключевое поле для соединения     |
| 1 | `client_id`                | 1,860,042      | 100%             | object  | Анонимный ID пользователя         | -                     | -     |
| 2 | `visit_date`               | 1,860,042      | 100%             | object  | Дата визита                       | Неоптимальный тип     | `pd.to_datetime()`               |
| 3 | `visit_time`               | 1,860,042      | 100%             | object  | Время визита                      | Неоптимальный тип     | Объединить с датой → `datetime`  |
| 4 | `visit_number`             | 1,860,042      | 100%             | int64   | Номер визита пользователя         | -                     | -                                |
| 5 | `utm_source`               | 1,859,945      | 99.99%           | object  | Источник трафика                  | содержат хеши, 97 пропусков           | Запросить корректные данные, или сопоставить хеши вручную, или удалить колонку               |
| 6 | `utm_medium`               | 1,860,042      | 100%             | object  | Тип канала                        | -                     | Выявить "скрытые" пропуски, унифицировать значения           |
| 7 | `utm_campaign`             | 1,640,439      | 88.2%            | object  | Название кампании                 | содержат хеши, 219,603 пропусков     | Запросить корректные данные, или сопоставить хеши вручную, или удалить колонку               |
| 8 | `utm_adcontent`            | 1,524,427      | 82.0%            | object  | Рекламный креатив                 | содержат хеши, 335,615 пропусков     | Запросить корректные данные, или сопоставить хеши вручную, или удалить колонку                  |
| 9 | `utm_keyword`              | 777,981        | 41.8%            | object  | Ключевое слово                    | содержат хеши, 1,082,061 пропусков   | Удалить колонку                  |
|10 | `device_category`          | 1,860,042      | 100%             | object  | Тип устройства                    | -                     | Конвертировать в `category`      |
|11 | `device_os`                | 789,904        | 42.5%            | object  | Операционная система              | 1,070,138 пропусков   | Заполнить "unknown"              |
|12 | `device_brand`             | 1,492,864      | 80.3%            | object  | Производитель устройства          | 367,178 пропусков     | Заполнить "other"                |
|13 | `device_model`             | 16,338         | 0.9%             | object  | Модель устройства                 | 1,843,704 пропусков   | Удалить колонку                  |
|14 | `device_screen_resolution` | 1,860,042      | 100%             | object  | Разрешение экрана                 | -                     | Выделить ширину/высоту           |
|15 | `device_browser`           | 1,860,042      | 100%             | object  | Браузер                           | -                     | Конвертировать в `category`      |
|16 | `geo_country`              | 1,860,042      | 100%             | object  | Страна                            | -                     | Конвертировать в `category`      |
|17 | `geo_city`                 | 1,860,042      | 100%             | object  | Город                             | -                     | Конвертировать в `category`      |

### **Ключевая статистика**
- **Всего сессий**: 1,860,042
- **Объем памяти**: 255.4+ MB
- **Основные проблемы**:
  - `utm_source`, `utm_campaign`, `utm_adcontent`, `utm_keyword`: содержат хэши
  - `device_model`: 99.1% пропусков
  - `device_os`: 57.5% пропусков

In [None]:
import gdown
import pandas as pd

url_sessions = "https://drive.google.com/uc?export=download&id=1E-OJ1E_ZliOldsRZgJzL844IV7IlCOqW"
output_sessions = "ga_sessions.csv"
gdown.download(url_sessions, output_sessions, quiet=False)

df_sessions = pd.read_csv(output_sessions)



Downloading...
From (original): https://drive.google.com/uc?export=download&id=1E-OJ1E_ZliOldsRZgJzL844IV7IlCOqW
From (redirected): https://drive.google.com/uc?export=download&id=1E-OJ1E_ZliOldsRZgJzL844IV7IlCOqW&confirm=t&uuid=321b8358-3b5c-48dd-9807-1ddca511dc8e
To: /content/ga_sessions.csv
100%|██████████| 388M/388M [00:03<00:00, 98.5MB/s]
  df_sessions = pd.read_csv(output_sessions)


In [None]:
df_sessions

Unnamed: 0,session_id,client_id,visit_date,visit_time,visit_number,utm_source,utm_medium,utm_campaign,utm_adcontent,utm_keyword,device_category,device_os,device_brand,device_model,device_screen_resolution,device_browser,geo_country,geo_city
0,9055434745589932991.1637753792.1637753792,2108382700.163776,2021-11-24,14:36:32,1,ZpYIoDJMcFzVoPFsHGJL,banner,LEoPHuyFvzoNfnzGgfcd,vCIpmpaGBnIQhyYNkXqp,puhZPIYqKXeFPaUviSjo,mobile,Android,Huawei,,360x720,Chrome,Russia,Zlatoust
1,905544597018549464.1636867290.1636867290,210838531.163687,2021-11-14,08:21:30,1,MvfHsxITijuriZxsqZqt,cpm,FTjNLDyTrXaWYgZymFkV,xhoenQgDQsgfEPYNPwKO,IGUCNvHlhfHpROGclCit,mobile,Android,Samsung,,385x854,Samsung Internet,Russia,Moscow
2,9055446045651783499.1640648526.1640648526,2108385331.164065,2021-12-28,02:42:06,1,ZpYIoDJMcFzVoPFsHGJL,banner,LEoPHuyFvzoNfnzGgfcd,vCIpmpaGBnIQhyYNkXqp,puhZPIYqKXeFPaUviSjo,mobile,Android,Huawei,,360x720,Chrome,Russia,Krasnoyarsk
3,9055447046360770272.1622255328.1622255328,2108385564.162225,2021-05-29,05:00:00,1,kjsLglQLzykiRbcDiGcD,cpc,,NOBKLgtuvqYWkXQHeYWM,,mobile,,Xiaomi,,393x786,Chrome,Russia,Moscow
4,9055447046360770272.1622255345.1622255345,2108385564.162225,2021-05-29,05:00:00,2,kjsLglQLzykiRbcDiGcD,cpc,,,,mobile,,Xiaomi,,393x786,Chrome,Russia,Moscow
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1860037,9055415581448263752.1640159305.1640159305,2108378238.164016,2021-12-22,10:48:25,1,BHcvLfOaCWvWTykYqHVe,cpc,,,VlqBmecIOXWjCWUmQkLd,desktop,Windows,,,1920x1080,Chrome,Russia,Moscow
1860038,9055421130527858185.1622007305.1622007305,2108379530.162201,2021-05-26,08:00:00,1,fDLlAcSmythWSCVMvqvL,(none),LTuZkdKfxRGVceoWkVyg,JNHcPlZPxEMWDnRiyoBf,,mobile,,Apple,,390x844,Safari,Russia,Stavropol
1860039,9055422955903931195.1636979515.1636979515,2108379955.163697,2021-11-15,15:31:55,1,fDLlAcSmythWSCVMvqvL,(none),LTuZkdKfxRGVceoWkVyg,JNHcPlZPxEMWDnRiyoBf,puhZPIYqKXeFPaUviSjo,mobile,iOS,Apple,,375x667,Safari,Russia,Moscow
1860040,905543020766873816.1638189404.1638189404,210838164.163819,2021-11-29,15:36:44,1,ZpYIoDJMcFzVoPFsHGJL,banner,LEoPHuyFvzoNfnzGgfcd,JNHcPlZPxEMWDnRiyoBf,puhZPIYqKXeFPaUviSjo,mobile,Android,Xiaomi,,393x851,Chrome,Russia,Chelyabinsk


In [None]:
df_sessions.info(show_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1860042 entries, 0 to 1860041
Data columns (total 18 columns):
 #   Column                    Non-Null Count    Dtype 
---  ------                    --------------    ----- 
 0   session_id                1860042 non-null  object
 1   client_id                 1860042 non-null  object
 2   visit_date                1860042 non-null  object
 3   visit_time                1860042 non-null  object
 4   visit_number              1860042 non-null  int64 
 5   utm_source                1859945 non-null  object
 6   utm_medium                1860042 non-null  object
 7   utm_campaign              1640439 non-null  object
 8   utm_adcontent             1524427 non-null  object
 9   utm_keyword               777981 non-null   object
 10  device_category           1860042 non-null  object
 11  device_os                 789904 non-null   object
 12  device_brand              1492864 non-null  object
 13  device_model              16338 non-null  

In [None]:
medium_counts = df_sessions['utm_medium'].value_counts(dropna=False)
print(medium_counts)

utm_medium
banner               552272
cpc                  434794
(none)               300575
cpm                  242083
referral             152050
organic               63034
email                 29240
push                  28035
stories               10582
cpv                    8022
blogger_channel        8015
smartbanner            6794
blogger_stories        4312
cpa                    4279
tg                     4011
app                    2836
post                   2326
smm                    1985
outlook                1332
clicks                  934
blogger_header          771
(not set)               480
info_text               343
sms                     239
landing                 134
partner                  97
fb_smm                   66
vk_smm                   65
link                     57
cbaafe                   47
CPM                      40
yandex_cpc               36
ok_smm                   28
static                   22
google_cpc               20
article  

### **Расшифровка значений utm_medium**

| Значение          | Категория               | Описание                                                                 | Пример источника             | Рекомендуемое действие       |
|-------------------|-------------------------|--------------------------------------------------------------------------|-------------------------------|------------------------------|
| `cpc`            | Платный трафик          | Платные клики (контекстная реклама)                                      | Google Ads, Яндекс.Директ     | Оставить как есть            |
| `cpm`            | Платный трафик          | Показная реклама (за 1000 показов)                                       | Рекламные сети, баннеры       | Оставить как есть            |
| `organic`        | Бесплатный трафик       | Органический трафик (без оплаты)                                         | Поисковики, прямые заходы     | Оставить как есть            |
| `referral`       | Бесплатный трафик       | Переходы с других сайтов                                                 | Форумы, партнёрские сайты     | Оставить как есть            |
| `email`          | Маркетинг               | Email-рассылки                                                           | Mailchimp, SendPulse          | Оставить как есть            |
| `(none)`         | Проблемное значение     | Пустое значение или технический сбой                                     | -                             | Заменить на `organic/direct` |
| `(not set)`      | Проблемное значение     | Не задано в UTM-метках                                                   | -                             | Заменить на `direct`         |
| `banner`         | Избыточное значение     | Уточнение для `cpm`                                                      | Баннерные сети                | Объединить с `cpm`           |
| `fb_smm`         | Соцсети                 | Facebook-трафик                                                          | Facebook                      | Объединить с `social`        |
| `google_cpc`     | Дублирующее значение    | Частный случай `cpc`                                                     | Google Ads                    | Объединить с `cpc`           |
| `tg`             | Мессенджеры             | Telegram-трафик                                                          | Telegram                      | Вынести в `messenger`        |
| `sber_app`       | Специфичный источник    | Мобильное приложение Сбера                                               | СберБанк                      | Оставить отдельно            |

In [None]:
# Унификация значений столбца utm_medium тип привлечения
# Создаем словарь для замены значений на основе таблицы
utm_mapping = {
    # Проблемные значения
    '(none)': 'organic', # Если в данных есть (none) или пустые значения, их часто заменяют на organic? рафик из бесплатных (неоплачиваемых) источников, где пользователь пришел на сайт без рекламного взаимодействия
    '(not set)': 'direct', # Прямой трафик, без разметки

    # Избыточные/дублирующие значения
    'banner': 'cpm',
    'google_cpc': 'cpc',
    'yandex_cpc': 'cpc',
    'fb_smm': 'social',
    'vk_smm': 'social',

    # Специфичные источники
    'tg': 'messenger',
    'sber_app': 'sber_app'  # Оставляем как есть
}

# Применяем замену значений
df_sessions['utm_medium'] = df_sessions['utm_medium'].replace(utm_mapping)

# Группируем редкие значения (менее 0.1% от общего количества)
threshold = len(df_sessions) * 0.001
rare_mediums = df_sessions['utm_medium'].value_counts()[df_sessions['utm_medium'].value_counts() < threshold].index

# Заменяем редкие значения на 'other', кроме специальных категорий
special_categories = ['sber_app']  # Категории, которые не нужно объединять
to_replace = [x for x in rare_mediums if x not in special_categories]
df_sessions['utm_medium'] = df_sessions['utm_medium'].replace(to_replace, 'other')

# Проверяем результат
print("Распределение значений после обработки:")
print(df_sessions['utm_medium'].value_counts(dropna=False))

# Дополнительная проверка
print("\nСтатистика по категориям:")
print(f"Всего уникальных значений: {df_sessions['utm_medium'].nunique()}")
print(f"Процент значений 'other': {100*(df_sessions['utm_medium'] == 'other').mean():.2f}%")

Распределение значений после обработки:
utm_medium
cpm                794355
cpc                434850
organic            363609
referral           152050
email               29240
push                28035
stories             10582
cpv                  8022
blogger_channel      8015
smartbanner          6794
other                4740
blogger_stories      4312
cpa                  4279
messenger            4011
app                  2836
post                 2326
smm                  1985
sber_app                1
Name: count, dtype: int64

Статистика по категориям:
Всего уникальных значений: 18
Процент значений 'other': 0.25%


In [None]:
print(df_sessions['device_category'].unique())
# В столбце device_category содержатся три категории устройств:

#'mobile' (мобильные)

#'tablet' (планшеты)

#'desktop' (стационарные компьютеры или ноутбуки)

['mobile' 'tablet' 'desktop']


In [None]:
print(df_sessions['device_os'].unique())

['Android' nan 'iOS' 'Windows' 'Linux' 'Macintosh' '(not set)' 'Chrome OS'
 'BlackBerry' 'Tizen' 'Firefox OS' 'Samsung' 'Windows Phone' 'Nokia']


Ключевые наблюдения:
Основные современные ОС:

Android, iOS, Windows, Macintosh (macOS), Chrome OS.

Устаревшие системы:

BlackBerry, Firefox OS, Windows Phone, Nokia.

Технические значения:

nan и (not set) требуют обработки (например, замена на 'unknown').

Возможные аномалии:

'Samsung' — вероятно, дублирует Android (т.к. Samsung использует Android с оболочкой One UI).

In [None]:
# Обработка столбца с операционными системами в df_sessions
df_sessions['device_os'] = (
    df_sessions['device_os']
    # Замена устаревших ОС на одну категорию
    .replace([
        'BlackBerry', 'Firefox OS', 'Windows Phone',
        'Nokia', 'Tizen'
    ], 'Legacy OS')
    # Объединение похожих значений
    .replace({
        'Macintosh': 'macOS',
        'Samsung': 'Android'  # Если Samsung использует Android
    })
    # Замена пропущенных значений
    .fillna('unknown')
    .replace('(not set)', 'unknown')
)

# Проверка результата
print("Распределение ОС после обработки:")
print(df_sessions['device_os'].value_counts(dropna=False))

# Опционально: конвертация в категориальный тип для экономии памяти
df_sessions['device_os'] = df_sessions['device_os'].astype('category')

# Проверка использования памяти
print(f"\nИспользование памяти после оптимизации:")
print(df_sessions['device_os'].memory_usage(deep=True))

Распределение ОС после обработки:
device_os
unknown      1070502
Android       464058
iOS           207104
Windows        88307
macOS          24824
Linux           5120
Chrome OS         83
Legacy OS         44
Name: count, dtype: int64

Использование памяти после оптимизации:
1860982


In [None]:
df_sessions

Unnamed: 0,session_id,client_id,visit_date,visit_time,visit_number,utm_source,utm_medium,utm_campaign,utm_adcontent,utm_keyword,device_category,device_os,device_brand,device_model,device_screen_resolution,device_browser,geo_country,geo_city
0,9055434745589932991.1637753792.1637753792,2108382700.163776,2021-11-24,14:36:32,1,ZpYIoDJMcFzVoPFsHGJL,banner,LEoPHuyFvzoNfnzGgfcd,vCIpmpaGBnIQhyYNkXqp,puhZPIYqKXeFPaUviSjo,mobile,Android,Huawei,,360x720,Chrome,Russia,Zlatoust
1,905544597018549464.1636867290.1636867290,210838531.163687,2021-11-14,08:21:30,1,MvfHsxITijuriZxsqZqt,cpm,FTjNLDyTrXaWYgZymFkV,xhoenQgDQsgfEPYNPwKO,IGUCNvHlhfHpROGclCit,mobile,Android,Samsung,,385x854,Samsung Internet,Russia,Moscow
2,9055446045651783499.1640648526.1640648526,2108385331.164065,2021-12-28,02:42:06,1,ZpYIoDJMcFzVoPFsHGJL,banner,LEoPHuyFvzoNfnzGgfcd,vCIpmpaGBnIQhyYNkXqp,puhZPIYqKXeFPaUviSjo,mobile,Android,Huawei,,360x720,Chrome,Russia,Krasnoyarsk
3,9055447046360770272.1622255328.1622255328,2108385564.162225,2021-05-29,05:00:00,1,kjsLglQLzykiRbcDiGcD,cpc,,NOBKLgtuvqYWkXQHeYWM,,mobile,unknown,Xiaomi,,393x786,Chrome,Russia,Moscow
4,9055447046360770272.1622255345.1622255345,2108385564.162225,2021-05-29,05:00:00,2,kjsLglQLzykiRbcDiGcD,cpc,,,,mobile,unknown,Xiaomi,,393x786,Chrome,Russia,Moscow
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1860037,9055415581448263752.1640159305.1640159305,2108378238.164016,2021-12-22,10:48:25,1,BHcvLfOaCWvWTykYqHVe,cpc,,,VlqBmecIOXWjCWUmQkLd,desktop,Windows,,,1920x1080,Chrome,Russia,Moscow
1860038,9055421130527858185.1622007305.1622007305,2108379530.162201,2021-05-26,08:00:00,1,fDLlAcSmythWSCVMvqvL,(none),LTuZkdKfxRGVceoWkVyg,JNHcPlZPxEMWDnRiyoBf,,mobile,unknown,Apple,,390x844,Safari,Russia,Stavropol
1860039,9055422955903931195.1636979515.1636979515,2108379955.163697,2021-11-15,15:31:55,1,fDLlAcSmythWSCVMvqvL,(none),LTuZkdKfxRGVceoWkVyg,JNHcPlZPxEMWDnRiyoBf,puhZPIYqKXeFPaUviSjo,mobile,iOS,Apple,,375x667,Safari,Russia,Moscow
1860040,905543020766873816.1638189404.1638189404,210838164.163819,2021-11-29,15:36:44,1,ZpYIoDJMcFzVoPFsHGJL,banner,LEoPHuyFvzoNfnzGgfcd,JNHcPlZPxEMWDnRiyoBf,puhZPIYqKXeFPaUviSjo,mobile,Android,Xiaomi,,393x851,Chrome,Russia,Chelyabinsk


# 2. Датасет: ga_hits.csv

Описание: Данные о событиях пользователей

Тип: CSV

Размер: 3,97 ГБ


### **Анализ структуры DataFrame**

| # | Колонка         | Non-Null Count | % Заполненности | Dtype   | Описание                          | Проблемы              | Рекомендации                     |
|---|-----------------|----------------|------------------|---------|-----------------------------------|-----------------------|----------------------------------|
| 0 | `session_id`    | 15,726,470     | 100%             | object  | ID визита              | -                     | -      |
| 1 | `hit_date`      | 15,726,470     | 100%             | object  | Дата события                      | Неоптимальный тип     | `pd.to_datetime()`               |
| 2 | `hit_time`      | 6,566,148      | 41.7%            | float64 | Время события                     | 58.3% пропусков       | Заполнить медианой               |
| 3 | `hit_number`    | 15,726,470     | 100%             | int64   | Порядковый номер события в рамках сессии          | -                     | -                                |
| 4 | `hit_type`      | 15,726,470     | 100%             | object  | Тип события               | Бесполезное хранение данных (одна и таже стркоа "event", нулевая информативность)                     | Удалить столбец    |
| 5 | `hit_referer`   | 9,451,666      | 60%              | object  | Источник события                 | хэши, 40% пропусков         | удалить или запросить корректные данные, или вручную расшифровать     |
| 6 | `hit_page_path` | 15,726,470     | 100%             | object  | URL страницы события                     | -                     | Выделить тип действия, рассмотреть оптимизацию столбца hit_page_path для предсказательной модели (цель Преобразовать сырые URL в признаки (features), которые помогут модели предсказывать целевые действия (оставление заявки, заказ звонка и т.д.).)          |
| 7 | `event_category`| 15,726,470     | 100%             | object  | Категория события                 | Неоптимальный тип данных, разрозненные категории, опечатки                     | Конвертировать в `category`      |
| 8 | `event_action`  | 15,726,470     | 100%             | object  | Действие пользователя             | -                     | Фильтровать ключевые действия, рассматривать, как целевое действие   |
| 9 | `event_label`   | 11,966,286     | 76%              | object  | Тег действия              | хеши, 24% пропусков         | Заполнить "unknown"              |
|10 | `event_value`   | 0              | 0%               | float64 | Числовое значение события         | Полностью пустая      | Удалить колонку                  |

### **Ключевая статистика**
- **Всего строк**: 15,726,470
- **Объем памяти**: 1.3+ GB
- **Основные проблемы**:
  - 58.3% пропусков в `hit_time`
  - Пустая колонка `event_value`
  - хеши, 9,160,322 пропущенных значений в `hit_referer`
  - хеши, пропущенные значения в  в`event_label`

In [None]:
import gdown
import pandas as pd

url_hits = "https://drive.google.com/uc?export=download&id=1y_014uhvDmD55ZlQ_hC7ptsP9jFecyRd"
output_hits = "ga_hits.csv"
gdown.download(url_hits, output_hits, quiet=False)

df_hits = pd.read_csv(output_hits)



Downloading...
From (original): https://drive.google.com/uc?export=download&id=1y_014uhvDmD55ZlQ_hC7ptsP9jFecyRd
From (redirected): https://drive.google.com/uc?export=download&id=1y_014uhvDmD55ZlQ_hC7ptsP9jFecyRd&confirm=t&uuid=62d67fef-5d6c-414f-a9c5-db07fcd5f54a
To: /content/ga_hits.csv
100%|██████████| 4.27G/4.27G [01:06<00:00, 64.3MB/s]


In [None]:
df_hits

Unnamed: 0,session_id,hit_date,hit_time,hit_number,hit_type,hit_referer,hit_page_path,event_category,event_action,event_label,event_value
0,5639623078712724064.1640254056.1640254056,2021-12-23,597864.0,30,event,,sberauto.com/cars?utm_source_initial=google&ut...,quiz,quiz_show,,
1,7750352294969115059.1640271109.1640271109,2021-12-23,597331.0,41,event,,sberauto.com/cars/fiat?city=1&city=18&rental_c...,quiz,quiz_show,,
2,885342191847998240.1640235807.1640235807,2021-12-23,796252.0,49,event,,sberauto.com/cars/all/volkswagen/polo/e994838f...,quiz,quiz_show,,
3,142526202120934167.1640211014.1640211014,2021-12-23,934292.0,46,event,,sberauto.com/cars?utm_source_initial=yandex&ut...,quiz,quiz_show,,
4,3450086108837475701.1640265078.1640265078,2021-12-23,768741.0,79,event,,sberauto.com/cars/all/mercedes-benz/cla-klasse...,quiz,quiz_show,,
...,...,...,...,...,...,...,...,...,...,...,...
15726465,6866159858916559617.1640270865.1640270865,2021-12-23,810589.0,43,event,,sberauto.com/cars/all/toyota/fortuner/24cb5af2...,quiz,quiz_show,,
15726466,7310304587364460692.1640261783.1640261783,2021-12-23,904927.0,40,event,,sberauto.com/cars/all/mercedes-benz/gla-klasse...,quiz,quiz_show,,
15726467,8013702685784312179.1640270195.1640270195,2021-12-23,2172865.0,43,event,,sberauto.com/cars/all/toyota/alphard/2ebe4871?...,quiz,quiz_show,,
15726468,8021505554734405918.1640257821.1640257821,2021-12-23,713325.0,45,event,,sberauto.com/cars/all/bmw/x3/6a660f0a?rental_p...,quiz,quiz_show,,


In [None]:
df_hits.info(show_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15726470 entries, 0 to 15726469
Data columns (total 11 columns):
 #   Column          Non-Null Count     Dtype  
---  ------          --------------     -----  
 0   session_id      15726470 non-null  object 
 1   hit_date        15726470 non-null  object 
 2   hit_time        6566148 non-null   float64
 3   hit_number      15726470 non-null  int64  
 4   hit_type        15726470 non-null  object 
 5   hit_referer     9451666 non-null   object 
 6   hit_page_path   15726470 non-null  object 
 7   event_category  15726470 non-null  object 
 8   event_action    15726470 non-null  object 
 9   event_label     11966286 non-null  object 
 10  event_value     0 non-null         float64
dtypes: float64(2), int64(1), object(8)
memory usage: 1.3+ GB


In [None]:
print(df_hits['hit_type'].unique())

['event']


In [None]:
print(df_hits['hit_referer'].unique())

[nan 'VloVXNWduHeTjUoDkjkO' 'trXmoxcphNjuYcShOXwL' ...
 'SyKCPVqPvVwsypNSfuig' 'KpKtMqJlrvgANamYaRSI' 'tvGabHlPFDvTmIFiCKTL']


In [None]:
print(df_hits['event_category'].unique())

['quiz' 'card_web' 'sub_page_view' 'search_form' 'auth' 'chat' 'offers'
 'ad_banner' 'navigation' 'profile_menu' 'sub_button_click' 'listing_ads'
 'cars' 'sub_submit' 'main_banners' 'header' 'sap_search_form'
 'active_invitation' 'sap_search__form' 'footer' 'scrolling_main_page'
 'my_idea' 'phone' 'main_services' 'greenday_sub_button_click'
 'greenday_listing_ads' 'greenday_gtm.triggergroup' 'credit_buttons'
 'add_ad_vin' 'add_ad' 'category_tile' 'greenday_sub_submit' 'pos_landing'
 'greenday_sub_page_view' 'add_ad_publish_success' 'add_ad_city'
 'add_ad_description' 'add_ad_additional_information' 'add_ad_photo'
 'wallet' 'add_ad_preview' 'add_ad_form' 'main_advantages'
 'greenday_card_web' 'add_ad_documents' 'credit_landing_pos'
 'add_ad_price' 'add_ad_options' 'jivosite' 'tesla' 'app_banner'
 'titul_form']


| Английский термин       | Русский перевод                 | Пояснение                                      |
|--------------------------|----------------------------------|-----------------------------------------------|
| quiz                     | Опрос                           | Интерактивные опросы на сайте                 |
| card_web                 | Карточка товара (веб)           | Просмотр карточек товаров/услуг               |
| sub_page_view            | Просмотр подстраницы            | Посещение внутренних страниц                  |
| search_form              | Поисковая форма                 | Использование поиска на сайте                 |
| auth                     | Авторизация                     | Вход в аккаунт                                |
| chat                     | Чат                             | Открытие/использование чата                   |
| offers                   | Спецпредложения                 | Просмотр акционных предложений                |
| ad_banner                | Рекламный баннер                | Клики по рекламным баннерам                   |
| navigation               | Навигация                       | Использование меню/переходов                  |
| profile_menu             | Меню профиля                    | Действия в личном кабинете                    |
| sub_button_click         | Клик по кнопке подписки         | Нажатие на кнопки "Подписаться", "Оформить"   |
| listing_ads              | Список объявлений               | Просмотр каталога товаров/услуг               |
| cars                     | Автомобили                      | Раздел автомобилей                            |
| sub_submit               | Отправка формы                  | Заполнение и отправка форм                    |
| main_banners             | Главные баннеры                 | Взаимодействие с основными баннерами          |
| header                   | Шапка сайта                     | Клики по элементам шапки                      |
| sap_search_form          | SAP-поиск                       | Использование корпоративной поисковой системы |
| active_invitation        | Активное приглашение            | Действия по реферальным программам            |
| footer                   | Подвал сайта                    | Взаимодействие с футером                      |
| scrolling_main_page      | Скроллинг главной страницы      | Прокрутка главной страницы                    |
| phone                    | Телефон                         | Клики по номеру телефона                      |
| main_services            | Основные услуги                 | Раздел ключевых услуг                         |
| credit_buttons           | Кредитные кнопки                | Действия с кредитными предложениями           |
| add_ad                   | Добавление объявления           | Создание нового объявления                    |
| category_tile            | Плитки категорий                | Просмотр категорий в виде плиток              |
| pos_landing              | POS-лендинг                     | Посещение страниц POS-кредитования            |
| wallet                   | Кошелек                         | Действия с электронным кошельком              |
| jivosite                 | Jivosite (чат)                  | Использование чат-виджета                     |
| tesla                    | Tesla                           | Раздел, связанный с Tesla                     |
| app_banner               | Баннер приложения               | Реклама мобильного приложения                 |
| titul_form               | Титульная форма                 | Основная форма заявки                         |

In [None]:
print(df_hits['event_action'].unique())

['quiz_show' 'view_card' 'sub_landing' 'photos_all' 'quiz_start'
 'search_kpp' 'start_auth' 'start_chat' 'go_to_offer' 'name_entered'
 'view_new_card' 'search_color' 'search_drive' 'search_km_to'
 'user_message' 'analystlabel' 'click_on_logo' 'click_on_menu'
 'phone_entered' 'search_engine' 'sub_view_cars_click' 'go_to_car_card'
 'search_form_clear' 'search_km_from' 'view_used_card' 'search_power_to'
 'surname_entered' 'view_more_click' 'showed_number_ads'
 'listing_ads_sort' 'pagination_click' 'phone_auth_start'
 'search_body_type' 'show_phone_input' 'sub_account_page'
 'click_on_get_code' 'search_power_from' 'search_form_region'
 'patronymic_entered' 'sber_id_auth_start' 'sub_submit_success'
 'search_form_rental' 'click_on_yes_its_me' 'search_form_cost_to'
 'search_form_year_to' 'show_sms_code_input' 'sub_car_claim_click'
 'click_on_subscription' 'search_form_cost_from' 'search_form_year_from'
 'search_steering_wheel' 'sub_footer_link_click' 'sub_header_link_click'
 'sub_open_dialog_

Это список событий (действий)

Категоризация действий:
1. Поиск и подбор автомобилей
search_* – различные параметры поиска (цвет, пробег, мощность, тип кузова и т. д.).

search_kpp – поиск по типу КПП (механика/автомат).

search_color – фильтрация по цвету.

search_drive – тип привода (передний, задний, полный).

search_km_to / search_km_from – пробег "до" и "от".

search_power_to / search_power_from – мощность двигателя.

search_body_type – тип кузова.

search_steering_wheel – расположение руля (левый/правый).

search_form_region – выбор региона.

search_form_mark_select / search_form_model_select – выбор марки и модели.

search_form_search_btn – нажатие кнопки "Найти".

search_form_clear – сброс фильтров.

2. Просмотр карточек автомобилей
view_card – просмотр карточки авто.

view_new_card / view_used_card – просмотр новых/б/у авто.

go_to_car_card – переход на карточку авто.

photos_all – просмотр всех фото.

view_more_click – кнопка "Показать ещё".

showed_number_ads – отображение количества объявлений.

listing_ads_sort – сортировка списка объявлений.

3. Личный кабинет и авторизация
start_auth – начало авторизации.

phone_entered – ввод телефона.

code_sms_entered_success – успешный ввод SMS-кода.

phone_auth_success – успешная авторизация по телефону.

sber_id_auth_start – вход через СберID.

click_on_my_data – просмотр своих данных.

click_on_create_new_account – создание нового аккаунта.

4. Чат и коммуникация
start_chat – начало чата.

user_message – отправка сообщения.

click_on_contact_us – контакт с поддержкой.

sub_open_dialog_click – открытие диалога.

chat requested – запрос чата.

chat established – соединение в чате.

proactive invitation shown – показано proactive-приглашение в чат.

5. Оформление заявок и кредитов
go_to_offer – переход к офферу (предложению).

click_on_credit_btn – нажатие на кнопку кредита.

setelem_credit_form_button – кредит от Сетелем.

tinkoff_credit_form_button – кредит от Тинькофф.

click_insurance – страховка.

sub_car_claim_submit_click – отправка заявки на авто.

6. Действия с объявлениями
add_ad_btn – добавление объявления.

success_ad_creation – успешное создание объявления.

click_sell_car – продажа авто.

click_buy_auto – покупка авто.

7. Навигация по сайту/приложению
click_on_logo – клик по логотипу.

click_on_menu – открытие меню.

go_to_privacy_policy – переход к политике конфиденциальности.

go_to_terms – переход к условиям использования.

go_to_support – переход в поддержку.

scrolling_to_* – скролл до определённого раздела.

8. Маркетинговые ивенты
greenday_* – акции Green Day (подарки, скидки).

new_year_road_help_banner_show – показ новогоднего баннера.

potential_banner_show – показ рекламного баннера.

tesla_banner_show – баннер Tesla.

9. Ошибки и системные события
show_captha_error – ошибка капчи.

code_sms_incorrect_in – неверный SMS-код.

code_sms_limit_error – превышен лимит SMS.

sub_submit_error – ошибка отправки формы.

Вывод:
События помогают анализировать поведение пользователей, улучшать UX и увеличивать конверсию.

In [None]:
print(df_hits['event_label'].unique())

[nan 'GYKKaSmRGxilGoDZiuEJ' 'nsSPWOGBZhTHYKHvcPDM' ...
 'zCMGPrpNkfsTcYWqMUzJ' 'NqyZafHYWtVdMoHFaUMP' 'aNlmojNIfsJaXKZHCDiU']
