# Активность пользователей в поиске VK Видео 
- Автор: Пулькина Анастасия
- Дата: 02.04.2025

<div class="alert alert-info">

### Цели и задачи проекта
    
    
</div>

**Цель проекта** - анализ данных об активности пользователей в поиске VK Видео. 

**Задачи**:
 1. Знакомство с данными: загрузка, предобработка (обработка типа данных и пропусков)  
 2. Поиск точек роста продукта: в каких случаях поиск показывает плохое качество.
 3. Используя визуализацию показать проблемные случаи  
 4. Краткие выводы 

Датасет `analytics_test.csv` содержит информаию о пользователях и их запросах. В датасете представленны следующие данные: 
- `user_id`	- идентификатор пользователя
- `sex`	- пол пользователя
- `age`	- возраст
- `platform` - платформа	
- `query_id` - идентификатор поиска	
- `query_text` - текст введенного запроса	
- `query_type` - тема запроса  	
- `event` - действие, которое совершает пользователь (`tap`, `like`, `subscribe`, `view`, `share`, `search`)	
- `click_position` - номер позиции, по которой кликает пользователь	
- `doc_type`	- тип документа по которому совершется событие `event`
- `view_time` - время просмотра

Для начала необходимо определить, что будем считать плохим качесвтом поиска. Критерии могут быть следующими: 
- Низкая релевантность выдачи (приходится кликать на более далекие позиции `click_position`, чтобы найти ответ)
- Короткое время просмотра `view_time`, что может говорить о том, что пользователь не вовлекся и быстро ушел со страницы 
- Мало действий `event`, что готовит о низкой вовлеченности пользователя
- Повторные поиски `search` в `event` по похожему запросу


<div class="alert alert-info">
    
### Содержимое проекта
</div>

1. [Загрузка и предобработка данных](#download_data)
2. [Исследовательский анализ данных](#eda)
3. [Итоговый вывод](#summary)
---

<div class="alert alert-info">
    
## Загрузка, знакомство с данных и их предобработка
<a id='download_data'></a>
</div>

In [1]:
# Импортирую необходимые библиотеки 
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [2]:
!pip install phik
from phik import phik_matrix



In [3]:
!pip install matplotlib-venn
from matplotlib_venn import venn3



In [13]:
import requests

In [14]:
# Загружаю датасет

public_key = "https://disk.yandex.ru/d/GruOijWHnJE1og"  

# 1. Запрашиваем у API Яндекс.Диска прямой (download) URL для чтения файла
api_endpoint = "https://cloud-api.yandex.net/v1/disk/public/resources/download"
params = {"public_key": public_key}
response = requests.get(api_endpoint, params=params)
response.raise_for_status()  

download_url = response.json()["href"]
# Теперь download_url — это прямой адрес к самому файлу без CAPTCHA

# 2. Считываем CSV напрямую из полученного download_url
df = pd.read_csv(download_url)

df.head()

Unnamed: 0.1,Unnamed: 0,user_id,sex,age,platform,query_id,query_text,query_type,event,click_position,doc_type,view_time
0,0,96422511,female,68,android,89656828,передачи о новых технологиях,show,share,6,playlist,0
1,1,45247030,male,62,android_tv,89784877,автопрому новости,news,search,0,,0
2,2,79572413,male,12,web,10555855,логистическое законодательство,news,search,0,,0
3,3,821317,female,58,android_tv,72054848,банковские премии новости,news,search,0,,0
4,4,6206023,female,24,android,20838049,вики шоу аманда,show,subscribe,7,author,0


In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Unnamed: 0      20000 non-null  int64 
 1   user_id         20000 non-null  int64 
 2   sex             20000 non-null  object
 3   age             20000 non-null  int64 
 4   platform        20000 non-null  object
 5   query_id        20000 non-null  int64 
 6   query_text      20000 non-null  object
 7   query_type      20000 non-null  object
 8   event           20000 non-null  object
 9   click_position  20000 non-null  int64 
 10  doc_type        15042 non-null  object
 11  view_time       20000 non-null  int64 
dtypes: int64(6), object(6)
memory usage: 1.8+ MB


In [6]:
# ищу пропуски 
df_missing = df.copy() # Буду работать с копием        
missing = pd.DataFrame({
    'Кол-во пропусков': df_missing.isnull().sum(), 
    'Доля пропусков': df_missing.isnull().mean().round(4)})
           
missing.sort_values(by='Кол-во пропусков', ascending=False).style.background_gradient(cmap='coolwarm')

  smin = np.nanmin(gmap) if vmin is None else vmin
  smax = np.nanmax(gmap) if vmax is None else vmax


Unnamed: 0,Кол-во пропусков,Доля пропусков
0.000000,,
"sitekey:""""",0.0,
"linksVisible:""yes""}!function(e</th>  <td id=""T_09807_row2_col0"" class=""data row2 col0"" >0.000000</td>  <td id=""T_09807_row2_col1"" class=""data row2 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row3"" class=""row_heading level0 row3"" >firstLetterHighlighted:""""</th>  <td id=""T_09807_row3_col0"" class=""data row3 col0"" >0.000000</td>  <td id=""T_09807_row3_col1"" class=""data row3 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row4"" class=""row_heading level0 row4"" >support:""https://yandex.ru/support/smart-captcha/problems.html?form-unique_key=6695404158449379722&form-fb-hint=8.73""</th>  <td id=""T_09807_row4_col0"" class=""data row4 col0"" >0.000000</td>  <td id=""T_09807_row4_col1"" class=""data row4 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row5"" class=""row_heading level0 row5"" >ogImage:""https://yastatic.net/s3/home-static/_/37/37a02b5dc7a51abac55d8a5b6c865f0e.png""</th>  <td id=""T_09807_row5_col0"" class=""data row5 col0"" >0.000000</td>  <td id=""T_09807_row5_col1"" class=""data row5 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row6"" class=""row_heading level0 row6"" >ogDescription:""Найдётся всё""</th>  <td id=""T_09807_row6_col0"" class=""data row6 col0"" >0.000000</td>  <td id=""T_09807_row6_col1"" class=""data row6 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row7"" class=""row_heading level0 row7"" >ogTitle:""Яндекс""</th>  <td id=""T_09807_row7_col0"" class=""data row7 col0"" >0.000000</td>  <td id=""T_09807_row7_col1"" class=""data row7 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row8"" class=""row_heading level0 row8"" >timestamp:""1749036738""</th>  <td id=""T_09807_row8_col0"" class=""data row8 col0"" >0.000000</td>  <td id=""T_09807_row8_col1"" class=""data row8 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row9"" class=""row_heading level0 row9"" >smartCaptchaHost:""""</th>  <td id=""T_09807_row9_col0"" class=""data row9 col0"" >0.000000</td>  <td id=""T_09807_row9_col1"" class=""data row9 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row10"" class=""row_heading level0 row10"" >powComplexity:""15""</th>  <td id=""T_09807_row10_col0"" class=""data row10 col0"" >0.000000</td>  <td id=""T_09807_row10_col1"" class=""data row10 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row11"" class=""row_heading level0 row11"" >initial-scale=1""><title data-react-helmet=""true"">Вы не робот?</title><meta data-react-helmet=""true"" property=""og:title"" content=""Яндекс""><meta data-react-helmet=""true"" property=""og:description"" content=""Найдётся всё""><meta data-react-helmet=""true"" property=""og:image"" content=""https://yastatic.net/s3/home-static/_/37/37a02b5dc7a51abac55d8a5b6c865f0e.png""><link rel=""stylesheet"" href=""/captcha_smart.34006bbf7a513fd1b63d.min.css?k=1732741901550""><style>@media only screen and (min-width:651px) and (prefers-color-scheme:light){body{background-image:url('https://captcha-backgrounds.s3.yandex.net/static/default-background.jpg')}.LogoLink{background-image:url('https://cdnrhkgfkkpupuotntfj.svc.cdn.yandex.net/yandexrulogo.svg')}}@media only screen and (min-width:651px) and (prefers-color-scheme:dark){body{background-image:url('https://captcha-backgrounds.s3.yandex.net/static/dark-background.jpg')}.LogoLink{background-image:url('https://cdnrhkgfkkpupuotntfj.svc.cdn.yandex.net/yandexrulogo.svg')}}@media (prefers-color-scheme:dark){.Theme_root_default{--smart-captcha-background-color:#313036;--checkbox-captcha-error-color:#f33;--checkbox-captcha-border:1px solid #d9d9d9;--checkbox-captcha-border-radius:11px;--anchor-background-color:#313036;--anchor-background-color-error:rgba(255</th>  <td id=""T_09807_row11_col0"" class=""data row11 col0"" >0.000000</td>  <td id=""T_09807_row11_col1"" class=""data row11 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row12"" class=""row_heading level0 row12"" >powPrefix:""743D313734393033363733383B703D62616639336264382D64396338323564332D31303262623331612D363033373035613B633D31353B643D31433030353332364345433446373335353746463642364536414435323946323B""</th>  <td id=""T_09807_row12_col0"" class=""data row12 col0"" >0.000000</td>  <td id=""T_09807_row12_col1"" class=""data row12 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row13"" class=""row_heading level0 row13"" >uniqueKey:""6695404158449379722""</th>  <td id=""T_09807_row13_col0"" class=""data row13 col0"" >0.000000</td>  <td id=""T_09807_row13_col1"" class=""data row13 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row14"" class=""row_heading level0 row14"" >reqId:""""</th>  <td id=""T_09807_row14_col0"" class=""data row14 col0"" >0.000000</td>  <td id=""T_09807_row14_col1"" class=""data row14 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row15"" class=""row_heading level0 row15"" >aesSign:""1_1749036738_3029400619618018848_8479b309597bf1d6d7d03669889328bf""</th>  <td id=""T_09807_row15_col0"" class=""data row15 col0"" >0.000000</td>  <td id=""T_09807_row15_col1"" class=""data row15 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row16"" class=""row_heading level0 row16"" >aesKey:""+3i4b/3+4xB7ZYDtw7Lm1/a58oZF0YqCdY0rf6bYJgA=""</th>  <td id=""T_09807_row16_col0"" class=""data row16 col0"" >0.000000</td>  <td id=""T_09807_row16_col1"" class=""data row16 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row17"" class=""row_heading level0 row17"" >introSrc:""""</th>  <td id=""T_09807_row17_col0"" class=""data row17 col0"" >0.000000</td>  <td id=""T_09807_row17_col1"" class=""data row17 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row18"" class=""row_heading level0 row18"" >voiceSrc:""""</th>  <td id=""T_09807_row18_col0"" class=""data row18 col0"" >0.000000</td>  <td id=""T_09807_row18_col1"" class=""data row18 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row19"" class=""row_heading level0 row19"" >task:""""</th>  <td id=""T_09807_row19_col0"" class=""data row19 col0"" >0.000000</td>  <td id=""T_09807_row19_col1"" class=""data row19 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row20"" class=""row_heading level0 row20"" >n</th>  <td id=""T_09807_row20_col0"" class=""data row20 col0"" >0.000000</td>  <td id=""T_09807_row20_col1"" class=""data row20 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row21"" class=""row_heading level0 row21"" >t.2</th>  <td id=""T_09807_row21_col0"" class=""data row21 col0"" >0.000000</td>  <td id=""T_09807_row21_col1"" class=""data row21 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row22"" class=""row_heading level0 row22"" >a</th>  <td id=""T_09807_row22_col0"" class=""data row22 col0"" >0.000000</td>  <td id=""T_09807_row22_col1"" class=""data row22 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row23"" class=""row_heading level0 row23"" >c){e.ym=e.ym||function(){(e.ym.a=e.ym.a||[]).push(arguments)}</th>  <td id=""T_09807_row23_col0"" class=""data row23 col0"" >0.000000</td>  <td id=""T_09807_row23_col1"" class=""data row23 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row24"" class=""row_heading level0 row24"" >params:{req_id:""""</th>  <td id=""T_09807_row24_col0"" class=""data row24 col0"" >0.000000</td>  <td id=""T_09807_row24_col1"" class=""data row24 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row25"" class=""row_heading level0 row25"" >ut:""noindex""</th>  <td id=""T_09807_row25_col0"" class=""data row25 col0"" >0.000000</td>  <td id=""T_09807_row25_col1"" class=""data row25 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row26"" class=""row_heading level0 row26"" >webvisor:!0</th>  <td id=""T_09807_row26_col0"" class=""data row26 col0"" >0.000000</td>  <td id=""T_09807_row26_col1"" class=""data row26 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row27"" class=""row_heading level0 row27"" >accurateTrackBounce:!0</th>  <td id=""T_09807_row27_col0"" class=""data row27 col0"" >0.000000</td>  <td id=""T_09807_row27_col1"" class=""data row27 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row28"" class=""row_heading level0 row28"" >trackLinks:!0</th>  <td id=""T_09807_row28_col0"" class=""data row28 col0"" >0.000000</td>  <td id=""T_09807_row28_col1"" class=""data row28 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row29"" class=""row_heading level0 row29"" >{clickmap:!0</th>  <td id=""T_09807_row29_col0"" class=""data row29 col0"" >0.000000</td>  <td id=""T_09807_row29_col1"" class=""data row29 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row30"" class=""row_heading level0 row30"" >init</th>  <td id=""T_09807_row30_col0"" class=""data row30 col0"" >0.000000</td>  <td id=""T_09807_row30_col1"" class=""data row30 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row31"" class=""row_heading level0 row31"" >ym(10630330</th>  <td id=""T_09807_row31_col0"" class=""data row31 col0"" >0.000000</td>  <td id=""T_09807_row31_col1"" class=""data row31 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row32"" class=""row_heading level0 row32"" >script)</th>  <td id=""T_09807_row32_col0"" class=""data row32 col0"" >0.000000</td>  <td id=""T_09807_row32_col1"" class=""data row32 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row33"" class=""row_heading level0 row33"" >document</th>  <td id=""T_09807_row33_col0"" class=""data row33 col0"" >0.000000</td>  <td id=""T_09807_row33_col1"" class=""data row33 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row34"" class=""row_heading level0 row34"" >c)}(window</th>  <td id=""T_09807_row34_col0"" class=""data row34 col0"" >0.000000</td>  <td id=""T_09807_row34_col1"" class=""data row34 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row35"" class=""row_heading level0 row35"" >c.parentNode.insertBefore(a</th>  <td id=""T_09807_row35_col0"" class=""data row35 col0"" >0.000000</td>  <td id=""T_09807_row35_col1"" class=""data row35 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row36"" class=""row_heading level0 row36"" >a.src=""https://mc.yandex.ru/metrika/tag.js""</th>  <td id=""T_09807_row36_col0"" class=""data row36 col0"" >0.000000</td>  <td id=""T_09807_row36_col1"" class=""data row36 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row37"" class=""row_heading level0 row37"" >a.async=1</th>  <td id=""T_09807_row37_col0"" class=""data row37 col0"" >0.000000</td>  <td id=""T_09807_row37_col1"" class=""data row37 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row38"" class=""row_heading level0 row38"" >c=n.getElementsByTagName(t)[0]</th>  <td id=""T_09807_row38_col0"" class=""data row38 col0"" >0.000000</td>  <td id=""T_09807_row38_col1"" class=""data row38 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row39"" class=""row_heading level0 row39"" >a=n.createElement(t)</th>  <td id=""T_09807_row39_col0"" class=""data row39 col0"" >0.000000</td>  <td id=""T_09807_row39_col1"" class=""data row39 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row40"" class=""row_heading level0 row40"" >e.ym.l=+new Date</th>  <td id=""T_09807_row40_col0"" class=""data row40 col0"" >0.000000</td>  <td id=""T_09807_row40_col1"" class=""data row40 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row41"" class=""row_heading level0 row41"" >taskImageSrc:""""</th>  <td id=""T_09807_row41_col0"" class=""data row41 col0"" >0.000000</td>  <td id=""T_09807_row41_col1"" class=""data row41 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row42"" class=""row_heading level0 row42"" >imageSrc:""""</th>  <td id=""T_09807_row42_col0"" class=""data row42 col0"" >0.000000</td>  <td id=""T_09807_row42_col1"" class=""data row42 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row43"" class=""row_heading level0 row43"" >captchaKey:""6ff848d1-46f490e9-2b248755-a58be9ee_2/1749036738/ffddd0d276142f693be1f1a5d750f900_5abce60b74895b693bd308ca4f567fb1""</th>  <td id=""T_09807_row43_col0"" class=""data row43 col0"" >0.000000</td>  <td id=""T_09807_row43_col1"" class=""data row43 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row44"" class=""row_heading level0 row44"" >0.8</th>  <td id=""T_09807_row44_col0"" class=""data row44 col0"" >0.000000</td>  <td id=""T_09807_row44_col1"" class=""data row44 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row45"" class=""row_heading level0 row45"" >0.7</th>  <td id=""T_09807_row45_col0"" class=""data row45 col0"" >0.000000</td>  <td id=""T_09807_row45_col1"" class=""data row45 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row46"" class=""row_heading level0 row46"" >0.6</th>  <td id=""T_09807_row46_col0"" class=""data row46 col0"" >0.000000</td>  <td id=""T_09807_row46_col1"" class=""data row46 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row47"" class=""row_heading level0 row47"" >0.1);--textinput-border-focused:2px solid rgba(0</th>  <td id=""T_09807_row47_col0"" class=""data row47 col0"" >0.000000</td>  <td id=""T_09807_row47_col1"" class=""data row47 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row48"" class=""row_heading level0 row48"" >0.5</th>  <td id=""T_09807_row48_col0"" class=""data row48 col0"" >0.000000</td>  <td id=""T_09807_row48_col1"" class=""data row48 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row49"" class=""row_heading level0 row49"" >0.4</th>  <td id=""T_09807_row49_col0"" class=""data row49 col0"" >0.000000</td>  <td id=""T_09807_row49_col1"" class=""data row49 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row50"" class=""row_heading level0 row50"" >0.05);--textinput-border:2px solid rgba(0</th>  <td id=""T_09807_row50_col0"" class=""data row50 col0"" >0.000000</td>  <td id=""T_09807_row50_col1"" class=""data row50 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row51"" class=""row_heading level0 row51"" >0.3</th>  <td id=""T_09807_row51_col0"" class=""data row51 col0"" >0.000000</td>  <td id=""T_09807_row51_col1"" class=""data row51 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row52"" class=""row_heading level0 row52"" >0.2</th>  <td id=""T_09807_row52_col0"" class=""data row52 col0"" >0.000000</td>  <td id=""T_09807_row52_col1"" class=""data row52 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row53"" class=""row_heading level0 row53"" >0.12);--anchor-background-color-checked:#5282ff;--anchor-check-mark-color:#fff;--anchor-border:2px solid #ccc;--spin-view-captcha-border-color:#5c81d1;--advanced-captcha-border-radius:11px;--advanced-captcha-image-preview-background-color:rgba(0</th>  <td id=""T_09807_row53_col0"" class=""data row53 col0"" >0.000000</td>  <td id=""T_09807_row53_col1"" class=""data row53 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row54"" class=""row_heading level0 row54"" >51.1</th>  <td id=""T_09807_row54_col0"" class=""data row54 col0"" >0.000000</td>  <td id=""T_09807_row54_col1"" class=""data row54 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row55"" class=""row_heading level0 row55"" >51</th>  <td id=""T_09807_row55_col0"" class=""data row55 col0"" >0.000000</td>  <td id=""T_09807_row55_col1"" class=""data row55 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row56"" class=""row_heading level0 row56"" >0.15);--checkbox-captcha-border-radius:11px;--anchor-background-color:#fff;--anchor-background-color-error:rgba(255</th>  <td id=""T_09807_row56_col0"" class=""data row56 col0"" >0.000000</td>  <td id=""T_09807_row56_col1"" class=""data row56 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row57"" class=""row_heading level0 row57"" >0.1</th>  <td id=""T_09807_row57_col0"" class=""data row57 col0"" >0.000000</td>  <td id=""T_09807_row57_col1"" class=""data row57 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row58"" class=""row_heading level0 row58"" >0</th>  <td id=""T_09807_row58_col0"" class=""data row58 col0"" >0.000000</td>  <td id=""T_09807_row58_col1"" class=""data row58 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row59"" class=""row_heading level0 row59"" > 0.12);--anchor-background-color-checked:#5c81d1;--anchor-check-mark-color:#fff;--anchor-border:2px solid #6b6b72;--spin-view-captcha-border-color:#5c81d1;--advanced-captcha-border-radius:24px;--advanced-captcha-image-preview-background-color:#414148;--textinput-border:2px solid #95969a;--textinput-border-focused:2px solid #adafb6;--textinput-view-default-fill-color-base:#6e6e73;--advanced-captcha-tooltip-background-color:#adafb6;--link-view-default-typo-color-base:red;--color-typo-ghost:var(--color-typo-primary);--color-base:#dfdfe0;--color-typo-primary:var(--color-base);--button-view-action-typo-color-base:#fff;--button-view-action-fill-color-base:#6b94f7;--button-view-action-fill-color-hovered:#5c81d1}}@media (prefers-color-scheme:light){.Theme_root_default{--smart-captcha-background-color:#fff;--checkbox-captcha-error-color:#f33;--checkbox-captcha-border:1px solid rgba(0</th>  <td id=""T_09807_row59_col0"" class=""data row59 col0"" >0.000000</td>  <td id=""T_09807_row59_col1"" class=""data row59 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row60"" class=""row_heading level0 row60"" > 51.1</th>  <td id=""T_09807_row60_col0"" class=""data row60 col0"" >0.000000</td>  <td id=""T_09807_row60_col1"" class=""data row60 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row61"" class=""row_heading level0 row61"" > 51</th>  <td id=""T_09807_row61_col0"" class=""data row61 col0"" >0.000000</td>  <td id=""T_09807_row61_col1"" class=""data row61 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row62"" class=""row_heading level0 row62"" >0.3);--textinput-view-default-fill-color-base:#fff;--advanced-captcha-tooltip-background-color:#adafb6;--link-view-default-typo-color-base:#04b;--color-typo-ghost:rgba(0</th>  <td id=""T_09807_row62_col0"" class=""data row62 col0"" >0.000000</td>  <td id=""T_09807_row62_col1"" class=""data row62 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row63"" class=""row_heading level0 row63"" >0.9</th>  <td id=""T_09807_row63_col0"" class=""data row63 col0"" >0.000000</td>  <td id=""T_09807_row63_col1"" class=""data row63 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row64"" class=""row_heading level0 row64"" >formAction:""/checkcaptcha?key=6ff848d1-46f490e9-2b248755-a58be9ee_2/1749036738/ffddd0d276142f693be1f1a5d750f900_5abce60b74895b693bd308ca4f567fb1&mt=2EB32A6282115CBF46C3147C4FE2EE6DC45900A9899A895CE86415F07AE0938BC32A57229992FC62172589C543A4E549691D43859DB9F77D5A7F9E1862A6D9EB0E0DACACE9A068D7DA678773356EE94F978257DD48A4D5BEC9AB7C724A2F74B1436F242E3E53CFD348FFE7376C1439AB49B5AD0D5DF09E7363502D4710B38E1C75543B32F6320875F8FA0321D2124A7A4678FB04F53D01E41961B161159A5EBC742DBC8B9C6AE4E873A0574D7CD6DB5F7C28858D9A644B3DAA170A734E911F5ECC080131F80ED2722BE9E015772BAC5D85C0048370D4E0CA3F5C73C78502&retpath=aHR0cHM6Ly9kaXNrLnlhbmRleC5ydS9kL0dydU9paldIbkpFMW9nPw%2C%2C_208abb8f8ea2576a56e2b3e56ab693f8&u=6695404158449379722&s=33836d06ef27c7db12db95cb4facc400""</th>  <td id=""T_09807_row64_col0"" class=""data row64 col0"" >0.000000</td>  <td id=""T_09807_row64_col1"" class=""data row64 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row65"" class=""row_heading level0 row65"" >0.3);--color-base:#000;--color-typo-primary:var(--color-base);--button-view-action-typo-color-base:#fff;--button-view-action-fill-color-base:#6b94f7;--button-view-action-fill-color-hovered:#5c81d1}}</style><div id=""root""><div class=""Theme Theme_color_yandex-default Theme_root_default""><main><div class=""Container""><div class=""Spacer"" style=""padding-bottom:40px""><a href=""https://www.ya.ru"" aria-label=""Yandex"" class=""Link Link_view_default LogoLink""></a></div><form method=""POST"" action=""/checkcaptcha?key=6ff848d1-46f490e9-2b248755-a58be9ee_2/1749036738/ffddd0d276142f693be1f1a5d750f900_5abce60b74895b693bd308ca4f567fb1&mt=2EB32A6282115CBF46C3147C4FE2EE6DC45900A9899A895CE86415F07AE0938BC32A57229992FC62172589C543A4E549691D43859DB9F77D5A7F9E1862A6D9EB0E0DACACE9A068D7DA678773356EE94F978257DD48A4D5BEC9AB7C724A2F74B1436F242E3E53CFD348FFE7376C1439AB49B5AD0D5DF09E7363502D4710B38E1C75543B32F6320875F8FA0321D2124A7A4678FB04F53D01E41961B161159A5EBC742DBC8B9C6AE4E873A0574D7CD6DB5F7C28858D9A644B3DAA170A734E911F5ECC080131F80ED2722BE9E015772BAC5D85C0048370D4E0CA3F5C73C78502&retpath=aHR0cHM6Ly9kaXNrLnlhbmRleC5ydS9kL0dydU9paldIbkpFMW9nPw%2C%2C_208abb8f8ea2576a56e2b3e56ab693f8&u=6695404158449379722&s=33836d06ef27c7db12db95cb4facc400"" id=""checkbox-captcha-form""><div class=""Spacer"" style=""padding-bottom:16px""><h1 class=""Text Text_weight_medium Text_typography_headline-s"">Подтвердите</th>  <td id=""T_09807_row65_col0"" class=""data row65 col0"" >0.000000</td>  <td id=""T_09807_row65_col1"" class=""data row65 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row66"" class=""row_heading level0 row66"" >invalid:""no""</th>  <td id=""T_09807_row66_col0"" class=""data row66 col0"" >0.000000</td>  <td id=""T_09807_row66_col1"" class=""data row66 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row67"" class=""row_heading level0 row67"" >{page:""checkbox""})} window.__SSR_DATA__={url:""/ru/checkbox""</th>  <td id=""T_09807_row67_col0"" class=""data row67 col0"" >0.000000</td>  <td id=""T_09807_row67_col1"" class=""data row67 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row68"" class=""row_heading level0 row68"" >t.1</th>  <td id=""T_09807_row68_col0"" class=""data row68 col0"" >0.000000</td>  <td id=""T_09807_row68_col1"" class=""data row68 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row69"" class=""row_heading level0 row69"" >window.Ya)&&window.Ya.Rum&&window.Ya.Rum.logEventString&&window.Ya.Rum.logEventString(""js_fail_force_submit_type""</th>  <td id=""T_09807_row69_col0"" class=""data row69 col0"" >0.000000</td>  <td id=""T_09807_row69_col1"" class=""data row69 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row70"" class=""row_heading level0 row70"" >n){0===n.indexOf(window.location.origin+""/captcha_smart.34006bbf7a513fd1b63d.js"")&&(button.type=""submit""</th>  <td id=""T_09807_row70_col0"" class=""data row70 col0"" >0.000000</td>  <td id=""T_09807_row70_col1"" class=""data row70 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row71"" class=""row_heading level0 row71"" >window.onerror=function(t</th>  <td id=""T_09807_row71_col0"" class=""data row71 col0"" >0.000000</td>  <td id=""T_09807_row71_col1"" class=""data row71 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row72"" class=""row_heading level0 row72"" >!1)</th>  <td id=""T_09807_row72_col0"" class=""data row72 col0"" >0.000000</td>  <td id=""T_09807_row72_col1"" class=""data row72 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row73"" class=""row_heading level0 row73"" >!1)}</th>  <td id=""T_09807_row73_col0"" class=""data row73 col0"" >0.000000</td>  <td id=""T_09807_row73_col1"" class=""data row73 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row74"" class=""row_heading level0 row74"" >t</th>  <td id=""T_09807_row74_col0"" class=""data row74 col0"" >0.000000</td>  <td id=""T_09807_row74_col1"" class=""data row74 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row75"" class=""row_heading level0 row75"" >this.removeEventListener(""click""</th>  <td id=""T_09807_row75_col0"" class=""data row75 col0"" >0.000000</td>  <td id=""T_09807_row75_col1"" class=""data row75 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row76"" class=""row_heading level0 row76"" >function t(n){window.__JS_BUTTON_CLICKED__=!0</th>  <td id=""T_09807_row76_col0"" class=""data row76 col0"" >0.000000</td>  <td id=""T_09807_row76_col1"" class=""data row76 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row77"" class=""row_heading level0 row77"" > воспользуйтесь <a href=""https://yandex.ru/support/smart-captcha/problems.html?form-unique_key=6695404158449379722&form-fb-hint=8.73"" target=""_blank"" class=""Link Link_view_default"">формой обратной связи</a></span><div class=""Spacer"" style=""padding-top:10px""><span class=""Text Text_color_ghost Text_weight_light Text_typography_control-xxs"">6695404158449379722:1749036738</span></div></div></main></div></div><script>let button=document.getElementById(""js-button"");button.addEventListener(""click""</th>  <td id=""T_09807_row77_col0"" class=""data row77 col0"" >0.000000</td>  <td id=""T_09807_row77_col1"" class=""data row77 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row78"" class=""row_heading level0 row78"" > пожалуйста</th>  <td id=""T_09807_row78_col0"" class=""data row78 col0"" >0.000000</td>  <td id=""T_09807_row78_col1"" class=""data row78 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row79"" class=""row_heading level0 row79"" > чтобы продолжить</span></span></div></div><div class=""Text Text_color_ghost Text_weight_regular Text_typography_control-s CaptchaLinks CheckboxCaptcha-Links""><button aria-label=""Показать ссылки"" aria-pressed=""false"" type=""button"" class=""CaptchaButton CaptchaButton_view_clear CaptchaButton_size_m CaptchaLinks-ToggleButton CaptchaLinks-ToggleButton_checkbox""><svg class=""SvgIcon"" xmlns=""http://www.w3.org/2000/svg"" width=""22"" height=""22"" viewBox=""0 0 22 22"" fill=""none""><path fill-rule=""evenodd"" clip-rule=""evenodd"" d=""M11 18.5625C15.1766 18.5625 18.5625 15.1766 18.5625 11C18.5625 6.82334 15.1766 3.4375 11 3.4375C6.82334 3.4375 3.4375 6.82334 3.4375 11C3.4375 15.1766 6.82334 18.5625 11 18.5625ZM11 20.625C16.3157 20.625 20.625 16.3157 20.625 11C20.625 5.68426 16.3157 1.375 11 1.375C5.68426 1.375 1.375 5.68426 1.375 11C1.375 16.3157 5.68426 20.625 11 20.625ZM8.85528 6.24171C9.44645 5.75611 10.2222 5.46546 11 5.46546C12.6736 5.46546 14.2167 6.59336 14.2167 8.409C14.2167 8.92624 14.1095 9.43266 13.8078 9.92185C13.5213 10.3865 13.1023 10.7646 12.6048 11.1132C12.3057 11.3227 12.1569 11.4663 12.0839 11.5642C12.0312 11.6348 12.0312 11.661 12.0313 11.686L12.0313 11.6872C12.0313 12.2567 11.5695 12.7185 11 12.7185C10.4305 12.7185 9.96876 12.2567 9.96876 11.6872C9.96876 10.5945 10.7163 9.9179 11.4214 9.42397C11.806 9.15451 11.9732 8.9675 12.0523 8.83924C12.1163 8.73548 12.1542 8.62111 12.1542 8.409C12.1542 7.9976 11.8192 7.52796 11 7.52796C10.718 7.52796 10.401 7.6411 10.1644 7.83546C9.9342 8.02457 9.84579 8.22978 9.84579 8.409C9.84579 8.97854 9.38408 9.44025 8.81454 9.44025C8.24499 9.44025 7.78329 8.97854 7.78329 8.409C7.78329 7.48351 8.25771 6.73257 8.85528 6.24171ZM11 16.5C11.7594 16.5 12.375 15.8844 12.375 15.125C12.375 14.3656 11.7594 13.75 11 13.75C10.2406 13.75 9.625 14.3656 9.625 15.125C9.625 15.8844 10.2406 16.5 11 16.5Z"" fill=""currentColor""></path></svg></button><div class=""CaptchaLinks-Links""><a color=""secondary"" target=""_blank"" href=""https://cloud.yandex.ru/services/smartcaptcha?utm_source=captcha&amp;utm_medium=chbx&amp;utm_campaign=security"" class=""Link Link_color_secondary Link_view_captcha CaptchaLinks-ServiceLink"">SmartCaptcha by Yandex Cloud</a></div></div></div></div><input type=""hidden"" name=""rdata""><input type=""hidden"" name=""pdata"" value=""eyJwb3dDYWxjVGltZSI6LTEsInBvd05vbmNlIjoiIiwicG93UHJlZml4IjoiIn0=""><input type=""hidden"" name=""tdata""><input type=""hidden"" name=""picasso""></form><span class=""Text Text_color_ghost Text_weight_regular Text_typography_control-xs"">Если у вас возникли проблемы</th>  <td id=""T_09807_row79_col0"" class=""data row79 col0"" >0.000000</td>  <td id=""T_09807_row79_col1"" class=""data row79 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row80"" class=""row_heading level0 row80"" > но запросы с вашего устройства похожи на автоматические. <a href=""https://yandex.ru/support/smart-captcha/problems.html?form-unique_key=6695404158449379722&form-fb-hint=8.73"" target=""_blank"" class=""Link Link_view_default"">Почему это могло произойти?</a></span></div><noscript><span class=""Text Text_color_alert Text_weight_medium Text_typography_body-long-m"">У вас отключено исполнение JavaScript. По нажатию вы будете направлены на дополнительную проверку. <a href=""https://yandex.ru/support/common/browsers-settings/browsers-java-js-settings.html"" target=""_blank"" class=""Link Link_view_default"">Как включить JavaScript?</a></span></noscript><div class=""Spacer Spacer_auto-gap_bottom"" style=""padding-top:40px;padding-bottom:40px""><div class=""CheckboxCaptcha CheckboxCaptcha_first_letter_highlighted"" data-testid=""checkbox-captcha""><div class=""CheckboxCaptcha-Inner""><div class=""CheckboxCaptcha-Anchor""><input type=""button"" id=""js-button"" class=""CheckboxCaptcha-Button"" aria-checked=""false"" aria-labelledby=""checkbox-label"" aria-describedby=""checkbox-description"" role=""checkbox""><noscript><input type=""submit"" class=""CheckboxCaptcha-Button"" aria-checked=""false"" aria-labelledby=""checkbox-label"" aria-describedby=""checkbox-description"" role=""checkbox""></noscript><div class=""CheckboxCaptcha-Checkbox"" data-checked=""false""><svg class=""SvgIcon CheckIcon"" width=""24"" height=""24"" viewBox=""0 0 24 25"" fill=""none""><path d=""M4 12.5L9.5 18.5L20 6.5"" stroke=""currentColor"" stroke-width=""3"" stroke-linecap=""round"" stroke-linejoin=""round""></path></svg></div></div><div class=""CheckboxCaptcha-Label""><span class=""Text Text_weight_regular Text_typography_control-xxl CheckboxCaptcha-LabelText""><span id=""checkbox-label"">Я не робот </span></span><span class=""Text Text_weight_regular Text_typography_control-l CheckboxCaptcha-SecondaryText""><span id=""checkbox-description"">Нажмите</th>  <td id=""T_09807_row80_col0"" class=""data row80 col0"" >0.000000</td>  <td id=""T_09807_row80_col1"" class=""data row80 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row81"" class=""row_heading level0 row81"" > а не робот</h1></div><div class=""Spacer"" style=""padding-bottom:16px""><span class=""Text Text_weight_regular Text_typography_body-long-m"">Нам очень жаль</th>  <td id=""T_09807_row81_col0"" class=""data row81 col0"" >0.000000</td>  <td id=""T_09807_row81_col1"" class=""data row81 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row82"" class=""row_heading level0 row82"" > что запросы отправляли вы</th>  <td id=""T_09807_row82_col0"" class=""data row82 col0"" >0.000000</td>  <td id=""T_09807_row82_col1"" class=""data row82 col1"" >nan</td>  </tr>  <tr>  <th id=""T_09807_level0_row83"" class=""row_heading level0 row83"" >unique_key:""6695404158449379722""}})",0.0,


In [7]:
# Типы данных соответствуют, проверим, можно ли снизить их разрядность
for column in ['user_id', 'age', 'query_id', 'click_position', 'view_time']:
    df[column] = pd.to_numeric(df[column], downcast='integer')    
    print(f'Тип данных столбца {column} после преобразования:', df[column].dtype)

KeyError: 'user_id'

In [None]:
# Посмотрим на уникальные значения и их число 
for column in df.columns:
    print(f'Число уникальных значений в столбце {column}:')
    print(df[column].sort_values().nunique())
    print(f'Уникальные значения в столбце {column}:')
    print(df[column].sort_values().unique())
    print()

In [None]:
# посмотрим на пользователей, у которых возраст стоит 0. 
df[df['age']==0]

In [None]:
# Посмотрим на распределение значений с возрастом 0 по признаку пола
df[df['age']==0]['sex'].value_counts()

In [None]:
# Посмотрим на пользователей, у которых в столбце `doc_type` нет данных
df[df['doc_type'].isna()]

In [None]:
# Посмотрим на распределение значений столбца 'click_position' в запросах, где нет данных в столбце 'doc_type'
df[df['doc_type'].isna()]['click_position'].value_counts()

In [None]:
# Посмотрим, какие действия производят пользователи6 если в 'doc_type' нет данных
df[df['doc_type'].isna()]['event'].value_counts()

In [None]:
# Посмотрим на распределение значений столбц view_time' в запросах, где нет данных в столбце 'doc_type'
df[df['doc_type'].isna()]['view_time'].value_counts()

In [None]:
# и тоже самое сделаем для типа запросов
df[df['doc_type'].isna()]['query_type'].value_counts()

In [None]:
# и платформы
df[df['doc_type'].isna()]['platform'].value_counts()

In [None]:
df[df['view_time']==0]['event'].value_counts()

In [None]:
df[df['click_position']==0]['event'].value_counts()

Если в столбце `doc_type` нет данных, то пользователи осуществляют только поиск. И в столбцах `click_position` и `view_time` данные равны нулю. Значение 0 в столбце `click_position` видимо является заглушкой, согнализирующей об отсутствии последующего действия, так как в описании задания сказано, что первый элемент выдачи - 1. Однако значение 0 в столбцах `click_position` и `view_time` встречается не только для поиска но и для других действий. 

In [None]:
df.head()

In [None]:
# Проверяю наличие полных явных дубликатов в датафрейме 
print('Количество дубликатов:', df.duplicated().sum())

### Промежуточный вывод 

Предварительное знакомство с датасетом `analytics_test.csv` показало, что датасет содержит 20000 строк и 12 столбцев. Названия столбцев корректные, соответствуют информации, содержащейся в ней. В столбце `doc_type` содержится 4958 пропусков, что составляет 25% от общего числа сторок. Это пользователи, которые осуществляли только поиск. Для них значени в столбцах `click_position` и `view_time` равны 0. Распределение по теме запросов и по используемой платформе примерно равномерное.   
В столбце `age`, возраст встречается 0, что может быть заглушкой, если пользователь, например, не указал свой возраст (но мне кажется, что при регистрации в ВК, указание возраста обязательно) Следующая цифра по возрастанию в столбце возраст - 10. Пол у пользователей с возрастом 0 по большей части оставлен анонимным, но встречаются как мужчины, так и женщины. Возможно, есть какая-то опция о приватности личных данных. Эти данные требуют уточнения.  
При предварительном просмотре также понизила размерность целочисленных данных, явных полных дубликатов не обнаружила. 


<div class="alert alert-info">
    
## Исследовательский анализ данных
<a id='eda'></a>
</div>

In [None]:
df.head()

<div style="background-color:lightblue;">
    
### Распределение событий 

</div>

In [None]:
# Посмотрим на распределение событий 'event' в нашем датасете 
pd.DataFrame({
     'Кол-во событий': df['event'].value_counts(), 
    'Доля событий': df['event'].value_counts(normalize=True).round(2)})


In [None]:
# визуализируем его в долях
grouped_event = df['event'].value_counts(normalize=True).sort_values(ascending = True)

grouped_event.plot(kind='barh',
                   title='Популярность действий пользователей',
                   legend=False,
                   ylabel='Название действия',
                   xlabel='Число действий',
                   edgecolor='grey',
                   rot=0,
                   figsize=(8, 5),
                   color='lightblue')

plt.grid()
plt.show()

Больше всего пользователи кликают (33%) и что-то ищут (25%). 

In [None]:
# Посмотрим на разброс значений в столбце 'click_position' в зависимости от происходящего события
plt.figure(figsize=(7, 4))
sns.boxplot(x= 'event', 
            y='click_position', 
            data=df,
            palette='Blues', 
            showmeans=True  
            ).set(title = 'Разброс значений кликабельных позиций \n в зависимости от действия', 
                             xlabel = 'Действие', 
                             ylabel = 'Номер позиции'
                             )   

plt.xticks(rotation=45)
plt.grid()
plt.show()

Наименьшая позиция в выдаче поиска для поиска. Это мы уже знает, что оно равно 0. Остальные распределены относительно равномерно.

<div style="background-color:lightblue;">
    
### Распределение позиции документа в выдаче поиска по которму совершено событие и времени просмотра

</div>

In [None]:
# Построим диаграмму размаха для столбца 'click_position'
plt.figure(figsize = (10, 3))
df.boxplot(column = 'click_position', vert = False, showfliers=True)
plt.title('Распределение значений номера позиции документа \n в выдаче поиска')
plt.xlabel('Позиция документа, по которой совершается событие')


plt.show()

Есть выбросы, но я бы не стала их исключать из анализа, они не выглядят на мой взгляд подозрительно.

In [None]:
plt.figure(figsize=(7, 4))
sns.boxplot(x='query_type', 
            y='click_position', 
            data=df,
            palette='Blues',
            showmeans=True  
            ).set(title = 'Разброс значений кликабельных позиций \n в зависимости от темы запроса', 
                             xlabel = 'Тема запроса', 
                             ylabel = 'Номер позиции'
                             )   

plt.xticks(rotation=45)
plt.grid()
plt.show()

Самый большой разброс позиции документа в выдаче поиска для новостных запросов. Для них же отмечено самое больше значение и самые высокие среднее и медиана. То есть при чтении новостей люди часто открывают не первую позицию в выдаче. Это может говорить о том, что им не нравится то, что предлатается в начале.

In [None]:
# Посмотрим на средние значения 'click_position' и 'view_time' при разбивке по темам запроса 'query_type'

grouped_type = df.groupby('query_type').agg({
    'click_position': 'mean', 
    'view_time': 'mean'
}).sort_values('click_position', ascending=True)
# Построим столбчатые диаграммы на двух осях
fig, ax1 = plt.subplots(figsize=(8, 5))
ax2 = ax1.twiny()  

bar_width = 0.35
index = np.arange(len(grouped_type.index))

# Номер позиции по которой кликает пользователь
ax1.barh(index - bar_width/2, grouped_type['click_position'],
         height=bar_width, color='blue', alpha=0.7, label='Позиция документа в выдаче поиска', edgecolor='grey')
ax1.set_xlabel('Средний номер позиции', color='blue')

# Время просмотра
ax2.barh(index + bar_width/2, grouped_type['view_time'],
         height=bar_width, color='lightblue', alpha=0.7, label='Время просмотра (с)', edgecolor='grey')
ax2.set_xlabel('Среднее время просмотра', color='lightblue')

# Общие настройки
ax1.set_yticks(index)
ax1.set_yticklabels(grouped_type.index)
ax1.legend(loc='lower right')
ax2.legend(loc='upper right')
plt.grid()

plt.tight_layout()

In [None]:
pd.pivot_table(df,
                index='query_type',
                values=['view_time', 'click_position'],
                aggfunc=['mean', 'max', 'count'])

Ожидаемо, самое большое среднее время просмотра  и максимальное значение у фильмов. Средняя и максимальная наибольшая позиция документа, по которой кликают, - у новостей. При этом и время просмотра для новостной тематики не высокое.  Здесь нужно отметить, что число наблюдений по группам query_type одинаковое. 

Посмотрим, есть ли какая-то зависимость типа документа, кликабельной позиции и временем просмотра с другими данными.

In [None]:
# Построим корреляционную матрицу
cor_matrix = df.phik_matrix()
plt.figure(figsize=(12,6))
data_heatmap = cor_matrix[['click_position', 'doc_type', 'view_time']].sort_values(by='click_position', ascending=False)
sns.heatmap(data_heatmap,
           annot = True, 
           fmt='.2f', 
           cmap = 'coolwarm',
           cbar = False
           )

plt.title('Тепловая карта коэффициента phi_k для типа документа')
plt.xlabel('Тип документа')

plt.show()

Есть умеренная положительная корреляция позиции документа в поиске с темой, текстом запроса и действием; типа документа с темой запроса и текстом запроса; и времени просмотра с событием.  

Тему с наибольшим средним числом позиции документа в поиске мы уже определели (новости). Теперь посмотрим на текст запросов и действия в запросах с далекой кликабельной позицией. Также посмотрим на другие выявленные корреляции. 

<div style="background-color:lightblue;">
    
### Выявление проблемных запросов. Гипотезы.

</div>



**1. Если пользователь совершает действие по позиции документа в выдаче поиска больше среднего значения, то выдача нерелевантна.**  

In [None]:
# Найдем среднее значение позиции документа в выдаче поиска, по которому совершается действие
df['click_position'].mean().round(2)

Среднее значение для числа кликов - 6. Будем считать это пороговым значением. Отфильтруем наш датасет по этой границе и выведем только топ-10. Я хочу сразу посмотреть на время посмотра. Если оно маленькое - значит человеку было не интересно и он не перешел ни на одну страницу поиска, поиск был нерелевантен. 

In [None]:
bad_clicks = df[df['click_position'] > 6].groupby('query_text').agg({
    'click_position': 'mean', 
    'view_time': 'mean'
}).sort_values('click_position', ascending=False).head(10)
bad_clicks

Все запросы связаны с новостной тематикой.  
Дополнительно отфильтрую датасет, оставив в нем те запросы, в которых время просмотра равно 0. Большое число кликов и нулевое время просмотра могут значить нерелевантную выдачу. 

**2. Если время просмотра равно нулю и кликабельная позиция выше средней - поиск по запросу не релевантен**

In [None]:
bad_clicks_views = df[
    (df['click_position'] > 6)&
    (df['view_time'] ==0)
].groupby('query_text')['click_position'].mean().sort_values(ascending=False).head(10)

bad_clicks_views.plot(kind='barh', 
                        title='Топ-10 запросов с высокой позицией документа в выдаче\n и нулевым временем просмотров', 
                        color='lightblue', 
                        edgecolor='grey')

plt.xlabel('Средняя позиция документы в выдаче')
plt.ylabel('Запрос')
plt.grid()
plt.show()

Также все запросы остались с новостной тематикой.  Продолжим изучение коротких просмотров. 

**3. Если время просмотра короткое (равно 0), то результаты поиска скорее всего не заинтересовали**

In [None]:
bad_views_text = df[df['view_time'] ==0].groupby('query_text')['view_time'].count().sort_values(ascending=False).head(10)

bad_views_text.plot(kind='barh', 
                        title='Топ-10 запросов с нулевым временем просмотров', 
                        color='lightblue', 
                        edgecolor='grey')
plt.xlabel('Число нулевых просмотров')
plt.ylabel('Запрос')
plt.grid()
plt.show()

Наибольшее число запросов, в которых время просмотра равно 0, связано с фильмами. 

In [None]:
# посмотрим, какие темы для поиска приводят к нулевым просмотрам
bad_views_type = df[df['view_time'] ==0]['query_type'].value_counts().sort_values(ascending = True)

bad_views_type.plot(kind='barh',
                   title='Количество поисков по тематике при нулевом времени просмотра',
                   legend=False,
                   ylabel='Тема поиска',
                   xlabel='Число поисков',
                   edgecolor='grey',
                   color='lightblue')

plt.grid()
plt.show()

Но если смотреть темы отдельно, кажется, что нет лидеров и аутсайдеров.

In [None]:
# посмотрим, какие события сопровождаются нулевыми просмотрами
bad_views_event = df[df['view_time'] ==0]['event'].value_counts().sort_values(ascending = True)

bad_views_event.plot(kind='barh',
                   title='Действия пользователей при нулевом просмотре',
                   legend=False,
                   ylabel='Название действия',
                   xlabel='Число действий',
                   edgecolor='grey',
                   color='lightblue')

plt.grid()
plt.show()

Нулевые просмотры даже приводят к тому, что пользователи лайкают, подписываются и делятся найденным контентом (это было замечено и выше). Однако наиболее популярное действие, не сопровождающееся просмотром, - просто кликанье и поиск. 

In [None]:
# Посмотрим, как действия с нулевым времением распределены по темам
pd.pivot_table(df[df['view_time'] ==0],
                        values='query_id', 
                        index='query_type', 
                        columns='event', 
                        aggfunc='nunique')

Чаще всего днействия с нулевым временем встречаются при кликании по теме новости. Дальше шшоу, фильмы и музыка. Меньше всего нулевых просмотров при шеринге музыкой и подпиской на новости.

In [None]:
# тогда еще посмотрим, в каком типе контента больше всего встречаются нулевые просмотры
bad_views_doc = df[df['view_time'] ==0]['doc_type'].value_counts().sort_values(ascending = True)

bad_views_doc.plot(kind='barh',
                   title='Популярность типа контента среди нулевых просмотров',
                   legend=False,
                   ylabel='Тип контента',
                   xlabel='Число запросов',
                   edgecolor='grey',
                   color='lightblue')

plt.grid()
plt.show()

Наиболее характерно нулевое время просмотра для клипов. Наименее характерно - для плейлистов.

**4. Если мало лайков и шерингов, то результаты поиска не вызывают интерес и вовлеченность**

In [None]:
# Посмотрим на топ-10 запросов с низкой вовлеченностью
low_intrest = df[df['event'].isin(['like', 'share'])]['query_text'].value_counts()
print('\nТоп-10 запросов с низкой вовлечённостью:\n', low_intrest.tail(10))

In [None]:
# Посмотрим, какая тема вывывает наименьшую вовлеченность
low_intrest_type = df[~df['event'].isin(['like', 'share'])]['query_type'].value_counts().sort_values(ascending = True)

low_intrest_type.plot(kind='barh',
                   title='Темы с низкой вовлечённостью',
                   legend=False,
                   ylabel='Тема запроса',
                   xlabel='Число запросов',
                   edgecolor='grey',
                   color='lightblue')

plt.grid()
plt.show()

Темы с низкой вовлеченностью - новости и фильмы. Им меньше всего ставят лайков и реже делятся. 

In [None]:
# И какой тип контента менее интересен
low_intrest_doc = df[~df['event'].isin(['like', 'share'])]['doc_type'].value_counts().sort_values(ascending = True)

low_intrest_doc.plot(kind='barh',
                   title='Типы контента с низкой вовлечённостью',
                   legend=False,
                   ylabel='Тип контента',
                   xlabel='Число запросов',
                   edgecolor='grey',
                   color='lightblue')

plt.grid()
plt.show()

Клипы и видео вызывают меньше всего интереса, им реже ставят лайки и ими реже деляться с друзьями.

**5. Пересечение поисковых текстов**

In [None]:
# Построим диаграмму Венна
set_intrest = set(df[df['event'].isin(['like', 'share'])]['query_text'])
set_view = set(df[df['view_time'] ==0]['query_text'])
set_click = set(df[df['click_position'] > 6]['query_text'])

venn3([set_intrest, set_view, set_click], set_labels=('Не интересно', 'Нет просмотров', 'Высокая позиция клика в поиске'))


plt.title('Пересечение текстовых запросов')
plt.show()

1125 запросов попадают во все использованные фильтрации. То есть у 1125 запросов из 20000 нулевое время просмотра, номер позиции клика больше 6 и их не лайкают и ими не делятся пользователи. Это что-то около 5%. Не уверена, что это критично. 


### Промежуточный вывод

В результате исследовательского анализа посмотрела на распределение числовых данных, построила их боксплоты. Посмотрела на корреляцию некоторых признаков, которые на мой взгляд могли бы говорить о релевантности контента в поиске. Были выдвинуты следующие гипотезы: 
1. Если пользователь совершает действие по позиции документа в выдаче поиска больше среднего значения, то выдача не релевантна  
2. Если время просмотра равно нулю и кликабельная позиция выше средней - поиск по запросу не релевантен  
3. Если время просмотра короткое (равно 0), то результаты поиска скорее всего не заинтересовали  
4. Если мало лайков и шерингов, то результаты поиска не вызывают интерес и вовлеченность  

Для проверки гипотез были посчитаны и визуализированы число значений, среднее при разбивке на различные группы. 

Наибольшая позиция документа в выдаче поиска оказалась характерна для новостных поисков. Наибольшее число запросов, в которых время просмотра равно 0, было связано с фильмами. Но если смотреть наибольшую позицию документа в выдаче поиска и нулевое время просмотра, то нерелевантными остаются новостные запросы. Ими меньше делятся, им меньше ставят лайков (отсутствие лайков конечно может быть связано с тем, что новость в негативном ключе, а не потому что она неинтересная). 

<div class="alert alert-info">
    
## Итоговый вывод
<a id='summary'></a>
</div>

- Поиск показывает плохое качесвто в случае новостных запросов. 
- Пользователи открывают в среднем 11 позицию документа в выдаче поиска. Возможно, проблема в алгоритме ранжирования например.
- Пользователи быстро покидают платформу, может быть низкое качество контента по темам шоу и новостей (по этим темам наиболее часто встречается время просмотра равное 0). 
- Низкая вовлеченность пользователей при поиске новостей и фильмов. Им редко ставят лайки и редко делятся с друзбями. Тоже касается клипов и видео. 


Что делать дальше?
- A/B-тестирование новых алгоритмов ранжирования для новостных запросов.
- Опрос пользователей, чтобы понять, почему они не вовлекаются.


PS буду благодарна за обратную связь