**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

**Задание**

1. Загрузить датасет с помощью библиотеки ```pandas```.
2. Вывести первые 20 строк с помощью метода ```head``` .
3. Выполнить обзор данных - описать столбцы и вашу предметную область.
4. С помощью метода info оценить данные (есть ли пропуски, сколько всего строк, какие типы данных у столбцов).
5. Применить ```describe``` . С помощью ```describe``` оценить числовые столбцы (если они есть).
6. Вывести на экран названия столбцов с помощью ```df.columns```. Выявить проблемы с названиями, если они есть. При необходимости переименовать столбцы. Если проблемы не обнаружены также дать пояснения.
7. Проверить данные на наличие пропусков и устранить их, если они есть (пропуски необходимо либо удалить, либо заменить каким-то значением).
8. Проверьте данные на наличие явных и неявных дубликатов. Удалите дубликаты, если они есть.
9. Проверьте типы данных, при необходимости измените типы данных, чтобы они соответствовали действительности.
10. Осуществите группировки и создайте сводные таблицы в соответствии с вариантом.
11. Сделайте выводе по работе.

# Загрузка набора данных

### Описание предметной области

**Предметная область**\
Данные отражают информацию о сессиях пользователей цифровой платформы: уникальный идентификатор пользователя, регион проживания, тип устройства, канал привлечения и временные метки начала и окончания сессии. Анализ таких данных позволяет компаниям и маркетологам оценивать поведение пользователей, измерять вовлечённость, сравнивать эффективность различных рекламных каналов и выявлять паттерны использования сервиса в зависимости от устройства или источника трафика.

**Вариант №5**

Набор данных: ```visits.csv```

Атрибуты:\
```User_Id``` — уникальный идентификатор пользователя\
```Region``` — страна пользователя\
```Device``` — устройство пользователя\
```Channel``` — идентификатор рекламного источника, из которого пришел пользователь\
```Session_Start``` — дата и время начала сессии\
```Session_End``` — дата и время окончания сессии

### 1.Чтение файла (набора данных)

Импорт библиотек, чтение файла с помощью pandas

In [2]:
import pandas as pd
df = pd.read_csv("visits.csv", sep = ';')

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [3]:
df.head(20)

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,SESSION_End
0,"9,81449E+11",United States,iPhone,organic,01.05.2019 2:36,01.05.2019 2:45
1,"2,78966E+11",United States,iPhone,organic,01.05.2019 4:46,01.05.2019 4:47
2,"5,90706E+11",United States,Mac,organic,01.05.2019 14:09,01.05.2019 15:32
3,"3,26434E+11",United States,Android,TipTop,01.05.2019 0:29,01.05.2019 0:54
4,"3,49774E+11",United States,Mac,organic,01.05.2019 3:33,01.05.2019 3:57
5,43958116050,United States,Android,organic,01.05.2019 9:03,01.05.2019 10:08
6,"1,85365E+11",United States,iPhone,organic,01.05.2019 9:37,01.05.2019 10:00
7,"1,00971E+11",United States,Mac,TipTop,01.05.2019 4:39,01.05.2019 4:57
8,"3,70456E+11",United States,iPhone,organic,01.05.2019 14:44,01.05.2019 15:41
9,"1,41838E+11",United States,Mac,FaceBoom,01.05.2019 6:20,01.05.2019 6:54


2.2 Оценка данных с помощью метода info.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 957 entries, 0 to 956
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   User_Id        957 non-null    object
 1   Region         956 non-null    object
 2   Device         955 non-null    object
 3   Channel        957 non-null    object
 4   Session_Start  955 non-null    object
 5   SESSION_End    955 non-null    object
dtypes: object(6)
memory usage: 45.0+ KB


---
**Пояснение:**\
В наборе данных 957 строк и 6 столбцов;\
Тип данных всех столбцов: строковый;\
Пропуски обнаружены в столбцах ```Region``` (1 штука), ```Device``` (2 штуки), ```Session_Start``` (2 штуки) и ```Session_End``` (2 штуки);\
Эти пропуски нужно будет обработать (например, заполнить модой).

---

2.3 Оценка данных с помощью метода describe.

In [5]:
df.describe()

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,SESSION_End
count,957,956,955,957,955,955
unique,865,2,6,4,820,836
top,"1,79085E+11",United States,iPhone,organic,02.05.2019 1:22,02.05.2019 22:49
freq,4,955,421,612,4,3


---
**Пояснение:**\
Была произведена оценка числовых столбцов с помощью ```describe```\
В датасете 957 записей;\
Числовые столбцы отсутствуют.

---

 2.4 Оценка названий столбцов

In [6]:
df.columns

Index(['User_Id', 'Region', 'Device', 'Channel', 'Session_Start',
       'SESSION_End'],
      dtype='object')

In [7]:
df.columns = df.columns.str.lower()
df.columns

Index(['user_id', 'region', 'device', 'channel', 'session_start',
       'session_end'],
      dtype='object')

---
**Пояснение:**\
Были выведены на экран названия столбцов. Серьезных проблем в названиях столбцов нет. Был обнаружен деффект в названии последнего столбца ```SESSION_End``` (слово SESSION написано в верхнем регистре, когда как остальные названия как обычные слова: первая буква в верхнем регистре, последующие - в нижнем). Для удобства работы в коде и единого код-стайла все названия были приведены в нижний регистр.

---

### 3. Проверка пропусков

In [8]:
df.isna().sum()

user_id          0
region           1
device           2
channel          0
session_start    2
session_end      2
dtype: int64

In [9]:
df['region'] = df['region'].fillna("United States")
df['device'] = df['device'].fillna("iPhone")
df['session_start'] = df['session_start'].fillna("02.05.2019 1:22")
df['session_end'] = df['session_end'].fillna("02.05.2019 22:49")

In [10]:
df.isna().sum()

user_id          0
region           0
device           0
channel          0
session_start    0
session_end      0
dtype: int64

---
**Пояснение:**\
Был выбран способ заполнения пропущенных значений значением по умолчанию (медианной заполнить нельзя, так как тип данных строковый, а медиана присутсвует только у числовых типов данных). Удаление строк приведёт к потере лишь небольшой части данных, но даже одна строка может содержать ценную информацию (например, уникальную сессию пользователя). Также присутствует риск смещения: если удалить строки с пропусками, можено случайно исключить определённую группу пользователей (например, тех, кто заходит с редких устройств), что исказит выводы.

 ---

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [11]:
df[df.duplicated()]

Unnamed: 0,user_id,region,device,channel,session_start,session_end
480,"1,79085E+11",United States,Mac,organic,01.05.2019 7:27,01.05.2019 7:49
481,"1,79085E+11",United States,Mac,organic,01.05.2019 7:27,01.05.2019 7:49


In [12]:
df = df.drop_duplicates().reset_index(drop = True)
print(df.duplicated().sum())

0


---
**Пояснение:**\
Команда ```df.duplicated()``` проверяет, есть ли дубликаты строк в таблице. Возвращает колонку из True и False:
* True - строка является дубликатом (повторяется);
* False - уникальная строка;
  
Команда ```df = df.drop_duplicates().reset_index(drop = True)``` удаляет дубликаты и обновляет индексы строк (чтобы потом при обращении к строкам не было пропусков в номерах).

Команда ```print(df.duplicated().sum())``` выводит на экран количество строк-дубликатов

#### Проверка неявных дубликатов

In [13]:
unique_c = ['region', 'device', 'channel']
for i in unique_c:
  print(i, df[i].unique())

region ['United States' 'USA']
device ['iPhone' 'Mac' 'Android' 'PC' 'MAC' 'IPHONE']
channel ['organic' 'TipTop' 'FaceBoom' 'MediaTornado']


In [14]:
for i in unique_c:
  print(df[i].value_counts())

region
United States    954
USA                1
Name: count, dtype: int64
device
iPhone     423
Mac        241
Android    185
PC         103
IPHONE       2
MAC          1
Name: count, dtype: int64
channel
organic         610
FaceBoom        149
TipTop          143
MediaTornado     53
Name: count, dtype: int64


In [15]:
df['region'] = df['region'].replace('USA', 'United States')
df['device'] = df['device'].replace('MAC', 'Mac')
df['device'] = df['device'].replace('IPHONE', 'iPhone')
for i in unique_c:
  print(i, df[i].unique())

region ['United States']
device ['iPhone' 'Mac' 'Android' 'PC']
channel ['organic' 'TipTop' 'FaceBoom' 'MediaTornado']


---
**Пояснение:**\
В данных были обнаружены неявные дубликаты:
* ```region``` - дублируется United States и USA
* ```device``` - дублируется названия устройств iPhone - IPHONE, Mac - MAC
  
Эти проблемы нужно исправить на этапе предобработки, чтобы анализ был корректным.\
Все неявные дубликаты устранены. Данные приведены к корректному виду, теперь с ними можно уверенно работать дальше: строить группировки, сводные таблицы и анализировать.

 ---

### 5. Провека типов данных

In [16]:
df.dtypes

user_id          object
region           object
device           object
channel          object
session_start    object
session_end      object
dtype: object

In [17]:
df['region'] = df['region'].astype('category')
df['device'] = df['device'].astype('category')
df['channel'] = df['channel'].astype('category')

df['session_start'] = pd.to_datetime(df['session_start'], format='%d.%m.%Y %H:%M')
df['session_end'] = pd.to_datetime(df['session_end'], format='%d.%m.%Y %H:%M')

print(df.dtypes)

user_id                  object
region                 category
device                 category
channel                category
session_start    datetime64[ns]
session_end      datetime64[ns]
dtype: object


---
**Пояснение:**
* ```user_id``` - идентификатор пользователя: большое число, записанное в экспоненциальном виде, оставляем object (str);
* ```region``` - страна проживания: категориальная переменная, т.к. ограниченное число записей (переводим в category);
* ```device``` - устройство: категориальная переменная, т.к. ограниченное число записей (переводим в category);
* ```channel``` - идентификатор рекламного источника: категориальная переменная, т.к. ограниченное число записей (переводим в category);
* ```session_start``` и ```session_end``` - начало и конец сессии: дата и время (переводим в datetime).

Проверка показала, что некоторые типы данных определны неверно:\
```region```, ```device``` и ```channel``` определены как object, что в целом правильно, но логичнее использовать 'category', т.к. их ограниченное кол-во.\
```session_start``` и ```session_end``` pandas определил по умолчанию как object, но это дата и время, соответсвенно было выполнено преобразование в тип данных datetime с соответсвующим записям форматом.

 ---

### 6. Группировка данных

#### Задание 1

Группировка - device и количество рекламных источников каждого
типа (channel).

In [19]:
print(df.groupby(['device', 'channel'])['user_id'].count())

device   channel     
Android  FaceBoom         33
         MediaTornado     11
         TipTop           26
         organic         115
Mac      FaceBoom         36
         MediaTornado     10
         TipTop           24
         organic         172
PC       FaceBoom         15
         MediaTornado      2
         TipTop           14
         organic          72
iPhone   FaceBoom         65
         MediaTornado     30
         TipTop           79
         organic         251
Name: user_id, dtype: int64


  print(df.groupby(['device', 'channel'])['user_id'].count())


---
**Пояснение:**
* Основной источник трафика — органический (organic);
* iPhone доминирует среди устройств;
* Рекламные каналы показывают разную эффективность;
* Настольные устройства (Mac, PC) используются реже, но стабильно;
* Android-аудитория меньше, чем iPhone, несмотря на глобальное превосходство Android в рынке.

---

#### Задание 2

Группировка - region и количество устройств (device ). Создать датафрейм. Переименовать столбец с количеством в “сountˮ. Отсортировать по
убыванию столбца “countˮ.

In [20]:
counts = df.groupby(['region', 'device'], observed = True).size()
df_group = counts.reset_index()
df_group.columns = ['region', 'device', 'count']
df_group = df_group.sort_values(by='count', ascending=False)
print(df_group)

          region   device  count
3  United States   iPhone    425
1  United States      Mac    242
0  United States  Android    185
2  United States       PC    103


---
**Пояснение:**\
Данные отражают количество сессий (или записей) по комбинациям регион — устройство, отсортированных по убыванию.
* Пользователи сосредоточены в одном регионе — США;
* iPhone — лидер по использованию;
* Mac — второе по популярности устройство;
* Android — ниже ожидаемого уровня;
* PC — наименее активная платформа

Ядро аудитории — это пользователи из США, в основном с iPhone и Mac. Это позволяет сделать вывод, что продукт лучше всего адаптирован под экосистему Apple и аудиторию с высоким уровнем вовлечённости.

---

#### Задание 3

Сводная таблица (pivot_table) - уникальное количество пользователей для каждого устройства (device). Отсортировать по убыванию количества.

In [21]:
pivot_users = df.pivot_table(
    index='device',       
    values='user_id',
    aggfunc='nunique',
    observed=True
).sort_values(by='user_id', ascending=False)
print(pivot_users)

         user_id
device          
iPhone       387
Mac          223
Android      169
PC            90


---
**Пояснение:**\
Целевая аудитория — в основном пользователи экосистемы Apple: они доминируют как на мобильных (iPhone), так и на настольных (Mac) платформах. Продукт лучше всего адаптирован под iOS и macOS — это преимущество, которое нужно поддерживать и развивать. Android и PC — зоны роста: потенциал расширения аудитории лежит в улучшении опыта для этих пользователей.

---

#### Задание 4

Сводная таблица (pivot_table) - уникальное количество пользователей для каждого устройства (device) - столбцы и региона- строки. Отсортировать по возрастанию столбца region.

In [22]:
pivot_users = df.pivot_table(
    index=['region','channel'], 
    columns='device', 
    values='user_id',
    aggfunc='nunique',  
    observed=True        
).sort_index(ascending=True)
print(pivot_users)

device                      Android  Mac  PC  iPhone
region        channel                               
United States FaceBoom           32   32  13      63
              MediaTornado       11    9   2      25
              TipTop             19   22  10      69
              organic           108  160  65     232


---
**Пояснение:**
* Целевая аудитория — преимущественно пользователи из США, использующие устройства Apple;
* Сервис лучше всего воспринимается и используется в экосистеме Apple (iPhone + Mac);
* Платформы Android и PC явно уступают, что указывает на потенциал роста через улучшение кросс-платформенной поддержки.

 ---

### Вывод

В ходе работы был проведён анализ набора данных ```visits.csv```, содержащего информацию о 957 пользовательских сессиях на цифровой платформе. Данные относятся к предметной области анализа пользовательского поведения и включают сведения об уникальном идентификаторе пользователя, регионе, типе устройства, канале привлечения и временных метках начала и окончания сессии. На этапе предобработки были выявлены и устранены пропуски в столбцах Region, Device, Session_Start и Session_End путём заполнения модой — наиболее частым значением в каждом столбце, что позволило сохранить целостность данных без потери строк. Идентификаторы пользователей, представленные в научной нотации (например, 9,81449E+11), были интерпретированы как строки, чтобы избежать потери точности и некорректного округления. Категориальные признаки — такие как Region, Device и Channel — были преобразованы в тип category для оптимизации памяти и повышения производительности операций. 

Анализ группировок показал, что подавляющее большинство пользователей (все зафиксированные сессии) находятся в регионе «United States», что указывает на географическую сосредоточенность аудитории. Среди устройств лидером является iPhone (425 сессий), за ним следуют Mac (242), Android (185) и PC (103). Это свидетельствует о доминировании экосистемы Apple в аудитории сервиса. Построение сводных таблиц выявило, что наибольшее количество уникальных пользователей также приходится на iPhone (387), далее следуют Mac (223), Android (169) и PC (90). Таким образом, основная и наиболее активная аудитория — это пользователи из США, использующие устройства Apple. 

Дополнительно была исследована связь между каналами привлечения и типами устройств, что позволило оценить эффективность маркетинговых стратегий. Установлено, что органический трафик (organic) является основным источником по всем платформам, особенно силён на iPhone и Mac, тогда как рекламные каналы вроде FaceBoom, TipTop и MediaTornado демонстрируют меньший, но значимый охват. Это даёт возможность оптимизировать маркетинговые бюджеты и фокусироваться на наиболее продуктивных каналах. 

В целом проведённое исследование показало, что пользовательская база сервиса географически и технологически концентрирована: основная аудитория — это пользователи из США, преимущественно использующие iPhone и Mac. Такая картина требует дальнейшей работы по расширению охвата на другие регионы и платформы, особенно Android и международные рынки, а также более глубокого анализа поведения пользователей на разных устройствах. 

В лабораторной работе осуществлялась работа с библиотекой pandas. Были изучены типы данных, методы индексации, обработки пропусков и категориальных переменных. На практике были реализованы загрузка данных, удаление дубликатов, преобразование типов, группировка и агрегация. Также были применены сводные таблицы и получены выводы на основе многомерного анализа, что позволило глубже понять структуру пользовательской активности. 

### Дополнительное задание

### №7
Добавить столбец - “Длительность сессииˮ (расчетный). Создать столбец “Категория длительностиˮ (с помощью категоризации). Выделить минимум категории (низкая, высокая, средняя), фильтрацию для уровня длительность выбрать самостоятельно, аргументировать выбор. Создать сводную таблицу: средняя и медианная длительность сессии по устройству и категории длительности

In [23]:
df['duration_minutes'] = (df['session_end'] - df['session_start']).dt.total_seconds() / 60

**Аргументация выбора:** 
* < 5 мин — пользователь быстро вошёл и вышел: возможно, проверил уведомление или потерял интерес.
* 5–30 мин — умеренная активность: просмотр контента, навигация.
* '>' 30 мин — высокая вовлечённость: глубокое взаимодействие, совершение целевых действий

In [24]:
def categorize_duration(minutes):
    if minutes < 5:
        return 'Low'
    elif minutes <= 30:
        return 'Mean'
    else:
        return 'High'

df['duration_category'] = df['duration_minutes'].apply(categorize_duration)

pivot_table = df.pivot_table(
    index=['device', 'duration_category'],
    values='duration_minutes',
    aggfunc={'duration_minutes': ['mean', 'median']},
    observed = True
).round(2)

pivot_table.columns = ['mean_duration', 'median_duration']
pivot_table = pivot_table.sort_index()
print(pivot_table)

                           mean_duration  median_duration
device  duration_category                                
Android High                       57.90             53.0
        Low                         2.33              2.0
        Mean                       15.37             14.0
Mac     High                       56.81             50.0
        Low                         1.96              2.0
        Mean                       16.04             15.0
PC      High                       60.05             51.0
        Low                         2.25              2.0
        Mean                       15.75             16.0
iPhone  High                       73.92             51.0
        Low                         2.22              2.0
        Mean                       16.11             15.0


**Алгоритм работы**

Код анализирует длительность сессий пользователей, группируя их по типу устройства и продолжительности. Сначала функция categorize_duration(minutes) присваивает каждой сессии категорию: 'Low' (меньше 5 минут), 'Mean' (от 5 до 30 минут) или 'High' (больше 30 минут). Эта функция применяется к столбцу duration_minutes с помощью метода .apply(), создавая новый столбец duration_category. 

Затем с помощью pivot_table() данные группируются по двум признакам — device и duration_category, и для каждой группы рассчитываются среднее (mean) и медиана (median) значений длительности. Параметр observed=True учитывает только реально встречающиеся категории. Результат округляется до двух знаков после запятой с помощью .round(2). 

Далее столбцы сводной таблицы переименовываются в mean_duration и median_duration для удобства, а .sort_index() сортирует строки по устройствам и категориям. В конце таблица выводится с помощью print(). Это позволяет наглядно сравнить поведение пользователей на разных устройствах в зависимости от длительности сессий. 

**Вывод по полученным данным**

iPhone демонстрирует наибольшую среднюю продолжительность сессий в "High" категории — 73.92, что значительно выше, чем у других устройств. При этом медианы у всех устройств в категории High близки (~50–53), кроме iPhone, где медиана (51.0) существенно ниже среднего. Это указывает на наличие выбросов (длинных сессий) у пользователей iPhone, которые "тянут" среднее вверх.\
Оставшиеся три устройства имеют близкие значения как среднего, так и медианы.
В категории High:
* PC — чуть лучше (60.05)
* Mac — 56.81
* Android — 57.90
  
Разница между средним и медианой небольшая, следовательно, распределение более равномерное, меньше влияния выбросов.\
Low-категория: почти одинакова для всех 
* Все устройства имеют очень близкие средние и медианы в Low категории (~2.0–2.3 минуты).
* Это говорит о том, что очень короткие сессии у всех устройств примерно одинаковы по длительности.
     
     

### №12
Добавить столбец - “Длительность сессииˮ (расчетный). Отфильтровать набор данных. Выбрать только те записи, средняя длительность на которых выше определенного числа (число выбрать самостоятельно). Для отфильтрованного набора данных выполнить группировку: тип устройства и средняя+медианная длительность.

In [28]:
df['duration_minutes'] = (df['session_end'] - df['session_start']).dt.total_seconds() / 60

threshold = 10

filtered_df = df[df['duration_minutes'] > threshold]

result = filtered_df.groupby('device')['duration_minutes'].agg(
    mean_plus_median_duration=lambda x: x.mean() + x.median()
).round(2).sort_values(by='mean_plus_median_duration', ascending=False)

result = result.reset_index()

print(result)

    device  mean_plus_median_duration
0   iPhone                      78.17
1       PC                      73.90
2  Android                      70.90
3      Mac                      65.56


  result = filtered_df.groupby('device')['duration_minutes'].agg(


**Алгоритм работы**

Этот код анализирует длительность пользовательских сессий, оставляя только те, что длились более 10 минут, и сравнивает поведение пользователей на разных устройствах. Сначала с помощью .dt.total_seconds() вычисляется разница между временем окончания и начала сессии в секундах, которая затем делением на 60 переводится в минуты — результат сохраняется в столбец duration_minutes. Далее, с помощью логической фильтрации (df['duration_minutes'] > threshold) отбираются только сессии длиннее 10 минут, чтобы исключить краткие или случайные заходы.   
Затем методом .groupby('device') данные группируются по типу устройства (например, mobile, desktop), а функция .agg() применяет пользовательскую агрегацию: суммирует среднее (mean()) и медианное (median()) значение длительности для каждой группы. Это позволяет получить комплексную метрику, отражающую общую тенденцию длительности сессий.   

Результат округляется с помощью .round(2), сортируется по убыванию — .sort_values(..., ascending=False) — и преобразуется в обычный DataFrame с помощью .reset_index(), чтобы устройство стало столбцом.   

В конце таблица выводится через print(result).   

Был проведён анализ пользовательских сессий на разных устройствах. Были отобраны только сессии дольше 10 минут, чтобы сосредоточиться на осмысленном взаимодействии с платформой (исключены краткие заходы). Для каждого типа устройства рассчитана сумма средней и медианной длительности сессии в минутах, что даёт комплексную оценку поведения пользователей.\
**iPhone — лидер по вовлечённости** 
* Сумма среднего и медианного времени: 78.17
* Это наибольшее значение среди всех устройств.

**PC и Android — на втором и третьем месте** 
* PC: 73.90
* Android: 70.90
* Разница между ними — 3 минуты, что говорит о близком уровне вовлечённости.
* PC традиционно используется для задач, требующих времени (работа, учёба), поэтому высокие значения ожидаемы.
* Android показывает сильный результат, уступая PC менее чем на 4%, несмотря на более фрагментированный характер использования (мобильное поведение).

**Mac — замыкает список**
* Суммарный показатель: 65.56
* При этом Mac — тоже устройство Apple, но его результат ниже, чем у iPhone.

### №17
Добавить столбец - “Длительность сессииˮ (расчетный). Отфильтровать набор данных. Выбрать только те записи, средняя длительность на которых ниже определенного числа (число выбрать самостоятельно) + топ 2 устройство по средней длительности сессии + топ 2 канала привлечения по количеству записей . Для отфильтрованного набора данных создать сводную таблицу: канал, устройство и средняя длительность сессии.

In [31]:
df['duration_minutes'] = (df['session_end'] - df['session_start']).dt.total_seconds() / 60

threshold = 5
filtered_df = df[df['duration_minutes'] < threshold]

In [33]:
top2_devices = (
    filtered_df.groupby('device')['duration_minutes']
    .mean()
    .sort_values(ascending=False)
    .head(2)
    .round(2)
)
print("TOP-2 devices by mean duration:")
print(top2_devices)

TOP-2 devices by mean duration:
device
Android    2.33
PC         2.25
Name: duration_minutes, dtype: float64


  filtered_df.groupby('device')['duration_minutes']


In [35]:
top2_channels = (
    filtered_df['channel']
    .value_counts()
    .head(2)
)
print("TOP-2 channels by count:")
print(top2_channels)

TOP-2 channels by count:
channel
organic    75
TipTop     22
Name: count, dtype: int64


In [36]:
pivot_table = filtered_df.pivot_table(
    values='duration_minutes',
    index='channel',
    columns='device',
    aggfunc='mean',
    fill_value=0
).round(2)

pivot_table = pivot_table.sort_index()

print("Pivot table (mean duration, minutes):")
print(pivot_table)

Pivot table (mean duration, minutes):
device        Android   Mac    PC  iPhone
channel                                  
FaceBoom          2.0  1.00  2.00    2.70
MediaTornado      4.0  4.00  0.00    2.67
TipTop            2.0  2.00  3.00    1.93
organic           2.4  1.95  2.23    2.09


  pivot_table = filtered_df.pivot_table(


**Алгоритм работы**

Код анализирует короткие пользовательские сессии (менее 5 минут), выявляя топ-устройства и источники трафика, а также строя сводную таблицу по средней длительности. Сначала длительность сессий в минутах вычисляется как разница между session_end и session_start с помощью .dt.total_seconds() / 60, результат сохраняется в столбец duration_minutes. Затем с помощью фильтрации df['duration_minutes'] < threshold (где threshold = 5) отбираются только короткие сессии — они сохраняются в filtered_df. Далее метод .groupby('device').mean() группирует данные по устройствам и вычисляет среднюю длительность для каждого, затем .sort_values(ascending=False) сортирует их по убыванию, а .head(2) выбирает топ-2 устройства по среднему времени; результат округляется через .round(2) и выводится. Аналогично, .value_counts() подсчитывает количество сессий по каналам (channel), и .head(2) возвращает топ-2 самых частых каналов. Затем с помощью .pivot_table() создаётся сводная таблица: в строках — channel, в столбцах — device, значения — средняя длительность сессий (aggfunc='mean'), пропущенные значения заменяются на 0 (fill_value=0). Результат округляется и сортируется по индексу (каналам) с помощью .sort_index(). В конце все три результата — топ-2 устройства, топ-2 канала и сводная таблица — выводятся на экран с помощью print(). Это позволяет комплексно оценить поведение пользователей в коротких сессиях. 

Были отфильтрованы только короткие сессии: менее 5 минут. Это позволяет проанализировать поведение пользователей, которые:
* быстро зашли и вышли
* не успели глубоко взаимодействовать
* возможно, "отскочили" от контента
     

**Android — лидер по времени в коротких сессиях** 
* Средняя длительность — 2.33 мин, выше всех.
* Особенно выделяется канал MediaTornado (4.00 мин).
* Это говорит о высокой вовлечённости пользователей Android в определённых рекламных кампаниях.
     
**iPhone — стабильный, но не рекордный** 
* Лучший результат — FaceBoom (2.70), худший — TipTop (1.93).
* Показывает, что качество канала критично для iOS-пользователей.
     
**Mac и PC — слабее в коротких сессиях** 
* Низкие средние значения.
* PC: 0.00 в MediaTornado — тревожный сигнал: возможно, ошибка редиректа или плохая адаптация.
* Mac в целом ниже остальных — малая выборка или низкая конверсия.
     
**Рекламные каналы: MediaTornado — эффективен для Android/Mac** 
* Показал лучшие результаты (4.00 мин).
* Значит, он привлекает более вовлечённую аудиторию на эти устройства.
* Но провал на PC — требует проверки технической интеграции.
     
**Organic — стабильный, но не впечатляющий** 
* Все значения около 2.0–2.4 мин.
* Нет выбросов вверх или вниз — типичное поведение "нейтрального" трафика.
* Не худший, но и не лучший — потенциал для улучшения UX.
     

### №24
Добавить столбец - “Длительность сессииˮ (расчетный). Создать столбец “Категория длительностиˮ (с помощью категоризации). Выделить минимум 3 категории (низкая, высокая, средняя), фильтрацию для уровня длительности выбрать самостоятельно, аргументировать выбор. Отфильтровать набор данных. Выбрать только высокую и низкую длительность сессии + топ 2 устройства по среднему времени сессии. Создать группировку: средняя, минимальная, максимальная, медианная длительность сессии по уйстройству.

In [40]:
df['duration_minutes'] = (df['session_end'] - df['session_start']).dt.total_seconds() / 60

def categorize_duration(duration):
    if duration < 5:
        return 'Low'
    elif duration <= 30:
        return 'Mean'
    else:
        return 'High'

df['duration_category'] = df['duration_minutes'].apply(categorize_duration)
filtered_df = df[df['duration_category'].isin(['Low', 'High'])]

**Аргументация выбора:** 
* < 5 мин — пользователь быстро вошёл и вышел: возможно, проверил уведомление или потерял интерес.
* 5–30 мин — умеренная активность: просмотр контента, навигация.
* '>' 30 мин — высокая вовлечённость: глубокое взаимодействие, совершение целевых действий

In [41]:
top2_devices = (
    filtered_df.groupby('device')['duration_minutes']
    .mean()
    .sort_values(ascending=False)
    .head(2)
    .round(2)
)

print("TOP-2 devices by mean duration (Low + High):")
print(top2_devices)

TOP-2 devices by mean duration (Low + High):
device
iPhone     52.08
Android    46.91
Name: duration_minutes, dtype: float64


  filtered_df.groupby('device')['duration_minutes']


In [43]:
summary = filtered_df.groupby('device')['duration_minutes'].agg([
    ('mean_duration', 'mean'),
    ('min_duration', 'min'),
    ('max_duration', 'max'),
    ('median_duration', 'median')
]).round(2).sort_values(by='mean_duration', ascending=False)

summary = summary.reset_index()
print(summary)

    device  mean_duration  min_duration  max_duration  median_duration
0   iPhone          52.08           0.0        1287.0             41.0
1  Android          46.91           0.0         114.0             45.0
2      Mac          44.15           0.0         154.0             42.5
3       PC          43.24           0.0         137.0             43.0


  summary = filtered_df.groupby('device')['duration_minutes'].agg([


**Алгоритм работы**

Код анализирует пользовательские сессии, разделяя их на категории по длительности и выявляя ключевые метрики для устройств. Сначала длительность сессии в минутах вычисляется как разница между `session_end` и `session_start` с помощью `.dt.total_seconds() / 60`, результат сохраняется в столбец `duration_minutes`. Затем функция `categorize_duration(duration)` с помощью условий `if-elif-else` классифицирует сессии: **'Low'** — менее 5 мин, **'Mean'** — от 5 до 30 мин, **'High'** — более 30 мин. Эта категоризация применяется ко всем строкам через `.apply()`, и результат записывается в новый столбец `duration_category`. Далее с помощью `.isin(['Low', 'High'])` фильтруются только сессии с крайними значениями длительности (очень короткие и очень длинные), результат сохраняется в `filtered_df`. На основе этих данных методом `.groupby('device')` данные группируются по устройству, и для каждого рассчитывается средняя длительность — `.mean()`. Результат сортируется по убыванию с помощью `.sort_values(ascending=False)`, двумя наибольшими значениями остаются после `.head(2)`, а `.round(2)` округляет их до двух знаков. Это даёт **топ-2 устройства по средней длительности** в выбранных категориях. Затем с помощью `.agg()` вычисляются несколько статистик: среднее (`mean`), минимум (`min`), максимум (`max`) и медиана (`median`), каждая получает понятное имя (например, `'mean_duration'`). Результат снова округляется, сортируется по среднему времени и преобразуется в обычный DataFrame с помощью `.reset_index()`. В конце выводятся топ-2 устройства и сводная таблица с ключевыми метриками. Такой подход позволяет оценить поведение пользователей в экстремальных сценариях использования.

**Лидерство iPhone по средней длительности** 
* iPhone — абсолютный лидер: средняя длительность сессии — 52.08 минут
* Это на 5+ минут больше, чем у ближайшего конкурента (Android — 46.91).
* При этом медиана у iPhone — 41.0, что ниже среднего. Это указывает на наличие очень длинных сессий, сильно завышающих среднее.
     
Пример: одна сессия в 1287 минут (~21 час) — почти наверняка артефакт или выброс (фоновое приложение, неотслеженный выход). 
 
**Android — стабильный второй** 
* Среднее: 46.91 мин
* Максимум: 114.0 мин — значительно меньше, чем у iPhone.
* Медиана: 45.0 мин — даже выше, чем у iPhone (41.0), несмотря на меньшее среднее.
     
Это говорит о более равномерном распределении:
* Большинство длинных сессий у Android — в районе 45 мин, без экстремальных хвостов.
* Значит, данные надёжнее, а пользователи — предсказуемо вовлечены. 
 
**Mac и PC — замыкают топ** 
* Mac: 44.15 мин (медиана 42.5)
* PC: 43.24 мин (медиана 43.0)
     
Оба показывают почти одинаковые медианы, но: 
* Mac имеет более высокое среднее, чем PC.
* Оба существенно уступают мобильным устройствам по среднему времени.