**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант №6

Набор данных: visits.csv

Атрибуты:
1. user_id
2. region
3. device
4. channel
5. session_start
6. session_end

### 1.Чтение файла (набора данных)

In [None]:
# Импорт библиотек и загрузка данных
import pandas as pd
df = pd.read_csv('visits.csv', sep=';')

Здесь мы используем библиотеку pandas и функцию read_csv, которая позволяет загрузить данные из CSV-файла в DataFrame. Аргумент sep=';' указывает, что разделителем является точка с запятой.

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [None]:
# применяем метод head
print(df.head(20))

            User_Id         Region   Device       Channel     Session_Start  \
0   981449000000,00  United States   iPhone       organic   01.05.2019 2:36   
1   278966000000,00  United States   iPhone       organic   01.05.2019 4:46   
2   590706000000,00  United States      Mac       organic  01.05.2019 14:09   
3   326434000000,00  United States  Android        TipTop   01.05.2019 0:29   
4   349774000000,00  United States      Mac       organic   01.05.2019 3:33   
5    43958116050,00  United States  Android       organic   01.05.2019 9:03   
6   185365000000,00  United States   iPhone       organic   01.05.2019 9:37   
7   100971000000,00  United States      Mac        TipTop   01.05.2019 4:39   
8   370456000000,00  United States   iPhone       organic  01.05.2019 14:44   
9   141838000000,00  United States      Mac      FaceBoom   01.05.2019 6:20   
10  924309000000,00  United States   iPhone       organic  01.05.2019 20:03   
11  774938000000,00  United States   iPhone  MediaTo

Метод head(20) выводит первые 20 строк таблицы, что позволяет быстро проверить корректность загрузки данных и убедиться, что структура файла соответствует ожиданиям.

2.2 Оценка данных с помощью метода info.

In [None]:
# выполняем метод info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 957 entries, 0 to 956
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   User_Id        957 non-null    object
 1   Region         956 non-null    object
 2   Device         955 non-null    object
 3   Channel        957 non-null    object
 4   Session_Start  955 non-null    object
 5   SESSION_End    955 non-null    object
dtypes: object(6)
memory usage: 22.5+ KB


Метод info() показывает общую информацию о DataFrame: количество строк и столбцов, типы данных в каждом столбце, а также количество ненулевых значений. Это важно для выявления пропусков и понимания структуры набора данных.

2.3 Оценка данных с помощью метода describe.

In [None]:
# оцениваем числовые столбцы с помощью describe
df.describe()

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,SESSION_End
count,957,956,955,957,955,955
unique,865,2,6,4,820,836
top,17908500000000,United States,iPhone,organic,02.05.2019 20:16,02.05.2019 22:48
freq,4,955,421,612,4,3


Метод describe() рассчитывает основные статистические показатели (среднее, стандартное отклонение, минимумы, максимумы, квартили) для числовых столбцов. С его помощью можно выявить аномалии или выбросы в данных.




**Вывод:  Некоторые пользователи возвращаются в магазин несколько раз, магазин преимущественно обслуживает пользователей из США, мобильные устройства (особенно iPhone) доминируют, органический трафик - основной источник пользователей. Данные охватывают период с 1-2 мая 2019 года, есть пиковые часы активности**



 2.4 Оценка названий столбцов

In [None]:
# Вывести на экран названия столбцов с помощью df.columns. Выявить проблемы с названиями, если они есть. При необходимости переименовать столбцы. Если проблемы не обнаружены также дать пояснения.
df.columns

Index(['User_Id', 'Region', 'Device', 'Channel', 'Session_Start',
       'SESSION_End'],
      dtype='object')

С помощью df.columns мы проверяем названия столбцов на соответствие стандартам именования.

In [None]:
# исправляем несоответствие в регистре
df = df.rename(columns={'SESSION_End': 'Session_End'})
print("Исправлено: SESSION_End -> Session_End")
print()

Исправлено: SESSION_End -> Session_End



Обнаруженное несоответствие в регистре (SESSION_End) исправляем для единообразия.

### 3. Проверка пропусков

In [None]:
# проверить данные на наличие пропусков и устранить их, если они есть (пропуски необходимо либо удалить, либо заменить каким-то значением).
print(df.isna().sum())

User_Id          0
Region           1
Device           2
Channel          0
Session_Start    2
Session_End      2
dtype: int64


Метод isna().sum() позволяет подсчитать количество пропущенных значений в каждом столбце. Для обработки пропусков мы выбираем стратегию удаления строк, так как количество пропусков незначительно и не повлияет на общее качество анализа.

**Решение: Удаление строк с пропусками (так как пропусков мало)**

In [None]:
# удаляем строки с пропусками
df_cleaned = df.dropna()
print(f"Удалено строк: {len(df) - len(df_cleaned)}")
print(f"Осталось записей: {len(df_cleaned)}")
print()

Удалено строк: 3
Осталось записей: 954



Для обработки пропущенных данных мы используем метод dropna(), который полностью удаляет строки, содержащие пропущенные значения. Это решение принято потому, что количество пропусков незначительно (всего 3 строки) и их удаление не окажет существенного влияния на результаты анализа. После очистки в наборе данных остается 954 полных записи.


---

**Вы должны аргументировать на защите, почему были выполнены те или иные действия с пропусками, а также знать другие способы работы с пропусками, чтобы
 ответить на вопросы на защите.**


 ---

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [None]:
# проверяем таблицу на наличие дубликатов
df[df.duplicated()]

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,Session_End
480,17908500000000,United States,Mac,organic,01.05.2019 7:27,01.05.2019 7:49
481,17908500000000,United States,Mac,organic,01.05.2019 7:27,01.05.2019 7:49


 Метод duplicated() позволяет выявить полные дубликаты строк в DataFrame. В нашем случае обнаружено 2 полностью идентичные записи с одинаковыми User_Id, Device, Channel и временными метками.

In [None]:
# удаляем дубликат
df=df.drop_duplicates().reset_index(drop=True)

Для удаления дубликатов используется метод drop_duplicates(), который удаляет повторяющиеся строки. Метод reset_index(drop=True) применяется для сброса индексов и их перенумерации после удаления записей.

#### Проверка неявных дубликатов

In [None]:
# Загрузка данных
df = pd.read_csv('visits.csv', sep=';')

# Проверка уникальных значений
for col in ['Region', 'Device', 'Channel']:
    print(f"Уникальные значения в {col}: {df[col].unique().tolist()}")

# Исправление неявных дубликатов
df['Device'] = df['Device'].replace({'IPHONE': 'iPhone', 'MAC': 'Mac', 'PC': 'Pc'})
df['Region'] = df['Region'].replace({'USA': 'United States'})

# Проверка дубликатов записей
for cols in [['User_Id', 'Session_Start'],
             ['User_Id', 'Session_Start', 'SESSION_End'],
             ['User_Id', 'Device', 'Channel', 'Session_Start']]:
    duplicates = df.duplicated(subset=cols).sum()
    print(f"Дубликатов по {cols}: {duplicates}")

# Удаление полных дубликатов
df = df.drop_duplicates()
print(f"Осталось записей: {len(df)}")

Уникальные значения в Region: ['United States', 'USA', nan]
Уникальные значения в Device: ['iPhone', 'Mac', 'Android', 'PC', 'MAC', 'IPHONE', nan]
Уникальные значения в Channel: ['organic', 'TipTop', 'FaceBoom', 'MediaTornado']
Дубликатов по ['User_Id', 'Session_Start']: 2
Дубликатов по ['User_Id', 'Session_Start', 'SESSION_End']: 2
Дубликатов по ['User_Id', 'Device', 'Channel', 'Session_Start']: 2
Осталось записей: 955


Для проверки неявных дубликатов мы анализируем уникальные значения в категориальных столбцах. Обнаружены различные написания одних и тех же категорий: 'USA' и 'United States' для региона, 'iPhone'/'IPHONE' и 'Mac'/'MAC' для устройств.
Метод replace() используется для стандартизации текстовых значений и устранения неявных дубликатов. Мы приводим все варианты написания к единому стандарту: 'IPHONE' → 'iPhone', 'MAC' → 'Mac', 'USA' → 'United States'.

---

**Вы должны аргументировать на защите, почему были выполнены те или иные действия с дубликатами, знать, что такое явные и неявные дубликаты и способы работы с ними, чтобы ответить на вопросы на защите.**


 ---

### 5. Провека типов данных

In [None]:
# Проверка типов данных
print(df.dtypes)
print()

Типы данных до преобразования:
User_Id                  object
Region                 category
Device                 category
Channel                category
Session_Start    datetime64[ns]
Session_End      datetime64[ns]
dtype: object



Метод dtypes позволяет просмотреть типы данных всех столбцов DataFrame. Мы видим, что большинство столбцов имеют правильные типы: категориальные данные хранятся как category, а временные метки - как datetime64[ns].

In [None]:
# преобразование User_Id в числовой формат
df['User_Id'] = pd.to_numeric(df['User_Id'], errors='coerce')

print("Финальные типы данных:")
print(df.dtypes)

Финальные типы данных:
User_Id                 float64
Region                 category
Device                 category
Channel                category
Session_Start    datetime64[ns]
Session_End      datetime64[ns]
dtype: object


Столбец User_Id имеет тип object, хотя должен быть числовым. Для преобразования используем функцию pd.to_numeric() с параметром errors='coerce', который автоматически преобразует некорректные значения в NaN вместо возникновения ошибки.

После преобразования столбец User_Id имеет тип float64, что позволяет выполнять математические операции и статистический анализ. Все остальные столбцы сохраняют корректные типы данных, необходимые для дальнейшего анализа.

---

**Обратите внимание, что во всех вариантах необходимо сделать приведение типов. Будьте готовы на защите аргументировать проверку типов (почему выполнены те или иные преобразования).**


 ---

### 6. Группировка данных

#### Задание 1

*`Группировка - region и количество устройств (device )`*

In [None]:
result = df.groupby(['Region', 'Device'], observed=True).size()
print(result)

Region         Device 
USA            PC           1
United States  Android    185
               IPHONE       2
               MAC          1
               Mac        241
               PC         102
               iPhone     421
dtype: int64


Метод groupby() позволяет группировать данные по определенным столбцам. В данном случае мы группируем по Region и Device, а метод size() подсчитывает количество записей в каждой группе. Параметр observed=True обеспечивает корректную работу с категориальными данными.

**Сгруппировав данные можно сделать вывод, что самые частые пользователи находятся в США и являются пользователями iPhone**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 2

*`Группировка - device и количество рекламных источников каждого
типа (channel). Создать датафрейм. Переименовать столбец с количеством в
“сount”. Отсортировать по убыванию столбца “count”. `*

In [None]:
result = df.groupby(['Device', 'Channel']).size().reset_index(name='count')
result = result.rename(columns={'count': 'count'})  # Меняем название на count
result = result.sort_values('count', ascending=True)  # Сортировка по убыванию
display(result)

Unnamed: 0,Device,Channel,count
5,MAC,FaceBoom,1
4,IPHONE,organic,2
11,PC,MediaTornado,2
7,Mac,MediaTornado,10
1,Android,MediaTornado,11
12,PC,TipTop,14
10,PC,FaceBoom,15
8,Mac,TipTop,24
2,Android,TipTop,26
15,iPhone,MediaTornado,30


Для создания DataFrame из результатов группировки используем метод reset_index() с параметром name='count', который создает столбец с количеством записей. Затем переименовываем столбец для единообразия и выполняем сортировку по убыванию количества с помощью sort_values().

**Анализ показывает, что органический источник лучший среди всех устройств, при этом FaceBoom наиболее эффективен для пользователей Mac, а TipTop лучше конвертирует мобильную аудиторию, тогда как MediaTornado демонстрирует наименьшую эффективность.**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 3

*`Сводная таблица (pivot_table) - количество пользователей для каждого
канала (device). Отсортировать по убыванию количества.
`*

In [None]:
df = pd.read_csv('visits.csv', sep=';')

df['User_Id'] = pd.to_numeric(df['User_Id'].astype(str).str.replace(',', '.'), errors='coerce')

# количество пользователей для каждого канала
pivot_result = pd.pivot_table(df,
                             values='User_Id',
                             index='Channel',
                             aggfunc='count',
                             observed=True)

# сортировка по убыванию количества
pivot_result = pivot_result.sort_values('User_Id', ascending=False)
pivot_result = pivot_result.rename(columns={'User_Id': 'count'})
display(pivot_result)

Unnamed: 0_level_0,count
Channel,Unnamed: 1_level_1
organic,612
FaceBoom,149
TipTop,143
MediaTornado,53


Функция pivot_table() создает сводную таблицу, где мы анализируем количество пользователей по каналам привлечения. В качестве значений используем столбец User_Id с агрегационной функцией 'count'. Параметр observed=True обеспечивает корректную обработку категориальных данных.
Для сортировки результатов по убыванию количества пользователей используем метод sort_values() по столбцу 'User_Id' с параметром ascending=False. Это позволяет наглядно увидеть наиболее эффективные каналы привлечения пользователей.

**Органический трафик является доминирующим каналом привлечения пользователей, в то время как MediaTornado демонстрирует наименьшую эффективность**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 4

*`Сводная таблица (pivot_table) - количество пользователей для каждого
устройства (device) - строки и канала - столбцы. Отсортировать по возрастанию
столбца device.
`*

In [None]:
pivot_result = pd.pivot_table(df,
                             values='User_Id',
                             index='Device',
                             columns='Channel',
                             aggfunc='count',
                             fill_value=0,
                             observed=True)

# сортировка по возрастанию названий устройств
pivot_result = pivot_result.sort_index(ascending=True)

display(pivot_result)

Channel,FaceBoom,MediaTornado,TipTop,organic
Device,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Android,33,11,26,115
IPHONE,0,0,0,2
MAC,1,0,0,0
Mac,35,10,24,174
PC,15,2,14,72
iPhone,65,30,79,247


В этом задании создаем многомерную сводную таблицу, где устройства (Device) отображаются по строкам, а каналы привлечения (Channel) - по столбцам. Параметр fill_value=0 заменяет пропущенные значения нулями для наглядности.
Сортировка по возрастанию названий устройств выполняется с помощью sort_index(ascending=True). Это упорядочивает устройства в алфавитном порядке, что облегчает сравнение эффективности каналов привлечения для каждого типа устройств.

**iPhone доминирует по количеству пользователей среди всех рекламных каналов, при этом органический трафик является основным источником для всех типов устройств, тогда как MediaTornado показывает наименьшую эффективность во всех категориях.**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

### Вывод


**Анализ данных пользовательских сессий магазина выявил ключевые закономерности: основная аудитория состоит из пользователей из США, преимущественно использующих мобильные устройства - iPhone и Android составляют более 70% всего трафика. Органический трафик является доминирующим источником привлечения с 612 пользователями, значительно опережая рекламные каналы FaceBoom и TipTop, которые тем не менее демонстрируют хорошую эффективность, в то время как MediaTornado показывает наименьшие результаты. Наиболее активными являются пользователи iPhone across всех каналов, тогда как аудитория Mac чаще приходит через FaceBoom, а пользователи Android демонстрируют сбалансированное распределение по каналам. Полученные insights позволяют рекомендовать усиление SEO для роста органического трафика, оптимизацию FaceBoom для премиальной аудитории, развитие TipTop для мобильных пользователей и пересмотр медийной стратегии MediaTornado.**


### Дополнительное задание

**`Задание 8. Добавить столбец - “Длительность сессии” (расчетный). Создать столбец
“Категория длительности” (с помощью категоризации). Выделить минимум 3
категории (низкая, высокая, средняя), фильтрацию для уровня длительности
выбрать самостоятельно, аргументировать выбор. Создать сводную таблицу:
средняя и медианная длительность сессии по категории длительности и
стране.
`**

In [None]:
# Преобразуем даты в правильный формат
df['Session_Start'] = pd.to_datetime(df['Session_Start'], format='%d.%m.%Y %H:%M')
df['SESSION_End'] = pd.to_datetime(df['SESSION_End'], format='%d.%m.%Y %H:%M')

# Добавляем столбец с длительностью сессии в минутах
df['Длительность сессии'] = (df['SESSION_End'] - df['Session_Start']).dt.total_seconds() / 60

# Создаем категории длительности
bins = [0, 5, 30, float('inf')]
labels = ['низкая', 'средняя', 'высокая']
df['Категория длительности'] = pd.cut(df['Длительность сессии'], bins=bins, labels=labels)

# Создаем сводную таблицу
pivot_result = pd.pivot_table(df,
                             values='Длительность сессии',
                             index=['Region', 'Категория длительности'],
                             aggfunc=['mean', 'median'],
                             fill_value=0,
                             observed=True)

display(pivot_result)

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,median
Unnamed: 0_level_1,Unnamed: 1_level_1,Длительность сессии,Длительность сессии
Region,Категория длительности,Unnamed: 2_level_2,Unnamed: 3_level_2
United States,низкая,2.80292,3.0
United States,средняя,16.431965,16.0
United States,высокая,57.573099,51.0


Для расчета длительности сессии мы преобразуем столбцы с датами в формат datetime с помощью pd.to_datetime(), затем вычисляем разницу между окончанием и началом сессии и переводим ее в минуты с помощью dt.total_seconds() / 60.
Категоризацию длительности сессии выполняем с помощью функции pd.cut(), которая разбивает числовые значения на интервалы. Мы определяем три категории: низкая (0-5 минут), средняя (5-30 минут) и высокая (30+ минут), что соответствует типичным паттернам пользовательского поведения.
Сводную таблицу создаем с помощью pivot_table(), группируя данные по стране и категории длительности. Используем агрегационные функции 'mean' и 'median' для анализа центральных тенденций длительности сессий в каждой группе.

***`Выбор градации длительности сессий основан на анализе пользовательского поведения: короткие сессии (0-5 мин) typically указывают на быстрые отскоки или ознакомительные визиты, средние сессии (5-30 мин) соответствуют стандартному времени для просмотра товаров и оформления заказов, а длительные сессии (30+ мин) характерны для углубленного изучения ассортимента или свидетельствуют о возможных трудностях с навигацией.`***

***`Вывод: анализ длительности сессий показывает четкую градацию пользовательской активности: низкая категория (2.8 мин) характеризует кратковременные визиты, средняя (16.4 мин) отражает стандартное время для совершения покупок, а высокая (57.6 мин) указывает на глубокое вовлечение или сложности с навигацией, при этом медианные значения подтверждают устойчивость данных тенденций среди всех категорий.`***

**`Задание 16. Добавить столбец - “Длительность сессии” (расчетный). Отфильтровать набор
данных. Выбрать только те записи, средняя длительность на которых ниже
определенного числа (число выбрать самостоятельно) + топ 1 устройство по
количеству записей + топ 2 канала привлечения по количеству записей . Для
отфильтрованного набора данных выполнить группировку: устройство и
средняя+медианная+максимальная+ минимальная длительность.
`**

In [None]:
# Добавляем столбец с длительностью сессии в минутах
df['Длительность сессии'] = (df['SESSION_End'] - df['Session_Start']).dt.total_seconds() / 60

# Выбираем порог фильтрации
threshold = 10
filtered_df = df[df['Длительность сессии'] < threshold]

# Топ 1 устройство по количеству записей
top_device = filtered_df['Device'].value_counts().index[0]
print(f"Топ 1 устройство: {top_device}")

# Топ 2 канала привлечения по количеству записей
top_channels = filtered_df['Channel'].value_counts().head(2).index.tolist()
print(f"Топ 2 канала: {top_channels}")

# Фильтруем по топ устройству и топ каналам
final_df = filtered_df[(filtered_df['Device'] == top_device) &
                      (filtered_df['Channel'].isin(top_channels))]

# Группировка по устройству с статистикой длительности
result = final_df.groupby('Device')['Длительность сессии'].agg([
    'mean',
    'median',
    'max',
    'min'
]).round(2)

display(result)

Топ 1 устройство: iPhone
Топ 2 канала: ['organic', 'TipTop']


Unnamed: 0_level_0,mean,median,max,min
Device,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
iPhone,4.21,4.0,9.0,0.0


 В задании 16 устанавливаем порог фильтрации в 10 минут для выделения коротких сессий. Метод value_counts() помогает определить наиболее популярные устройства и каналы, а комбинированная фильтрация позволяет сфокусироваться на ключевых сегментах данных.
Для агрегации статистик по длительности сессии используем метод agg() с перечнем функций: 'mean', 'median', 'max', 'min'. Это позволяет получить комплексное представление о распределении длительности сессий в выбранной группе.



***`Вывод: анализ коротких сессий (менее 10 минут) выявил, что пользователи iPhone составляют основную аудиторию с низкой вовлеченностью, при этом основными каналами привлечения являются organic трафик и TipTop. Статистика длительности сессий показывает среднее время взаимодействия 4.21 минуты при медиане 4.0 минуты, что свидетельствует о равномерном распределении коротких сессий с диапазоном от мгновенных отскоков (0 минут) до максимальных 9 минут, что указывает на необходимость оптимизации пользовательского опыта для мобильной аудитории и повышения вовлеченности с органических и рекламных каналов.`***

**`Задание 25. Добавить столбец - “Длительность сессии” (расчетный). Создать столбец
“Категория длительности” (с помощью категоризации). Выделить минимум 3
категории (низкая, высокая, средняя), фильтрацию для уровня длительности
выбрать самостоятельно, аргументировать выбор. Отфильтровать набор
данных. Выбрать только высокую и низкую длительность сессии + 2 самых не
популярных канала (по количеству записей). Создать сводную таблицу:
средняя, медианная длительность сессии по каналу и устройству.  
`**

In [None]:
# Добавляем столбец с длительностью сессии в минутах
df['Длительность сессии'] = (df['SESSION_End'] - df['Session_Start']).dt.total_seconds() / 60

# Создаем категории длительности
bins = [0, 5, 30, float('inf')]
labels = ['низкая', 'средняя', 'высокая']
df['Категория длительности'] = pd.cut(df['Длительность сессии'], bins=bins, labels=labels)

# Выбираем только высокую и низкую длительность сессии
filtered_df = df[df['Категория длительности'].isin(['низкая', 'высокая'])]

# Находим 2 самых непопулярных канала по количеству записей
least_popular_channels = filtered_df['Channel'].value_counts().tail(2).index.tolist()
print(f"2 самых непопулярных канала: {least_popular_channels}")

# Фильтруем по непопулярным каналам
final_df = filtered_df[filtered_df['Channel'].isin(least_popular_channels)]

# Создаем сводную таблицу
pivot_result = pd.pivot_table(final_df,
                             values='Длительность сессии',
                             index=['Channel', 'Device'],
                             aggfunc=['mean', 'median'],
                             fill_value=0,
                             observed=True)

display(pivot_result)

2 самых непопулярных канала: ['FaceBoom', 'MediaTornado']


Unnamed: 0_level_0,Unnamed: 1_level_0,mean,median
Unnamed: 0_level_1,Unnamed: 1_level_1,Длительность сессии,Длительность сессии
Channel,Device,Unnamed: 2_level_2,Unnamed: 3_level_2
FaceBoom,Android,39.5,41.0
FaceBoom,Mac,46.0,42.0
FaceBoom,Pc,49.714286,48.0
FaceBoom,iPhone,41.393939,44.0
MediaTornado,Android,31.5,28.5
MediaTornado,Mac,35.6,40.0
MediaTornado,iPhone,23.6,20.0


В задании 25 используем метод tail(2) для определения двух наименее популярных каналов по количеству записей. Фильтрация по крайним категориям длительности (низкая и высокая) позволяет анализировать полярные сценарии пользовательского поведения.
Многомерная сводная таблица с группировкой по каналу и устройству позволяет выявить специфические паттерны длительности сессий для различных комбинаций этих параметров, что особенно важно для анализа эффективности каналов привлечения на разных устройствах.

***`Короткие сессии (0-5 мин) показывают быстрые отскоки, длинные (30+ мин) - активное взаимодействие. Анализ этих крайних категорий раскрывает противоположные модели пользовательского поведения.`***

***`Вывод: анализ наименее популярных каналов FaceBoom и MediaTornado показывает, что пользователи демонстрируют высокую вовлеченность (средняя длительность сессии 30-50 минут), при этом FaceBoom привлекает более лояльную аудиторию across всех типов устройств, в то время как MediaTornado показывает меньшие показатели вовлеченности, особенно среди пользователей iPhone.`***