**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант №6

Набор данных: visits.csv

Атрибуты:
1. user_id
2. region
3. device
4. channel
5. session_start
6. session_end

### 1.Чтение файла (набора данных)

In [102]:
# Импорт библиотек и загрузка данных
import pandas as pd
df = pd.read_csv('visits.csv', sep=';')

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [103]:
# применяем метод head
print(df.head(20))

            User_Id         Region   Device       Channel     Session_Start  \
0   981449000000,00  United States   iPhone       organic   01.05.2019 2:36   
1   278966000000,00  United States   iPhone       organic   01.05.2019 4:46   
2   590706000000,00  United States      Mac       organic  01.05.2019 14:09   
3   326434000000,00  United States  Android        TipTop   01.05.2019 0:29   
4   349774000000,00  United States      Mac       organic   01.05.2019 3:33   
5    43958116050,00  United States  Android       organic   01.05.2019 9:03   
6   185365000000,00  United States   iPhone       organic   01.05.2019 9:37   
7   100971000000,00  United States      Mac        TipTop   01.05.2019 4:39   
8   370456000000,00  United States   iPhone       organic  01.05.2019 14:44   
9   141838000000,00  United States      Mac      FaceBoom   01.05.2019 6:20   
10  924309000000,00  United States   iPhone       organic  01.05.2019 20:03   
11  774938000000,00  United States   iPhone  MediaTo

2.2 Оценка данных с помощью метода info.

In [104]:
# выполняем метод info
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 957 entries, 0 to 956
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   User_Id        957 non-null    object
 1   Region         956 non-null    object
 2   Device         955 non-null    object
 3   Channel        957 non-null    object
 4   Session_Start  955 non-null    object
 5   SESSION_End    955 non-null    object
dtypes: object(6)
memory usage: 22.5+ KB


2.3 Оценка данных с помощью метода describe.

In [105]:
# оцениваем числовые столбцы с помощью describe
df.describe()

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,SESSION_End
count,957,956,955,957,955,955
unique,865,2,6,4,820,836
top,17908500000000,United States,iPhone,organic,02.05.2019 20:16,02.05.2019 22:48
freq,4,955,421,612,4,3





**Вывод:  Некоторые пользователи возвращаются в магазин несколько раз, магазин преимущественно обслуживает пользователей из США, мобильные устройства (особенно iPhone) доминируют, органический трафик - основной источник пользователей. Данные охватывают период с 1-2 мая 2019 года, есть пиковые часы активности**
 


 2.4 Оценка названий столбцов

In [106]:
# Вывести на экран названия столбцов с помощью df.columns. Выявить проблемы с названиями, если они есть. При необходимости переименовать столбцы. Если проблемы не обнаружены также дать пояснения.
df.columns

Index(['User_Id', 'Region', 'Device', 'Channel', 'Session_Start',
       'SESSION_End'],
      dtype='object')

In [107]:
# исправляем несоответствие в регистре
df = df.rename(columns={'SESSION_End': 'Session_End'})
print("Исправлено: SESSION_End -> Session_End")
print()

Исправлено: SESSION_End -> Session_End



### 3. Проверка пропусков

In [108]:
# проверить данные на наличие пропусков и устранить их, если они есть (пропуски необходимо либо удалить, либо заменить каким-то значением).
print(df.isna().sum())

User_Id          0
Region           1
Device           2
Channel          0
Session_Start    2
Session_End      2
dtype: int64


**Решение: Удаление строк с пропусками (так как пропусков мало)**

In [109]:
# удаляем строки с пропусками
df_cleaned = df.dropna()
print(f"Удалено строк: {len(df) - len(df_cleaned)}")
print(f"Осталось записей: {len(df_cleaned)}")
print()

Удалено строк: 3
Осталось записей: 954




---

**Вы должны аргументировать на защите, почему были выполнены те или иные действия с пропусками, а также знать другие способы работы с пропусками, чтобы
 ответить на вопросы на защите.**


 ---

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [110]:
# проверяем таблицу на наличие дубликатов
df[df.duplicated()]

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,Session_End
480,17908500000000,United States,Mac,organic,01.05.2019 7:27,01.05.2019 7:49
481,17908500000000,United States,Mac,organic,01.05.2019 7:27,01.05.2019 7:49


In [111]:
# удаляем дубликат
df=df.drop_duplicates().reset_index(drop=True)

#### Проверка неявных дубликатов

In [112]:
# Проверка неявных дубликатов
print("Проверка неявных дубликатов:")

# Ключевые комбинации для проверки
check_combinations = [
    ['User_Id', 'Session_Start'],
    ['User_Id', 'Session_Start', 'Session_End'],
    ['User_Id', 'Device', 'Channel', 'Session_Start']
]

for cols in check_combinations:
    duplicates = df.duplicated(subset=cols).sum()
    print(f"Дубликатов по {cols}: {duplicates}")

# Итог
total_duplicates = df.duplicated().sum()
print(f"Полных дубликатов: {total_duplicates}")

Проверка неявных дубликатов:
Дубликатов по ['User_Id', 'Session_Start']: 0
Дубликатов по ['User_Id', 'Session_Start', 'Session_End']: 0
Дубликатов по ['User_Id', 'Device', 'Channel', 'Session_Start']: 0
Полных дубликатов: 0


In [None]:
# удалите дубликаты, если они есть

---

**Вы должны аргументировать на защите, почему были выполнены те или иные действия с дубликатами, знать, что такое явные и неявные дубликаты и способы работы с ними, чтобы ответить на вопросы на защите.**


 ---

### 5. Провека типов данных

In [115]:
# Проверка типов данных
print(df.dtypes)
print()

Типы данных до преобразования:
User_Id                  object
Region                 category
Device                 category
Channel                category
Session_Start    datetime64[ns]
Session_End      datetime64[ns]
dtype: object



In [116]:
# преобразование User_Id в числовой формат
df['User_Id'] = pd.to_numeric(df['User_Id'], errors='coerce')

print("Финальные типы данных:")
print(df.dtypes)

Финальные типы данных:
User_Id                 float64
Region                 category
Device                 category
Channel                category
Session_Start    datetime64[ns]
Session_End      datetime64[ns]
dtype: object


---

**Обратите внимание, что во всех вариантах необходимо сделать приведение типов. Будьте готовы на защите аргументировать проверку типов (почему выполнены те или иные преобразования).**


 ---

### 6. Группировка данных

#### Задание 1

*`Группировка - region и количество устройств (device )`*

In [128]:
result = df.groupby(['Region', 'Device'], observed=True).size()
print(result)

Region         Device 
USA            PC           1
United States  Android    185
               IPHONE       2
               MAC          1
               Mac        241
               PC         102
               iPhone     421
dtype: int64


**Сгруппировав данные можно сделать вывод, что самые частые пользователи находятся в США и являются пользователями iPhone**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 2

*`Группировка - device и количество рекламных источников каждого
типа (channel). Создать датафрейм. Переименовать столбец с количеством в
“сount”. Отсортировать по убыванию столбца “count”. `*

In [146]:
result = df.groupby(['Device', 'Channel']).size().reset_index(name='count')
result = result.rename(columns={'count': 'count'})  # Меняем название на count
result = result.sort_values('count', ascending=True)  # Сортировка по убыванию
display(result)

  result = df.groupby(['Device', 'Channel']).size().reset_index(name='count')


Unnamed: 0,Device,Channel,count
11,MAC,organic,0
4,IPHONE,FaceBoom,0
5,IPHONE,MediaTornado,0
6,IPHONE,TipTop,0
9,MAC,MediaTornado,0
10,MAC,TipTop,0
8,MAC,FaceBoom,1
7,IPHONE,organic,2
17,PC,MediaTornado,2
13,Mac,MediaTornado,10


**Анализ показывает, что органический источник лучший среди всех устройств, при этом FaceBoom наиболее эффективен для пользователей Mac, а TipTop лучше конвертирует мобильную аудиторию, тогда как MediaTornado демонстрирует наименьшую эффективность.**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 3

*`Сводная таблица (pivot_table) - количество пользователей для каждого
канала (device). Отсортировать по убыванию количества.
`*

In [149]:
df = pd.read_csv('visits.csv', sep=';')

df['User_Id'] = pd.to_numeric(df['User_Id'].astype(str).str.replace(',', '.'), errors='coerce')

# количество пользователей для каждого канала
pivot_result = pd.pivot_table(df,
                             values='User_Id', 
                             index='Channel',
                             aggfunc='count',
                             observed=True)

# сортировка по убыванию количества
pivot_result = pivot_result.sort_values('User_Id', ascending=False)
pivot_result = pivot_result.rename(columns={'User_Id': 'count'})
display(pivot_result)

Unnamed: 0_level_0,count
Channel,Unnamed: 1_level_1
organic,612
FaceBoom,149
TipTop,143
MediaTornado,53


**Органический трафик является доминирующим каналом привлечения пользователей, в то время как MediaTornado демонстрирует наименьшую эффективность**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

#### Задание 4

*`Сводная таблица (pivot_table) - количество пользователей для каждого
устройства (device) - строки и канала - столбцы. Отсортировать по возрастанию
столбца device.
`*

In [151]:
pivot_result = pd.pivot_table(df,
                             values='User_Id', 
                             index='Device',
                             columns='Channel',
                             aggfunc='count',
                             fill_value=0,
                             observed=True)

# сортировка по возрастанию названий устройств
pivot_result = pivot_result.sort_index(ascending=True)

display(pivot_result)

Channel,FaceBoom,MediaTornado,TipTop,organic
Device,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Android,33,11,26,115
IPHONE,0,0,0,2
MAC,1,0,0,0
Mac,35,10,24,174
PC,15,2,14,72
iPhone,65,30,79,247


**iPhone доминирует по количеству пользователей среди всех рекламных каналов, при этом органический трафик является основным источником для всех типов устройств, тогда как MediaTornado показывает наименьшую эффективность во всех категориях.**

---

**Обратите внимание, что на защите вы должны ориентироваться в синтаксисе. При необходимости нужно быть готовым изменить код по просьбе преподавателя. Например, вместо среднего значения подсчитать медиану и т.д.**


 ---

### Вывод


***Анализ данных пользовательских сессий магазина выявил ключевые закономерности: основная аудитория состоит из пользователей из США, преимущественно использующих мобильные устройства - iPhone и Android составляют более 70% всего трафика. Органический трафик является доминирующим источником привлечения с 612 пользователями, значительно опережая рекламные каналы FaceBoom и TipTop, которые тем не менее демонстрируют хорошую эффективность, в то время как MediaTornado показывает наименьшие результаты. Наиболее активными являются пользователи iPhone across всех каналов, тогда как аудитория Mac чаще приходит через FaceBoom, а пользователи Android демонстрируют сбалансированное распределение по каналам. Полученные insights позволяют рекомендовать усиление SEO для роста органического трафика, оптимизацию FaceBoom для премиальной аудитории, развитие TipTop для мобильных пользователей и пересмотр медийной стратегии MediaTornado.***


### Дополнительное задание

**`Подробная формулировка задания`**

In [None]:
# код выполнения задания

***`Подробный вывод по заданию, описание полученных результатов`***