**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант №6

Набор данных: visits.csv

Атрибуты: DataFrame


### 1.Чтение файла (набора данных)

In [3]:
import pandas as pd
df = pd.read_csv('visits.csv', sep = ';')

С помощью библиотеки pandas загружен датасет visits.csv

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [4]:
df.head(20)

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,SESSION_End
0,"9,81449E+11",United States,iPhone,organic,01.05.2019 2:36,01.05.2019 2:45
1,"2,78966E+11",United States,iPhone,organic,01.05.2019 4:46,01.05.2019 4:47
2,"5,90706E+11",United States,Mac,organic,01.05.2019 14:09,01.05.2019 15:32
3,"3,26434E+11",United States,Android,TipTop,01.05.2019 0:29,01.05.2019 0:54
4,"3,49774E+11",United States,Mac,organic,01.05.2019 3:33,01.05.2019 3:57
5,43958116050,United States,Android,organic,01.05.2019 9:03,01.05.2019 10:08
6,"1,85365E+11",United States,iPhone,organic,01.05.2019 9:37,01.05.2019 10:00
7,"1,00971E+11",United States,Mac,TipTop,01.05.2019 4:39,01.05.2019 4:57
8,"3,70456E+11",United States,iPhone,organic,01.05.2019 14:44,01.05.2019 15:41
9,"1,41838E+11",United States,Mac,FaceBoom,01.05.2019 6:20,01.05.2019 6:54


Таблица содержит данные: 

User_ID - Индефикатор пользователя

Region - Регион пользователя

Device - Устройство, с которого был выполнен вход

Channel - Рекламный источник 

Session_Start - Дата и день входа

Session_End - Дата и день выхода

2.2 Оценка данных с помощью метода info.

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 957 entries, 0 to 956
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   User_Id        957 non-null    object
 1   Region         956 non-null    object
 2   Device         955 non-null    object
 3   Channel        957 non-null    object
 4   Session_Start  955 non-null    object
 5   SESSION_End    955 non-null    object
dtypes: object(6)
memory usage: 45.0+ KB


Всего 957 записей и 6 колонок, некоторые записи с пропусками, а также распростанен тип object

2.3 Оценка данных с помощью метода describe.

Для оценки числовых столбцов использовался метод describe

In [6]:
df.describe()

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,SESSION_End
count,957,956,955,957,955,955
unique,865,2,6,4,820,836
top,"1,79085E+11",United States,iPhone,organic,02.05.2019 20:16,02.05.2019 22:48
freq,4,955,421,612,4,3


Из полученных данных можно сделать следующие выводы: доминирующий рынок США, самое популярное устройство – Iphone, канал Organic – основной источник трафика

 2.4 Оценка названий столбцов

In [7]:
df.columns


Index(['User_Id', 'Region', 'Device', 'Channel', 'Session_Start',
       'SESSION_End'],
      dtype='object')

Для проверки правильности написания столбцов использовался метод columns, который выводит названия столбцов. Из полученных названий видно, что нужно поменять название столбцу отвечающий за последнюю сессию. Для этого используется метод rename, который принимает один параметр columns

In [8]:
df = df.rename(columns= {"SESSION_End" : "Session_End"})

### 3. Проверка пропусков

Далее используется метод isna(), который используется для нахождения пропусков, и функция sum для подсчета пропусков

In [9]:
print(df.isna().sum())


User_Id          0
Region           1
Device           2
Channel          0
Session_Start    2
Session_End      2
dtype: int64


По полученным данным видно, что в столбцах Region, Device, Session_Start, Session_End максимальное количество пропусков, поэтому можно удалить строки с пустым значением в этих столбцах. Для их удаления применяется метод dropna c параметром subset, который указывает в каких столбцах следует искать пропущенные значения

In [10]:
df=df.dropna(subset=['Region', 'Device', 'Session_Start', 'Session_End'])
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 954 entries, 0 to 956
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   User_Id        954 non-null    object
 1   Region         954 non-null    object
 2   Device         954 non-null    object
 3   Channel        954 non-null    object
 4   Session_Start  954 non-null    object
 5   Session_End    954 non-null    object
dtypes: object(6)
memory usage: 52.2+ KB


### 4. Проверка дубликатов

#### Проверка явных дубликатов

Далее используется метод duplicated, который считает дубликатами те строки, которые полностью повторяют уже встречавшиеся. Сначала выводится список всех дубликатов

In [11]:
df[df.duplicated()]

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,Session_End
480,"1,79085E+11",United States,Mac,organic,01.05.2019 7:27,01.05.2019 7:49
481,"1,79085E+11",United States,Mac,organic,01.05.2019 7:27,01.05.2019 7:49


Всего найдено 2 дубликата для их удаления используется метод drop_duplicates, так как этот метод удаляет строки с индексами, то следует применить метод reset_index, который обновит индексацию, параметр drop=True означает, что старый индекс не будет сохранен как столбец в новом датафрейме.

In [12]:
df = df.drop_duplicates().reset_index(drop=True)

#### Проверка неявных дубликатов

Для поиска неявных дубликатов применятся метод unique, который выводит уникальные значения. Чтобы вывести уникальные значения из всех столбцов используется цикл, чтобы пройти по столбцам Region, Device и Channel

In [13]:
check=['Region', 'Device', 'Channel']
for x in check:
    print(x, ':', df[x].unique(), '\n')

Region : ['United States' 'USA'] 

Device : ['iPhone' 'Mac' 'Android' 'PC' 'MAC' 'IPHONE'] 

Channel : ['organic' 'TipTop' 'FaceBoom' 'MediaTornado'] 



In [14]:
df['Region'] = df['Region'].replace('USA', 'United States')
df['Device'] = df['Device'].replace('MAC', 'Mac')
df['Device'] = df['Device'].replace('IPHONE', 'iPhone')
df['Channel'] = df['Channel'].replace('organic', 'Organic')

Из полученных данных было обнаружено, что в столбах есть неправильное написание слов. Чтобы исправить неправильные значения используется метод replace

### 5. Провека типов данных

Чтобы снова убедиться какие типы данных указаны в таблице, была написана команда df.info

In [15]:
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 952 entries, 0 to 951
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   User_Id        952 non-null    object
 1   Region         952 non-null    object
 2   Device         952 non-null    object
 3   Channel        952 non-null    object
 4   Session_Start  952 non-null    object
 5   Session_End    952 non-null    object
dtypes: object(6)
memory usage: 44.8+ KB


In [16]:
df['Session_Start'] = pd.to_datetime(df['Session_Start'], format='%d.%m.%Y %H:%M')
df['Session_End'] = pd.to_datetime(df['Session_End'], format='%d.%m.%Y %H:%M')
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 952 entries, 0 to 951
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   User_Id        952 non-null    object        
 1   Region         952 non-null    object        
 2   Device         952 non-null    object        
 3   Channel        952 non-null    object        
 4   Session_Start  952 non-null    datetime64[ns]
 5   Session_End    952 non-null    datetime64[ns]
dtypes: datetime64[ns](2), object(4)
memory usage: 44.8+ KB


Session_Start Session_End имеют тип данных object, для преобразования к типу данных datetime используется метод to_datetime(), с помощью аргумента format был задан формат даты

### 6. Группировка данных

#### Задание 1

*`Группировка - region и количество устройств (device ).`*

С помощью метода groupby() проведена группировка: столбец Region по столбцу Device, подсчет осуществляется по столбцу User_Id

In [17]:
df.groupby(['Region', "Device"])["User_Id"].count()

Region         Device 
United States  Android    185
               Mac        242
               PC         103
               iPhone     422
Name: User_Id, dtype: int64

**`Благодаря данной группировке можно заметить, что все пользователи находятся в США, а также какими устройства для входа пользовались чаще.`**

#### Задание 2

*`Группировка - device и количество рекламных источников каждого
типа (channel)`*

Затем создается новый датафрейм, в котором осуществляется группировка: столбец Region по столбцу Device, подсчет осуществляется по столбцу User_ID, который с сортируется с использованием метода sort_values, ascending = False значит, что сортировка будет по убыванию. С помощью reset_index сбрасывается индекс и создается столбец с подсчетом значений переименовывается в count

In [18]:
group_df=df.groupby(['Device', 'Channel'])['User_Id'].count().sort_values(ascending=False).reset_index()
group_df=group_df.rename(columns={'User_Id':'Count'})
group_df

Unnamed: 0,Device,Channel,Count
0,iPhone,Organic,249
1,Mac,Organic,172
2,Android,Organic,115
3,iPhone,TipTop,78
4,PC,Organic,72
5,iPhone,FaceBoom,65
6,Mac,FaceBoom,36
7,Android,FaceBoom,33
8,iPhone,MediaTornado,30
9,Android,TipTop,26


**`По данным группировки можно сказать, что поток пользователей происходил с телефонов Apple, а также наибольшей популярностью пользуется источник Organic. Самым слабым оказался вход с компьютера с источником MediaTornado.`**

#### Задание 3

*`Сводная таблица (pivot_table) - количество пользователей для каждого
канала (device)`*

Далее описана команда, где index группирует данные по каналам привлечения, values использует идентификаторы пользователей для анализа, aggfunc='count' подсчитывает количество пользователей в каждой группе,
sort_values сортирует результат по столбцу с количеством пользователей, а
ascending=False - по убыванию

In [19]:
pt=df.pivot_table(index='Channel', values='User_Id', aggfunc='count').sort_values(by='User_Id', ascending=False)
pt

Unnamed: 0_level_0,User_Id
Channel,Unnamed: 1_level_1
Organic,608
FaceBoom,149
TipTop,142
MediaTornado,53


**`Из результата данной сводной таблицы можно увидеть, что большинство пользователей выбрали источник Organic, MediaTornado самый непопулярный истоник из всего списка.`**

#### Задание 4

*`Сводная таблица (pivot_table) - количество пользователей для каждого
устройства (device) - строки и канала - столбцы.`*

Затем создается сводная таблица- количество пользователей для каждого
устройства. Index указывает, что уникальные значения из столбца 'Device' станут строками итоговой таблицы. Columns указывает, что уникальные значения из столбца 'Channel' станут столбцами итоговой таблицы. Аggfunc='count' означает "посчитать количество", функция посчитает количество User_Id

In [20]:
pt2=df.pivot_table(index='Device', columns='Channel', values='User_Id', aggfunc='count').sort_values(by='Device')
pt2


Channel,FaceBoom,MediaTornado,Organic,TipTop
Device,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Android,33,11,115,26
Mac,36,10,172,24
PC,15,2,72,14
iPhone,65,30,249,78


**`Можно сделать вывод, что Organic - безусловно, основной канал привлечения пользователей для всех типов устройств. На его долю приходится значительно больше пользователей, чем на все остальные каналы вместе взятые. Особенно это заметно для iPhone (249 пользователей) и Mac (172 пользователя)`**

### Вывод


В ходе работы были проанализированы данные о посещениях пользователей (visits.csv) в разрезе устройств, каналов привлечения и географии. Датасет содержал информацию о 957 сессиях с атрибутами: идентификатор пользователя, регион, устройство, канал привлечения, время начала и окончания сессии. Были устранены пропуски в столбцах и удалено 3 строки, исправлены неявные дубликаты в категориальных данных, удалены 2 полных дубликата записей, преобразованы типы данных: даты сессий приведены к формату datetime, а также стандартизированы названия столбцов.
Были получены выводы из анализа, что все пользователи из США, самое популярное устройство это iPhone, Organic стал самым доминирующим рекламным каналом.




### Дополнительное задание

6 
Добавить столбец - “Длительность сессии” (расчетный). Создать столбец
“Категория длительности” (с помощью категоризации). Выделить минимум 3
категории (низкая, высокая, средняя), фильтрацию для уровня длительности
выбрать самостоятельно, аргументировать выбор. Создать сводную таблицу:
средняя и медианная длительность сессии по категории длительности и
каналу. 


In [23]:
df['Session_Time'] = (df['Session_End'] - df['Session_Start']).dt.total_seconds() / 60  
df.head(20)

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,Session_End,Session_Time
0,"9,81449E+11",United States,iPhone,Organic,2019-05-01 02:36:00,2019-05-01 02:45:00,9.0
1,"2,78966E+11",United States,iPhone,Organic,2019-05-01 04:46:00,2019-05-01 04:47:00,1.0
2,"5,90706E+11",United States,Mac,Organic,2019-05-01 14:09:00,2019-05-01 15:32:00,83.0
3,"3,26434E+11",United States,Android,TipTop,2019-05-01 00:29:00,2019-05-01 00:54:00,25.0
4,"3,49774E+11",United States,Mac,Organic,2019-05-01 03:33:00,2019-05-01 03:57:00,24.0
5,43958116050,United States,Android,Organic,2019-05-01 09:03:00,2019-05-01 10:08:00,65.0
6,"1,85365E+11",United States,iPhone,Organic,2019-05-01 09:37:00,2019-05-01 10:00:00,23.0
7,"1,00971E+11",United States,Mac,TipTop,2019-05-01 04:39:00,2019-05-01 04:57:00,18.0
8,"3,70456E+11",United States,iPhone,Organic,2019-05-01 14:44:00,2019-05-01 15:41:00,57.0
9,"1,41838E+11",United States,Mac,FaceBoom,2019-05-01 06:20:00,2019-05-01 06:54:00,34.0


Создаем столбец длительность сессии, которая расчитывается как разность между концом и началом сессии. Время полученное в секундах делим на 60, чтобы получить минуты.

In [24]:
bins = [0, 5, 20, float('inf')]
labels = ['Low', 'Medium', 'High']
df['Category'] = pd.cut(df['Session_Time'], bins=bins, labels=labels)

Создаем категории по длительности сессии, где 0-5 низкая, 5-20 средняя и от 20 до бесконечности высокая. Используем pd.cut, которая разбивает числовые значения на интервалы, присваивает каждой строке соответствующую категорию, создает категориальный столбец с заданными метками.

In [None]:
pivot_table = df.pivot_table(index='Category', columns='Channel', values='Session_Time', aggfunc=['Mean', 'Median']).round(2)
pivot_table

  pivot_table = df.pivot_table(index='Category', columns='Channel', values='Session_Time', aggfunc=['mean', 'median']).round(2)
  pivot_table = df.pivot_table(index='Category', columns='Channel', values='Session_Time', aggfunc=['mean', 'median']).round(2)


Unnamed: 0_level_0,mean,mean,mean,mean,median,median,median,median
Channel,FaceBoom,MediaTornado,Organic,TipTop,FaceBoom,MediaTornado,Organic,TipTop
Category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Low,2.95,3.23,2.81,2.46,3.0,3.0,3.0,2.5
Medium,12.91,10.62,12.71,12.37,13.0,10.0,12.0,12.0
High,46.97,37.67,50.29,45.11,41.0,36.0,42.5,40.0


Создаем сводную таблицу, где Index группирует данные по строкам, каждая строка отдельная категория длительности. Columns группирует так, что каждый столбец отдельный канал. Values анализирует именно длительность. aggfunc=['mean', 'median'], где mean и median это среднее и медиана. Round же округляет все числа до 2 знаков после запятой

Большинство пользователей демонстрируют средний уровень вовлеченности, что свидетельствует о нормальном качестве трафика. Organic трафик - наиболее вовлеченные пользователи. MediaTornado - вероятно, показывает наименьшие значения длительности

