**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Данные пользовательских сессии магазина:
1. уникальный идентификатор пользователя
2. страна пользователя
3. устройство пользователя
4. идентификатор рекламного источника, из которого пришел пользователь
5. дата и время начала сессии
6. дата и время окончания сессии

Вариант №6

Набор данных: visits.csv

Атрибуты: dtypes – тип значений в столбцах,
columns – список с названиями столбцов
shape – размер таблицы, содержит кортеж из количества строк и столбцов.


### 1.Чтение файла (набора данных)

Прописываю разделитель ";"

In [5]:
import pandas as pd
df = pd.read_csv('C:/Users/User/Documents/Анализ данных/visits.csv', sep=';')

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [6]:
df.head(20)

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,SESSION_End
0,"9,81449E+11",United States,iPhone,organic,01.05.2019 2:36,01.05.2019 2:45
1,"2,78966E+11",United States,iPhone,organic,01.05.2019 4:46,01.05.2019 4:47
2,"5,90706E+11",United States,Mac,organic,01.05.2019 14:09,01.05.2019 15:32
3,"3,26434E+11",United States,Android,TipTop,01.05.2019 0:29,01.05.2019 0:54
4,"3,49774E+11",United States,Mac,organic,01.05.2019 3:33,01.05.2019 3:57
5,43958116050,United States,Android,organic,01.05.2019 9:03,01.05.2019 10:08
6,"1,85365E+11",United States,iPhone,organic,01.05.2019 9:37,01.05.2019 10:00
7,"1,00971E+11",United States,Mac,TipTop,01.05.2019 4:39,01.05.2019 4:57
8,"3,70456E+11",United States,iPhone,organic,01.05.2019 14:44,01.05.2019 15:41
9,"1,41838E+11",United States,Mac,FaceBoom,01.05.2019 6:20,01.05.2019 6:54


2.2 Оценка данных с помощью метода info.

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 957 entries, 0 to 956
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   User_Id        957 non-null    object
 1   Region         956 non-null    object
 2   Device         955 non-null    object
 3   Channel        957 non-null    object
 4   Session_Start  955 non-null    object
 5   SESSION_End    955 non-null    object
dtypes: object(6)
memory usage: 45.0+ KB


Изменяю формат данных в столбцах Session_Start и SESSION_End на datetime. 

In [8]:
df['Session_Start'] = pd.to_datetime(df['Session_Start'], format='%d.%m.%Y %H:%M')
df['SESSION_End'] = pd.to_datetime(df['SESSION_End'], format='%d.%m.%Y %H:%M')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 957 entries, 0 to 956
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   User_Id        957 non-null    object        
 1   Region         956 non-null    object        
 2   Device         955 non-null    object        
 3   Channel        957 non-null    object        
 4   Session_Start  955 non-null    datetime64[ns]
 5   SESSION_End    955 non-null    datetime64[ns]
dtypes: datetime64[ns](2), object(4)
memory usage: 45.0+ KB


2.3 Оценка данных с помощью метода describe.

In [9]:
df.describe()

Unnamed: 0,Session_Start,SESSION_End
count,955,955
mean,2019-05-02 08:11:42.596858880,2019-05-02 08:40:54.534031616
min,2019-05-01 00:06:00,2019-05-01 00:19:00
25%,2019-05-01 20:21:30,2019-05-01 20:49:00
50%,2019-05-02 08:08:00,2019-05-02 08:34:00
75%,2019-05-02 18:42:30,2019-05-02 18:57:30
max,2019-05-04 23:46:00,2019-05-04 23:52:00


Метод describe позволяет получить информацию о числовых столбцах: количество значений в них, медиану, минимальное и максимальное значения и другие характеристики. Можно понять, что: пиковая активность - утром около 8:00, большинство сессий приходятся на 1-2 мая.

 2.4 Оценка названий столбцов

In [10]:
df.columns

Index(['User_Id', 'Region', 'Device', 'Channel', 'Session_Start',
       'SESSION_End'],
      dtype='object')

Для удобства меняю название столбца SESSION_End на Session_End

In [11]:
df = df.rename(columns={'SESSION_End': 'Session_End'})
df.columns

Index(['User_Id', 'Region', 'Device', 'Channel', 'Session_Start',
       'Session_End'],
      dtype='object')

### 3. Проверка пропусков

In [12]:
print(df.isna().sum())

User_Id          0
Region           1
Device           2
Channel          0
Session_Start    2
Session_End      2
dtype: int64


Видно, что имеются пропуски в колонках Region, Device, Session_Start и Session_End. 

In [13]:
df = df.dropna(subset=['Region', 'Device', 'Session_Start','Session_End']) 
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 954 entries, 0 to 956
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   User_Id        954 non-null    object        
 1   Region         954 non-null    object        
 2   Device         954 non-null    object        
 3   Channel        954 non-null    object        
 4   Session_Start  954 non-null    datetime64[ns]
 5   Session_End    954 non-null    datetime64[ns]
dtypes: datetime64[ns](2), object(4)
memory usage: 52.2+ KB


Было принято решение удалить строки, в которых присутствуют пропуски. Удалились только 3 строки, значит в двух из них не было информации ни об устроустве пользователя, ни о времени сессии. Это важные данные для исследования, без них запись становится бесполезной.

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [14]:
(df[df.duplicated()])

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,Session_End
480,"1,79085E+11",United States,Mac,organic,2019-05-01 07:27:00,2019-05-01 07:49:00
481,"1,79085E+11",United States,Mac,organic,2019-05-01 07:27:00,2019-05-01 07:49:00


Использую метод drop_duplicates для удаления строк-дублтикатов. Строки удаляются вместе с индексами, с помощью reset_index создаётся новый датафрейм, в котором не будет пропусков в индексах, drop=True чтобы не создавался новый столбец index.

In [15]:
df=df.drop_duplicates().reset_index(drop=True)

#### Проверка неявных дубликатов

С помощью метода unique найдены уникальные значения в каждом столбце.

In [16]:
check=['Region', 'Device', 'Channel']
for x in check:
    print(x,':',df[x].unique(),'\n')

Region : ['United States' 'USA'] 

Device : ['iPhone' 'Mac' 'Android' 'PC' 'MAC' 'IPHONE'] 

Channel : ['organic' 'TipTop' 'FaceBoom' 'MediaTornado'] 



В столбце Region заменим United States на USA.
В столбце Device уберем caps lock.

In [17]:
df['Region'] = df['Region'].replace('United States', 'USA')
df['Device'] = df['Device'].replace('MAC', 'Mac')
df['Device'] = df['Device'].replace('IPHONE', 'iPhone')

Далее произведем проверку дат. Найдем самые старые и самые новые даты, сессии с отрицатольной продолжительностью. Таких дат не оказалось.

In [18]:
print('min_date', df['Session_Start'].min())
print('max_date', df['Session_Start'].max())

print('min_date', df['Session_End'].min())
print('max_date', df['Session_End'].max())

invalid_sessions = df[df['Session_End'] < df['Session_Start']]
print("Сессии с end < start:", len(invalid_sessions))

min_date 2019-05-01 00:06:00
max_date 2019-05-04 23:46:00
min_date 2019-05-01 00:19:00
max_date 2019-05-04 23:52:00
Сессии с end < start: 0


### 5. Группировка данных

#### Задание 1

Группировка - region и количество устройств (device ).

In [26]:

df.groupby(['Region', 'Device'])['User_Id'].count()

Region  Device 
USA     Android    185
        Mac        242
        PC         103
        iPhone     422
Name: User_Id, dtype: int64

Проверим количество записей. 185 + 242 + 103 + 422 = 952

In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 952 entries, 0 to 951
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   User_Id        952 non-null    object        
 1   Region         952 non-null    object        
 2   Device         952 non-null    object        
 3   Channel        952 non-null    object        
 4   Session_Start  952 non-null    datetime64[ns]
 5   Session_End    952 non-null    datetime64[ns]
dtypes: datetime64[ns](2), object(4)
memory usage: 44.8+ KB


Всего записей 952 - все верно!

Из данной группировки можно сделать вывод, что все пользователи из США и в большинстве своем пользуются iPhone.

#### Задание 2

Группировка - device и количество рекламных источников каждого
типа (channel). Создать датафрейм. Переименовать столбец с количеством в
“сount”. Отсортировать по убыванию столбца “count”. 

In [34]:
group_df=df.groupby(['Device', 'Channel'])['User_Id'].count().sort_values(ascending=False).reset_index()
group_df=group_df.rename(columns={'User_Id':'Count'})
group_df

Unnamed: 0,Device,Channel,Count
0,iPhone,organic,249
1,Mac,organic,172
2,Android,organic,115
3,iPhone,TipTop,78
4,PC,organic,72
5,iPhone,FaceBoom,65
6,Mac,FaceBoom,36
7,Android,FaceBoom,33
8,iPhone,MediaTornado,30
9,Android,TipTop,26


Посмотрев на группировку можно сказать, что самым эффиктивным источником привлечения клиентов является реклама в ресурсе organic.

#### Задание 3

Сводная таблица (pivot_table) - количество пользователей для каждого
канала (channel). Отсортировать по убыванию количества.


In [36]:
pt=df.pivot_table(index='Channel', values='User_Id', aggfunc='count').sort_values(by='User_Id', ascending=False)
pt

Unnamed: 0_level_0,User_Id
Channel,Unnamed: 1_level_1
organic,608
FaceBoom,149
TipTop,142
MediaTornado,53


Данная группировка подтверждает вывод о том, что самым эффиктивным источником клиентов является реклама в ресурсе organic.

#### Задание 4

Сводная таблица (pivot_table) - количество пользователей для каждого
устройства (device) - строки и канала - столбцы. Отсортировать по возрастанию
столбца device.


In [40]:
pt2=df.pivot_table(index='Device', columns='Channel', values='User_Id', aggfunc='count').sort_values(by='Device')
pt2

Channel,FaceBoom,MediaTornado,TipTop,organic
Device,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Android,33,11,26,115
Mac,36,10,24,172
PC,15,2,14,72
iPhone,65,30,78,249


Наблюдается четкая корреляция между типом устройства и предпочтениями по каналам привлечения.

### Вывод

В ходе лабараторной работы я анализировала датафрейм visits.csv. В датафрейме содержатся записи о посещении клиентами сайта, их регионе, устройстве и канале перехода на сайт. Для начала я произвела предварительный анализ. Я изменила названия столбцов, установила соответствующий для столбцов тип данных (datetime, object). Нашла пропуски в строках и устранила их самым оптимальным способом - путём удаления строк. Далее удалила явные дубликаты методом drop_duplicates. Путём переименования удалила неявные дубликаты. Проверила записи на несуществующие даты и длины сессий. 
Были сделаны две группировки идве сводные таблицы, которые наглядно демонстрируют, что все пользователи из США и в большинстве своем пользуются iPhone и самым эффиктивным источником привлечения клиентов является реклама в ресурсе organic.




### Дополнительное задание

**`Подробная формулировка задания`**

In [None]:
# код выполнения задания

***`Подробный вывод по заданию, описание полученных результатов`***