**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

# Загрузка набора данных

### Описание предметной области

Вариант №6

Набор данных: visits.csv

Атрибуты:
User_Id - идентификатор пользователя
Region - страна пользователя
Device - тип устройства
Channel - канал привлечения
Session_Start - время начала сессии
Session_End - время конца сессии

Предметная область: В представленном наборе данных фиксируются сессии пользователей интернет-сервиса. Каждая строка набора данных соответствует одной пользовательской сессии и содержит такие характеристики характеристики: идентификатор пользователя, страна, тип устройства, канал привлечения, время начала и конца сессии. Предметная область может включать анализ пользовательской активности и аудитории сервиса по устройствам и каналам привлечения трафика.

### 1.Чтение файла (набора данных)

In [1]:
import pandas as pd
df = pd.read_csv('visits.csv', sep=";")

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [2]:
df.head(20)

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,SESSION_End
0,"9,81449E+11",United States,iPhone,organic,01.05.2019 2:36,01.05.2019 2:45
1,"2,78966E+11",United States,iPhone,organic,01.05.2019 4:46,01.05.2019 4:47
2,"5,90706E+11",United States,Mac,organic,01.05.2019 14:09,01.05.2019 15:32
3,"3,26434E+11",United States,Android,TipTop,01.05.2019 0:29,01.05.2019 0:54
4,"3,49774E+11",United States,Mac,organic,01.05.2019 3:33,01.05.2019 3:57
5,43958116050,United States,Android,organic,01.05.2019 9:03,01.05.2019 10:08
6,"1,85365E+11",United States,iPhone,organic,01.05.2019 9:37,01.05.2019 10:00
7,"1,00971E+11",United States,Mac,TipTop,01.05.2019 4:39,01.05.2019 4:57
8,"3,70456E+11",United States,iPhone,organic,01.05.2019 14:44,01.05.2019 15:41
9,"1,41838E+11",United States,Mac,FaceBoom,01.05.2019 6:20,01.05.2019 6:54


2.2 Оценка данных с помощью метода info.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 957 entries, 0 to 956
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   User_Id        957 non-null    object
 1   Region         956 non-null    object
 2   Device         955 non-null    object
 3   Channel        957 non-null    object
 4   Session_Start  955 non-null    object
 5   SESSION_End    955 non-null    object
dtypes: object(6)
memory usage: 45.0+ KB


***
Оценка данных:
- Количество столбцов: 6
- Количество строк: 957
- Типы данных: object, 6 столбцов

Пропуски:
* Region - 1 пропуск,
* Device - 2 пропуска,
* Session_Start - 2 пропуска,
* Session_End - 2 пропуска.

2.3 Оценка данных с помощью метода describe.

In [4]:
df.describe()

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,SESSION_End
count,957,956,955,957,955,955
unique,865,2,6,4,820,836
top,"1,79085E+11",United States,iPhone,organic,02.05.2019 20:16,02.05.2019 22:48
freq,4,955,421,612,4,3



Уникальных пользователеей 865, значит есть повторы и один пользователь встречается несколько раз. 

Всего встречается 2 страны пользователей.

Уникальных типов устройств - 4, каналов привлечения - 6, iPhone встречался чаще всего - 421 раз, а organic - 612.


 2.4 Оценка названий столбцов

In [5]:
df.columns

Index(['User_Id', 'Region', 'Device', 'Channel', 'Session_Start',
       'SESSION_End'],
      dtype='object')

In [6]:
df.columns = df.columns.str.lower()
df.columns

Index(['user_id', 'region', 'device', 'channel', 'session_start',
       'session_end'],
      dtype='object')


Исходные названия столбцов начинались с заглавных букв, а конец сессии написан полностью заглавными. Для удобства обращения все столбцы были приведены к нижнему регистру.


### 3. Проверка пропусков

In [7]:
print(df.isna().sum())

user_id          0
region           1
device           2
channel          0
session_start    2
session_end      2
dtype: int64


In [8]:
df = df.dropna(subset=['region', 'device', 'session_start', 'session_end'])
print(df.isna().sum())

user_id          0
region           0
device           0
channel          0
session_start    0
session_end      0
dtype: int64



Были удалены строки с отсутствующими значениями в ключевых категориальных полях region и device. Пропуски в session_start и session_end также удалены, потому что без них невозможно корректно вычислить длительность сессии. Количество пропусков было слишком маленьким, чтобы серьезно отразиться на данных анализа.


### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [9]:
df[df.duplicated()]

Unnamed: 0,user_id,region,device,channel,session_start,session_end
480,"1,79085E+11",United States,Mac,organic,01.05.2019 7:27,01.05.2019 7:49
481,"1,79085E+11",United States,Mac,organic,01.05.2019 7:27,01.05.2019 7:49


In [10]:
df = df.drop_duplicates().reset_index(drop = True)
print(df.duplicated().sum())

0



Метод `drop_duplicates()` убирает явные дубликаты строк и оставляет первое вхождение, остальные дубликаты удаляются. Метод `reset_index` позволяет создать новый DataFrame без пропусков в индексах и используется для обновления индексации, а аргумент `drop=True` нужен, чтобы не создать дополнительный столбец со старыми индексам.


#### Проверка неявных дубликатов

In [11]:
unique_c = ['region', 'device', 'channel']
for i in unique_c:
  print(i,'\n', df[i].unique())

region 
 ['United States' 'USA']
device 
 ['iPhone' 'Mac' 'Android' 'PC' 'MAC' 'IPHONE']
channel 
 ['organic' 'TipTop' 'FaceBoom' 'MediaTornado']


In [12]:
df['region'] = df['region'].replace('USA', 'United States')
df['device'] = df['device'].replace('IPHONE', 'iPhone')
df['device'] = df['device'].replace('MAC', 'Mac')


In [13]:
unique_c = ['region', 'device', 'channel']
for i in unique_c:
  print(i,'\n', df[i].unique())

region 
 ['United States']
device 
 ['iPhone' 'Mac' 'Android' 'PC']
channel 
 ['organic' 'TipTop' 'FaceBoom' 'MediaTornado']


`user_id`, `session_start` и `session_end` - уникальные данные, поэтому нахождение неявных дубликатов среди них невозможно. С помощью метода `replace()` были заменены неявные дубликаты в столбцах `region`, `device` и `channel`.

### 5. Провека типов данных

In [14]:
df['session_start'] = pd.to_datetime(df['session_start'], format="%d.%m.%Y %H:%M", errors='coerce')
df['session_end']   = pd.to_datetime(df['session_end'], format="%d.%m.%Y %H:%M", errors='coerce')

In [15]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 952 entries, 0 to 951
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   user_id        952 non-null    object        
 1   region         952 non-null    object        
 2   device         952 non-null    object        
 3   channel        952 non-null    object        
 4   session_start  952 non-null    datetime64[ns]
 5   session_end    952 non-null    datetime64[ns]
dtypes: datetime64[ns](2), object(4)
memory usage: 44.8+ KB


`user_id` остается строкой, потому что используется как идентификатор, а не для вычислений.
`region`, `device`, `channel` являются категориальными переменными и выбираются из ограниченного набора данных.
`session_start`, `session_end` преобразованы в формат `datetime`, чтобы можно было вычислять время длительности сессии.

### 6. Группировка данных

#### Задание 1

*Группировка - region и количество устройств (device )*

In [17]:
print(df.groupby(['region', 'device']).size())


region         device 
United States  Android    185
               Mac        242
               PC         103
               iPhone     422
dtype: int64


Группируются строки region + device и считается количество строк. 
В результате группировки по региону и типу устройства видно, что все пользователи из United States. Наиболее популярными устройствами оказались iPhone - 422 сессии и Mac - 242 сессии, а Android и PC используются реже, 185 и 103 сессии соответственно. Пользователи чаще пользуются мобильными устройствами (iPhone и Android вместе составляют более половины всех записей). Следовательно, аудитория преимущественно мобильная, с уклоном в сторону продукции Apple.

#### Задание 2

*Группировка - device и количество рекламных источников каждого типа (channel). Создать датафрейм. Переименовать столбец с количеством в “сount”. Отсортировать по убыванию столбца “count”.* 

In [19]:
print(df.groupby(['device', 'channel']).size().reset_index(name='count').sort_values(by='count', ascending=False))


     device       channel  count
15   iPhone       organic    249
7       Mac       organic    172
3   Android       organic    115
14   iPhone        TipTop     78
11       PC       organic     72
12   iPhone      FaceBoom     65
4       Mac      FaceBoom     36
0   Android      FaceBoom     33
13   iPhone  MediaTornado     30
2   Android        TipTop     26
6       Mac        TipTop     24
8        PC      FaceBoom     15
10       PC        TipTop     14
1   Android  MediaTornado     11
5       Mac  MediaTornado     10
9        PC  MediaTornado      2


Параметр `ascending` - порядок сортировки. По умолчанию для него установлено значение True. Для сортировки по убыванию используется значение False.
* Organic - самый крупный источник, что значит основная часть пользователей приходит естественным образом, без прямой рекламы. 
* Пользователи iPhone - более восприимчивы к маркетинговым источникам.
* MediaTornado почти не работает для Mac, Android и PC.


#### Задание 3

*Сводная таблица (pivot_table) - количество пользователей для каждого канала (device). Отсортировать по убыванию количества.*

In [24]:
pivot = df.pivot_table(
    index='channel',      # строки 
    columns='device',   # столбцы
    values='user_id',    
    aggfunc='count',     # функция агрегирования — количество
)
pivot['total'] = pivot.sum(axis=1)
pivot = pivot.sort_values(by='total', ascending=False)
print(pivot)

device        Android  Mac  PC  iPhone  total
channel                                      
organic           115  172  72     249    608
FaceBoom           33   36  15      65    149
TipTop             26   24  14      78    142
MediaTornado       11   10   2      30     53


Главный канал привлечения пользователей - organic. Основная часть аудитории приходит без прямых рекламных затрат.
FaceBoom и TipTop привели примерно одинаковое количество пользователей (149 и 142). 
MediaTornado отстаёт - всего 53 пользователя.

#### Задание 4

*Сводная таблица (pivot_table) - количество пользователей для каждого устройства (device) - строки и канала - столбцы. Отсортировать по возрастанию столбца device.*

In [25]:
pivot = df.pivot_table(
    index='device',      # строки
    columns='channel',   # столбцы
    values='user_id',    
    aggfunc='count',     # функция агрегирования — количество
)
pivot['total'] = pivot.sum(axis=1)
pivot = pivot.sort_values(by='total', ascending=False)
print(pivot)

channel  FaceBoom  MediaTornado  TipTop  organic  total
device                                                 
iPhone         65            30      78      249    422
Mac            36            10      24      172    242
Android        33            11      26      115    185
PC             15             2      14       72    103


Лидер по пользователям - iPhone.
Всего 422 пользователя.
Главный канал привлеченяи organic - 249 пользователей.

На втором месте - Mac.
242 пользователя, основной вклад тоже organic - 172.
В рекламных каналах показатели заметно ниже.

Android и PC — меньшая доля аудитории.
Android — 185 пользователей, PC — 103.
В обоих случаях organic остаётся главным источником.

### Вывод


В ходе выполнения лабораторной работы был проведён предварительный анализ данных `visits.csv` о пользовательских сессиях. Датасет содержал информацию о визитах: идентификатор пользователя, регион, тип устройства, источник привлечения, а также дату и время начала и окончания сессии. Предметная область исследования связана с анализом пользователей, используемого устройства и канала привлечения. На этапе предобработки данных были приведены названия столбцов к единому формату (нижний регистр), удалены строки с пропусками, удалены полные дубликаты строк для исключения искажений, устранены неявные дубликаты: USA заменено на United States, MAC на Mac, IPHONE на iPhone, преобразованы временные поля session_start и session_end в формат datetime.

Проведённые группировки показали, что весь набор данных относится к региону United States. Наиболее активно пользователи заходят с устройств iPhone (422) и Mac (242), тогда как доля Android (185) и особенно PC (103) заметно меньше. Таким образом, аудитория в большей степени мобильная, с явным смещением в сторону продукции Apple.

Основной источник привлечения - organic (608 пользователей), что указывает на высокую долю прямых заходов и переходов без рекламы. Среди платных каналов лидируют FaceBoom (149 пользователей) и TipTop (142), в то время как MediaTornado привёл лишь 53 пользователя. Во всех каналах и на всех устройствах наблюдается преобладание пользователей с iPhone.

Аудитория проекта - в основном мобильные пользователи, преимущественно владельцы iPhone. Рекламные кампании на FaceBoom и TipTop дают сопоставимый эффект, тогда как MediaTornado менее эффективен. Пользователи PC составляют наименьшую долю аудитории, что может указывать на необходимость приоритизации мобильных платформ при разработке и продвижении.

В лабораторной работе была проведена работа с библиотекой pandas. На практике были произведены подготовка данных, устранение ошибок и дубликатов, обработка различных типов данных. Были изучены такие понятия как группировка и категоризация. 

### Дополнительное задание

**`Подробная формулировка задания`**

In [None]:
# код выполнения задания

***`Подробный вывод по заданию, описание полученных результатов`***