**Цель работы:**

Осуществить предварительную обработку данных csv-файла, выявить и устранить проблемы в этих данных.

**Задание**

1. Загрузить датасет с помощью библиотеки ```pandas```.
2. Вывести первые 20 строк с помощью метода ```head``` .
3. Выполнить обзор данных - описать столбцы и вашу предметную область.
4. С помощью метода info оценить данные (есть ли пропуски, сколько всего строк, какие типы данных у столбцов).
5. Применить ```describe``` . С помощью ```describe``` оценить числовые столбцы (если они есть).
6. Вывести на экран названия столбцов с помощью ```df.columns```. Выявить проблемы с названиями, если они есть. При необходимости переименовать столбцы. Если проблемы не обнаружены также дать пояснения.
7. Проверить данные на наличие пропусков и устранить их, если они есть (пропуски необходимо либо удалить, либо заменить каким-то значением).
8. Проверьте данные на наличие явных и неявных дубликатов. Удалите дубликаты, если они есть.
9. Проверьте типы данных, при необходимости измените типы данных, чтобы они соответствовали действительности.
10. Осуществите группировки и создайте сводные таблицы в соответствии с вариантом.
11. Сделайте выводе по работе.

# Загрузка набора данных

### Описание предметной области

**Предметная область**\
Данные отражают информацию о сессиях пользователей цифровой платформы: уникальный идентификатор пользователя, регион проживания, тип устройства, канал привлечения и временные метки начала и окончания сессии. Анализ таких данных позволяет компаниям и маркетологам оценивать поведение пользователей, измерять вовлечённость, сравнивать эффективность различных рекламных каналов и выявлять паттерны использования сервиса в зависимости от устройства или источника трафика.

**Вариант №5**

Набор данных: ```visits.csv```

Атрибуты:\
```User_Id``` — уникальный идентификатор пользователя\
```Region``` — страна пользователя\
```Device``` — устройство пользователя\
```Channel``` — идентификатор рекламного источника, из которого пришел пользователь\
```Session_Start``` — дата и время начала сессии\
```Session_End``` — дата и время окончания сессии

### 1.Чтение файла (набора данных)

Импорт библиотек, чтение файла с помощью pandas

In [10]:
import pandas as pd
df = pd.read_csv("visits.csv", sep = ';')

### 2. Обзор данных

2.1 Вывод первых 20 строк с помощью метода head.

In [11]:
df.head(20)

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,SESSION_End
0,"9,81449E+11",United States,iPhone,organic,01.05.2019 2:36,01.05.2019 2:45
1,"2,78966E+11",United States,iPhone,organic,01.05.2019 4:46,01.05.2019 4:47
2,"5,90706E+11",United States,Mac,organic,01.05.2019 14:09,01.05.2019 15:32
3,"3,26434E+11",United States,Android,TipTop,01.05.2019 0:29,01.05.2019 0:54
4,"3,49774E+11",United States,Mac,organic,01.05.2019 3:33,01.05.2019 3:57
5,43958116050,United States,Android,organic,01.05.2019 9:03,01.05.2019 10:08
6,"1,85365E+11",United States,iPhone,organic,01.05.2019 9:37,01.05.2019 10:00
7,"1,00971E+11",United States,Mac,TipTop,01.05.2019 4:39,01.05.2019 4:57
8,"3,70456E+11",United States,iPhone,organic,01.05.2019 14:44,01.05.2019 15:41
9,"1,41838E+11",United States,Mac,FaceBoom,01.05.2019 6:20,01.05.2019 6:54


2.2 Оценка данных с помощью метода info.

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 957 entries, 0 to 956
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   User_Id        957 non-null    object
 1   Region         956 non-null    object
 2   Device         955 non-null    object
 3   Channel        957 non-null    object
 4   Session_Start  955 non-null    object
 5   SESSION_End    955 non-null    object
dtypes: object(6)
memory usage: 45.0+ KB


---
**Пояснение:**\
В наборе данных 957 строк и 6 столбцов;\
Тип данных всех столбцов: строковый;\
Пропуски обнаружены в столбцах ```Region``` (1 штука), ```Device``` (2 штуки), ```Session_Start``` (2 штуки) и ```Session_End``` (2 штуки);\
Эти пропуски нужно будет обработать (например, заполнить модой).

---

2.3 Оценка данных с помощью метода describe.

In [13]:
df.describe()

Unnamed: 0,User_Id,Region,Device,Channel,Session_Start,SESSION_End
count,957,956,955,957,955,955
unique,865,2,6,4,820,836
top,"1,79085E+11",United States,iPhone,organic,02.05.2019 1:22,02.05.2019 22:49
freq,4,955,421,612,4,3


---
**Пояснение:**\
Была произведена оценка числовых столбцов с помощью ```describe```\
В датасете 957 записей;\
Числовые столбцы отсутствуют.

---

 2.4 Оценка названий столбцов

In [14]:
df.columns

Index(['User_Id', 'Region', 'Device', 'Channel', 'Session_Start',
       'SESSION_End'],
      dtype='object')

In [15]:
df.columns = df.columns.str.lower()
df.columns

Index(['user_id', 'region', 'device', 'channel', 'session_start',
       'session_end'],
      dtype='object')

---
**Пояснение:**\
Были выведены на экран названия столбцов. Серьезных проблем в названиях столбцов нет. Был обнаружен деффект в названии последнего столбца ```SESSION_End``` (слово SESSION написано в верхнем регистре, когда как остальные названия как обычные слова: первая буква в верхнем регистре, последующие - в нижнем). Для удобства работы в коде и единого код-стайла все названия были приведены в нижний регистр.

---

### 3. Проверка пропусков

In [42]:
df.isna().sum()
df['region'] = df['region'].fillna(df['region'].mode())
df['device'] = df['device'].fillna(df['device'].mode())
df['session_start'] = df['session_start'].fillna(df['session_start'].mode())
df['session_end'] = df['session_end'].fillna(df['session_end'].mode())
df.isna().sum()

user_id          0
region           0
device           0
channel          0
session_start    0
session_end      0
dtype: int64

---
**Пояснение:**\
Был выбран способ заполнения пропущенных значений модой (медианной заполнить нельзя, так как тип данных строковый, а медиана присутсвует только у числовых типов данных). Удаление строк приведёт к потере лишь небольшой части данных, но даже одна строка может содержать ценную информацию (например, уникальную сессию пользователя). Также присутствует риск смещения: если удалить строки с пропусками, можено случайно исключить определённую группу пользователей (например, тех, кто заходит с редких устройств), что исказит выводы.

 ---

### 4. Проверка дубликатов

#### Проверка явных дубликатов

In [43]:
df[df.duplicated()]

Unnamed: 0,user_id,region,device,channel,session_start,session_end
480,"1,79085E+11",United States,Mac,organic,01.05.2019 7:27,01.05.2019 7:49
481,"1,79085E+11",United States,Mac,organic,01.05.2019 7:27,01.05.2019 7:49


In [44]:
df = df.drop_duplicates().reset_index(drop = True)
print(df.duplicated().sum())

0


---
**Пояснение:**\
Команда ```df.duplicated()``` проверяет, есть ли дубликаты строк в таблице. Возвращает колонку из True и False:
* True - строка является дубликатом (повторяется);
* False - уникальная строка;
  
Команда ```df = df.drop_duplicates().reset_index(drop = True)``` удаляет дубликаты и обновляет индексы строк (чтобы потом при обращении к строкам не было пропусков в номерах).

Команда ```print(df.duplicated().sum())``` выводит на экран количество строк-дубликатов

#### Проверка неявных дубликатов

In [52]:
unique_c = ['region', 'device', 'channel']
for i in unique_c:
  print(i, df[i].unique())

region ['United States']
device ['iPhone' 'Mac' 'Android' 'PC']
channel ['organic' 'TipTop' 'FaceBoom' 'MediaTornado']


In [48]:
for i in unique_c:
  print(df[i].value_counts())

region
United States    954
USA                1
Name: count, dtype: int64
device
iPhone     423
Mac        241
Android    185
PC         103
IPHONE       2
MAC          1
Name: count, dtype: int64
channel
organic         610
FaceBoom        149
TipTop          143
MediaTornado     53
Name: count, dtype: int64


In [51]:
df['region'] = df['region'].replace('USA', 'United States')
df['device'] = df['device'].replace('MAC', 'Mac')
df['device'] = df['device'].replace('IPHONE', 'iPhone')
for i in unique_c:
  print(i, df[i].unique())

region ['United States']
device ['iPhone' 'Mac' 'Android' 'PC']
channel ['organic' 'TipTop' 'FaceBoom' 'MediaTornado']


---
**Пояснение:**\
В данных были обнаружены неявные дубликаты:\
* ```region``` - дублируется United States и USA
* ```device``` - дублируется названия устройств iPhone - IPHONE, Mac - MAC
  
Эти проблемы нужно исправить на этапе предобработки, чтобы анализ был корректным.\
Все неявные дубликаты устранены. Данные приведены к корректному виду, теперь с ними можно уверенно работать дальше: строить группировки, сводные таблицы и анализировать.

 ---

### 5. Провека типов данных

In [53]:
df.dtypes

user_id          object
region           object
device           object
channel          object
session_start    object
session_end      object
dtype: object

In [61]:
df['region'] = df['region'].astype('category')
df['device'] = df['device'].astype('category')
df['channel'] = df['channel'].astype('category')

df['session_start'] = pd.to_datetime(df['session_start'], format='%d.%m.%Y %H:%M')
df['session_end'] = pd.to_datetime(df['session_end'], format='%d.%m.%Y %H:%M')

print(df.dtypes)

user_id                  object
region                 category
device                 category
channel                category
session_start    datetime64[ns]
session_end      datetime64[ns]
dtype: object


---
**Пояснение:**
* ```user_id``` - идентификатор пользователя: большое число, записанное в экспоненциальном виде, оставляем object (str);
* ```region``` - страна проживания: категориальная переменная, т.к. ограниченное число записей (переводим в category);
* ```device``` - устройство: категориальная переменная, т.к. ограниченное число записей (переводим в category);
* ```channel``` - идентификатор рекламного источника: категориальная переменная, т.к. ограниченное число записей (переводим в category);
* ```session_start``` и ```session_end``` - начало и конец сессии: дата и время (переводим в datetime).

Проверка показала, что некоторые типы данных определны неверно:\
```region```, ```device``` и ```channel``` определены как object, что в целом правильно, но логичнее использовать 'category', т.к. их ограниченное кол-во.\
```session_start``` и ```session_end``` pandas определил по умолчанию как object, но это дата и время, соответсвенно было выполнено преобразование в тип данных datetime с соответсвующим записям форматом.

 ---

### 6. Группировка данных

#### Задание 1

Группировка - device и количество рекламных источников каждого
типа (channel).

In [66]:
print(df.groupby(['device', 'channel'], observed=True)['user_id'].count())

device   channel     
Android  FaceBoom         33
         MediaTornado     11
         TipTop           26
         organic         115
Mac      FaceBoom         36
         MediaTornado     10
         TipTop           24
         organic         172
PC       FaceBoom         15
         MediaTornado      2
         TipTop           14
         organic          72
iPhone   FaceBoom         65
         MediaTornado     30
         TipTop           79
         organic         251
Name: user_id, dtype: int64


---
**Пояснение:**
* Основной источник трафика — органический (organic);
* iPhone доминирует среди устройств;
* Рекламные каналы показывают разную эффективность;
* Настольные устройства (Mac, PC) используются реже, но стабильно;
* Android-аудитория меньше, чем iPhone, несмотря на глобальное превосходство Android в рынке.

---

#### Задание 2

Группировка - region и количество устройств (device ). Создать датафрейм. Переименовать столбец с количеством в “сountˮ. Отсортировать по
убыванию столбца “countˮ.

In [67]:
counts = df.groupby(['region', 'device'], observed = True).size()
df_group = counts.reset_index()
df_group.columns = ['region', 'device', 'count']
df_group = df_group.sort_values(by='count', ascending=False)
print(df_group)

          region   device  count
3  United States   iPhone    425
1  United States      Mac    242
0  United States  Android    185
2  United States       PC    103


---
**Пояснение:**\
Данные отражают количество сессий (или записей) по комбинациям регион — устройство, отсортированных по убыванию.
* Пользователи сосредоточены в одном регионе — США;
* iPhone — лидер по использованию;
* Mac — второе по популярности устройство;
* Android — ниже ожидаемого уровня;
* PC — наименее активная платформа

Ядро аудитории — это пользователи из США, в основном с iPhone и Mac. Это позволяет сделать вывод, что продукт лучше всего адаптирован под экосистему Apple и аудиторию с высоким уровнем вовлечённости.

---

#### Задание 3

Сводная таблица (pivot_table) - уникальное количество пользователей для каждого устройства (device). Отсортировать по убыванию количества.

In [71]:
pivot_users = df.pivot_table(
    index='device',       
    values='user_id',
    aggfunc='nunique',
    observed=True
).sort_values(by='user_id', ascending=False)
print(pivot_users)

         user_id
device          
iPhone       387
Mac          223
Android      169
PC            90


---
**Пояснение:**\
Целевая аудитория — в основном пользователи экосистемы Apple: они доминируют как на мобильных (iPhone), так и на настольных (Mac) платформах. Продукт лучше всего адаптирован под iOS и macOS — это преимущество, которое нужно поддерживать и развивать. Android и PC — зоны роста: потенциал расширения аудитории лежит в улучшении опыта для этих пользователей.

---

#### Задание 4

Сводная таблица (pivot_table) - уникальное количество пользователей для каждого устройства (device) - столбцы и региона- строки. Отсортировать по возрастанию столбца region.

In [72]:
pivot_users = df.pivot_table(
    index='region', 
    columns='device', 
    values='user_id',
    aggfunc='nunique',  
    observed=True        
).sort_index(ascending=True)
print(pivot_users)

device         Android  Mac  PC  iPhone
region                                 
United States      169  223  90     387


---
**Пояснение:**
* Целевая аудитория — преимущественно пользователи из США, использующие устройства Apple;
* Сервис лучше всего воспринимается и используется в экосистеме Apple (iPhone + Mac);
* Платформы Android и PC явно уступают, что указывает на потенциал роста через улучшение кросс-платформенной поддержки.

 ---

### Вывод

В ходе работы был проведён анализ набора данных ```visits.csv```, содержащего информацию о 957 пользовательских сессиях на цифровой платформе. Данные относятся к предметной области анализа пользовательского поведения и включают сведения об уникальном идентификаторе пользователя, регионе, типе устройства, канале привлечения и временных метках начала и окончания сессии. На этапе предобработки были выявлены и устранены пропуски в столбцах Region, Device, Session_Start и Session_End путём заполнения модой — наиболее частым значением в каждом столбце, что позволило сохранить целостность данных без потери строк. Идентификаторы пользователей, представленные в научной нотации (например, 9,81449E+11), были интерпретированы как строки, чтобы избежать потери точности и некорректного округления. Категориальные признаки — такие как Region, Device и Channel — были преобразованы в тип category для оптимизации памяти и повышения производительности операций. 

Анализ группировок показал, что подавляющее большинство пользователей (все зафиксированные сессии) находятся в регионе «United States», что указывает на географическую сосредоточенность аудитории. Среди устройств лидером является iPhone (425 сессий), за ним следуют Mac (242), Android (185) и PC (103). Это свидетельствует о доминировании экосистемы Apple в аудитории сервиса. Построение сводных таблиц выявило, что наибольшее количество уникальных пользователей также приходится на iPhone (387), далее следуют Mac (223), Android (169) и PC (90). Таким образом, основная и наиболее активная аудитория — это пользователи из США, использующие устройства Apple. 

Дополнительно была исследована связь между каналами привлечения и типами устройств, что позволило оценить эффективность маркетинговых стратегий. Установлено, что органический трафик (organic) является основным источником по всем платформам, особенно силён на iPhone и Mac, тогда как рекламные каналы вроде FaceBoom, TipTop и MediaTornado демонстрируют меньший, но значимый охват. Это даёт возможность оптимизировать маркетинговые бюджеты и фокусироваться на наиболее продуктивных каналах. 

В целом проведённое исследование показало, что пользовательская база сервиса географически и технологически концентрирована: основная аудитория — это пользователи из США, преимущественно использующие iPhone и Mac. Такая картина требует дальнейшей работы по расширению охвата на другие регионы и платформы, особенно Android и международные рынки, а также более глубокого анализа поведения пользователей на разных устройствах. 

В лабораторной работе осуществлялась работа с библиотекой pandas. Были изучены типы данных, методы индексации, обработки пропусков и категориальных переменных. На практике были реализованы загрузка данных, удаление дубликатов, преобразование типов, группировка и агрегация. Также были применены сводные таблицы и получены выводы на основе многомерного анализа, что позволило глубже понять структуру пользовательской активности. 

### Дополнительное задание

**`Подробная формулировка задания`**

In [None]:
# код выполнения задания

***`Подробный вывод по заданию, описание полученных результатов`***