# Разведочный анализ данных:

## Импорт библиотек и загрузка данных

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
import sys
import os

current_dir = os.getcwd()  # /notebooks
project_root = os.path.dirname(current_dir)

sys.path.insert(0, project_root)

from Data.DATA_FRAME import SHOPPERS_DATASET

df = pd.read_csv(SHOPPERS_DATASET)

## Описание данных

### Административные параметры (Administrative)
- 'Administrative' - Количество посещенных административных страниц (о сайте, контакты, политики)
- 'Administrative_Duration' - Время, проведенное на административных страницах (в секундах)

### Информационные параметры (Informational)
- 'Informational' - Количество посещенных информационных страниц (описания продуктов, характеристики)
- 'Informational_Duration' - Время, проведенное на информационных страницах (в секундах)

### Параметры продукта (Product Related)
- 'ProductRelated' - Количество посещенных страниц, связанных с продуктами
- 'ProductRelated_Duration' - Время, проведенное на страницах продуктов (в секундах)

### Метрики поведения на страницах
- 'BounceRates' - Процент посетителей, которые ушли после просмотра только одной страницы
- 'ExitRates' - Процент посещений, которые закончились на конкретной странице
- 'PageValues' - Средняя ценность страницы (рассчитывается Google Analytics)

### Временные параметры
- 'SpecialDay' - Близость даты посещения к специальному дню
- 'Month' - Месяц посещения (строка)
- 'Weekend' - Посещение в выходные(bool)

### Технические параметры посетителя
- 'OperatingSystems' - Операционная система посетителя
- 'Browser' - Браузер посетителя
- 'Region' - Регион посетителя
- 'TrafficType' - Тип трафика

### Демографические параметры
- 'VisitorType - Тип посетителя
- 'New_Visito' - новый посетитель
- 'Returning_Visitor' - возвращающийся посетитель
- 'Other' - другие типы

### Целевая переменная
- 'Revenue' - Совершена ли покупка(bool)

In [None]:
df.head(100) # чтение данных

In [None]:
df.tail() # просмотреть конец таблицы

In [None]:
df.sample(5) # просмотр случайных строк

## Исследование данных

#### Размер датасета

In [None]:
df.shape

#### Информация о типах данных и пропусках

In [None]:
df.info()

### Основные числовые характеристики

In [None]:
df.describe()

In [None]:
np.percentile(df.Administrative_Duration, 80) # расчет 80% квантили

In [None]:
df.describe(include='object') # расчет по категориальным столбцам

In [None]:
df.describe(include='all')

In [None]:
duble = df.duplicated().sum() # поиск дублирующихся строк

print(duble)

In [None]:
df[df.duplicated()] # условие фильтрации - просмотр всех дублирующихся строк

In [None]:
# df = df.drop_duplicates() # удаление с созданием новой таблицы

df.drop_duplicates(inplace=True) # удаление дублирующих строк из исходного датасета

df.shape

In [None]:
df.reset_index(inplace=True, drop=True) # Работа с пропущенными значениями, обновление индексов

df.head()

### Работа с пропущенными значениями

Стратегии заполнения пропусков:

* если пропусков очень мало (~меньше процента) - строки с пропусками можно удалить или заполнить средним/медианой

* если пропусков мало (~5-10%) - их можно заполнить (средним, медианой, уникальным значением, самым популярным значением, спрогнозировать)

* если пропусков много - можно удалить столбец

* можно пытаться предсказывать пропуски моделью

In [None]:
df.isnull().mean() * 100 # Смотрим среднее значение пропусков по каждому столбцу в процентах

In [None]:
df.hist(bins=50, figsize=(10,10))

In [None]:
corr = df.corr(numeric_only=True) # матрица корреляций

plt.subplots(figsize=(13,13))
sns.heatmap(corr, cmap="Blues", annot=True)

### Однофакторный анализ