# Разведочный анализ данных. Feature Engineering

In [None]:
import pandas as pd
import numpy as np
import matplotlib

import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('ggplot') 

In [None]:
import warnings
warnings.filterwarnings('ignore')

# 0. Коротко o EDA

**Exploratory Data Analysis**, разведочный или эксплоративный анализ данных - это изучение данных для 
- нахождения паттернов в данных
- формулирования гипотез по данным
- предобработки данных

Существует **два** основных инструмента EDA:
- расчет описательных статистик и корреляций по данным
- визуализация данных

Под **описательными статистиками** мы имеем в виду следующие функции от выборки:
- количество элементов в выборке
- минимум
- максимум
- среднее значение
- стандартное отклонение
- медиану
- нижнюю и верхнюю квартили

Основные типы **визуализаций**:
- гистограмма
- столбцовая диаграмма
- точечная диаграмма
- линейный график
- ящик с усами

# 1. Задача

В наших руках оказались исторические данные по продажам $45$ магазинов Walmart, расположенных в разных регионах. Каждый магазан содержит несколько отделов. Наша задача спрогнозировать продажи по каждому отделу для каждого магазина. Зачем нужно уметь прогнозировать подобные вещи?

В случае конкретной задачи: 

- Если мы привезли в магазин слишком мало товара, потребителем его не хватит.
- Если мы привезли в магазин слишком много товара, то возникают лишние расходы, связанные с хранением товаров, а также лишние расходы, связанные с просрочкой товаров.

Хотелось бы уметь избегать всех этих лишних расходов и привозить в каждый магазин ровно столько товара, сколько нужно. В идеале прогнозируется продажи каждого вида товаров, но поскольку в исходных данных нет детализации, будем прогнозировать продажи по магазину.

Если говорить в целом о задаче прогноза спроса, она позволяет планировать. В первую очередь, выручку, а дальше считать все важные финансовые показатели, маркетингу понимать, где активизироваться, на какие магазины (или группы клиентов работать). 



# 2. Данные

* `Weekly_Sales` - объём продаж в данную неделю в данном отделе (целевая переменная)
* `Store` - номер магазина;
* `Type` - тип магазина;
* `Size` - размер магазина;
* `Dept` - номер отдела;
* `Date` - дата;
* `IsHoliday` - является ли неделя праздничной;

В Walmart работает несколько акций по уценке товаров. Эти уценки обычно связаны с праздниками: Суперкубок, день Труда, день Благодарения, Рождество. С этими периодами нужно быть аккуратным. Продажи в эти дни аномальны, при этом наблюдений, связанных с этими аномалиями довольно мало.

Для удобства вот информация о всех праздниках, попавших в датасет: 

```
Суперкубок: 12-Фев-10, 11-Фев-11, 10-Фев-12
День Труда: 10-Сен-10, 9-Фев-11, 7-Сен-12
День Благодарения: 26-Ноя-10, 25-Ноя-11, 23-Ноя-12
Рождество: 31-Дек-10, 30-Дек-11, 28-Дек-12
```

* `Temperature` - средняя температура в регионе в градусах по Фаренгейту;
* `Fuel_Price` - стоимость топлива в регионе;
* `MarkDown1-5` - данные, связанные с рекламными уценками, которые запускает Walmart. Данные уценки доступны только после ноября 2011 года и доступны не для всех магазинов. Данные анонимизированы.
* `CPI` - индекс потребительских цен.
* `Unemployment` - уровень безработицы


* `Weekly_Sales` - объём продаж в данную неделю в данном отделе (целевая переменная)
* `Store` - номер магазина;
* `Type` - тип магазина;
* `Size` - размер магазина;
* `Dept` - номер отдела;
* `Date` - дата;
* `IsHoliday` - является ли неделя праздничной;
* `Temperature` - средняя температура в регионе в градусах по Фаренгейту;
* `Fuel_Price` - стоимость топлива в регионе;
* `MarkDown1-5` - данные, связанные с рекламными уценками, которые запускает Walmart. Данные уценки доступны только после ноября 2011 года и доступны не для всех магазинов. Данные анонимизированы.
* `CPI` - индекс потребительских цен.
* `Unemployment` - уровень безработицы


# 3. EDA & Feature Engineering. Сага в трех эпизодах 

## Эпизод 1. Проверки на вменяемость

### Читаются ли данные? 

In [None]:
# Считаем данные в переменную data. Обратите внимание, что данные разделены табуляцией
# Выведите первые несколько строк на экран

### Что можем узнать о данных в целом?

In [None]:
# Методом info() выведите сводные данные о датасете

- Есть пропуски
- Типы данных в памяти не соответствуют реальным типам (Store, Dept - int64, int64) 

### Дубли

**Откуда появляются**
- Загрузили данные или часть несколько раз
- Пользователь зарегистрировался в системе несколько раз 
- Несколько сенсоров записали одно и то же событие 
- Намеренный ввод дубликатов 


**Как спасаться**
- Ограничения целостности
- Принудительная валидация
- Улучшение процессов
- Целенаправленный поиск дубликатов 



In [None]:
# Распечатайте размер датасета
# Удалите дубликаты и снова рассчитайте и распечатайте размер датасета. 
# Есть ли дубликаты?

### Пропуски

**Есть ли в датасете пропуски?**

In [None]:
# Проверьте наличие пропусков в датасете. Вам пригодится метод isna() или isnull()
# Можно посчитать количество пропусков в каждом столбце. Можно сделать визуализацию пропусков

## Эпизод 2. Как устроены данные?

### Целевая переменная

Одна картинка вместо тысячи слов

In [None]:
# Для начала давайте построим график средних еженедельных продаж в каждую из доступных недель

- Есть сезонность в целевой переменной

In [None]:
# теперь построим гистограмму значений

In [None]:
# чтобы точно убедиться в беде, давайте нарисуем ящик с усами

- Тяжелый хвост справа

Расчет описательных статистик - тоже важный и информативный шаг

In [None]:
# методом describe() рассчитайте описательные статистики для столбца Weekly Sales

In [None]:
# рассчитайте количество строк с отрицательными продажами

### Признаки

Для удобства распределим признаки в два листа - с категориальными переменными и с числовыми

In [None]:
# категориальные переменные 
var_cat = ['Type', 'Store', 'Dept', 'IsHoliday']

# непрерывные переменные
var_real = ['MarkDown1','MarkDown2','MarkDown3','MarkDown4','MarkDown5', 'CPI', 'Unemployment', 
            'Temperature', 'Fuel_Price','Size']

#### Категориальные  переменные 

In [None]:
# выведите описательные статистики для категориальных переменных 

In [None]:
# теперь нарисуем столбцовые диаграммы по каждой из категорий. 
# организовать это задание можно разными способами, выберите любой из них

In [None]:
data['Store'].value_counts()[-10:]  


In [None]:
data['Dept'].value_counts()[-10:]  


#### Численные переменные

In [None]:
# рассчитайте описательные статистики для численных переменных

In [None]:
# нарисуйте гистограммы признаков

In [None]:
# нарисуйте матрицу корреляций

## Эпизод 3. Feature Engineering

Мы изучили данные, сделали **разведочный анализ** и узнали вот что:
- в данных нет дублей
- в данных есть пропуски - их чем-то надо закрыть
- в целевой переменной есть отрицательные значения, надо решить, оставить или удалить
- у целевой переменной длинный хвост -- надо его поправить
- в переменных об уценках нужно принять схожее решение
- колонка Data выглядит не очень трактуемой, надо с ней сотворить что-то прикладное
- в данных есть категориальные колонки, их нужно трансформировать в удобовариемый вид
- в одной из категориальных колонок - очень-очень много мелких категорий


### Пропуски

In [None]:
# заполните пропуски

### Целевая переменная

In [None]:
# удалите все строки, где целевая переменная отрицательная

In [None]:
# c длинными хвостами борются логарифмирование
# прологарифмируйту колонку Weekly Sales и сохраните в новую ln_weekly_sales

In [None]:
# визуализируйте с помощь гистограмм исходное распределение и прологарифмированное

### Дата

In [None]:
# функцией pd.to_datetime преобразуйте колонку из текста в дату

In [None]:
# выделите в качестве признака месяц

In [None]:
data['Black_Friday'] = (np.where((data['Date']=='2010-11-26') |
                              (data['Date']=='2011-11-25') | 
                              (data['Date']=='2012-11-23'), 1, 0))

# Предрождественские деньки: 
data['Pre_christmas'] = (np.where((data['Date']=='2010-12-23') | 
                               (data['Date']=='2010-12-24') | 
                               (data['Date']=='2011-12-23') | 
                               (data['Date']=='2011-12-24') |
                               (data['Date']=='2012-12-23') | 
                               (data['Date']=='2012-12-24'), 1, 0))

### Категориальные переменные

In [None]:
# сделаем все колонки категориальных переменных типа object

In [None]:
# найдем маленькие категории в колонке Dept
# 1. создадим список всех категорий
# 2. найдем большие - такие, что в них более 4000 записей
# 3. найдем разницу в этих двух списках
# 4. выведем малые категории на печатть

In [None]:
# заменим в колонке маленькие категории на -1, а остальные номера оставим. 
# преобразуем в строковый тип данных 

In [None]:
# финальный шаг, сделаем OHE-кодирование
# удалим из датасета колонку даты, и отдадим ее функции pd.get_dummies() на растерзание

## Эпилог

In [None]:
data['future_sales'] = data.Weekly_Sales.shift(-1)
data = data[~data['future_sales'].isna()]