# Семинар 7. Разведочный анализ данных

На этом семинаре мы поработаем с данными о продажах глобального интернет-магазина, реализующего офисные товары и технику. Цель занятия - научиться использовать методы разведочного анализа данных.

## Подготовка

Для работы вам понадобится пакет `seaborn` версии не ниже 0.11.

Так можно посмотреть, что у вас установлено:

In [None]:
!conda list seaborn

Если у вас более старая версия этого пакета, то ее нужно обновить или установить. Раскомментируйте и запустите одну из команд:

In [None]:
#!conda update -y seaborn
#!conda install -y seaborn=0.11

Проверьте, какая теперь версия у вас установлена, запустив первую ячейку еще раз

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

Загрузим данные:

In [None]:
orders = pd.read_csv('../datasets/global_superstore/orders.zip', encoding='utf-8',
                    parse_dates=['order_date', 'ship_date'],
                    dtype={'postal_code' : str})
orders.head()

In [None]:
orders.info()

**Словарь данных:**

 - `row_id` - код строки заказа (уникальный)  
 - `order_id` - код заказа
 - `order_date` - дата размещения заказа
 - `ship_date` - дата отгрузки заказа (пусто, если еще не отгружен)
 - `ship_mode` - класс отправки
 - `customer_id` - код клиента
 - `customer_name` - имя клиента
 - `segment` - рыночный сегмент клиента
 - `postal_code` - почтовый индекс получателя
 - `city` - город получателя
 - `state` - штат получателя
 - `country` - страна получателя
 - `region` - регион получателя
 - `market` - рынок, к которому относится получатель
 - `product_id` - код товара
 - `category` - товарная категория
 - `sub_category` - товарная подкатегория
 - `product_name` - наименование товара
 - `sales` - выручка
 - `quantity` - количество единиц товара
 - `discount` - скидка
 - `profit` - валовая прибыль 
 - `shipping_cost` - затраты на доставку
 - `order_priority` - приоритет заказа
 

Данные представляют собой строки заказов, выполненных компанией. Каждая строка имеет уникальный номер `row_id` и содержит данные о том, кто, что и когда заказал, когда эта позиция была отправлена, адрес получателя. Также количество единиц, выручку, прибыль и затраты на доставку по строке. 

В одном заказе может быть несколько позиций. В этом случае в таблице будет несколько строк с одинаковым номером заказа:

In [None]:
orders.query('order_id == "AE-2015-GH4665138-42351"')

Во всех заданиях необходимо использовать визуализацию для получения ответа на поставленный вопрос. Добавьте понятный заголовок графика и подпишите оси.

## 1. Одинаковы ли распределения размера заказа на рынках Европы и США/Канады?

Получите ответ в виде:

- Гистограммы/плотности распределения
- Ящичной диаграммы или ее аналога
- Столбиковой диаграммы с медианным размером заказа

## 2. Составьте рейтинг товарных подкатегорий по обороту

## 3. Сравните оборот по товарным категориям на рынках США/Канады и Европы

## 4. Сравните товарные категории на различных рынках по относительной частоте заказов на них

Необходимо сравнить долю, приходящуюся на строки заказов, содержащие товары из каждой категории на заказо из каждой категории от общего количества строк заказов.

## 5. Сравните товарные категории на различных рынках по их доле в обороте на этом рынке

Постройте столбиковую диаграмму и тепловую карту.

## 6. Сравните рынки по выручке и прибыли

Постройте диаграмму рассеяния с трендом.  Верно ли утверждение: чем больше выручка - тем больше прибыль?  

Подпишите рынки на диаграмме

## 7. Постройте матричную диаграмму рассеяния для всех количественных переменных в таблице `orders`

Между какими парами переменных зависимость наиболее сильно выражена?  
Верны ли утверждения:  
 - Чем больше количество проданного товара, тем больше прибыль?
 - Чем больше выручка, тем больше затраты на доставку?


## 8. Постройте диаграмму рассеяния для зависимости между выручкой и прибылью для всех товарных категорий. 

Подсказки:  
  - Нужный график можно получить с помощью функции `lmplot()` пакета Seaborn
  - Можно уменьшить наложение точек, сделав их полупрозрачными и меньшего размера. Параметры точек диаграммы рассеяния можно настроить, добавив в функцию аргумент: `scatter_kws={'alpha':0.1, 's': 10}`. Так необходимо делать, потому что `lmplot()` сама не рисует точки, а запускает функцию `scatterplot()`. Параметры для этой функции передаются через словарь.



## 9. Постройте диаграмму рассеяния для зависимости прибыли от выручки для стран

Точки на диаграмме должны соответствовать странам. Цвет точки - рынку, к которому относится страна, положение точки должно определяться суммарным оборотом и прибылью для этой страны, а размер точки - средней величиной скидки.

## 10. Постройте панельный график

Постройте аналогичную предыдущей диаграмму, но в виде панельного графика. Данные должны выводиться для каждой товарной категории отдельно. Расположите категории по столбцам панели.

## 11. Постройте график с помесячной динамикой продаж по трем товарным категориям

**Подсказка:** в таблице даты заказа содержатся с точностью до дня. Их надо округлить до месяцев так:

In [None]:
orders['order_month'] = orders['order_date'].astype('datetime64[M]')
orders[['order_date', 'order_month']].head()