In [None]:
import pandas as pd

`pd` - это псевдоним ` pandas` (делается, как правило, потому, чтобы меньше букв писать - вместо слова `pandas` будем писать всего лишь две буквы `pd`).

## Мы загружаем данные

Одной строки кода достаточно, чтобы загрузить почти миллион строк в секунду. 👍

In [None]:
df = pd.read_hdf("../input/data.h5")

df.shape

(820906, 9)

Давай проследим шаг за шагом, что здесь произошло:

1. `pd.read_hdf()` загружает наш набор данных в формате `hdf/h5` - это специальный формат данных, который используется довольно часто, но сейчас опустим детали. Прими как факт, что записать данные на Твой диск можно по-разному. Этот формат более эффективный, данные более качественно сжимаются, в результате чего меньше занимают места на Твоем диске, быстрее импортируются и еще много других полезных вещей.

2. присваиваем результат переменной `df`.

#### Что в результате?

Можно сказать по-простому, что `df`-  это обычная таблица, которая состоит из колонок и столбцов. Например, как таблички *Excel*.
В `pandas` такую табличку называют `DataFrame`. 

`df.shape` - показывает размер таблички, т.е. количество строк и столбцов в нашей (загруженной) таблице. Технически это видно, как `(820906, 9)`, что означает - таблица состоит из **820 906** строк (первое число) и **9** столбцов (второе число).

Ну что, идем дальше? 😉

## Краткая информация

Для начала познакомимся с:
- `pd.head()` - возвращает нам первые строки. По умолчанию он возвращает первые 5 строк (из нашей таблицы).
- `pd.sample()` - вернет случайные строки, по умолчанию - одна (`pd.sample (10)` вернет 10 случайных строк)

Обе функции полезны, хотя стоит признать, что просмотр случайных строк (запуск ячейки, например, 5-10 раз) может принести гораздо больше пользы. Дает шанс увидеть "что-то" интересное внутри, а не только смотреть на первые пять результатов. Иногда случайные строки называют "рандомные" или "рандомными" от английского слова `random` (что означает: случайный или произвольный).

Попробуй запустить ячейку ниже (там, где код `df.sample(10)`) 5-10 раз. Посмотри внимательно на значения, которые появляются. Попробуй "уловить" определенные зависимости. Потрать, пожалуйста, 1-3 минуты на это задание.


### 💡 Подсказка
Обычно мы запускаем ячейку `SHIFT` + `ENTER`. В результате ячейка запускается и "перескакивает" на следующую. Иногда нам просто хочется запустить и оставаться в той же самой ячейке (например, сейчас так хочется). Тогда разумнее использовать `CTRL` +` ENTER` - ячейка выполняется, но курсор остается в той же самой ячейке. Попробуй 😉.

In [None]:
df.sample(10)

Unnamed: 0,order_id,customer_id,product_id,quantity,price_unit,price_total,country_id,order_date,is_canceled
518793,33534,1201,1661,6,295,1770,0,2010-04-07 13:07:00,False
377249,23803,183,3116,4,165,660,0,2011-11-25 17:27:00,False
219858,15377,345,774,6,295,1770,0,2011-08-18 14:48:00,False
325934,21138,1718,3153,2,994,1988,0,2011-11-03 10:30:00,False
581344,38115,2637,3454,1,195,195,0,2010-06-08 12:16:00,False
277946,18629,457,2964,24,145,3480,0,2011-10-05 12:51:00,False
573425,37564,1728,1659,5,295,1475,0,2010-06-01 12:42:00,False
326596,21182,219,611,1,850,850,0,2011-11-03 13:50:00,False
65725,4635,642,99,6,595,3570,0,2011-02-24 13:43:00,False
396858,24821,3340,1,1,828,828,0,2011-12-05 17:17:00,False


😯 Возможно, Ты можешь быть удивлен последовательностью, в которой мы сначала смотрим на данные (как есть), а затем пытаемся интерпретировать наименования столбцов.

Всему свое время, нам важно эффективно двигаться вперед (помнишь про правило 80/20?). Скорее всего, если получилось запустить 5-10 раз и посмотреть на случайные строчки, то уже в голове появились идеи, что эти данные могут значить. И это правильно! 

Пойми, что в реальной жизни всегда можно просить документацию (и иногда ее даже предоставляют), но мой опыт показывает, что реальность - она другая. Документация - это своего рода план (желание), а получается как получается. Поэтому, важно как можно ближе быть к реальным фактам. Данные - они просто есть, а в головах людей есть разные теории какие данные есть (и какие могут быть значения). Верь фактам!

Ну что, попробуем немного порассуждать про столбцы и в целом о проблеме, которую будем решать?


## Интернет Магазин 

Давай подумаем (постановка такого вопроса поможет быстрее вылавливать суть): как работает любой магазин?

Есть клиенты (`customer_id`), которые покупают продукты (`product_id`) по цене за "единицу продукта" (штуки, килограммы) (`price_unit`) в количестве (`amount`), и все это объединяется как один заказ (`order_id`). Кроме того, у нас есть время, когда покупка совершалась `order_date`.

В прниципе, уже должно быть понятно, какие у нас данные, правда 🤔?

#### Пример.
Приведу пример. Сразу скажу, что числа и названия случайно выбраны. Я использую этот пример, чтобы стимулировать Твое воображение.


Маша (`customer_id=1`) делает заказ (`order_id=123`) 8 марта в 10:00:00 (`order_date=03-08-2021 10:00:00`), который состоит из следующих продуктов:
- **хлеб** (`product_id=1`) одна штука (` amount=1`) за 3 рубля (`price_unit=300`)
- **помидоры** (`product_id=2`) 5 штук (`amount=5`) всего по 2,55 рублей / шт (`price_unit=255`) **2,55* 5 = 12,75 рублей** (` price_total=1275`)
  
  
Кстати, стоит заметить, что Ты, как потребитель, имеешь право на возврат продуктов в течение некоторого времени (в Америке и Европе этим часто пользуются). В данном случае данные так записаны, что если возвращаешь даже один продукт - это означает возврат всего заказа, а не только одного продукта (это просто так кто-то выдумал, даже не трать особо времени - почему, кто-то выдумал что хочет именно так 😂). В наших данных заказы, которые были возвращены, будем обозначать как: `is_canceled=True`. В этом случае мы говорим, что заказ отменен (был возврат). Кстати, при возврате магазин полностью отдает деньги за заказ.


### ☝️ Обрати внимание, как мы сохраняем «цену» в рублях.

#### 12,75 рублей - записываем как "1275" - почему?

*делаем это по простой причине, чтобы не нужно было беспокоиться об округлении чисел. Мы пытаемся вдохновиться, как это работает на «физическом уровне» нашего мира. Самая маленькая денежная единица - «копейки» (цент и т.д.). Поэтому давай использовать это мышление и здесь, и мы сэкономим себе много времени и нервов (если хочешь, можно почитать  подробнее о проблеме - как "записывать деньги" в цифровом формате [здесь](https://bit.ly/2PI9oMt). Но помни наш подход - 80/20, т.е. мы пытаемся создавать 80% ценности при 20% усилий, поэтому давай не мучаться и пользоваться очень простым механизмом, тем самым упростим себе жизнь.*

In [None]:
df["price_total"].sum()

1816145630

`price_total` это комбинация `price_unit` * `quantity` для данного продукта.
Другими словами, нахождение суммы (функция `.sum()`) для `price_total` помогает получить информацию о доходах этого магазина. ☝️ 

Напомню, что `price_total` (а также `price_unit`) держим в «копейках». Собственно, давай сразу же добавим контекст. Магазин, который мы анализируем, находится в Великобритании и их деньги - фунты стерлингов. Один фунт это 100 пенсов (так называются их "копейки"). Другими словами `price` держим в "копейках", которые в данном случае называем "пенсы".

#### Хорошо, сколько там вышло?

Если присмотришься 👀, то увидишь, что ... **18 161 456,30**, что составляет 18+ миллионов фунтов стерлингов.🧐. Похоже, у нас есть что оптимизировать - это очень хорошо! 🥳

Теперь проверим, сколько денег ускользнуло (т.е. возвраты клиентов). В этом случае мы оставляем только строки "возвраты", применяя простой фильтр `is_canceled = True`, а затем вычисляем сумму. Смотри, как это легко и интуитивно делается в `pandas`.

In [None]:
df[ True == df.is_canceled  ]["price_total"].sum()

71973973

Оказалось, что магазину нужно было вернуть клиентам достаточно "круглую сумму" **719 739,73 фунтов стерлингов**. Но мы то радуемся и говорим - ура! Откуда такая радость? 🤦‍♂️ Потому что есть что оптимизировать или сэкономить.

Давай теперь изучим еще несколько вещей. Важные параметры:
- сколько у нас клиентов?
- сколько у нас продуктов?

В `pandas` у нас есть функция `nunique()` (☝️ обрати внимание в начале на `n`), эта функция возвращает количество уникальных значений. Посмотрим на это в действии.

In [None]:
df["customer_id"].nunique()

5879

Видим **5879**, это означает, что в столбце `customer_id` столько уникальных значений. У каждого клиента есть свой идентификатор - `customer_id`. Таким образом, уникальное количество значений в столбце `customer_id` отвечает на вопрос: "сколько в магазине клиентов?"

Понятно, правда?

## Задание 1.1

Для Тебя уже понятно, как определить количество клиентов. Теперь нужно поработать немного самостоятельно и сделать то же самое для продуктов. Мы хотим ответить на вопрос, сколько уникальных продуктов (товаров) имеется в ассортименте магазина?


1. Вместо содержания`## YOUR CODE HERE` напиши свой код.
2. Скорее всего, Ты захочешь использовать столбец `product_id` 😉.
3. Вдохновись ячейкой выше, в которой мы нашли уникальное количество покупателей, используя столбец `customer_id`.

In [None]:
df["product_id"].nunique()

3878

## Задание 1.2
Поскольку мы уже знаем, сколько у нас товаров, давай проверим, сколько у нас заказов в магазине.
1. Вместо `## YOUR CODE HERE` напиши свой код
2. Обрати внимание на столбец `order_id`.

In [None]:
df["order_id"].nunique()

43908

In [None]:
df["price_total"].sum() / df["order_id"].nunique()

Мы так легко узнали, что средний чек составляет 413,63 фунта стерлингов. Довольно много, правда?

Подскажу, что в данном случае это сувенирный магазин. Возможно, вспомнишь тоже, что когда делаешь новогодние покупки-подарки для своей семьи или друзей, то, вероятно, тоже тратишься - больше чем обычно.

Хорошо, давай немного подумай самостоятельно.