## О Jupyter notebook

Jupyter Notebook — это среда разработки, где сразу можно видеть результат выполнения кода и его отдельных фрагментов. Отличие от традиционной среды разработки в том, что код можно разбить на куски и выполнять их в произвольном порядке.
Для запуска кода в ячейке можно воспользоваться меню сверху или нажать клавиши "Enter+Shift".

Основная область применения ноутбуков — машинное обучение, нейросети, визуализация данных и статистика.

Ещё такую среду часто используют для поэтапной разработки, когда нужно по шагам проверять работу разных фрагментов кода. Дело в том, что код в ноутбуках хранится в независимых ячейках и его можно запускать в любом порядке или поодиночке. Это позволяет быстро экспериментировать с алгоритмами и находить оптимальное решение.

Также jupyter-ноутбуки используются при обучении программированию на Python, чтобы писать код и сразу видеть результат его работы.

Есть два основных типа ячеек, которые мы рассмотрим:

- Ячейка кода содержит код, который должен быть выполнен в ядре, и отображает его вывод ниже.
- Ячейка Markdown содержит текст, отформатированный с использованием Markdown, и отображает его вывод на месте при запуске.

In [40]:
# ячейка с кодом, при выполнении которой появится output
2 + 2

4

А это ___ячейка с текстом___.

Попробуйте создать свои ячейки, написать какой-нибудь код и текст какой-нибудь формулой.

In [41]:
# your code
3+7

10

[Здесь](https://athena.brynmawr.edu/jupyter/hub/dblank/public/Jupyter%20Notebook%20Users%20Manual.ipynb) находится <s>не</s>большая заметка о используемом языке разметки Markdown. Он позволяет:

0. Составлять упорядоченные списки
1. #Делать 
##заголовки 
###разного уровня
3. Выделять *текст* <s>при</s> **необходимости**
4. Добавлять [ссылки](http://imgs.xkcd.com/comics/the_universal_label.png)


* Составлять неупорядоченные списки

Делать вставки с помощью LaTex:
    
$
\left\{
\begin{array}{ll}
x = 16 \sin^3 (t) \\ 
y = 13 \cos (t) - 5 \cos (2t) - 2 \cos (3t) - \cos (4t) \\
t \in [0, 2 \pi]
\end{array}
\right.$

## 1. Табличные данные и Pandas

Pandas — это библиотека для работы с данными на Python. Она упрощает жизнь аналитикам: где раньше использовалось 10 строк кода теперь хватит одной.

Например, чтобы прочитать данные из csv, в стандартном Python надо сначала решить, как хранить данные, затем открыть файл, прочитать его построчно, отделить значения друг от друга и очистить данные от специальных символов.

В Pandas всё проще. Во-первых, не нужно думать, как будут храниться данные — они лежат в датафрейме. Во-вторых, достаточно написать одну команду:

 data = pd.read_csv('file.csv')

Pandas добавляет в Python новые структуры данных — серии и датафреймы. 

Серии — одномерные массивы данных. Они очень похожи на списки, но отличаются по поведению — например, операции применяются к списку целиком, а в сериях — поэлементно.
Еще одно отличие серий от списков — в качестве индексов можно использовать произвольные значения, это делает данные нагляднее.
Датафрейм — это проиндексированный многомерный массив значений, соответственно каждый столбец датафрейма, является серией.

In [44]:

import pandas as pd

#### 1. Прочитайте файл с таблицей, выведите последние 10 строк.



In [46]:

data = pd.read_csv("data_for_lab_1.csv")
data.shape
data[-10:]

Unnamed: 0,event_time,order_id,product_id,category_id,category_code,brand,price,user_id
2633511,2020-11-21 10:05:04 UTC,2388440981134693938,1515966223509088509,2.268105e+18,electronics.smartphone,apple,925.67,1.515916e+18
2633512,2020-11-21 10:06:01 UTC,2388440981134693939,1515966223509090132,2.268105e+18,computers.peripherals.printer,canon,299.98,1.515916e+18
2633513,2020-11-21 10:08:14 UTC,2388440981134693940,2273948246856434093,2.268105e+18,,xiaomi,16.18,1.515916e+18
2633514,2020-11-21 10:08:54 UTC,2388440981134693941,1515966223519279912,2.374499e+18,electronics.video.tv,samsung,1736.09,1.515916e+18
2633515,2020-11-21 10:08:54 UTC,2388440981134693941,1515966223509088622,2.374499e+18,electronics.video.tv,lg,370.35,1.515916e+18
2633516,2020-11-21 10:10:01 UTC,2388440981134693942,1515966223526602848,2.268105e+18,electronics.smartphone,oppo,138.87,1.515916e+18
2633517,2020-11-21 10:10:13 UTC,2388440981134693943,1515966223509089282,2.268105e+18,electronics.smartphone,apple,418.96,1.515916e+18
2633518,2020-11-21 10:10:30 UTC,2388440981134693944,1515966223509089917,2.268105e+18,appliances.personal.scales,vitek,12.48,1.515916e+18
2633519,2020-11-21 10:10:30 UTC,2388440981134693944,2273948184839454837,2.268105e+18,,moulinex,41.64,1.515916e+18
2633520,2020-11-21 10:10:30 UTC,2388440981134693944,1515966223509127566,2.268105e+18,appliances.kitchen.blender,redmond,53.22,1.515916e+18


#### 2.  Выведите следующую информацию:
1. Сколько всего заказов в исходной выборке данных?
2. Количество уникальных категорий товара (category_code)

In [47]:

len(data.order_id.unique())

len(data.category_code.unique())

511

#### 3. Найдите столбцы с пустыми значениями, заполните строковые значения пустой строкой, числовые - 0.

In [48]:

def find_null(df):
    count_null = data.isnull().sum()
    return count_null

find_null(data)

data = data.fillna({'category_id': '0', 'category_code': '', 'brand': '', 'price': '0', 'user_id': '0'})
data.isnull().sum()

event_time       0
order_id         0
product_id       0
category_id      0
category_code    0
brand            0
price            0
user_id          0
dtype: int64

#### 4.  Обратите внимание на колонку, содержащую цену товара. Создайте новую колонку, таким образом, чтобы цена стала числом.

Для этого необходимо применить функцию-преобразование к каждой строке таблицы (для этого есть соответствующая функция).

In [49]:
print (data.dtypes)

event_time       object
order_id          int64
product_id        int64
category_id      object
category_code    object
brand            object
price            object
user_id          object
dtype: object


In [54]:
data.price = data.price.apply(float)

In [55]:
print (data.dtypes)

event_time        object
order_id           int64
product_id         int64
category_id       object
category_code     object
brand             object
price            float64
user_id           object
dtype: object


Выведите среднюю/минимальную/максимальную цену у товара.

In [56]:
data.price.max()

50925.9

In [57]:
data.price.min()

0.0

In [58]:
data.price.mean()

128.81857699634818

Удалите старую колонку с ценой.

#### 5. Отсортируйте стоимость товаров по убыванию, выведите 7 дорогих товаров. Отсортируйте товары по возрастанию стоимости, выведите 7 дешевых товаров  (по choice_description)

Для этого избавьтесь от дубликатов и отсортируйте товары. Не забудьте про количество товара.

In [59]:
sort=data.sort_values("price", axis=0, ascending=False)
sort.head(7)

Unnamed: 0,event_time,order_id,product_id,category_id,category_code,brand,price,user_id
1144303,2020-05-26 08:12:38 UTC,2353234364520727464,1515966223509105016,2.3744989140005924e+18,electronics.video.tv,samsung,50925.9,0.0
28182,2020-06-25 10:08:37 UTC,2339244674033647628,1515966223509131884,2.3744989140005924e+18,electronics.video.tv,,18328.68,1.5159156254655468e+18
28623,2020-06-26 09:10:44 UTC,2339940319191106553,1515966223509566954,2.3744989140005924e+18,electronics.video.tv,,13310.16,1.5159156254655468e+18
1627981,2020-07-03 11:59:01 UTC,2353288509000777918,2273948305316643078,2.2681054229571832e+18,electronics.video.tv,lg,11574.05,1.515915625484619e+18
1153319,2020-05-27 06:37:30 UTC,2353235498996073224,2273948305316643078,2.2681054229571832e+18,electronics.video.tv,lg,11574.05,0.0
2270999,2020-09-16 06:46:10 UTC,2388440981134484484,1515966223520801280,2.3744989140005924e+18,electronics.video.tv,samsung,10416.64,1.51591562547827e+18
8742,2020-05-14 09:09:41 UTC,2308774433587724743,1515966223509105377,2.268105423133344e+18,electronics.smartphone,lg,9606.48,1.5159156254589297e+18


In [60]:
sort=data.sort_values("price", axis=0, ascending=True)
sort.head(7)

Unnamed: 0,event_time,order_id,product_id,category_id,category_code,brand,price,user_id
758497,2020-03-08 05:10:15 UTC,2348815503625027987,1515966223523303301,0,16.18,,0.0,0
2204350,2020-09-10 14:26:07 UTC,2388440981134446909,1515966223523303308,0,29.63,,0.0,0
345450,2020-02-03 05:11:18 UTC,2348785157516821140,1515966223509266737,0,0.0,,0.0,0
1209904,2020-06-01 09:51:14 UTC,2353242210981380669,1515966223527009156,0,0.81,,0.0,0
345447,2020-02-04 12:10:49 UTC,2348785157105779346,1515966223527240565,0,14.33,,0.0,0
1209911,2020-06-01 12:27:17 UTC,2353242211258204736,1515966223527009196,0,11.57,,0.0,0
1209912,2020-06-01 12:27:17 UTC,2353242211258204736,1515966223527459989,0,17.36,,0.0,0


#### 6. Выведите информацию о том, сколько раз клиенты покупали больше 1 товара apple (brand)?

In [61]:
newData=data[data.brand=='apple']
newData.head()

Unnamed: 0,event_time,order_id,product_id,category_id,category_code,brand,price,user_id
6,2020-04-26 09:33:47 UTC,2295740594749702229,1515966223509104892,2.2681054281665088e+18,electronics.smartphone,apple,1387.01,1.5159156254487665e+18
7,2020-04-26 09:33:47 UTC,2295740594749702229,1515966223509104892,2.2681054281665088e+18,electronics.smartphone,apple,1387.01,1.5159156254487665e+18
8,2020-04-26 09:33:47 UTC,2295740594749702229,1515966223509104892,2.2681054281665088e+18,electronics.smartphone,apple,1387.01,1.5159156254487665e+18
9,2020-04-26 09:33:47 UTC,2295740594749702229,1515966223509104892,2.2681054281665088e+18,electronics.smartphone,apple,1387.01,1.5159156254487665e+18
34,2020-04-29 10:46:21 UTC,2297951447913857849,1515966223509088613,2.2681054301629975e+18,electronics.audio.headphone,apple,203.68,1.5159156254478794e+18


In [62]:
resData=newData['order_id'].value_counts().to_frame()
resData[resData['order_id']>1].count()

order_id    4024
dtype: int64

#### 7. Выведите информацию о среднем чеке у заказа и сколько в среднем товаров покупают?

Если необходимо провести вычисления в терминах заказов, то будет удобно сгруппировать строки по заказам и посчитать необходимые значения.

In [63]:
data.groupby('order_id').agg({'price': 'sum'}).mean()

price    236.364846
dtype: float64

In [64]:
data.groupby('order_id').size().mean()

1.8348661502467138

#### 8. Выведите количество заказов с 1 товаром.

In [65]:
ord=data.groupby('order_id')
print((ord.size()==1).sum())

871751


#### 9. Выведите самую популярную категорию товара.

In [68]:
data.groupby('category_code').size().idxmax()

''

#### 10. Выведите виды товаров Apple. Какой из них чаще всего покупают? Какой из них самый дорогой? 

In [69]:
myData=data[data.brand=='apple'].groupby('category_code')

myData2=myData['category_code']

print(*myData2.unique().keys(),sep='\n\t')


	computers.components.cooler
	computers.components.hdd
	computers.desktop
	computers.notebook
	computers.peripherals.keyboard
	computers.peripherals.mouse
	construction.tools.screw
	electronics.audio.headphone
	electronics.clocks
	electronics.smartphone
	electronics.tablet


In [70]:
myData=data[data.brand=='apple'].groupby('category_code').size().idxmax()
print(myData)

electronics.smartphone


In [71]:
myData=data[data.brand == 'apple'].groupby('category_code')
myData2=myData['price'].idxmax().idxmax()
print(myData2)

electronics.smartphone


#### 11. В каком количестве заказов есть товар, который стоит более 40% от суммы всего чека?

Возможно, будет удобно посчитать отдельно средний чек, добавить его в исходные данные и сделать необходимые проверки.

In [72]:
group = data.groupby('order_id')
check = group['price'].sum()
data['check'] = data['order_id'].map(check)
data.loc[data['price'] > 0.40 * data['check']]['order_id'].nunique()

1382046

#### 12. Предположим, что в данных была ошибка и товар с product_id 1515966223509089906, который стоил 162.01, должен был стоить 170,02. Скорректируйте данные в таблицы и посчитайте, на какой процент больше денег было заработано с этого товара. Не забывайте, что количество товара не всегда равно 1.

In [73]:
myProduct = data[data["product_id"] == 1515966223509089906]
print(len(myProduct) * (170.02 - 162.01))

7080.840000000017


#### 13. Создайте новый DateFrame из матрицы, созданной ниже. Назовите колонки index, column1, column2 и сделайте первую колонку индексом.

Сохраните DataFrame локально в формате csv без индексов и названий столбцов.

## 2. Визуализации и matplotlib

Библиотека matplotlib - это бибилиотека двумерной графики для языка программирования python с помощью которой можно создавать высококачественные рисунки различных форматов. Matplotlib представляет собой модуль-пакет для python.
Matplotlib cостоит из множества модулей. Модули наполнены различными классами и функциями, которые иерархически связаны между собой.

На самом деле мы уже импортировали matplotlib внутри %pylab inline в начале задания.

Работать мы будем с той же выборкой покупкок. Добавим новую колонку с датой покупки.

#### 1. Постройте гистограмму распределения сумм покупок и гистограмму средних цен отдельных видов продуктов product_id. 

Изображайте на двух соседних графиках. Для используйте subplot.

#### 2. Постройте график зависимости суммы покупок от дней.

#### 3. Постройте средних сумм покупок по дням недели (bar plot).

#### 4. Постройте график зависимости денег за товар от купленного количества (scatter plot).

Сохраните график в формате pdf (так он останется векторизованным).

Кстати, существует надстройка над matplotlib под названием [seaborn](https://jakevdp.github.io/PythonDataScienceHandbook/04.14-visualization-with-seaborn.html). Иногда удобнее и красивее делать визуализации через неё. 