## О Jupyter notebook

Jupyter Notebook — это среда разработки, где сразу можно видеть результат выполнения кода и его отдельных фрагментов. Отличие от традиционной среды разработки в том, что код можно разбить на куски и выполнять их в произвольном порядке.
Для запуска кода в ячейке можно воспользоваться меню сверху или нажать клавиши "Enter+Shift".

Основная область применения ноутбуков — машинное обучение, нейросети, визуализация данных и статистика.

Ещё такую среду часто используют для поэтапной разработки, когда нужно по шагам проверять работу разных фрагментов кода. Дело в том, что код в ноутбуках хранится в независимых ячейках и его можно запускать в любом порядке или поодиночке. Это позволяет быстро экспериментировать с алгоритмами и находить оптимальное решение.

Также jupyter-ноутбуки используются при обучении программированию на Python, чтобы писать код и сразу видеть результат его работы.

Есть два основных типа ячеек, которые мы рассмотрим:

- Ячейка кода содержит код, который должен быть выполнен в ядре, и отображает его вывод ниже.
- Ячейка Markdown содержит текст, отформатированный с использованием Markdown, и отображает его вывод на месте при запуске.

In [644]:
# ячейка с кодом, при выполнении которой появится output
2 + 2

4

А это ___ячейка с текстом___.

Попробуйте создать свои ячейки, написать какой-нибудь код и текст какой-нибудь формулой.

In [645]:
# your code

[Здесь](https://athena.brynmawr.edu/jupyter/hub/dblank/public/Jupyter%20Notebook%20Users%20Manual.ipynb) находится <s>не</s>большая заметка о используемом языке разметки Markdown. Он позволяет:

0. Составлять упорядоченные списки
1. #Делать 
##заголовки 
###разного уровня
3. Выделять *текст* <s>при</s> **необходимости**
4. Добавлять [ссылки](http://imgs.xkcd.com/comics/the_universal_label.png)


* Составлять неупорядоченные списки

Делать вставки с помощью LaTex:
    
$
\left\{
\begin{array}{ll}
x = 16 \sin^3 (t) \\ 
y = 13 \cos (t) - 5 \cos (2t) - 2 \cos (3t) - \cos (4t) \\
t \in [0, 2 \pi]
\end{array}
\right.$

## 1. Табличные данные и Pandas

Pandas — это библиотека для работы с данными на Python. Она упрощает жизнь аналитикам: где раньше использовалось 10 строк кода теперь хватит одной.

Например, чтобы прочитать данные из csv, в стандартном Python надо сначала решить, как хранить данные, затем открыть файл, прочитать его построчно, отделить значения друг от друга и очистить данные от специальных символов.

В Pandas всё проще. Во-первых, не нужно думать, как будут храниться данные — они лежат в датафрейме. Во-вторых, достаточно написать одну команду:

 data = pd.read_csv('file.csv')

Pandas добавляет в Python новые структуры данных — серии и датафреймы. 

Серии — одномерные массивы данных. Они очень похожи на списки, но отличаются по поведению — например, операции применяются к списку целиком, а в сериях — поэлементно.
Еще одно отличие серий от списков — в качестве индексов можно использовать произвольные значения, это делает данные нагляднее.
Датафрейм — это проиндексированный многомерный массив значений, соответственно каждый столбец датафрейма, является серией.

In [646]:
import pandas as pd
import numpy as np

#### 1. Прочитайте файл с таблицей, выведите последние 10 строк.



In [647]:
data = pd.read_csv('data.csv')
print(data.tail(10))

                      event_time             order_id           product_id  \
2633511  2020-11-21 10:05:04 UTC  2388440981134693938  1515966223509088509   
2633512  2020-11-21 10:06:01 UTC  2388440981134693939  1515966223509090132   
2633513  2020-11-21 10:08:14 UTC  2388440981134693940  2273948246856434093   
2633514  2020-11-21 10:08:54 UTC  2388440981134693941  1515966223519279912   
2633515  2020-11-21 10:08:54 UTC  2388440981134693941  1515966223509088622   
2633516  2020-11-21 10:10:01 UTC  2388440981134693942  1515966223526602848   
2633517  2020-11-21 10:10:13 UTC  2388440981134693943  1515966223509089282   
2633518  2020-11-21 10:10:30 UTC  2388440981134693944  1515966223509089917   
2633519  2020-11-21 10:10:30 UTC  2388440981134693944  2273948184839454837   
2633520  2020-11-21 10:10:30 UTC  2388440981134693944  1515966223509127566   

          category_id                  category_code     brand    price  \
2633511  2.268105e+18         electronics.smartphone     apple   9

#### 2.  Выведите следующую информацию:
1. Сколько всего заказов в исходной выборке данных?
2. Количество уникальных категорий товара (category_code)

In [648]:
print(len(data.index))
print(len(pd.unique(data['category_code'])))

2633521
511


#### 3. Найдите столбцы с пустыми значениями, заполните строковые значения пустой строкой, числовые - 0.

In [649]:
data['category_code'] = data['category_code'].astype('string')
data['brand'] = data['brand'].astype('string')
str_cols = data.select_dtypes(include=['string']).columns
number_cols = data.select_dtypes(include=['int64', 'float64']).columns
data.loc[:, str_cols] = data.loc[:, str_cols].fillna('')
data.loc[:, number_cols] = data.loc[:, number_cols].fillna(0)
print(data[data.isna().any(axis=1)])
print(data[data.isnull().any(axis=1)])

Empty DataFrame
Columns: [event_time, order_id, product_id, category_id, category_code, brand, price, user_id]
Index: []
Empty DataFrame
Columns: [event_time, order_id, product_id, category_id, category_code, brand, price, user_id]
Index: []


#### 4.  Обратите внимание на колонку, содержащую цену товара. Создайте новую колонку, таким образом, чтобы цена стала числом.

Для этого необходимо применить функцию-преобразование к каждой строке таблицы (для этого есть соответствующая функция).

In [650]:
# your code

Выведите среднюю/минимальную/максимальную цену у товара.

In [651]:
# your code

Удалите старую колонку с ценой.

In [652]:
# your code

#### 5. Отсортируйте стоимость товаров по убыванию, выведите 7 дорогих товаров. Отсортируйте товары по возрастанию стоимости, выведите 7 дешевых товаров  (по choice_description)

Для этого избавьтесь от дубликатов и отсортируйте товары. Не забудьте про количество товара.

In [653]:
# your code

#### 6. Выведите информацию о том, сколько раз клиенты покупали больше 1 товара apple (brand)?

In [654]:
# your code

#### 7. Выведите информацию о среднем чеке у заказа и сколько в среднем товаров покупают?

Если необходимо провести вычисления в терминах заказов, то будет удобно сгруппировать строки по заказам и посчитать необходимые значения.

In [655]:
# your code

#### 8. Выведите количество заказов с 1 товаром.

In [656]:
# your code

#### 9. Выведите самую популярную категорию товара.

In [657]:
# your code

#### 10. Выведите виды товаров Apple. Какой из них чаще всего покупают? Какой из них самый дорогой? 

In [658]:
# your code

#### 11. В каком количестве заказов есть товар, который стоит более 40% от суммы всего чека?

Возможно, будет удобно посчитать отдельно средний чек, добавить его в исходные данные и сделать необходимые проверки.

In [659]:
# your code

#### 12. Предположим, что в данных была ошибка и товар с product_id 1515966223509089906, который стоил 162.01, должен был стоить 170,02. Скорректируйте данные в таблицы и посчитайте, на какой процент больше денег было заработано с этого товара. Не забывайте, что количество товара не всегда равно 1.

In [660]:
# your code

#### 13. Создайте новый DateFrame из матрицы, созданной ниже. Назовите колонки index, column1, column2 и сделайте первую колонку индексом.

In [661]:
data = np.random.rand(10, 3)

# your code

Сохраните DataFrame локально в формате csv без индексов и названий столбцов.

In [662]:
# your code

## 2. Визуализации и matplotlib

Библиотека matplotlib - это бибилиотека двумерной графики для языка программирования python с помощью которой можно создавать высококачественные рисунки различных форматов. Matplotlib представляет собой модуль-пакет для python.
Matplotlib cостоит из множества модулей. Модули наполнены различными классами и функциями, которые иерархически связаны между собой.

In [663]:
%matplotlib inline  # нужно для отображения графиков внутри ноутбука
import matplotlib.pyplot as plt

UsageError: unrecognized arguments: # нужно для отображения графиков внутри ноутбука


На самом деле мы уже импортировали matplotlib внутри %pylab inline в начале задания.

Работать мы будем с той же выборкой покупкок. Добавим новую колонку с датой покупки.

In [None]:
import datetime

start = datetime.datetime(2018, 1, 1)
end = datetime.datetime(2018, 1, 31)
delta_seconds = int((end - start).total_seconds())

dates = pd.DataFrame(index=df.order_id.unique())
dates['date'] = [
    (start + datetime.timedelta(seconds=random.randint(0, delta_seconds))).strftime('%Y-%m-%d')
    for _ in range(df.order_id.nunique())]

# если DataFrame с покупками из прошлого заказа называется не df, замените на ваше название ниже
df['date'] = df.order_id.map(dates['date'])

#### 1. Постройте гистограмму распределения сумм покупок и гистограмму средних цен отдельных видов продуктов product_id. 

Изображайте на двух соседних графиках. Для используйте subplot.

In [None]:
# your code

#### 2. Постройте график зависимости суммы покупок от дней.

In [None]:
# your code

#### 3. Постройте средних сумм покупок по дням недели (bar plot).

In [None]:
# your code

#### 4. Постройте график зависимости денег за товар от купленного количества (scatter plot).

In [None]:
# your code

Сохраните график в формате pdf (так он останется векторизованным).

In [None]:
# your code

Кстати, существует надстройка над matplotlib под названием [seaborn](https://jakevdp.github.io/PythonDataScienceHandbook/04.14-visualization-with-seaborn.html). Иногда удобнее и красивее делать визуализации через неё. 