## О Jupyter notebook

Jupyter Notebook — это среда разработки, где сразу можно видеть результат выполнения кода и его отдельных фрагментов. Отличие от традиционной среды разработки в том, что код можно разбить на куски и выполнять их в произвольном порядке.
Для запуска кода в ячейке можно воспользоваться меню сверху или нажать клавиши "Enter+Shift".

Основная область применения ноутбуков — машинное обучение, нейросети, визуализация данных и статистика.

Ещё такую среду часто используют для поэтапной разработки, когда нужно по шагам проверять работу разных фрагментов кода. Дело в том, что код в ноутбуках хранится в независимых ячейках и его можно запускать в любом порядке или поодиночке. Это позволяет быстро экспериментировать с алгоритмами и находить оптимальное решение.

Также jupyter-ноутбуки используются при обучении программированию на Python, чтобы писать код и сразу видеть результат его работы.

Есть два основных типа ячеек, которые мы рассмотрим:

- Ячейка кода содержит код, который должен быть выполнен в ядре, и отображает его вывод ниже.
- Ячейка Markdown содержит текст, отформатированный с использованием Markdown, и отображает его вывод на месте при запуске.

In [1]:
# ячейка с кодом, при выполнении которой появится output
2 + 2

4

А это ___ячейка с текстом___.

Попробуйте создать свои ячейки, написать какой-нибудь код и текст какой-нибудь формулой.

In [2]:
# your code
4 + 45

49

[Здесь](https://athena.brynmawr.edu/jupyter/hub/dblank/public/Jupyter%20Notebook%20Users%20Manual.ipynb) находится <s>не</s>большая заметка о используемом языке разметки Markdown. Он позволяет:

0. Составлять упорядоченные списки
1. #Делать 
##заголовки 
###разного уровня
3. Выделять *текст* <s>при</s> **необходимости**
4. Добавлять [ссылки](http://imgs.xkcd.com/comics/the_universal_label.png)


* Составлять неупорядоченные списки

Делать вставки с помощью LaTex:
    
$
\left\{
\begin{array}{ll}
x = 16 \sin^3 (t) \\ 
y = 13 \cos (t) - 5 \cos (2t) - 2 \cos (3t) - \cos (4t) \\
t \in [0, 2 \pi]
\end{array}
\right.$

## 1. Табличные данные и Pandas

Pandas — это библиотека для работы с данными на Python. Она упрощает жизнь аналитикам: где раньше использовалось 10 строк кода теперь хватит одной.

Например, чтобы прочитать данные из csv, в стандартном Python надо сначала решить, как хранить данные, затем открыть файл, прочитать его построчно, отделить значения друг от друга и очистить данные от специальных символов.

В Pandas всё проще. Во-первых, не нужно думать, как будут храниться данные — они лежат в датафрейме. Во-вторых, достаточно написать одну команду:

 data = pd.read_csv('file.csv')

Pandas добавляет в Python новые структуры данных — серии и датафреймы. 

Серии — одномерные массивы данных. Они очень похожи на списки, но отличаются по поведению — например, операции применяются к списку целиком, а в сериях — поэлементно.
Еще одно отличие серий от списков — в качестве индексов можно использовать произвольные значения, это делает данные нагляднее.
Датафрейм — это проиндексированный многомерный массив значений, соответственно каждый столбец датафрейма, является серией.

In [3]:
#%pylab inline # import almost all we need
import pandas

#### 1. Прочитайте файл с таблицей, выведите последние 10 строк.



In [4]:
data = pandas.read_csv('data_for_lab_1.csv', delimiter=',', 
                       names=['event_time','order_id','product_id','category_id','category_code','brand','price','user_id'])
data.tail(10)

Unnamed: 0,event_time,order_id,product_id,category_id,category_code,brand,price,user_id
1048565,2020-05-12 08:52:26 UTC,2353219985976853015,1515966223510203952,2.268105e+18,,barjher,4.84,
1048566,2020-05-12 08:52:26 UTC,2353219985976853015,1515966223509261671,2.268105e+18,,akvafor,11.55,
1048567,2020-05-12 08:27:14 UTC,2353219986094293528,1515966223509088665,2.268105e+18,appliances.environment.water_heater,midea,85.63,
1048568,2020-05-12 08:26:29 UTC,2353219986194956825,2273948299738218955,2.268105e+18,appliances.environment.fan,ava,13.87,
1048569,2020-05-12 07:16:25 UTC,2353219986312397338,1515966223509105119,2.268105e+18,computers.peripherals.printer,hp,164.1,
1048570,2020-05-12 07:16:25 UTC,2353219986312397338,1515966223523303302,,57.87,,,
1048571,2020-05-12 07:08:37 UTC,2353219986429837851,1515966223509090006,2.268105e+18,electronics.smartphone,oppo,231.23,
1048572,2020-05-12 09:11:47 UTC,2353219986530501148,2273948222294589749,2.268105e+18,appliances.kitchen.refrigerators,samsung,520.81,
1048573,2020-05-12 06:43:09 UTC,2353219986656330269,1515966223509298712,2.268105e+18,,rowenta,55.53,
1048574,2020-05-12 06:43:09 UTC,2353219986656330269,1515966223510402007,2.268105e+18,,provence,3.91,


#### 2.  Выведите следующую информацию:
1. Сколько всего заказов в исходной выборке данных?
2. Количество уникальных категорий товара (category_code)

In [5]:
print('Count: ',data.shape[0])
print('Count:',len(data['category_code'].unique()))

Count:  1048575
Count: 390


#### 3. Найдите столбцы с пустыми значениями, заполните строковые значения пустой строкой, числовые - 0.

In [6]:
data=data.fillna(0)
data

Unnamed: 0,event_time,order_id,product_id,category_id,category_code,brand,price,user_id
0,2020-04-24 11:50:39 UTC,2294359932054536986,1515966223509089906,2.268105e+18,electronics.tablet,samsung,1.620100e+02,1.515916e+18
1,2020-04-24 11:50:39 UTC,2294359932054536986,1515966223509089906,2.268105e+18,electronics.tablet,samsung,1.620100e+02,1.515916e+18
2,2020-04-24 14:37:43 UTC,2294444024058086220,2273948319057183658,2.268105e+18,electronics.audio.headphone,huawei,7.752000e+01,1.515916e+18
3,2020-04-24 14:37:43 UTC,2294444024058086220,2273948319057183658,2.268105e+18,electronics.audio.headphone,huawei,7.752000e+01,1.515916e+18
4,2020-04-24 19:16:21 UTC,2294584263154074236,2273948316817424439,2.268105e+18,karcher,217.57,1.515916e+18,0.000000e+00
...,...,...,...,...,...,...,...,...
1048570,2020-05-12 07:16:25 UTC,2353219986312397338,1515966223523303302,0.000000e+00,57.87,0,0.000000e+00,0.000000e+00
1048571,2020-05-12 07:08:37 UTC,2353219986429837851,1515966223509090006,2.268105e+18,electronics.smartphone,oppo,2.312300e+02,0.000000e+00
1048572,2020-05-12 09:11:47 UTC,2353219986530501148,2273948222294589749,2.268105e+18,appliances.kitchen.refrigerators,samsung,5.208100e+02,0.000000e+00
1048573,2020-05-12 06:43:09 UTC,2353219986656330269,1515966223509298712,2.268105e+18,0,rowenta,5.553000e+01,0.000000e+00


#### 4.  Обратите внимание на колонку, содержащую цену товара. Создайте новую колонку, таким образом, чтобы цена стала числом.

Для этого необходимо применить функцию-преобразование к каждой строке таблицы (для этого есть соответствующая функция).

Выведите среднюю/минимальную/максимальную цену у товара.

In [7]:
data['price_ch'] = pandas.to_numeric(data['price'])
maxim = data['price_ch'].max()
meane = data['price_ch'].median()
minsk = data['price_ch'].min()
print(maxim)
print(meane)
print(minsk)

1.5159156254431483e+18
28.45
0.0


Удалите старую колонку с ценой.

In [8]:
data.drop(columns = ['price'],axis = 0)

Unnamed: 0,event_time,order_id,product_id,category_id,category_code,brand,user_id,price_ch
0,2020-04-24 11:50:39 UTC,2294359932054536986,1515966223509089906,2.268105e+18,electronics.tablet,samsung,1.515916e+18,1.620100e+02
1,2020-04-24 11:50:39 UTC,2294359932054536986,1515966223509089906,2.268105e+18,electronics.tablet,samsung,1.515916e+18,1.620100e+02
2,2020-04-24 14:37:43 UTC,2294444024058086220,2273948319057183658,2.268105e+18,electronics.audio.headphone,huawei,1.515916e+18,7.752000e+01
3,2020-04-24 14:37:43 UTC,2294444024058086220,2273948319057183658,2.268105e+18,electronics.audio.headphone,huawei,1.515916e+18,7.752000e+01
4,2020-04-24 19:16:21 UTC,2294584263154074236,2273948316817424439,2.268105e+18,karcher,217.57,0.000000e+00,1.515916e+18
...,...,...,...,...,...,...,...,...
1048570,2020-05-12 07:16:25 UTC,2353219986312397338,1515966223523303302,0.000000e+00,57.87,0,0.000000e+00,0.000000e+00
1048571,2020-05-12 07:08:37 UTC,2353219986429837851,1515966223509090006,2.268105e+18,electronics.smartphone,oppo,0.000000e+00,2.312300e+02
1048572,2020-05-12 09:11:47 UTC,2353219986530501148,2273948222294589749,2.268105e+18,appliances.kitchen.refrigerators,samsung,0.000000e+00,5.208100e+02
1048573,2020-05-12 06:43:09 UTC,2353219986656330269,1515966223509298712,2.268105e+18,0,rowenta,0.000000e+00,5.553000e+01


#### 5. Отсортируйте стоимость товаров по убыванию, выведите 7 дорогих товаров. Отсортируйте товары по возрастанию стоимости, выведите 7 дешевых товаров  (по choice_description)

Для этого избавьтесь от дубликатов и отсортируйте товары. Не забудьте про количество товара.

In [9]:
data.drop_duplicates(subset=['product_id'])
(data.sort_values('price_ch', ascending=False)).head(7)

Unnamed: 0,event_time,order_id,product_id,category_id,category_code,brand,price,user_id,price_ch
4,2020-04-24 19:16:21 UTC,2294584263154074236,2273948316817424439,2.268105e+18,karcher,217.57,1.515916e+18,0.0,1.515916e+18
28182,2020-06-25 10:08:37 UTC,2339244674033647628,1515966223509131884,2.374499e+18,electronics.video.tv,0,18328.68,1.515916e+18,18328.68
28623,2020-06-26 09:10:44 UTC,2339940319191106553,1515966223509566954,2.374499e+18,electronics.video.tv,0,13310.16,1.515916e+18,13310.16
8742,2020-05-14 09:09:41 UTC,2308774433587724743,1515966223509105377,2.268105e+18,electronics.smartphone,lg,9606.48,1.515916e+18,9606.48
191285,2020-01-17 10:52:12 UTC,2348774225508041538,2273948308655309531,2.268105e+18,appliances.kitchen.refrigerators,lg,9173.59,0.0,9173.59
881591,2020-03-22 06:01:44 UTC,2348823634493047720,2273948254783668706,2.268105e+18,electronics.video.tv,samsung,8101.83,0.0,8101.83
45852,1970-01-01 00:33:40 UTC,2348532150975856676,2273948254783668706,2.268105e+18,electronics.video.tv,samsung,8101.83,0.0,8101.83


In [10]:
data.drop_duplicates(subset=['product_id'])
(data.sort_values('price_ch', ascending=False)).tail(7)

Unnamed: 0,event_time,order_id,product_id,category_id,category_code,brand,price,user_id,price_ch
877360,2020-03-20 09:07:26 UTC,2348823338635232193,1515966223523303314,0.0,9.26,1515915625484674144,0.0,0.0,0.0
493382,2020-02-15 13:21:13 UTC,2348795511374348846,1515966223523303310,0.0,8.1,0,0.0,0.0,0.0
493380,2020-02-15 13:21:13 UTC,2348795511374348846,1515966223523303366,0.0,4.63,0,0.0,0.0,0.0
493378,2020-02-15 13:21:13 UTC,2348795511374348846,1515966223523303312,0.0,6.94,0,0.0,0.0,0.0
493377,2020-02-15 13:21:13 UTC,2348795511374348846,1515966223523303340,0.0,5.79,0,0.0,0.0,0.0
493376,2020-02-14 13:42:25 UTC,2348795510661317165,1515966223523303302,0.0,57.87,0,0.0,0.0,0.0
524287,2020-02-19 07:07:09 UTC,2348798111096243168,1515966223523303301,0.0,16.18,0,0.0,0.0,0.0


#### 6. Выведите информацию о том, сколько раз клиенты покупали больше 1 товара apple (brand)?

In [11]:
#data[data['brand']=='apple'].value_counts().to_frame()
df=data[data['brand']=='apple']
#filter1 = df['brand'].isin(['apple'])
#df[filter1]
count = df[df.duplicated()]
print(len(count['order_id'].unique()))

5


#### 7. Выведите информацию о среднем чеке у заказа и сколько в среднем товаров покупают?

Если необходимо провести вычисления в терминах заказов, то будет удобно сгруппировать строки по заказам и посчитать необходимые значения.

In [12]:
(data.groupby('order_id')['price_ch'].sum().median())

85.63

In [13]:
(data.groupby('order_id')['price_ch'].count().median())

1.0

#### 8. Выведите количество заказов с 1 товаром.

#### 9. Выведите самую популярную категорию товара.

In [14]:
df9=data['category_code'].mode()
df9

0    0
dtype: object

#### 10. Выведите виды товаров Apple. Какой из них чаще всего покупают? Какой из них самый дорогой? 

In [15]:
filter1 = data['brand'].isin(['apple'])
df10=data[filter1]
data10=df10.drop_duplicates(subset='category_code')
print(data10['category_code'])
popular_Apple=df10['category_code'].mode()
print(popular_Apple)
expensive=df10['price_ch'].max()
print(expensive)

6               electronics.smartphone
34         electronics.audio.headphone
36                  electronics.clocks
162                                  0
303                 computers.notebook
439                 electronics.tablet
687           construction.tools.screw
1283          computers.components.hdd
4737                 computers.desktop
6721    computers.peripherals.keyboard
6725       computers.peripherals.mouse
9544       computers.components.cooler
Name: category_code, dtype: object
0    electronics.smartphone
dtype: object
6018.5


#### 11. В каком количестве заказов есть товар, который стоит более 40% от суммы всего чека?

Возможно, будет удобно посчитать отдельно средний чек, добавить его в исходные данные и сделать необходимые проверки.

In [16]:
tmp = data.groupby('order_id')['price_ch'].sum()*0.4
d11 = pandas.merge(data,tmp,on ='order_id')
#len(d11[d11['price']>d11['price_ch']]['order_id'].unique())

#### 12. Предположим, что в данных была ошибка и товар с product_id 1515966223509089906, который стоил 162.01, должен был стоить 170,02. Скорректируйте данные в таблицы и посчитайте, на какой процент больше денег было заработано с этого товара. Не забывайте, что количество товара не всегда равно 1.

In [17]:
filter2 = data['product_id'].isin(['1515966223509089906'])
df12=data[filter2]
sum1=df12['price_ch'].sum()
df12.loc[(df12.price!=170.02), 'price']=170.02
df12.loc[(df12.price_ch!=170.02), 'price_ch']=170.02
sum2=df12['price_ch'].sum()
result=sum2*100/sum1-100
print(result)
df12

4.944139250663568


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  isetter(loc, value)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  isetter(loc, value)


Unnamed: 0,event_time,order_id,product_id,category_id,category_code,brand,price,user_id,price_ch
0,2020-04-24 11:50:39 UTC,2294359932054536986,1515966223509089906,2.268105e+18,electronics.tablet,samsung,170.02,1.515916e+18,170.02
1,2020-04-24 11:50:39 UTC,2294359932054536986,1515966223509089906,2.268105e+18,electronics.tablet,samsung,170.02,1.515916e+18,170.02
6123,2020-05-10 12:33:12 UTC,2305977760524272239,1515966223509089906,2.268105e+18,electronics.tablet,samsung,170.02,1.515916e+18,170.02
9556,2020-05-16 07:58:26 UTC,2310188121796378674,1515966223509089906,2.268105e+18,electronics.tablet,samsung,170.02,1.515916e+18,170.02
10225,2020-05-17 15:00:08 UTC,2311125144107484149,1515966223509089906,2.268105e+18,electronics.tablet,samsung,170.02,1.515916e+18,170.02
...,...,...,...,...,...,...,...,...,...
1018481,2020-07-14 09:31:23 UTC,2352996673925414993,1515966223509089906,2.268105e+18,electronics.tablet,samsung,170.02,1.515916e+18,170.02
1018782,2020-07-14 10:51:25 UTC,2353036958621499904,1515966223509089906,2.268105e+18,electronics.tablet,samsung,170.02,1.515916e+18,170.02
1025904,2020-05-04 10:25:51 UTC,2353214222743109948,1515966223509089906,2.268105e+18,electronics.tablet,samsung,170.02,0.000000e+00,170.02
1033725,2020-05-07 07:25:05 UTC,2353216444633711120,1515966223509089906,2.268105e+18,electronics.tablet,samsung,170.02,0.000000e+00,170.02


#### 13. Создайте новый DateFrame из матрицы, созданной ниже. Назовите колонки index, column1, column2 и сделайте первую колонку индексом.

In [19]:
import numpy as np
data13 = np.random.rand(10, 3)

data13 = pandas.DataFrame(data13[:,1:],columns=['Column1','Column2'],index = data13[:,0])
data13

Unnamed: 0,Column1,Column2
0.047885,0.229851,0.544495
0.372481,0.559521,0.957676
0.249312,0.577777,0.791587
0.721627,0.003388,0.088625
0.520842,0.224559,0.880241
0.982382,0.293448,0.891684
0.626619,0.362744,0.676574
0.149452,0.559083,0.204774
0.09405,0.304862,0.828032
0.69513,0.020629,0.464596


Сохраните DataFrame локально в формате csv без индексов и названий столбцов.

In [20]:
data.to_csv('DM.csv', header=False, index=False)

## 2. Визуализации и matplotlib

Библиотека matplotlib - это бибилиотека двумерной графики для языка программирования python с помощью которой можно создавать высококачественные рисунки различных форматов. Matplotlib представляет собой модуль-пакет для python.
Matplotlib cостоит из множества модулей. Модули наполнены различными классами и функциями, которые иерархически связаны между собой.

In [23]:
%matplotlib inline  # нужно для отображения графиков внутри ноутбука
import matplotlib.pyplot as plt

UsageError: unrecognized arguments: # нужно для отображения графиков внутри ноутбука


На самом деле мы уже импортировали matplotlib внутри %pylab inline в начале задания.

Работать мы будем с той же выборкой покупкок. Добавим новую колонку с датой покупки.

In [27]:
import datetime
import random

start = datetime.datetime(2018, 1, 1)
end = datetime.datetime(2018, 1, 31)
delta_seconds = int((end - start).total_seconds())

dates = pandas.DataFrame(index=data.order_id.unique())
dates['date'] = [(start + datetime.timedelta(seconds=random.randint(0, delta_seconds))).strftime('%Y-%m-%d')
                 for _ in range(data.order_id.nunique())]

# если DataFrame с покупками из прошлого заказа называется не df, замените на ваше название ниже
data['date'] = data.order_id.map(dates['date'])
data

Unnamed: 0,event_time,order_id,product_id,category_id,category_code,brand,price,user_id,price_ch,date
0,2020-04-24 11:50:39 UTC,2294359932054536986,1515966223509089906,2.268105e+18,electronics.tablet,samsung,1.620100e+02,1.515916e+18,1.620100e+02,2018-01-05
1,2020-04-24 11:50:39 UTC,2294359932054536986,1515966223509089906,2.268105e+18,electronics.tablet,samsung,1.620100e+02,1.515916e+18,1.620100e+02,2018-01-05
2,2020-04-24 14:37:43 UTC,2294444024058086220,2273948319057183658,2.268105e+18,electronics.audio.headphone,huawei,7.752000e+01,1.515916e+18,7.752000e+01,2018-01-27
3,2020-04-24 14:37:43 UTC,2294444024058086220,2273948319057183658,2.268105e+18,electronics.audio.headphone,huawei,7.752000e+01,1.515916e+18,7.752000e+01,2018-01-27
4,2020-04-24 19:16:21 UTC,2294584263154074236,2273948316817424439,2.268105e+18,karcher,217.57,1.515916e+18,0.000000e+00,1.515916e+18,2018-01-13
...,...,...,...,...,...,...,...,...,...,...
1048570,2020-05-12 07:16:25 UTC,2353219986312397338,1515966223523303302,0.000000e+00,57.87,0,0.000000e+00,0.000000e+00,0.000000e+00,2018-01-10
1048571,2020-05-12 07:08:37 UTC,2353219986429837851,1515966223509090006,2.268105e+18,electronics.smartphone,oppo,2.312300e+02,0.000000e+00,2.312300e+02,2018-01-01
1048572,2020-05-12 09:11:47 UTC,2353219986530501148,2273948222294589749,2.268105e+18,appliances.kitchen.refrigerators,samsung,5.208100e+02,0.000000e+00,5.208100e+02,2018-01-09
1048573,2020-05-12 06:43:09 UTC,2353219986656330269,1515966223509298712,2.268105e+18,0,rowenta,5.553000e+01,0.000000e+00,5.553000e+01,2018-01-23


#### 1. Постройте гистограмму распределения сумм покупок и гистограмму средних цен отдельных видов продуктов product_id. 

Изображайте на двух соседних графиках. Для используйте subplot.

In [None]:
# your code

#### 2. Постройте график зависимости суммы покупок от дней.

In [None]:
# your code

#### 3. Постройте средних сумм покупок по дням недели (bar plot).

In [None]:
# your code

#### 4. Постройте график зависимости денег за товар от купленного количества (scatter plot).

In [None]:
# your code

Сохраните график в формате pdf (так он останется векторизованным).

In [None]:
# your code

Кстати, существует надстройка над matplotlib под названием [seaborn](https://jakevdp.github.io/PythonDataScienceHandbook/04.14-visualization-with-seaborn.html). Иногда удобнее и красивее делать визуализации через неё. 