# Экзамен по курсу "Аналитика данных на Python"

Этот тест проверит Ваши навыки работы с таблицами данных с помощью библиотек pandas и numpy. Задания делятся на простые (⭐️), средние (⭐️⭐️) и сложные (⭐️⭐️⭐️). Решение простых заданий, как правило, требует одной-двух операций с таблицами, тогда как для более сложных может потребоваться несколько последовательных преобразований данных.

##  Предыстория

Сегодня Ваш первый день работы в крупном интернет-магазине, который продаёт товары с доставкой по всему миру. Ваша первая задача – проанализировать базу данных покупок, совершённых в магазине за последние несколько лет. База содержит информацию об отдельных транзакциях, про каждую из которых известны номер инвойса (InvoiceNo), дата инвойса(InvoiceDate), код товара (StockCode), описание товара(Description), количество товара в транзакции (Quantity), стоимость единицы товара (UnitPrice), код покупателя (CustomerID), страна покупателя (Country).

База выгружена для Вас в формате CSV: файл [```online-retail.csv```](https://drive.google.com/file/d/1O1oJtpEu-u6s6xTu7seQfnNcQjYCt0GF/view?usp=sharing)

In [151]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## ⭐️ Вопрос 1

Загрузите данные из файла online-retail.csv в переменную типа pandas DataFrame

Подсказка: Используйте функцию из библиотеки pandas

Какой символ-разделитель используется в этом файле?

* Запятая ","
* Двоеточие ":"
* Точка с запятой ";"
* Символ табуляции "tab"

#### Решение

In [152]:
df = pd.read_csv('online-retail.csv',sep=';', parse_dates=['InvoiceDate'])
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


## ⭐️ Вопрос 2

Сколько строк в полученной таблице (не считая заголовков столбцов)?

#### Решение

In [153]:
df.shape

(541911, 8)

## ⭐️ Вопрос 3

Сколько столбцов в полученной таблице (не считая индекса)?

#### Решение

In [154]:
len(df.columns)

8

## ⭐️ Вопрос 4

Как называется столбец с самым коротким названием?

#### Решение

In [155]:
print(min((word for word in list(df.columns) if word), key=len))

Country


## ⭐️ Вопрос 5

В скольких столбцах встречаются пропущенные значения? (ответ - целое число)

#### Решение

In [156]:
df.isnull().sum()

InvoiceNo           0
StockCode           0
Description      1455
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135080
Country             0
dtype: int64

## ⭐️ Вопрос 6

Сколько пропущенных значений в столбце CustomerID? (ответ - целое число)

#### Решение

In [157]:
135080

135080

## ⭐️⭐️ Вопрос 7

Посмотрим, данные за какой исторический период у нас есть. 

Данные за какой самый ранний и за какой самый поздний годы содержатся в датасете? В ответе укажите два целых числа через запятую.

#### Решение

In [158]:
2010,2011

(2010, 2011)

## ⭐️ Вопрос 8

Каковы минимальная и максимальная цена товаров (UnitPrice)? Перечислите через запятую. Цена в этом задании может принимать отрицательные значения.

#### Решение

In [159]:

df['UnitPrice'].min()
df['UnitPrice'].max()

38970.0

## ⭐️ Вопрос 9

В таблице оказались товары с отрицательными ценами! Это явно какая-то ошибка. Какое описание (Description) у таких транзакций? Перечислите все варианты через запятую, отсортировав строки по алфавиту.

#### Решение

Adjust bad debt

## ⭐️ Вопрос 10

Поищем ещё возможные проблемы с данными. Как насчёт товаров с нулевыми ценами? 

Сколько в таблице транзакций с нулевой ценой? А с пропусками на месте цены? 

Перечислите два целых числа через запятую.

#### Решение

In [160]:
df['UnitPrice'].isnull().sum()

0

In [161]:
2515,0

(2515, 0)

## ⭐️⭐️ Вопрос 11

Для дальнейшего анализа поведения покупателей нам понадобится набор данных, в которых у каждой транзакции корректно указана цена, количество единиц товара (Quantity) и id покупателя (CustomerID). Удалите из таблицы все строки, в которых цена не превосходит 0 или пропущена, или количество единиц товара не превосходит 0 или пропущено, или в которых пропущен id покупателя. 

Сколько строк осталось?

#### Решение

In [162]:
df = df.dropna()

In [163]:
df = df[(df['UnitPrice'] > 0) & (df['Quantity'] > 0)]
df


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
...,...,...,...,...,...,...,...,...
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680.0,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680.0,France
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3,2011-12-09 12:50:00,4.95,12680.0,France
541909,581588,22380,TOY TIDY SPACEBOY,9,2011-12-09 12:52:00,2.10,12594.0,Italy


## Внимание! 

### Везде далее мы работаем с очищенной таблицей, полученной в Вопросе 11.

## ⭐️⭐️ Вопрос 12

В таблице для каждой транзакции указаны цена за единицу товара (UnitPrice) и количество единиц товара (Quantity). Вычислите для каждой транзакции её **полную стоимость** и сохраните в новом столбце Price, который добавьте в таблицу. 

Каковы минимальная и максимальная полная стоимость транзакций? Перечислите через запятую, округлив до целых чисел.

#### Решение

In [164]:
df['Price'] = df['UnitPrice'] * df['Quantity']
df.head(10)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,Price
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
5,536365,22752,SET 7 BABUSHKA NESTING BOXES,2,2010-12-01 08:26:00,7.65,17850.0,United Kingdom,15.3
6,536365,21730,GLASS STAR FROSTED T-LIGHT HOLDER,6,2010-12-01 08:26:00,4.25,17850.0,United Kingdom,25.5
7,536366,22633,HAND WARMER UNION JACK,6,2010-12-01 08:28:00,1.85,17850.0,United Kingdom,11.1
8,536366,22632,HAND WARMER RED POLKA DOT,6,2010-12-01 08:28:00,1.85,17850.0,United Kingdom,11.1
9,536367,84879,ASSORTED COLOUR BIRD ORNAMENT,32,2010-12-01 08:34:00,1.69,13047.0,United Kingdom,54.08


In [165]:
df['Price'].min()
round(df['Price'].max())

168470

## ⭐️⭐️ Вопрос 13

В нашей базе данных каждая покупка представлена одной или несколькими транзакциями. Покупка однозначно определяется своим номером инвойса (InvoiceNo). Транзакции, относящиеся к одной покупке, имеют один и тот же InvoiceNo. 

Стоимость всей покупки равна сумме полных стоимостей транзакций, входящих в неё. Найдите стоимости трёх самых дорогих покупок. Перечислите через запятую в порядке убывания, округлив до целых чисел.

#### Решение

In [166]:
df.groupby(['InvoiceNo']).sum().sort_values(by='Price',ascending=False)['Price'].head(3).round()

InvoiceNo
581483    168470.0
541431     77184.0
556444     38970.0
Name: Price, dtype: float64

## ⭐️⭐️ Вопрос 14

Какой товар составил наибольшую выручку? В ответе укажите описание товара (дословно строку из соответствующего поля в столбце Description).

#### Решение

In [167]:
df.groupby(['StockCode']).sum().sort_values(by='Price',ascending=False)

Unnamed: 0_level_0,Quantity,UnitPrice,CustomerID,Price
StockCode,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
23843,80995,2.080,16446.0,168469.600
22423,12402,21508.900,25791979.0,142592.950
85123A,36782,5887.470,31667793.0,100603.500
85099B,46181,3261.690,24748363.0,85220.780
23166,77916,241.620,3047321.0,81416.730
...,...,...,...,...
90084,1,0.850,14701.0,0.850
90104,1,0.850,17961.0,0.850
21268,2,0.420,15574.0,0.840
84227,1,0.420,17841.0,0.420


In [168]:
df[df['StockCode']=='23843']

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,Price
540421,581483,23843,"PAPER CRAFT , LITTLE BIRDIE",80995,2011-12-09 09:15:00,2.08,16446.0,United Kingdom,168469.6


## ⭐️⭐️ Вопрос 15

Создайте новую таблицу purchases, в которой каждая строка будет соответствовать отдельной покупке, со столбцами 
InvoiceNo, InvoiceDate, Price, CustomerID, Country.

Поскольку дата InvoiceDate может быть отличаться для разных транзакций внутри одной покупки, при группировке возьмите самую раннюю из дат. Также отсортируйте её по датам по возрастанию.

Сколько получилось строк?

#### Решение

In [169]:
purchases = df[['InvoiceNo', 'InvoiceDate', 'Price', 'CustomerID', 'Country']]
purchases_grouped = purchases.groupby('InvoiceNo').agg({'InvoiceDate':'min',
                                                        'Price':'sum',
                                                        'CustomerID':'min',
                                                        'Country':'min'})
purchases_grouped

Unnamed: 0_level_0,InvoiceDate,Price,CustomerID,Country
InvoiceNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
536365,2010-12-01 08:26:00,139.12,17850.0,United Kingdom
536366,2010-12-01 08:28:00,22.20,17850.0,United Kingdom
536367,2010-12-01 08:34:00,278.73,13047.0,United Kingdom
536368,2010-12-01 08:34:00,70.05,13047.0,United Kingdom
536369,2010-12-01 08:35:00,17.85,13047.0,United Kingdom
...,...,...,...,...
581584,2011-12-09 12:25:00,140.64,13777.0,United Kingdom
581585,2011-12-09 12:31:00,329.05,15804.0,United Kingdom
581586,2011-12-09 12:49:00,339.20,13113.0,United Kingdom
581587,2011-12-09 12:50:00,249.45,12680.0,France


In [170]:
purchases_grouped.shape[0]

18533

## ⭐️⭐️ Вопрос 16

Исследуем, растут или убывают покупки наших клиентов после их первой покупки на сайте.
Найдите среднюю цену первых покупок клиентов: для каждого клиента возьмите его первую покупку и усредните эти значения. Найдите среднюю цену покупок в целом. Округлите эти числа до целых и перечислите в этом порядке через запятую.

#### Решение

In [171]:
purchases.groupby(['CustomerID', 'InvoiceDate'])\
         .agg({'Price':'sum'})\
         .reset_index()\
         .drop_duplicates('CustomerID')\
         .Price.mean()\
         .__round__()

425

In [172]:
purchases.groupby(['InvoiceNo'])\
         .agg({'Price':'sum'})\
         .Price\
         .mean()\
         .__round__()

481

## ⭐️⭐️⭐️ Вопрос 17

В какой день недели было наибольшее число покупок? В ответе укажите русское название дня недели, начинающееся с заглавной буквы.


Подсказка: 
* Преобразуйте тип данных в столбце InvoiceDate таблицы purchases из строк в datetime. 
* Для каждой покупки вычислите день недели, в который она была совершена. Сохраните в новый столбец.
* Сгруппируйте таблицу по дням недели.

#### Решение

In [176]:
purchases = purchases.assign(DayName=purchases.InvoiceDate.dt.day_name(locale='English').values)
purchases.groupby('DayName').agg({'InvoiceNo':'nunique'})\
                            .sort_values('InvoiceNo', ascending=False)\
                            .head(1)

Unnamed: 0_level_0,InvoiceNo
DayName,Unnamed: 1_level_1
Thursday,4032


## ⭐️⭐️⭐️ Вопрос 18

В какой год и месяц выручка была максимальной?

Подсказка: 
* Преобразуйте тип данных в столбце InvoiceDate таблицы purchases из строк в datetime. 
* Для каждой покупки вычислите год и месяц, в которые она была совершена. Сохраните в новые столбцы.
* Сгруппируйте таблицу по новым столбцам

В ответе укажите два целых числа через запятую: год, месяц

#### Решение

In [180]:
purchases = purchases.assign(Year=purchases.InvoiceDate.dt.year.values,
                             Month=purchases.InvoiceDate.dt.month.values)
grouped_by_purchases = purchases.groupby('InvoiceNo').agg({'Price':'sum', 'Year':'min', 'Month':'min'})
grouped_by_purchases

Unnamed: 0_level_0,Price,Year,Month
InvoiceNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
536365,139.12,2010,12
536366,22.20,2010,12
536367,278.73,2010,12
536368,70.05,2010,12
536369,17.85,2010,12
...,...,...,...
581584,140.64,2011,12
581585,329.05,2011,12
581586,339.20,2011,12
581587,249.45,2011,12


In [183]:
purchases_by_years = grouped_by_purchases.groupby('Year').agg({'Price':'sum'})
purchases_by_years[purchases_by_years.Price.eq(purchases_by_years.Price.max())]

Unnamed: 0_level_0,Price
Year,Unnamed: 1_level_1
2011,8338731.814


In [184]:
purchases_by_months = grouped_by_purchases.groupby('Month').agg({'Price':'sum'})
purchases_by_months[purchases_by_months.Price.eq(purchases_by_months.Price.max())]

Unnamed: 0_level_0,Price
Month,Unnamed: 1_level_1
11,1161817.38


## ⭐️⭐️⭐️ Вопрос 19

Магазин продаёт товары покупателям из разных стран (Country). В какой стране был наибольший процентный рост месячных продаж, если сравнить март 2011 и сентябрь 2011? Сколько процентов составил этот рост? В расчёт брать только страны, в которых были ненулевые продажи в обоих этих месяцах. В ответе укажите через запятую название страны и целое число (процентный рост, округлённый до целого числа).

#### Решение

In [186]:
march_sept_purchases = purchases[purchases.Year.eq(2011) &
                                 (purchases.Month.eq(3) | purchases.Month.eq(9))]
march_sept_purchases

Unnamed: 0,InvoiceNo,InvoiceDate,Price,CustomerID,Country,DayName,Year,Month
105335,545220,2011-03-01 08:30:00,15.90,14620.0,United Kingdom,Tuesday,2011,3
105336,545220,2011-03-01 08:30:00,15.90,14620.0,United Kingdom,Tuesday,2011,3
105337,545220,2011-03-01 08:30:00,19.80,14620.0,United Kingdom,Tuesday,2011,3
105338,545220,2011-03-01 08:30:00,14.85,14620.0,United Kingdom,Tuesday,2011,3
105339,545220,2011-03-01 08:30:00,15.00,14620.0,United Kingdom,Tuesday,2011,3
...,...,...,...,...,...,...,...,...
370675,569148,2011-09-30 15:52:00,17.00,16613.0,United Kingdom,Friday,2011,9
370676,569148,2011-09-30 15:52:00,17.00,16613.0,United Kingdom,Friday,2011,9
370677,569148,2011-09-30 15:52:00,25.20,16613.0,United Kingdom,Friday,2011,9
370678,569148,2011-09-30 15:52:00,25.20,16613.0,United Kingdom,Friday,2011,9


In [188]:
pct_increase = march_sept_purchases.groupby(['Country', 'Year', 'Month'])\
                                   .agg({'Price':'sum'})\
                                   .unstack(2)\
                                   .dropna()
pct_increase

Unnamed: 0_level_0,Unnamed: 1_level_0,Price,Price
Unnamed: 0_level_1,Month,3,9
Country,Year,Unnamed: 2_level_2,Unnamed: 3_level_2
Australia,2011,17223.99,5106.73
Belgium,2011,3351.98,4208.02
Channel Islands,2011,3509.33,1323.75
Cyprus,2011,938.39,196.35
Denmark,2011,3978.99,4570.16
EIRE,2011,21674.36,40995.49
Finland,2011,5936.82,1105.45
France,2011,14589.55,23428.04
Germany,2011,14392.69,18091.22
Italy,2011,1806.81,279.8


In [190]:
# рост продаж
pct_increase = pct_increase.assign(PctIncrease=((pct_increase.Price[9] - pct_increase.Price[3])/pct_increase.Price[3] * 100)
                                                 .round()
                                                 .astype('int'))\
                                                 .sort_values('PctIncrease', ascending=False)
pct_increase

Unnamed: 0_level_0,Unnamed: 1_level_0,Price,Price,PctIncrease
Unnamed: 0_level_1,Month,3,9,Unnamed: 4_level_1
Country,Year,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Norway,2011,1265.31,8678.94,586
Switzerland,2011,1870.23,8284.86,343
Japan,2011,48.9,112.08,129
EIRE,2011,21674.36,40995.49,89
United Kingdom,2011,467198.59,796780.272,71
Poland,2011,317.78,529.25,67
France,2011,14589.55,23428.04,61
Germany,2011,14392.69,18091.22,26
Belgium,2011,3351.98,4208.02,26
Netherlands,2011,22416.49,26937.26,20


## ⭐️⭐️⭐️ Вопрос 20

Большинство клиентов все свои покупки делают из одной и той же страны. Выясним, однако, насколько велика доля путешественников среди клиентов. 
Сколько клиентов сделали покупки по крайней мере из двух разных стран? (ответ - целое число)

#### Решение

In [191]:
traveling_byers = purchases.groupby('CustomerID').agg({'Country':'unique'})
traveling_byers = traveling_byers.Country.apply(pd.Series).dropna()
traveling_byers


Unnamed: 0_level_0,0,1
CustomerID,Unnamed: 1_level_1,Unnamed: 2_level_1
12370.0,Cyprus,Austria
12394.0,Belgium,Denmark
12417.0,Belgium,Spain
12422.0,Australia,Switzerland
12429.0,Denmark,Austria
12431.0,Australia,Belgium
12455.0,Cyprus,Spain
12457.0,Switzerland,Cyprus


In [192]:
traveling_byers.index.size


8

## ⭐️⭐️⭐️ Вопрос 21

Мы запускаем в Италии рекомендательную систему "С этим товаром часто покупают...", и для этого хотим узнать, какие различные товары чаще всего встречаются в одной покупке из этой страны. Определите, какая пара различных товаров чаще всего встречается в различных покупках с ```Country=='Italy'```, и в скольких покупках это происходит. Одинаковые товары или нет, проверяйте по равенству поля Description. 

(ответ: название (Description) первого товара, название (Description) второго товара, целое число)

#### Решение

In [195]:

# оставим только покупки совершённые в Италии
Italy_purchases = df[df.Country.eq('Italy')]
# группировка транзакций в покупки и получение описания товара Description списком
Italy_purchases = Italy_purchases.groupby('InvoiceNo').agg({'Description':'unique'})
Italy_purchases

Unnamed: 0_level_0,Description
InvoiceNo,Unnamed: 1_level_1
537022,"[T-LIGHT GLASS FLUTED ANTIQUE, SCENTED VELVET ..."
539752,"[CAKE STAND WHITE TWO TIER LACE, REGENCY CAKES..."
541115,"[SET OF 3 HEART COOKIE CUTTERS, COFFEE MUG CAT..."
541703,"[LUNCH BAG CARS BLUE, LUNCH BAG WOODLAND, FAIR..."
542238,"[TEA TIME DES TEA COSY, FELT EGG COSY WHITE RA..."
544399,"[TOY TIDY PINK POLKADOT, SET OF 20 KIDS COOKIE..."
545664,"[HOME BUILDING BLOCK WORD, FIRST AID TIN, BREA..."
546875,"[HOME BUILDING BLOCK WORD, BATH BUILDING BLOCK..."
547914,"[RETROSPOT TEA SET CERAMIC 11 PC, PLASTERS IN ..."
547931,[POSTAGE]


In [196]:
from itertools import combinations
from collections import defaultdict

# перебор всех комбинаций пар товаров и запись результата в словарь
purchases_dict = defaultdict(int)
for purchase in Italy_purchases.Description:
    for items in combinations(purchase, 2):
        purchases_dict[tuple(sorted(items))] += 1

In [198]:
# сортировка словаря по значениям по убыванию и выбор наибольшего
sorted(purchases_dict.items(), key=lambda x: x[1], reverse=True)[0]

(('TOY TIDY PINK POLKADOT', 'TOY TIDY SPACEBOY'), 6)