# Экзамен по курсу "Аналитика данных на Python"

Этот тест проверит Ваши навыки работы с таблицами данных с помощью библиотек pandas и numpy. Задания делятся на простые (⭐️), средние (⭐️⭐️) и сложные (⭐️⭐️⭐️). Решение простых заданий, как правило, требует одной-двух операций с таблицами, тогда как для более сложных может потребоваться несколько последовательных преобразований данных.

##  Предыстория

Сегодня Ваш первый день работы в крупном интернет-магазине, который продаёт товары с доставкой по всему миру. Ваша первая задача – проанализировать базу данных покупок, совершённых в магазине за последние несколько лет. База содержит информацию об отдельных транзакциях, про каждую из которых известны номер инвойса (InvoiceNo), дата инвойса(InvoiceDate), код товара (StockCode), описание товара(Description), количество товара в транзакции (Quantity), стоимость единицы товара (UnitPrice), код покупателя (CustomerID), страна покупателя (Country).

База выгружена для Вас в формате CSV: файл [```online-retail.csv```](https://drive.google.com/file/d/1O1oJtpEu-u6s6xTu7seQfnNcQjYCt0GF/view?usp=sharing)

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## ⭐️ Вопрос 1

Загрузите данные из файла online-retail.csv в переменную типа pandas DataFrame

Подсказка: Используйте функцию из библиотеки pandas

Какой символ-разделитель используется в этом файле?

* Запятая ","
* Двоеточие ":"
* Точка с запятой ";"
* Символ табуляции "tab"

#### Решение

In [44]:
dat = pd.read_csv('online-retail.csv',sep=';')

## ⭐️ Вопрос 2

Сколько строк в полученной таблице (не считая заголовков столбцов)?

#### Решение

In [7]:
dat.head()
#541911.000000

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


## ⭐️ Вопрос 3

Сколько столбцов в полученной таблице (не считая индекса)?

#### Решение

In [45]:
#8
dat['InvoiceDate'] = pd.to_datetime(dat['InvoiceDate'], format="%Y-%m-%d %H:%M:%S")


## ⭐️ Вопрос 4

Как называется столбец с самым коротким названием?

#### Решение

In [None]:
#Country

## ⭐️ Вопрос 5

В скольких столбцах встречаются пропущенные значения? (ответ - целое число)

#### Решение

In [9]:
dat.info() #2

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541911 entries, 0 to 541910
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541911 non-null  object 
 1   StockCode    541911 non-null  object 
 2   Description  540456 non-null  object 
 3   Quantity     541911 non-null  int64  
 4   InvoiceDate  541911 non-null  object 
 5   UnitPrice    541911 non-null  float64
 6   CustomerID   406831 non-null  float64
 7   Country      541911 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 22.7+ MB


## ⭐️ Вопрос 6

Сколько пропущенных значений в столбце CustomerID? (ответ - целое число)

#### Решение

In [None]:
#135080

## ⭐️⭐️ Вопрос 7

Посмотрим, данные за какой исторический период у нас есть. 

Данные за какой самый ранний и за какой самый поздний годы содержатся в датасете? В ответе укажите два целых числа через запятую.

#### Решение

In [None]:
2010, 2011

## ⭐️ Вопрос 8

Каковы минимальная и максимальная цена товаров (UnitPrice)? Перечислите через запятую. Цена в этом задании может принимать отрицательные значения.

#### Решение

In [18]:
dat['UnitPrice'].max()
#-11062.06, 38970.0

38970.0

## ⭐️ Вопрос 9

В таблице оказались товары с отрицательными ценами! Это явно какая-то ошибка. Какое описание (Description) у таких транзакций? Перечислите все варианты через запятую, отсортировав строки по алфавиту.

#### Решение

In [20]:
dat.sort_values(by=['UnitPrice']).head(20)
#Adjust bad debt, Adjust bad debt

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
299984,A563187,B,Adjust bad debt,1,2011-08-12 14:52:00,-11062.06,,United Kingdom
299983,A563186,B,Adjust bad debt,1,2011-08-12 14:51:00,-11062.06,,United Kingdom
139083,548286,10002,,180,2011-03-30 11:47:00,0.0,,United Kingdom
104084,545135,22028,,-30,2011-02-28 12:06:00,0.0,,United Kingdom
20400,538047,21429,,-70,2010-12-09 13:13:00,0.0,,United Kingdom
20399,538046,85008,,-15,2010-12-09 13:12:00,0.0,,United Kingdom
20398,538045,84688,,27,2010-12-09 13:11:00,0.0,,United Kingdom
20394,538043,22833,,-1,2010-12-09 13:10:00,0.0,,United Kingdom
20393,538042,21763,,-4,2010-12-09 13:10:00,0.0,,United Kingdom
20392,538041,22145,,30,2010-12-09 13:09:00,0.0,,United Kingdom


## ⭐️ Вопрос 10

Поищем ещё возможные проблемы с данными. Как насчёт товаров с нулевыми ценами? 

Сколько в таблице транзакций с нулевой ценой? А с пропусками на месте цены? 

Перечислите два целых числа через запятую.

#### Решение

In [28]:
#2515, 0
dat.isna().sum(axis=0)

InvoiceNo           0
StockCode           0
Description      1455
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135080
Country             0
dtype: int64

## ⭐️⭐️ Вопрос 11

Для дальнейшего анализа поведения покупателей нам понадобится набор данных, в которых у каждой транзакции корректно указана цена, количество единиц товара (Quantity) и id покупателя (CustomerID). Удалите из таблицы все строки, в которых цена не превосходит 0 или пропущена, или количество единиц товара не превосходит 0 или пропущено, или в которых пропущен id покупателя. 

Сколько строк осталось?

#### Решение

In [52]:
#397886
#dat = dat.dropna(subset=['UnitPrice','Quantity','CustomerID'])
#dat = dat.loc[dat['UnitPrice']!=0]
dat = dat.loc[dat['Quantity']>=0]
#dat.sort_values(by=['UnitPrice'])
dat.sort_values(by=['UnitPrice'])

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
359871,568200,PADS,PADS TO MATCH ALL CUSHIONS,1,2011-09-25 14:58:00,0.001,16198.0,United Kingdom
157195,550193,PADS,PADS TO MATCH ALL CUSHIONS,1,2011-04-15 09:27:00,0.001,13952.0,United Kingdom
361741,568375,BANK CHARGES,Bank Charges,1,2011-09-26 17:01:00,0.001,13405.0,United Kingdom
279045,561226,PADS,PADS TO MATCH ALL CUSHIONS,1,2011-07-26 10:13:00,0.001,15618.0,United Kingdom
379865,569714,16045,POPART WOODEN PENCILS ASST,100,2011-10-05 17:28:00,0.040,18033.0,United Kingdom
...,...,...,...,...,...,...,...,...
374542,569382,M,Manual,1,2011-10-03 16:44:00,3155.950,15502.0,United Kingdom
406406,571751,M,Manual,1,2011-10-19 11:18:00,3949.320,12744.0,Singapore
422376,573080,M,Manual,1,2011-10-27 14:20:00,4161.060,12536.0,France
422351,573077,M,Manual,1,2011-10-27 14:13:00,4161.060,12536.0,France


## Внимание! 

### Везде далее мы работаем с очищенной таблицей, полученной в Вопросе 11.

## ⭐️⭐️ Вопрос 12

В таблице для каждой транзакции указаны цена за единицу товара (UnitPrice) и количество единиц товара (Quantity). Вычислите для каждой транзакции её **полную стоимость** и сохраните в новом столбце Price, который добавьте в таблицу. 

Каковы минимальная и максимальная полная стоимость транзакций? Перечислите через запятую, округлив до целых чисел.

#### Решение

In [53]:
dat['fullprice'] = dat['UnitPrice'] * dat['Quantity']

dat['fullprice'].min()
#0.001, 168469.6

0.001

## ⭐️⭐️ Вопрос 13

В нашей базе данных каждая покупка представлена одной или несколькими транзакциями. Покупка однозначно определяется своим номером инвойса (InvoiceNo). Транзакции, относящиеся к одной покупке, имеют один и тот же InvoiceNo. 

Стоимость всей покупки равна сумме полных стоимостей транзакций, входящих в неё. Найдите стоимости трёх самых дорогих покупок. Перечислите через запятую в порядке убывания, округлив до целых чисел.

#### Решение

In [55]:
dat.groupby('InvoiceNo').agg('sum').sort_values(by=['fullprice'])
#168469.60, 77183.60, 38970.00

Unnamed: 0_level_0,Quantity,UnitPrice,CustomerID,fullprice
InvoiceNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
570554,1,0.38,14800.0,0.38
567869,5,0.08,16669.0,0.40
542736,1,0.55,14744.0,0.55
540945,1,0.85,16554.0,0.85
539645,1,0.95,17230.0,0.95
...,...,...,...,...
556917,15049,283.57,1713270.0,22775.93
567423,12572,36.77,209400.0,31698.16
556444,60,649.50,15098.0,38970.00
541431,74215,1.04,12346.0,77183.60


## ⭐️⭐️ Вопрос 14

Какой товар составил наибольшую выручку? В ответе укажите описание товара (дословно строку из соответствующего поля в столбце Description).

#### Решение

In [56]:
#PAPER CRAFT , LITTLE BIRDIE
dat.groupby('Description').agg('sum').sort_values(by=['fullprice'])

Unnamed: 0_level_0,Quantity,UnitPrice,CustomerID,fullprice
Description,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
PADS TO MATCH ALL CUSHIONS,3,0.003,45768.0,0.003
HEN HOUSE W CHICK IN NEST,1,0.420,17841.0,0.420
SET 12 COLOURING PENCILS DOILEY,1,0.650,14646.0,0.650
VINTAGE BLUE TINSEL REEL,2,0.420,15574.0,0.840
PINK CRYSTAL GUITAR PHONE CHARM,1,0.850,14701.0,0.850
...,...,...,...,...
MEDIUM CERAMIC TOP STORAGE JAR,77916,241.620,3047321.0,81416.730
JUMBO BAG RED RETROSPOT,46181,3261.690,24748363.0,85220.780
WHITE HANGING HEART T-LIGHT HOLDER,36725,5867.220,31562068.0,100448.150
REGENCY CAKESTAND 3 TIER,12402,21508.900,25791979.0,142592.950


## ⭐️⭐️ Вопрос 15

Создайте новую таблицу purchases, в которой каждая строка будет соответствовать отдельной покупке, со столбцами 
InvoiceNo, InvoiceDate, Price, CustomerID, Country.

Поскольку дата InvoiceDate может быть отличаться для разных транзакций внутри одной покупки, при группировке возьмите самую раннюю из дат. Также отсортируйте её по датам по возрастанию.

Сколько получилось строк?

#### Решение

In [76]:
#18533
#rent = dat.groupby('InvoiceNo').agg(sum)
#rent.head()
purchases = dat.sort_values(by=['InvoiceDate']).groupby('InvoiceNo').first().merge(rent, left_on='InvoiceNo', right_on='InvoiceNo')
purchases.head()

Unnamed: 0_level_0,StockCode,Description,Quantity_x,InvoiceDate,UnitPrice_x,CustomerID_x,Country,fullprice_x,Quantity_y,UnitPrice_y,CustomerID_y,fullprice_y
InvoiceNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3,40,27.37,124950.0,139.12
536366,22633,HAND WARMER UNION JACK,6,2010-12-01 08:28:00,1.85,17850.0,United Kingdom,11.1,12,3.7,35700.0,22.2
536367,48187,DOORMAT NEW ENGLAND,4,2010-12-01 08:34:00,7.95,13047.0,United Kingdom,31.8,83,58.24,156564.0,278.73
536368,22914,BLUE COAT RACK PARIS FASHION,3,2010-12-01 08:34:00,4.95,13047.0,United Kingdom,14.85,15,19.1,52188.0,70.05
536369,21756,BATH BUILDING BLOCK WORD,3,2010-12-01 08:35:00,5.95,13047.0,United Kingdom,17.85,3,5.95,13047.0,17.85


In [81]:
#purchases = purchases.drop(['UnitPrice_y','Quantity_y','fullprice_x',
#                            'UnitPrice_x','Quantity_x','Description','StockCode','CustomerID_y'], axis='columns')
purchases.tail()
#purchases.shape

Unnamed: 0_level_0,InvoiceDate,CustomerID_x,Country,fullprice_y
InvoiceNo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
581584,2011-12-09 12:25:00,13777.0,United Kingdom,140.64
581585,2011-12-09 12:31:00,15804.0,United Kingdom,329.05
581586,2011-12-09 12:49:00,13113.0,United Kingdom,339.2
581587,2011-12-09 12:50:00,12680.0,France,249.45
581588,2011-12-09 12:52:00,12594.0,Italy,37.8


## ⭐️⭐️ Вопрос 16

Исследуем, растут или убывают покупки наших клиентов после их первой покупки на сайте.
Найдите среднюю цену первых покупок клиентов: для каждого клиента возьмите его первую покупку и усредните эти значения. Найдите среднюю цену покупок в целом. Округлите эти числа до целых и перечислите в этом порядке через запятую.

#### Решение

In [98]:
#purchases.groupby('CustomerID_x').first().reset_index()['fullprice_y'].agg('mean')
#first - 1846498.003/4338
#425.6565244352229
#480.8420495332635
#purchases['fullprice_y'].agg('mean')

480.8420495332635

## ⭐️⭐️⭐️ Вопрос 17

В какой день недели было наибольшее число покупок? В ответе укажите русское название дня недели, начинающееся с заглавной буквы.


Подсказка: 
* Преобразуйте тип данных в столбце InvoiceDate таблицы purchases из строк в datetime. 
* Для каждой покупки вычислите день недели, в который она была совершена. Сохраните в новый столбец.
* Сгруппируйте таблицу по дням недели.

#### Решение

In [105]:
#purchases['day'] = purchases['InvoiceDate'].dt.dayofweek
#purchases.groupby('day').count()
#Четверг

Unnamed: 0_level_0,InvoiceDate,CustomerID_x,Country,fullprice_y
day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,2863,2863,2863,2863
1,3184,3184,3184,3184
2,3455,3455,3455,3455
3,4032,4032,4032,4032
4,2830,2830,2830,2830
6,2169,2169,2169,2169


## ⭐️⭐️⭐️ Вопрос 18

В какой год и месяц выручка была максимальной?

Подсказка: 
* Преобразуйте тип данных в столбце InvoiceDate таблицы purchases из строк в datetime. 
* Для каждой покупки вычислите год и месяц, в которые она была совершена. Сохраните в новые столбцы.
* Сгруппируйте таблицу по новым столбцам

В ответе укажите два целых числа через запятую: год, месяц

#### Решение

In [109]:
purchases.groupby(['year', 'month']).agg('sum')
#2011,11

Unnamed: 0_level_0,Unnamed: 1_level_0,CustomerID_x,fullprice_y,day
year,month,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2010,12,21642994.0,572713.89,3530
2011,1,14923107.0,569445.04,2412
2011,2,15199787.0,447137.35,2358
2011,3,20069007.0,595500.76,3182
2011,4,17596571.0,469200.361,2719
2011,5,23700637.0,678594.56,4055
2011,6,21349377.0,661213.69,3617
2011,7,20337637.0,600091.011,3603
2011,8,19529273.0,645343.9,3162
2011,9,26776537.0,952838.382,4645


## ⭐️⭐️⭐️ Вопрос 19

Магазин продаёт товары покупателям из разных стран (Country). В какой стране был наибольший процентный рост месячных продаж, если сравнить март 2011 и сентябрь 2011? Сколько процентов составил этот рост? В расчёт брать только страны, в которых были ненулевые продажи в обоих этих месяцах. В ответе укажите через запятую название страны и целое число (процентный рост, округлённый до целого числа).

#### Решение

In [134]:
first_part = purchases.groupby(['year', 'month']).get_group((2011, 3)).groupby('Country')['fullprice_y'].sum()#.count()
second_part = purchases.groupby(['year', 'month']).get_group((2011, 9)).groupby('Country')['fullprice_y'].sum()#.count()
#purchases.groupby(['year', 'month']).groups.keys()
(second_part - first_part)/first_part.dropna()*100
#Norway, 585.914124

Country
Australia               -70.351063
Austria                        NaN
Belgium                  25.538339
Canada                         NaN
Channel Islands         -62.279125
Cyprus                  -79.075864
Denmark                  14.857288
EIRE                     89.142794
Finland                 -81.379762
France                   60.580964
Germany                  25.697281
Greece                         NaN
Italy                   -84.514144
Japan                   129.202454
Netherlands              20.167163
Norway                  585.914124
Poland                   66.546038
Portugal                -46.136761
Spain                    -3.242684
Sweden                   -3.079494
Switzerland             342.986157
United Arab Emirates           NaN
United Kingdom           70.544237
Name: fullprice_y, dtype: float64

## ⭐️⭐️⭐️ Вопрос 20

Большинство клиентов все свои покупки делают из одной и той же страны. Выясним, однако, насколько велика доля путешественников среди клиентов. 
Сколько клиентов сделали покупки по крайней мере из двух разных стран? (ответ - целое число)

In [None]:
#8

#### Решение

In [158]:
purchases.groupby(['CustomerID_x']).nunique()['Country'].sum()#.nunique()['Country']#.sort_values(by=['Country'])#[['Country'>1]]-

4346

In [159]:
task.describe

<bound method NDFrame.describe of CustomerID_x
12346.0    1
12347.0    1
12348.0    1
12349.0    1
12350.0    1
          ..
18280.0    1
18281.0    1
18282.0    1
18283.0    1
18287.0    1
Name: Country, Length: 4338, dtype: int64>

## ⭐️⭐️⭐️ Вопрос 21

Мы запускаем в Италии рекомендательную систему "С этим товаром часто покупают...", и для этого хотим узнать, какие различные товары чаще всего встречаются в одной покупке из этой страны. Определите, какая пара различных товаров чаще всего встречается в различных покупках с ```Country=='Italy'```, и в скольких покупках это происходит. Одинаковые товары или нет, проверяйте по равенству поля Description. 

(ответ: название (Description) первого товара, название (Description) второго товара, целое число)

#### Решение