# Экзамен по курсу "Аналитика данных на Python"

Этот тест проверит Ваши навыки работы с таблицами данных с помощью библиотек pandas и numpy. Задания делятся на простые (⭐️), средние (⭐️⭐️) и сложные (⭐️⭐️⭐️). Решение простых заданий, как правило, требует одной-двух операций с таблицами, тогда как для более сложных может потребоваться несколько последовательных преобразований данных.

##  Предыстория

Сегодня Ваш первый день работы в крупном интернет-магазине, который продаёт товары с доставкой по всему миру. Ваша первая задача – проанализировать базу данных покупок, совершённых в магазине за последние несколько лет. База содержит информацию об отдельных транзакциях, про каждую из которых известны номер инвойса (InvoiceNo), дата инвойса(InvoiceDate), код товара (StockCode), описание товара(Description), количество товара в транзакции (Quantity), стоимость единицы товара (UnitPrice), код покупателя (CustomerID), страна покупателя (Country).

База выгружена для Вас в формате CSV: файл [```online-retail.csv```](https://drive.google.com/file/d/1O1oJtpEu-u6s6xTu7seQfnNcQjYCt0GF/view?usp=sharing)

In [93]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## ⭐️ Вопрос 1

Загрузите данные из файла online-retail.csv в переменную типа pandas DataFrame

Подсказка: Используйте функцию из библиотеки pandas

Какой символ-разделитель используется в этом файле?

* Запятая ","
* Двоеточие ":"
* Точка с запятой ";"
* Символ табуляции "tab"

#### Решение

Точка с запятой ";"

## ⭐️ Вопрос 2

Сколько строк в полученной таблице (не считая заголовков столбцов)?

#### Решение

In [94]:
data = pd.read_csv('online-retail.csv', sep=';')

data.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [95]:
data.shape

(541911, 8)

541911

## ⭐️ Вопрос 3

Сколько столбцов в полученной таблице (не считая индекса)?

#### Решение

In [96]:
data.columns

Index(['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate',
       'UnitPrice', 'CustomerID', 'Country'],
      dtype='object')

8

## ⭐️ Вопрос 4

Как называется столбец с самым коротким названием?

#### Решение

In [97]:
for column in data.columns:
    print(column, len(column))

InvoiceNo 9
StockCode 9
Description 11
Quantity 8
InvoiceDate 11
UnitPrice 9
CustomerID 10
Country 7


Country

## ⭐️ Вопрос 5

В скольких столбцах встречаются пропущенные значения? (ответ - целое число)

#### Решение

In [98]:
data.isna().any()

InvoiceNo      False
StockCode      False
Description     True
Quantity       False
InvoiceDate    False
UnitPrice      False
CustomerID      True
Country        False
dtype: bool

2

## ⭐️ Вопрос 6

Сколько пропущенных значений в столбце CustomerID? (ответ - целое число)

#### Решение

In [99]:
data['CustomerID'].isna().sum()

135080

## ⭐️⭐️ Вопрос 7

Посмотрим, данные за какой исторический период у нас есть. 

Данные за какой самый ранний и за какой самый поздний годы содержатся в датасете? В ответе укажите два целых числа через запятую.

#### Решение

In [100]:
data['InvoiceDate'].min()

'2010-12-01 08:26:00'

In [101]:
data['InvoiceDate'].max()

'2011-12-09 12:52:00'

## ⭐️ Вопрос 8

Каковы минимальная и максимальная цена товаров (UnitPrice)? Перечислите через запятую.

#### Решение

In [102]:
data['UnitPrice'][data['UnitPrice']>0].sort_values()

359871        0.001
279045        0.001
361741        0.001
157195        0.001
108088        0.010
            ...    
15016     13541.330
43703     16453.710
43702     16888.020
524602    17836.460
222681    38970.000
Name: UnitPrice, Length: 539394, dtype: float64

In [103]:
data['UnitPrice'][data['UnitPrice']>0].max()

38970.0

## ⭐️ Вопрос 9

В таблице оказались товары с отрицательными ценами! Это явно какая-то ошибка. Какое описание (Description) у таких транзакций? Перечислите все варианты через запятую, отсортировав строки по алфавиту.

#### Решение

In [104]:
data[data['UnitPrice']<0]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
299983,A563186,B,Adjust bad debt,1,2011-08-12 14:51:00,-11062.06,,United Kingdom
299984,A563187,B,Adjust bad debt,1,2011-08-12 14:52:00,-11062.06,,United Kingdom


## ⭐️ Вопрос 10

Поищем ещё возможные проблемы с данными. Как насчёт товаров с нулевыми ценами? 

Сколько в таблице транзакций с нулевой ценой? А с пропусками на месте цены? 

Перечислите два целых числа через запятую.

#### Решение

In [105]:
data[data['UnitPrice']==0].shape[0]

2515

In [106]:
data['UnitPrice'].isna().sum()

0

## ⭐️⭐️ Вопрос 11

Для дальнейшего анализа поведения покупателей нам понадобится набор данных, в которых у каждой транзакции корректно указана цена, количество единиц товара (Quantity) и id покупателя (CustomerID). Удалите из таблицы все строки, в которых цена не превосходит 0 или пропущена, или количество единиц товара не превосходит 0 или пропущено, или в которых пропущен id покупателя. 

Сколько строк осталось?

#### Решение

Наличие пропущенных значений

Quantity       False
UnitPrice      False
CustomerID      True

In [107]:
df = data.drop(data[(data['UnitPrice'] <= 0) | (data['Quantity'] <= 0) | (data['CustomerID'].isna())].index)

df.shape

(397886, 8)

## Внимание! 

### Везде далее мы работаем с очищенной таблицей, полученной в Вопросе 11.

## ⭐️⭐️ Вопрос 12

В таблице для каждой транзакции указаны цена за единицу товара (UnitPrice) и количество единиц товара (Quantity). Вычислите для каждой транзакции её **полную стоимость** и сохраните в новом столбце Price, который добавьте в таблицу. 

Каковы минимальная и максимальная полная стоимость транзакций? Перечислите через запятую, округлив до целых чисел.

#### Решение

In [108]:
df['Price'] = df['UnitPrice'] * df['Quantity']

In [109]:
df['Price'].describe()

count    397886.000000
mean         22.396982
std         309.070265
min           0.001000
25%           4.680000
50%          11.800000
75%          19.800000
max      168469.600000
Name: Price, dtype: float64

## ⭐️⭐️ Вопрос 13

В нашей базе данных каждая покупка представлена одной или несколькими транзакциями. Покупка однозначно определяется своим номером инвойса (InvoiceNo). Транзакции, относящиеся к одной покупке, имеют один и тот же InvoiceNo. 

Стоимость всей покупки равна сумме полных стоимостей транзакций, входящих в неё. Найдите стоимости трёх самых дорогих покупок. Перечислите через запятую в порядке убывания, округлив до целых чисел.

#### Решение

In [110]:
df.groupby(['InvoiceNo'])['Price'].sum().sort_values(ascending = False)

InvoiceNo
581483    168469.60
541431     77183.60
556444     38970.00
567423     31698.16
556917     22775.93
            ...    
539645         0.95
540945         0.85
542736         0.55
567869         0.40
570554         0.38
Name: Price, Length: 18533, dtype: float64

## ⭐️⭐️ Вопрос 14

Какой товар составил наибольшую выручку? В ответе укажите описание товара (дословно строку из соответствующего поля в столбце Description).

#### Решение

In [111]:
df[df['InvoiceNo'].astype(int) == 581483]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,Price
540421,581483,23843,"PAPER CRAFT , LITTLE BIRDIE",80995,2011-12-09 09:15:00,2.08,16446.0,United Kingdom,168469.6


## ⭐️⭐️ Вопрос 15

Создайте новую таблицу purchases, в которой каждая строка будет соответствовать отдельной покупке, со столбцами 
InvoiceNo, InvoiceDate, Price, CustomerID, Country.

Поскольку дата InvoiceDate может быть отличаться для разных транзакций внутри одной покупки, при группировке возьмите самую раннюю из дат. Также отсортируйте её по датам по возрастанию.

Сколько получилось строк?

#### Решение

In [112]:
purchases = df.groupby(['InvoiceNo', 'CustomerID', 'Country']).agg({'InvoiceDate' : 'min', 'Price' : 'sum'}) \
                                                                        .reset_index() \
                                                                        .sort_values(by='InvoiceDate')

In [113]:
purchases.head()

Unnamed: 0,InvoiceNo,CustomerID,Country,InvoiceDate,Price
0,536365,17850.0,United Kingdom,2010-12-01 08:26:00,139.12
1,536366,17850.0,United Kingdom,2010-12-01 08:28:00,22.2
2,536367,13047.0,United Kingdom,2010-12-01 08:34:00,278.73
3,536368,13047.0,United Kingdom,2010-12-01 08:34:00,70.05
4,536369,13047.0,United Kingdom,2010-12-01 08:35:00,17.85


In [114]:
purchases.shape

(18533, 5)

## ⭐️⭐️ Вопрос 16

Исследуем, растут или убывают покупки наших клиентов после их первой покупки на сайте.
Найдите среднюю цену первых покупок клиентов: для каждого клиента возьмите его первую покупку и усредните эти значения. Найдите среднюю цену покупок в целом. Округлите эти числа до целых и перечислите в этом порядке через запятую.

In [115]:
purchases.sort_values(by=['CustomerID', 'InvoiceDate']).drop_duplicates(subset=['CustomerID'])['Price'].mean()

425.44998686030357

#### Решение

In [116]:
purchases[['Price']].describe()[1:2]

Unnamed: 0,Price
mean,480.84205


## ⭐️⭐️⭐️ Вопрос 17

В какой день недели было наибольшее число покупок? В ответе укажите русское название дня недели, начинающееся с заглавной буквы.


Подсказка: 
* Преобразуйте тип данных в столбце InvoiceDate таблицы purchases из строк в datetime. 
* Для каждой покупки вычислите день недели, в который она была совершена. Сохраните в новый столбец.
* Сгруппируйте таблицу по дням недели.

#### Решение

In [117]:
purchases['InvoiceDate'] = pd.to_datetime(purchases['InvoiceDate'])
purchases['WeekDay'] = purchases['InvoiceDate'].dt.dayofweek + 1
purchases['WeekDay'].value_counts()

4    4032
3    3455
2    3184
1    2863
5    2830
7    2169
Name: WeekDay, dtype: int64

Четверг

## ⭐️⭐️⭐️ Вопрос 18

В какой год и месяц выручка была максимальной?

Подсказка: 
* Преобразуйте тип данных в столбце InvoiceDate таблицы purchases из строк в datetime. 
* Для каждой покупки вычислите год и месяц, в которые она была совершена. Сохраните в новые столбцы.
* Сгруппируйте таблицу по новым столбцам

В ответе укажите два целых числа через запятую: год, месяц

#### Решение

In [118]:
purchases['Year_month'] = purchases['InvoiceDate'].apply(lambda x: x.strftime('%Y-%m'))

purchases.groupby('Year_month')['Price'].sum().sort_values(ascending = False)

Year_month
2011-11    1161817.380
2011-10    1039318.790
2011-09     952838.382
2011-05     678594.560
2011-06     661213.690
2011-08     645343.900
2011-07     600091.011
2011-03     595500.760
2010-12     572713.890
2011-01     569445.040
2011-12     518230.590
2011-04     469200.361
2011-02     447137.350
Name: Price, dtype: float64

## ⭐️⭐️⭐️ Вопрос 19

Магазин продаёт товары покупателям из разных стран (Country). В какой стране был наибольший процентный рост месячных продаж, если сравнить март 2011 и сентябрь 2011? Сколько процентов составил этот рост? В расчёт брать только страны, в которых были ненулевые продажи в обоих этих месяцах. В ответе укажите через запятую название страны и целое число (процентный рост, округлённый до целого числа).

#### Решение

In [119]:
frame_1 = purchases[(purchases['Year_month'] == '2011-03' )].groupby('Country')['Price'].sum().to_dict()

In [120]:
frame_2 = purchases[(purchases['Year_month'] == '2011-09')].groupby('Country')['Price'].sum().to_dict()

In [121]:
max = 0

In [122]:
for key in frame_1:
    if key in frame_2:
        s = frame_2[key]*100 / frame_1[key] - 100
        print(key, s)
        if s > max:
            max = s
            
print('\nМаксимум найден', max)

Australia -70.35106267479254
Belgium 25.538338534239458
Channel Islands -62.27912450524743
Cyprus -79.07586397979519
Denmark 14.857287904719556
EIRE 89.14279360497844
Finland -81.37976222961113
France 60.580963772014854
Germany 25.697281050310963
Italy -84.51414371184575
Japan 129.20245398773014
Netherlands 20.167162655705695
Norway 585.914123811556
Poland 66.54603813959343
Portugal -46.13676080951578
Spain -3.242683870486559
Sweden -3.079494468900009
Switzerland 342.9861567828556
United Kingdom 70.5442373017438

Максимум найден 585.914123811556


In [123]:
print(frame_1['Norway'], frame_2['Norway'])

1265.31 8678.939999999999


## ⭐️⭐️⭐️ Вопрос 20

Большинство клиентов все свои покупки делают из одной и той же страны. Выясним, однако, насколько велика доля путешественников среди клиентов. 
Сколько клиентов сделали покупки по крайней мере из двух разных стран? (ответ - целое число)

#### Решение

In [124]:
Quiestion20 = pd.DataFrame(purchases.groupby('CustomerID')['Country'].nunique().reset_index())

Quiestion20[Quiestion20['Country'] > 1].count()

CustomerID    8
Country       8
dtype: int64

## ⭐️⭐️⭐️ Вопрос 21

Мы запускаем в Италии рекомендательную систему "С этим товаром часто покупают...", и для этого хотим узнать, какие различные товары чаще всего встречаются в одной покупке из этой страны. Определите, какая пара различных товаров чаще всего встречается в различных покупках с ```Country=='Italy'```, и в скольких покупках это происходит. Одинаковые товары или нет, проверяйте по равенству поля Description. 

(ответ: название (Description) первого товара, название (Description) второго товара, целое число)

#### Решение

In [125]:
FrameItaly = df[df['Country'] == 'Italy']

In [126]:
FrameItaly2 = FrameItaly[['InvoiceNo', 'Description']]

In [127]:
final21 = FrameItaly.merge(FrameItaly2, how='inner', on='InvoiceNo')

In [128]:
final21 = final21.drop(final21[final21['Description_x'] == final21['Description_y']].index)

In [129]:
final21['Full_Descr'] = final21['Description_x'] + ',' + final21 ['Description_y']

In [130]:
final21['Full_Descr'].value_counts()

TOY TIDY PINK POLKADOT,TOY TIDY SPACEBOY                                6
TOY TIDY SPACEBOY,TOY TIDY PINK POLKADOT                                6
PLASTERS IN TIN WOODLAND ANIMALS,PLASTERS IN TIN CIRCUS PARADE          5
PLASTERS IN TIN CIRCUS PARADE,PLASTERS IN TIN WOODLAND ANIMALS          5
GINGERBREAD MAN COOKIE CUTTER,SET OF 20 KIDS COOKIE CUTTERS             4
                                                                       ..
CHARLIE+LOLA RED HOT WATER BOTTLE,CHOCOLATE 3 WICK MORRIS BOX CANDLE    1
NOVELTY BISCUITS CAKE STAND 3 TIER,LOVE HEART TRINKET POT               1
CHARLOTTE BAG PINK POLKADOT,PEACE WOODEN BLOCK LETTERS                  1
PLASTERS IN TIN WOODLAND ANIMALS,PACK OF 12 HEARTS DESIGN TISSUES       1
CERAMIC CAKE DESIGN SPOTTED MUG,PANTRY MAGNETIC  SHOPPING LIST          1
Name: Full_Descr, Length: 26492, dtype: int64