# Экзамен по курсу "Аналитика данных на Python"

Этот тест проверит Ваши навыки работы с таблицами данных с помощью библиотек pandas и numpy. Задания делятся на простые (⭐️), средние (⭐️⭐️) и сложные (⭐️⭐️⭐️). Решение простых заданий, как правило, требует одной-двух операций с таблицами, тогда как для более сложных может потребоваться несколько последовательных преобразований данных.

##  Предыстория

Сегодня Ваш первый день работы в крупном интернет-магазине, который продаёт товары с доставкой по всему миру. Ваша первая задача – проанализировать базу данных покупок, совершённых в магазине за последние несколько лет. База содержит информацию об отдельных транзакциях, про каждую из которых известны номер инвойса (InvoiceNo), дата инвойса(InvoiceDate), код товара (StockCode), описание товара(Description), количество товара в транзакции (Quantity), стоимость единицы товара (UnitPrice), код покупателя (CustomerID), страна покупателя (Country).

База выгружена для Вас в формате CSV: файл [```online-retail.csv```](https://drive.google.com/file/d/1O1oJtpEu-u6s6xTu7seQfnNcQjYCt0GF/view?usp=sharing)

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## ⭐️ Вопрос 1

Загрузите данные из файла online-retail.csv в переменную типа pandas DataFrame

Подсказка: Используйте функцию из библиотеки pandas

Какой символ-разделитель используется в этом файле?

* Запятая ","
* Двоеточие ":"
* Точка с запятой ";"
* Символ табуляции "tab"

#### Решение

In [4]:
df = pd.read_csv("online_retail.csv", sep=";")
df.head()

#В качестве разделителя идет символ ';'

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


## ⭐️ Вопрос 2

Сколько строк в полученной таблице (не считая заголовков столбцов)?

#### Решение

In [299]:
len(df)

541911

## ⭐️ Вопрос 3

Сколько столбцов в полученной таблице (не считая индекса)?

#### Решение

In [300]:
len(df.columns)

8

## ⭐️ Вопрос 4

Как называется столбец с самым коротким названием?

#### Решение

In [301]:
df.columns[np.argmin(list(map(len, df.columns)))]

'Country'

## ⭐️ Вопрос 5

В скольких столбцах встречаются пропущенные значения? (ответ - целое число)

#### Решение

In [302]:
len([col for col in df.columns if df[col].hasnans])

2

## ⭐️ Вопрос 6

Сколько пропущенных значений в столбце CustomerID? (ответ - целое число)

#### Решение

In [303]:
df["CustomerID"].isnull().sum(axis=0)

135080

## ⭐️⭐️ Вопрос 7

Посмотрим, данные за какой исторический период у нас есть. 

Данные за какой самый ранний и за какой самый поздний годы содержатся в датасете? В ответе укажите два целых числа через запятую.

#### Решение

In [304]:
from datetime import *
datetime.strptime(np.min(df["InvoiceDate"]), "%Y-%m-%d %H:%M:%S").year, datetime.strptime(np.max(df["InvoiceDate"]), "%Y-%m-%d %H:%M:%S").year

(2010, 2011)

## ⭐️ Вопрос 8

Каковы минимальная и максимальная цена товаров (UnitPrice)? Перечислите через запятую. Цена в этом задании может принимать отрицательные значения.

#### Решение

In [116]:
np.min(df["UnitPrice"]),
np.max(df["UnitPrice"])

(-11062.06, 38970.0)

## ⭐️ Вопрос 9

В таблице оказались товары с отрицательными ценами! Это явно какая-то ошибка. Какое описание (Description) у таких транзакций? Перечислите все варианты через запятую, отсортировав строки по алфавиту.

#### Решение

In [306]:
l = list(df[df["UnitPrice"]<0]["Description"].unique())
l.sort()
print(l)

df[df["UnitPrice"]<0]

['Adjust bad debt']


Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
299983,A563186,B,Adjust bad debt,1,2011-08-12 14:51:00,-11062.06,,United Kingdom
299984,A563187,B,Adjust bad debt,1,2011-08-12 14:52:00,-11062.06,,United Kingdom


## ⭐️ Вопрос 10

Поищем ещё возможные проблемы с данными. Как насчёт товаров с нулевыми ценами? 

Сколько в таблице транзакций с нулевой ценой? А с пропусками на месте цены? 

Перечислите два целых числа через запятую.

#### Решение

In [118]:
len(df[df["UnitPrice"] == 0]), df["UnitPrice"].isnull().sum(axis=0)

(2515, 0)

## ⭐️⭐️ Вопрос 11

Для дальнейшего анализа поведения покупателей нам понадобится набор данных, в которых у каждой транзакции корректно указана цена, количество единиц товара (Quantity) и id покупателя (CustomerID). Удалите из таблицы все строки, в которых цена не превосходит 0 или пропущена, или количество единиц товара не превосходит 0 или пропущено, или в которых пропущен id покупателя. 

Сколько строк осталось?

#### Решение

In [6]:
df2 = df[(df["UnitPrice"].notnull()) & (df["UnitPrice"] > 0) & \
         (df["CustomerID"].notnull()) & (df["Quantity"].notnull()) & (df["Quantity"]>0)]
len(df2)

397886

## Внимание! 

### Везде далее мы работаем с очищенной таблицей, полученной в Вопросе 11.

## ⭐️⭐️ Вопрос 12

В таблице для каждой транзакции указаны цена за единицу товара (UnitPrice) и количество единиц товара (Quantity). Вычислите для каждой транзакции её **полную стоимость** и сохраните в новом столбце Price, который добавьте в таблицу. 

Каковы минимальная и максимальная полная стоимость транзакций? Перечислите через запятую, округлив до целых чисел.

#### Решение

In [7]:
df2["Price"] = df2["UnitPrice"] * df2["Quantity"]
df2.head()

min(df2["Price"]), max(df2["Price"])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df2["Price"] = df2["UnitPrice"] * df2["Quantity"]


(0.001, 168469.6)

## ⭐️⭐️ Вопрос 13

В нашей базе данных каждая покупка представлена одной или несколькими транзакциями. Покупка однозначно определяется своим номером инвойса (InvoiceNo). Транзакции, относящиеся к одной покупке, имеют один и тот же InvoiceNo. 

Стоимость всей покупки равна сумме полных стоимостей транзакций, входящих в неё. Найдите стоимости трёх самых дорогих покупок. Перечислите через запятую в порядке убывания, округлив до целых чисел.

#### Решение

In [121]:
list(map(int, df2[["InvoiceNo", "Price"]].groupby("InvoiceNo").agg("sum").sort_values("Price", ascending=False)["Price"][:3]))


[168469, 77183, 38970]

## ⭐️⭐️ Вопрос 14

Какой товар составил наибольшую выручку? В ответе укажите описание товара (дословно строку из соответствующего поля в столбце Description).

#### Решение

In [307]:
row = df2[["Description", "Price"]].groupby(["Description"]).agg("sum").sort_values("Price", ascending=False)[:1]
row


Unnamed: 0_level_0,Price
Description,Unnamed: 1_level_1
"PAPER CRAFT , LITTLE BIRDIE",168469.6


## ⭐️⭐️ Вопрос 15

Создайте новую таблицу purchases, в которой каждая строка будет соответствовать отдельной покупке, со столбцами 
InvoiceNo, InvoiceDate, Price, CustomerID, Country.

Поскольку дата InvoiceDate может быть отличаться для разных транзакций внутри одной покупки, при группировке возьмите самую раннюю из дат. Также отсортируйте её по датам по возрастанию.

Сколько получилось строк?

#### Решение

In [9]:
purchases = pd.DataFrame(df2[["InvoiceNo", "InvoiceDate", "CustomerID", "Country",  "Price"]]\
.groupby(["InvoiceNo", "CustomerID", "Country"]).agg({"InvoiceDate" : lambda x: np.min(x), "Price": "sum"}))

print(len(purchases))

18533


## ⭐️⭐️ Вопрос 16

Исследуем, растут или убывают покупки наших клиентов после их первой покупки на сайте.
Найдите среднюю цену первых покупок клиентов: для каждого клиента возьмите его первую покупку и усредните эти значения. Найдите среднюю цену покупок в целом. Округлите эти числа до целых и перечислите в этом порядке через запятую.

#### Решение

In [10]:
#Переведем индексные колонки обратно в обыкновенные
purchases.reset_index(level=0, inplace=True)
purchases.reset_index(level=0, inplace=True)
purchases.reset_index(level=0, inplace=True)
purchases.columns

Index(['Country', 'CustomerID', 'InvoiceNo', 'InvoiceDate', 'Price'], dtype='object')

In [175]:
first_purchases = []
for customerId in list(purchases["CustomerID"].unique()):
    first_purchases.append(purchases[purchases["CustomerID"] == customerId].sort_values("InvoiceDate")["Price"].values[0])

first_purchases_mean = np.mean(first_purchases)

all_purchases_mean = purchases["Price"].mean()

first_purchases_mean, all_purchases_mean

(425.6565244352236, 480.8420495332635)

## ⭐️⭐️⭐️ Вопрос 17

В какой день недели было наибольшее число покупок? В ответе укажите русское название дня недели, начинающееся с заглавной буквы.


Подсказка: 
* Преобразуйте тип данных в столбце InvoiceDate таблицы purchases из строк в datetime. 
* Для каждой покупки вычислите день недели, в который она была совершена. Сохраните в новый столбец.
* Сгруппируйте таблицу по дням недели.

#### Решение

In [12]:
from datetime import datetime 
WEEKDAYS = ["Понедельник", "Вторник", "Среда", "Четверг", "Пятница", "Суббота", "Воскресенье"]

purchases["InvoiceDateDt"] = purchases["InvoiceDate"].apply(lambda x : datetime.strptime(x, "%Y-%m-%d %H:%M:%S"))
purchases["InvoiceDateWeekDay"] = purchases["InvoiceDateDt"].apply(lambda x: WEEKDAYS[x.weekday()])

purchases_by_weekdays = purchases.groupby(["InvoiceDateWeekDay"]).agg({"InvoiceNo": "count"}).sort_values("InvoiceNo", ascending=False)
purchases_by_weekdays.head()

Unnamed: 0_level_0,InvoiceNo
InvoiceDateWeekDay,Unnamed: 1_level_1
Четверг,4032
Среда,3455
Вторник,3184
Понедельник,2863
Пятница,2830


## ⭐️⭐️⭐️ Вопрос 18

В какой год и месяц выручка была максимальной?

Подсказка: 
* Преобразуйте тип данных в столбце InvoiceDate таблицы purchases из строк в datetime. 
* Для каждой покупки вычислите год и месяц, в которые она была совершена. Сохраните в новые столбцы.
* Сгруппируйте таблицу по новым столбцам

В ответе укажите два целых числа через запятую: год, месяц

#### Решение

In [13]:
purchases["Year"] = purchases["InvoiceDateDt"].apply(lambda x: x.year)
purchases["Month"] = purchases["InvoiceDateDt"].apply(lambda x: x.month)

purchases_by_yearmonths = purchases.groupby(["Year", "Month"]).agg({"Price": "sum"}).sort_values("Price", ascending=False)
list(purchases_by_yearmonths[:1].index)[0]

(2011, 11)

## ⭐️⭐️⭐️ Вопрос 19

Магазин продаёт товары покупателям из разных стран (Country). В какой стране был наибольший процентный рост месячных продаж, если сравнить март 2011 и сентябрь 2011? Сколько процентов составил этот рост? В расчёт брать только страны, в которых были ненулевые продажи в обоих этих месяцах. В ответе укажите через запятую название страны и целое число (процентный рост, округлённый до целого числа).

#### Решение

In [213]:
purchases_compare = purchases[(purchases["Year"] == 2011) & ((purchases["Month"] == 3) | (purchases["Month"] == 9))][["Country", "Month", "Price"]]
#группируем первый раз по месяцам
purchases_grouped = purchases_compare.groupby(["Country", "Month"]).agg({"Price": "sum"})
#группируем второй раз по процентному соотношению
row = purchases_grouped.groupby("Country").agg({"Price": lambda x: (np.max(x)/np.min(x) - 1.0)*100}).sort_values("Price", ascending=False)[:1]

row.index[0], row.values[0][0]

('Norway', 585.914123811556)

## ⭐️⭐️⭐️ Вопрос 20

Большинство клиентов все свои покупки делают из одной и той же страны. Выясним, однако, насколько велика доля путешественников среди клиентов. 
Сколько клиентов сделали покупки по крайней мере из двух разных стран? (ответ - целое число)

#### Решение

In [33]:
grouped = purchases.groupby(["CustomerID"]).agg({"Country": lambda x: len(set(x))})
len(grouped[grouped["Country"] > 1])

8

## ⭐️⭐️⭐️ Вопрос 21

Мы запускаем в Италии рекомендательную систему "С этим товаром часто покупают...", и для этого хотим узнать, какие различные товары чаще всего встречаются в одной покупке из этой страны. Определите, какая пара различных товаров чаще всего встречается в различных покупках с ```Country=='Italy'```, и в скольких покупках это происходит. Одинаковые товары или нет, проверяйте по равенству поля Description. 

(ответ: название (Description) первого товара, название (Description) второго товара, целое число)

#### Решение

In [308]:
from itertools import combinations
from collections import Counter

filtered = df2[df2["Country"] == "Italy"]
#Создаем из дескрипшнов одной покупки множество
grouped = filtered[["InvoiceNo", "Description"]].groupby("InvoiceNo").agg({"Description": lambda x: set(x)})
sets = list(grouped["Description"].values)

#Выведем комбинации из двух пар для всех покупок
combi = [list(combinations(s, 2)) for s in sets]
combi

[[('6 CHOCOLATE LOVE HEART T-LIGHTS', 'SILVER GLITTER FLOWER VOTIVE HOLDER'),
  ('6 CHOCOLATE LOVE HEART T-LIGHTS', 'BLUE FLOCK GLASS CANDLEHOLDER'),
  ('6 CHOCOLATE LOVE HEART T-LIGHTS', 'ROSE SCENT CANDLE IN JEWELLED BOX'),
  ('6 CHOCOLATE LOVE HEART T-LIGHTS', 'GOLD MUG BONE CHINA TREE OF LIFE'),
  ('6 CHOCOLATE LOVE HEART T-LIGHTS', 'SET OF 6 T-LIGHTS SANTA'),
  ('6 CHOCOLATE LOVE HEART T-LIGHTS', 'GARDENIA 3 WICK MORRIS BOXED CANDLE'),
  ('6 CHOCOLATE LOVE HEART T-LIGHTS', 'SET/3 VANILLA SCENTED CANDLE IN BOX'),
  ('6 CHOCOLATE LOVE HEART T-LIGHTS', 'CHOCOLATE 1 WICK MORRIS BOX CANDLE'),
  ('6 CHOCOLATE LOVE HEART T-LIGHTS', 'GREEN REGENCY TEACUP AND SAUCER'),
  ('6 CHOCOLATE LOVE HEART T-LIGHTS', '3 GARDENIA MORRIS BOXED CANDLES'),
  ('6 CHOCOLATE LOVE HEART T-LIGHTS', 'POSTAGE'),
  ('6 CHOCOLATE LOVE HEART T-LIGHTS', 'CHARLIE+LOLA RED HOT WATER BOTTLE'),
  ('6 CHOCOLATE LOVE HEART T-LIGHTS', 'GRAND CHOCOLATECANDLE'),
  ('6 CHOCOLATE LOVE HEART T-LIGHTS', 'PINK BAROQUE FLOCK CAND

In [314]:
#Комбинации (A,B) и (B,A) надо посчитать эквивалентными, поэтому реализуем свой каунтер
counter = {}
for row in combi:
    for pair in row:
        a, b = pair
        if (a,b) in counter:
            counter[(a,b)] += 1
        elif (b,a) in counter:
            counter[(b,a)] += 1
        else:
            counter[(a,b)] = 1
#Сортируем по встречаемости
counter = {k:v for (k,v) in sorted(counter.items(), key=lambda item: -item[1])}
print(counter)


{('TOY TIDY SPACEBOY', 'TOY TIDY PINK POLKADOT'): 6, ('PLASTERS IN TIN CIRCUS PARADE', 'PLASTERS IN TIN WOODLAND ANIMALS'): 5, ('POSTAGE', 'REGENCY CAKESTAND 3 TIER'): 4, ('PLASTERS IN TIN CIRCUS PARADE', 'POSTAGE'): 4, ('POSTAGE', 'RECYCLING BAG RETROSPOT'): 4, ('TOY TIDY SPACEBOY', 'RECYCLING BAG RETROSPOT'): 4, ('LUNCH BAG WOODLAND', 'LUNCH BAG CARS BLUE'): 4, ('TOY TIDY PINK POLKADOT', 'RECYCLING BAG RETROSPOT'): 4, ('TOY TIDY SPACEBOY', 'CHILDRENS APRON APPLES DESIGN'): 4, ('TOY TIDY PINK POLKADOT', 'CHILDRENS APRON APPLES DESIGN'): 4, ('CHILDRENS APRON APPLES DESIGN', 'SET OF 20 KIDS COOKIE CUTTERS'): 4, ('PLASTERS IN TIN CIRCUS PARADE', 'SET OF 20 KIDS COOKIE CUTTERS'): 4, ('SET OF 3 CAKE TINS PANTRY DESIGN', 'DOORMAT UNION FLAG'): 4, ('SET OF 3 CAKE TINS PANTRY DESIGN', 'DOORMAT WELCOME TO OUR HOME'): 4, ('DOORMAT UNION FLAG', 'DOORMAT WELCOME TO OUR HOME'): 4, ('DOORMAT UNION FLAG', 'DOORMAT AIRMAIL'): 4, ('DOORMAT WELCOME TO OUR HOME', 'DOORMAT AIRMAIL'): 4, ('ROUND SNACK BOX

[('TOY TIDY SPACEBOY', 'TOY TIDY PINK POLKADOT')]