# Экзамен по курсу "Аналитика данных на Python"

Этот тест проверит Ваши навыки работы с таблицами данных с помощью библиотек pandas и numpy. Задания делятся на простые (⭐️), средние (⭐️⭐️) и сложные (⭐️⭐️⭐️). Решение простых заданий, как правило, требует одной-двух операций с таблицами, тогда как для более сложных может потребоваться несколько последовательных преобразований данных.

##  Предыстория

Сегодня Ваш первый день работы в крупном интернет-магазине, который продаёт товары с доставкой по всему миру. Ваша первая задача – проанализировать базу данных покупок, совершённых в магазине за последние несколько лет. База содержит информацию об отдельных транзакциях, про каждую из которых известны номер инвойса (InvoiceNo), дата инвойса(InvoiceDate), код товара (StockCode), описание товара(Description), количество товара в транзакции (Quantity), стоимость единицы товара (UnitPrice), код покупателя (CustomerID), страна покупателя (Country).

База выгружена для Вас в формате CSV: файл [```online-retail.csv```](https://drive.google.com/file/d/1O1oJtpEu-u6s6xTu7seQfnNcQjYCt0GF/view?usp=sharing)

In [4]:
!unrar e data_for_exam.rar


UNRAR 6.11 beta 1 freeware      Copyright (c) 1993-2022 Alexander Roshal


Extracting from data_for_exam.rar

Extracting  data_for_exam.csv                                            100%  OK 
All OK


In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## ⭐️ Вопрос 1

Загрузите данные из файла online-retail.csv в переменную типа pandas DataFrame

Подсказка: Используйте функцию из библиотеки pandas

Какой символ-разделитель используется в этом файле?

* Запятая ","
* Двоеточие ":"
* Точка с запятой ";"
* Символ табуляции "tab"

#### Решение

In [5]:
df = pd.read_csv('data_for_exam.csv', sep=';', parse_dates=['InvoiceDate'])
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom


In [None]:
df.dtypes

InvoiceNo              object
StockCode              object
Description            object
Quantity                int64
InvoiceDate    datetime64[ns]
UnitPrice             float64
CustomerID            float64
Country                object
dtype: object

In [None]:
df.describe()

Unnamed: 0,Quantity,InvoiceDate,UnitPrice,CustomerID
count,541911.0,541911,541911.0,406831.0
mean,9.552248,2011-07-04 13:35:47.528579072,4.611104,15287.677328
min,-80995.0,2010-12-01 08:26:00,-11062.06,12346.0
25%,1.0,2011-03-28 11:34:00,1.25,13953.0
50%,3.0,2011-07-19 17:17:00,2.08,15152.0
75%,10.0,2011-10-19 11:27:00,4.13,16791.0
max,80995.0,2011-12-09 12:52:00,38970.0,18287.0
std,218.080755,,96.759675,1713.606499


In [None]:
df.describe(include=object)

Unnamed: 0,InvoiceNo,StockCode,Description,Country
count,541911,541911,540456,541911
unique,25901,4070,4210,38
top,573585,85123A,WHITE HANGING HEART T-LIGHT HOLDER,United Kingdom
freq,1114,2313,2369,495478


## ⭐️ Вопрос 2

Сколько строк в полученной таблице (не считая заголовков столбцов)?

#### Решение

In [None]:
df.shape[0]

(541911, 8)

## ⭐️ Вопрос 3

Сколько столбцов в полученной таблице (не считая индекса)?

#### Решение

In [None]:
df.shape[1]

8

## ⭐️ Вопрос 4

Как называется столбец с самым коротким названием?

#### Решение

In [None]:
min(df.columns, key=len)

'Country'

## ⭐️ Вопрос 5

В скольких столбцах встречаются пропущенные значения? (ответ - целое число)

#### Решение

In [None]:
print('null in columns', end='\n\n')
for col in df.columns:
    print(f'{col} = {df[col].isnull().sum()}')

null in columns

InvoiceNo = 0
StockCode = 0
Description = 1455
Quantity = 0
InvoiceDate = 0
UnitPrice = 0
CustomerID = 135080
Country = 0


## ⭐️ Вопрос 6

Сколько пропущенных значений в столбце CustomerID? (ответ - целое число)

#### Решение

In [None]:
df.CustomerID.isnull().sum()

135080

## ⭐️⭐️ Вопрос 7

Посмотрим, данные за какой исторический период у нас есть.

Данные за какой самый ранний и за какой самый поздний годы содержатся в датасете? В ответе укажите два целых числа через запятую.

#### Решение

In [None]:
df.InvoiceDate.min()

Timestamp('2010-12-01 08:26:00')

In [None]:
df.InvoiceDate.max()

Timestamp('2011-12-09 12:52:00')

## ⭐️ Вопрос 8

Каковы минимальная и максимальная цена товаров (UnitPrice)? Перечислите через запятую. Цена в этом задании может принимать отрицательные значения.

#### Решение

In [None]:
df.UnitPrice.min()

-11062.06

In [None]:
df.UnitPrice.max()

38970.0

## ⭐️ Вопрос 9

В таблице оказались товары с отрицательными ценами! Это явно какая-то ошибка. Какое описание (Description) у таких транзакций? Перечислите все варианты через запятую, отсортировав строки по алфавиту.

#### Решение

In [None]:
df[df.UnitPrice < 0].Description.sort_values().to_list()

['Adjust bad debt', 'Adjust bad debt']

## ⭐️ Вопрос 10

Поищем ещё возможные проблемы с данными. Как насчёт товаров с нулевыми ценами?

Сколько в таблице транзакций с нулевой ценой? А с пропусками на месте цены?

Перечислите два целых числа через запятую.

#### Решение

In [None]:
temp = df[df.UnitPrice == 0].Description
temp[temp.notnull()]

6391                            amazon
6392                            amazon
7313                                 ?
9302      ROUND CAKE TIN VINTAGE GREEN
13217                            check
                      ...             
535336                           check
536908                         missing
538504    POLYESTER FILLER PAD 45x45cm
538505    POLYESTER FILLER PAD 40x40cm
538919                         smashed
Name: Description, Length: 1060, dtype: object

In [None]:
df[df.UnitPrice == 0]['UnitPrice'].count()

2515

In [None]:
df[df.UnitPrice.isnull()]['UnitPrice'].count()

0

In [None]:
df.Quantity[df.Quantity < 0].count()

10624

In [None]:
df[df.Quantity < 0].Description

141                               Discount
154        SET OF 3 COLOURED  FLYING DUCKS
235          PLASTERS IN TIN CIRCUS PARADE
236        PACK OF 12 PINK PAISLEY TISSUES
237        PACK OF 12 BLUE PAISLEY TISSUES
                        ...               
540449     ZINC T-LIGHT HOLDER STARS SMALL
541541                              Manual
541715          VICTORIAN SEWING BOX LARGE
541716    HANGING HEART JAR T-LIGHT HOLDER
541717       36 PENCILS TUBE RED RETROSPOT
Name: Description, Length: 10624, dtype: object

## ⭐️⭐️ Вопрос 11

Для дальнейшего анализа поведения покупателей нам понадобится набор данных, в которых у каждой транзакции корректно указана цена, количество единиц товара (Quantity) и id покупателя (CustomerID). Удалите из таблицы все строки, в которых цена не превосходит 0 или пропущена, или количество единиц товара не превосходит 0 или пропущено, или в которых пропущен id покупателя.

Сколько строк осталось?

#### Решение

In [None]:
df[df.UnitPrice.isna()]

In [None]:
condition = ~(df.UnitPrice.isna()
    | (df.UnitPrice <= 0)
    | df.Quantity.isna()
    | (df.Quantity <= 0)
    | df.CustomerID.isna()
)


In [None]:
df.shape

(541911, 8)

In [None]:
df = df[condition]

In [None]:
df.shape

(397886, 8)

## Внимание!

### Везде далее мы работаем с очищенной таблицей, полученной в Вопросе 11.

## ⭐️⭐️ Вопрос 12

В таблице для каждой транзакции указаны цена за единицу товара (UnitPrice) и количество единиц товара (Quantity). Вычислите для каждой транзакции её **полную стоимость** и сохраните в новом столбце Price, который добавьте в таблицу.

Каковы минимальная и максимальная полная стоимость транзакций? Перечислите через запятую, округлив до целых чисел.

#### Решение

In [8]:
df['Price'] = df.UnitPrice * df.Quantity
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,Price
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,20.34


In [None]:
int(df['Price'].min())

0

In [None]:
int(df['Price'].max())

168469

## ⭐️⭐️ Вопрос 13

В нашей базе данных каждая покупка представлена одной или несколькими транзакциями. Покупка однозначно определяется своим номером инвойса (InvoiceNo). Транзакции, относящиеся к одной покупке, имеют один и тот же InvoiceNo.

Стоимость всей покупки равна сумме полных стоимостей транзакций, входящих в неё. Найдите стоимости трёх самых дорогих покупок. Перечислите через запятую в порядке убывания, округлив до целых чисел.

#### Решение

In [None]:
df.groupby('InvoiceNo').agg(sum_price=('Price', 'sum')).sort_values('sum_price', ascending=False).head()

Unnamed: 0_level_0,sum_price
InvoiceNo,Unnamed: 1_level_1
581483,168469.6
541431,77183.6
556444,38970.0
567423,31698.16
556917,22775.93


In [None]:
df.groupby('InvoiceNo').agg(sum_price=('Price', 'sum')).sort_values('sum_price', ascending=False).sum_price.head(3).apply(int)

InvoiceNo
581483    168469
541431     77183
556444     38970
Name: sum_price, dtype: int64

## ⭐️⭐️ Вопрос 14

Какой товар составил наибольшую выручку? В ответе укажите описание товара (дословно строку из соответствующего поля в столбце Description).

#### Решение

In [None]:
df.head(1)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,Price
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3


In [None]:
df.groupby(['StockCode', 'Description']).agg(sum_price=('Price', 'sum')).sort_values('sum_price', ascending=False).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,sum_price
StockCode,Description,Unnamed: 2_level_1
23843,"PAPER CRAFT , LITTLE BIRDIE",168469.6
22423,REGENCY CAKESTAND 3 TIER,142592.95
85123A,WHITE HANGING HEART T-LIGHT HOLDER,100448.15
85099B,JUMBO BAG RED RETROSPOT,85220.78
23166,MEDIUM CERAMIC TOP STORAGE JAR,81416.73


In [None]:
df.groupby(['StockCode', 'Description']).agg(count=('Price', 'count')).sort_values('count', ascending=False).head()

Unnamed: 0_level_0,Unnamed: 1_level_0,count
StockCode,Description,Unnamed: 2_level_1
85123A,WHITE HANGING HEART T-LIGHT HOLDER,2028
22423,REGENCY CAKESTAND 3 TIER,1723
85099B,JUMBO BAG RED RETROSPOT,1618
84879,ASSORTED COLOUR BIRD ORNAMENT,1408
47566,PARTY BUNTING,1396


## ⭐️⭐️ Вопрос 15

Создайте новую таблицу purchases, в которой каждая строка будет соответствовать отдельной покупке, со столбцами
InvoiceNo, InvoiceDate, Price, CustomerID, Country.

Поскольку дата InvoiceDate может быть отличаться для разных транзакций внутри одной покупки, при группировке возьмите самую раннюю из дат. Также отсортируйте её по датам по возрастанию.

Учтите, что InvoiceDate — не уникальное поле, данные стоит дополнительно отсортировать по InvoiceNo, перед тем как брать первое значение группы.

Сколько получилось строк?

#### Решение

In [9]:
purchases = df.groupby('InvoiceNo').agg(
    InvoiceDate=('InvoiceDate', 'min')
    , Price=('Price', 'sum')
    , CustomerID=('CustomerID', lambda x: set(x))
    , Country=('Country', lambda x: set(x))
).reset_index()
purchases.head()

Unnamed: 0,InvoiceNo,InvoiceDate,Price,CustomerID,Country
0,536365,2010-12-01 08:26:00,139.12,{17850.0},{United Kingdom}
1,536366,2010-12-01 08:28:00,22.2,{17850.0},{United Kingdom}
2,536367,2010-12-01 08:34:00,278.73,{13047.0},{United Kingdom}
3,536368,2010-12-01 08:34:00,70.05,{13047.0},{United Kingdom}
4,536369,2010-12-01 08:35:00,17.85,{13047.0},{United Kingdom}


In [None]:
purchases[['CustomerID', 'Country']].applymap(lambda x: len(x) != 1).sum()

CustomerID    0
Country       0
dtype: int64

In [10]:
purchases[['CustomerID', 'Country']] = purchases[['CustomerID', 'Country']].applymap(lambda x: x.pop())

In [None]:
purchases.head()

Unnamed: 0,InvoiceNo,InvoiceDate,Price,CustomerID,Country
0,536365,2010-12-01 08:26:00,139.12,17850.0,United Kingdom
1,536366,2010-12-01 08:28:00,22.2,17850.0,United Kingdom
2,536367,2010-12-01 08:34:00,278.73,13047.0,United Kingdom
3,536368,2010-12-01 08:34:00,70.05,13047.0,United Kingdom
4,536369,2010-12-01 08:35:00,17.85,13047.0,United Kingdom


In [None]:
purchases.shape

(18533, 5)

## ⭐️⭐️ Вопрос 16

Исследуем, растут или убывают покупки наших клиентов после их первой покупки на сайте. Найдите среднюю цену первых покупок клиентов: для каждого клиента возьмите его первую покупку и усредните эти значения. Найдите среднюю цену покупок в целом. Округлите эти числа до целых и перечислите в этом порядке через запятую.

\* При равных TimeStamp по покупкам первой считается покупка с меньшим InvoiceNo.

#### Решение

In [None]:
purchases.sort_values(['InvoiceDate', 'InvoiceNo'])

Unnamed: 0,InvoiceNo,InvoiceDate,Price,CustomerID,Country
0,536365,2010-12-01 08:26:00,139.12,17850.0,United Kingdom
1,536366,2010-12-01 08:28:00,22.20,17850.0,United Kingdom
2,536367,2010-12-01 08:34:00,278.73,13047.0,United Kingdom
3,536368,2010-12-01 08:34:00,70.05,13047.0,United Kingdom
4,536369,2010-12-01 08:35:00,17.85,13047.0,United Kingdom
...,...,...,...,...,...
18528,581584,2011-12-09 12:25:00,140.64,13777.0,United Kingdom
18529,581585,2011-12-09 12:31:00,329.05,15804.0,United Kingdom
18530,581586,2011-12-09 12:49:00,339.20,13113.0,United Kingdom
18531,581587,2011-12-09 12:50:00,249.45,12680.0,France


In [None]:
temp = purchases.sort_values(['InvoiceDate', 'InvoiceNo']).groupby('CustomerID').first().reset_index()
temp.head(5)

Unnamed: 0,CustomerID,InvoiceNo,InvoiceDate,Price,Country
0,12346.0,541431,2011-01-18 10:01:00,77183.6,United Kingdom
1,12347.0,537626,2010-12-07 14:57:00,711.79,Iceland
2,12348.0,539318,2010-12-16 19:09:00,892.8,Finland
3,12349.0,577609,2011-11-21 09:51:00,1757.55,Italy
4,12350.0,543037,2011-02-02 16:01:00,334.4,Norway


In [None]:
temp.temp.Price.mean()

425.6565244352236

In [None]:
purchases.Price.mean()

480.84204953326497

## ⭐️⭐️⭐️ Вопрос 17

В какой день недели было наибольшее число покупок? В ответе укажите русское название дня недели, начинающееся с заглавной буквы.


Подсказка:
* Преобразуйте тип данных в столбце InvoiceDate таблицы purchases из строк в datetime.
* Для каждой покупки вычислите день недели, в который она была совершена. Сохраните в новый столбец.
* Сгруппируйте таблицу по дням недели.

#### Решение

In [None]:
df.head(1)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,Price
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,15.3


In [None]:
df.groupby(df.InvoiceDate.dt.day_name()).agg(count=('InvoiceNo', 'count'))

Unnamed: 0_level_0,count
InvoiceDate,Unnamed: 1_level_1
Friday,54827
Monday,64893
Sunday,62773
Thursday,80035
Tuesday,66473
Wednesday,68885


## ⭐️⭐️⭐️ Вопрос 18

В какой год и месяц выручка была максимальной?

Подсказка:
* Преобразуйте тип данных в столбце InvoiceDate таблицы purchases из строк в datetime.
* Для каждой покупки вычислите год и месяц, в которые она была совершена. Сохраните в новые столбцы.
* Сгруппируйте таблицу по новым столбцам

В ответе укажите два целых числа через запятую: год, месяц

#### Решение

In [None]:
df.groupby([df.InvoiceDate.dt.year, df.InvoiceDate.dt.month]).agg(Price=('Price', 'sum')).sort_values('Price', ascending=False)[:1]

Unnamed: 0_level_0,Unnamed: 1_level_0,Price
InvoiceDate,InvoiceDate,Unnamed: 2_level_1
2011,11,1161817.38


## ⭐️⭐️⭐️ Вопрос 19

Магазин продаёт товары покупателям из разных стран (Country). В какой стране был наибольший процентный рост месячных продаж, если сравнить март 2011 и сентябрь 2011? Сколько процентов составил этот рост? В расчёт брать только страны, в которых были ненулевые продажи в обоих этих месяцах. В ответе укажите через запятую название страны и целое число (процентный рост, округлённый до целого числа).

#### Решение

In [None]:
df_march = df[(df.InvoiceDate.dt.month == 3) & (df.InvoiceDate.dt.year == 2011)] \
    .groupby(['Country']) \
    .agg(sum_price=('Price', 'sum')) \
    .reset_index() \
    .query('sum_price > 0')
df_sep = df[(df.InvoiceDate.dt.month == 9) & (df.InvoiceDate.dt.year == 2011)].groupby(['Country']).agg(sum_price=('Price', 'sum')).reset_index().query('sum_price > 0')
df_march.merge(df_sep, on='Country', how='inner', suffixes=('_march', '_sep')) \
    .assign(ratio = lambda _df: (_df.sum_price_sep - _df.sum_price_march) * 100 / _df.sum_price_march) \
    .sort_values('ratio', ascending=False) \
    .head()


Unnamed: 0,Country,sum_price_march,sum_price_sep,ratio
12,Norway,1265.31,8678.94,585.914124
17,Switzerland,1870.23,8284.86,342.986157
10,Japan,48.9,112.08,129.202454
5,EIRE,21674.36,40995.49,89.142794
18,United Kingdom,467198.59,796780.272,70.544237


## ⭐️⭐️⭐️ Вопрос 20

Большинство клиентов все свои покупки делают из одной и той же страны. Выясним, однако, насколько велика доля путешественников среди клиентов.
Сколько клиентов сделали покупки по крайней мере из двух разных стран? (ответ - целое число)

#### Решение

In [31]:
(purchases.groupby(['CustomerID', 'Country'])
    .agg(lambda x: 1)
    .reset_index()
    [['CustomerID', 'Country']]
    .groupby('CustomerID')
    .count()
    .filter('Country == 2')
    .shape[0]
)

4372

## ⭐️⭐️⭐️ Вопрос 21

Мы запускаем в Италии рекомендательную систему "С этим товаром часто покупают...", и для этого хотим узнать, какие различные товары чаще всего встречаются в одной покупке из этой страны. Определите, какая пара различных товаров чаще всего встречается в различных покупках с ```Country=='Italy'```, и в скольких покупках это происходит. Одинаковые товары или нет, проверяйте по равенству поля Description.

(ответ: название (Description) первого товара, название (Description) второго товара, целое число)

#### Решение

In [6]:
df_italy = df[df.Country=='Italy']
df_italy.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
7214,537022,22791,T-LIGHT GLASS FLUTED ANTIQUE,12,2010-12-03 15:45:00,1.25,12725.0,Italy
7215,537022,21287,SCENTED VELVET LOUNGE CANDLE,12,2010-12-03 15:45:00,1.25,12725.0,Italy
7216,537022,79337,BLUE FLOCK GLASS CANDLEHOLDER,6,2010-12-03 15:45:00,1.65,12725.0,Italy
7217,537022,85111,SILVER GLITTER FLOWER VOTIVE HOLDER,12,2010-12-03 15:45:00,1.25,12725.0,Italy
7218,537022,85038,6 CHOCOLATE LOVE HEART T-LIGHTS,6,2010-12-03 15:45:00,2.1,12725.0,Italy


Вариант 1

In [103]:
def func(x: pd.Series):
    s = set()
    for i, el1 in enumerate(x):
        for j, el2 in enumerate(x[i+1:]):
            s.add((el1, el2))
    return list(s)
invoices = df_italy.groupby('InvoiceNo')['Description'].agg(func)
invoices.head()

InvoiceNo
537022    [(6 CHOCOLATE LOVE HEART T-LIGHTS, GARDENIA 3 ...
539752    [(ASSORTED COLOURS SILK FAN, SET OF 3 CAKE TIN...
541115    [(MINI LADLE LOVE HEART RED, SET OF 3 BUTTERFL...
541703    [(MIRRORED WALL ART STARS, RECYCLING BAG RETRO...
542238    [(FELT EGG COSY WHITE RABBIT, CAKE PLATE LOVEB...
Name: Description, dtype: object

In [91]:
type(invoices[0])

numpy.ndarray

In [104]:
res_invoices = pd.Series([])
for invoice in invoices:
    res_invoices = pd.concat([res_invoices, pd.Series(invoice)])
    # print(pd.Series(invoice))
res_invoices[:5]

0    (6 CHOCOLATE LOVE HEART T-LIGHTS, GARDENIA 3 W...
1    (GOLD MUG BONE CHINA TREE OF LIFE, GRAND CHOCO...
2    (SCENTED VELVET LOUNGE CANDLE, GREEN REGENCY T...
3    (ROSE SCENT CANDLE IN JEWELLED BOX, CHOCOLATE ...
4    (SET OF 6 T-LIGHTS SANTA, GREEN REGENCY TEACUP...
dtype: object

In [105]:
res_invoices.value_counts()

(TOY TIDY SPACEBOY, TOY TIDY PINK POLKADOT)                                5
(REGENCY CAKESTAND 3 TIER, POSTAGE)                                        4
(TOY TIDY PINK POLKADOT, CHILDRENS APRON APPLES DESIGN)                    4
(SET OF TEA COFFEE SUGAR TINS PANTRY, VINTAGE CREAM DOG FOOD CONTAINER)    4
(DOORMAT UNION FLAG, SET OF 3 CAKE TINS PANTRY DESIGN)                     4
                                                                          ..
(KINGS CHOICE BISCUIT TIN, SET OF 3 CAKE TINS SKETCHBOOK)                  1
(GYMKHANNA TREASURE BOOK BOX, LOVE BUILDING BLOCK WORD)                    1
(CHARLOTTE BAG SUKI DESIGN, BIG DOUGHNUT FRIDGE MAGNETS)                   1
(CHILDS BREAKFAST SET SPACEBOY, TREASURE ISLAND BOOK BOX)                  1
(SET OF TEA COFFEE SUGAR TINS PANTRY, RECIPE BOX PANTRY YELLOW DESIGN)     1
Name: count, Length: 13584, dtype: int64

Вариант 2

In [7]:
import itertools
def func(x):
     return list(set(itertools.combinations(x, 2)))
df = df_italy.groupby('InvoiceNo')[['Description']].agg(func)
df.head()

Unnamed: 0_level_0,Description
InvoiceNo,Unnamed: 1_level_1
537022,"[(SCANDINAVIAN 3 HEARTS NAPKIN RING, CHOCOLATE..."
539752,"[(ASSORTED COLOURS SILK FAN, GREEN REGENCY TEA..."
541115,"[(CIRCUS PARADE LUNCH BOX, OFFICE MUG WARMER P..."
541703,"[(RETROSPOT TEA SET CERAMIC 11 PC, TOY TIDY SP..."
542238,"[(36 FOIL HEART CAKE CASES, RECIPE BOX RETROSP..."


Вариант 3

In [12]:
(df.apply(lambda x: pd.Series(x.Description), axis=1)
    .stack()
    .reset_index(level=1, drop=True)
    .value_counts()
    .head()
)

(TOY TIDY SPACEBOY, TOY TIDY PINK POLKADOT)                                5
(DOORMAT UNION FLAG, SET OF 3 CAKE TINS PANTRY DESIGN)                     4
(SET OF TEA COFFEE SUGAR TINS PANTRY, VINTAGE CREAM DOG FOOD CONTAINER)    4
(TOY TIDY PINK POLKADOT, CHILDRENS APRON APPLES DESIGN)                    4
(DOORMAT UNION FLAG, DOORMAT AIRMAIL)                                      4
Name: count, dtype: int64

In [27]:
(df.apply(lambda x: pd.Series(x.Description), axis=1)
    .stack()
    .reset_index(level=1, drop=True)
    .to_frame()
    .rename({0: 'desc'}, axis=1)
    .assign(cnt=1)
    .set_index('desc', append=True)
    .unstack(level=-1, fill_value=0)
    .sum(axis=0)
    .sort_values(ascending=False)
    .head()
)

     desc                                                        
cnt  (TOY TIDY SPACEBOY, TOY TIDY PINK POLKADOT)                     5
     (DOORMAT UNION FLAG, DOORMAT AIRMAIL)                           4
     (JAM MAKING SET WITH JARS, SET OF 3 CAKE TINS PANTRY DESIGN)    4
     (TOY TIDY PINK POLKADOT, CHILDRENS APRON APPLES DESIGN)         4
     (DOORMAT UNION FLAG, DOORMAT WELCOME TO OUR HOME)               4
dtype: int64