In [1]:
import numpy as np
import pandas as pd

#### Создаем датасет authors

In [3]:
authors = pd.DataFrame({'author_id': [1, 2, 3], 'author_name': ['Тургенев', 'Чехов', 'Островский']},
                       columns = ['author_id', 'author_name'])
authors

Unnamed: 0,author_id,author_name
0,1,Тургенев
1,2,Чехов
2,3,Островский


#### Создаем датафрейм book

In [5]:
book = pd.DataFrame({'author_id': [1,1,1,2,2,3,3], 'book_title': ['Отцы и дети', 'Рудин', 'Дворянское гнездо', 'Толстый и тонкий', 'Дама с собачкой', 'Гроза', 'Таланты и поклонники'], 'price': [450, 300, 350, 500, 450, 370, 290]}, columns = ['author_id', 'book_title', 'price'])
book

Unnamed: 0,author_id,book_title,price
0,1,Отцы и дети,450
1,1,Рудин,300
2,1,Дворянское гнездо,350
3,2,Толстый и тонкий,500
4,2,Дама с собачкой,450
5,3,Гроза,370
6,3,Таланты и поклонники,290


#### Соединяем датафреймы в один — author_price

In [35]:
author_price = pd.merge(authors, book, on = 'author_id', how = 'inner')
author_price

Unnamed: 0,author_id,author_name,book_title,price
0,1,Тургенев,Отцы и дети,450
1,1,Тургенев,Рудин,300
2,1,Тургенев,Дворянское гнездо,350
3,2,Чехов,Толстый и тонкий,500
4,2,Чехов,Дама с собачкой,450
5,3,Островский,Гроза,370
6,3,Островский,Таланты и поклонники,290


#### Найдем 5 самых дорогих книг

In [8]:
top5 = author_price.nlargest(5, 'price')
top5

Unnamed: 0,author_id,author_name,book_title,price
3,2,Чехов,Толстый и тонкий,500
0,1,Тургенев,Отцы и дети,450
4,2,Чехов,Дама с собачкой,450
5,3,Островский,Гроза,370
2,1,Тургенев,Дворянское гнездо,350


#### Созадем датафрейм authors_stat

In [19]:
authors_max = author_price.groupby('author_name').agg({'price': 'max'})
authors_max = authors_max.rename(columns={'price':'max_price', })
authors_min = author_price.groupby('author_name').agg({'price': 'min'})
authors_min = authors_min.rename(columns={'price':'min_price', })
authors_mean = author_price.groupby('author_name').agg({'price': 'mean'})
authors_mean = authors_mean.rename(columns={'price':'mean_price', })
authors_stats = pd.concat([authors_max, authors_min, authors_mean], axis = 1)
authors_stats = authors_stats.reset_index()
authors_stats

Unnamed: 0,author_name,max_price,min_price,mean_price
0,Островский,370,290,330.0
1,Тургенев,450,300,366.666667
2,Чехов,500,450,475.0


#### Добавим информацию об обложке книги

In [20]:
covers = pd.DataFrame({'cover': ['твердая', 'мягкая', 'мягкая', 'твердая', 'твердая', 'мягкая', 'мягкая']}, columns = ['cover'])
covers

Unnamed: 0,cover
0,твердая
1,мягкая
2,мягкая
3,твердая
4,твердая
5,мягкая
6,мягкая


In [36]:
author_price = pd.concat([author_price, covers], axis = 1)
author_price

Unnamed: 0,author_id,author_name,book_title,price,cover
0,1,Тургенев,Отцы и дети,450,твердая
1,1,Тургенев,Рудин,300,мягкая
2,1,Тургенев,Дворянское гнездо,350,мягкая
3,2,Чехов,Толстый и тонкий,500,твердая
4,2,Чехов,Дама с собачкой,450,твердая
5,3,Островский,Гроза,370,мягкая
6,3,Островский,Таланты и поклонники,290,мягкая


#### Создаем сводную таблицу

In [40]:
book_info = pd.pivot_table(author_price, values='price', index=['author_name'], columns=['cover'], aggfunc=np.sum)
book_info = book_info.fillna(0)
book_info

cover,мягкая,твердая
author_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Островский,660.0,0.0
Тургенев,650.0,450.0
Чехов,0.0,950.0


#### Сохраняем полученный датасет с файл .pkl

In [42]:
book_info.to_pickle('book_info.pkl')
book_info_2 = pd.read_pickle('book_info.pkl')
book_info_2

cover,мягкая,твердая
author_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Островский,660.0,0.0
Тургенев,650.0,450.0
Чехов,0.0,950.0
