In [19]:
import pandas as pd
import numpy as np

In [3]:
authors = pd.DataFrame({'author_id':[1, 2, 3], 
                        'author_name':['Тургенев', 'Чехов', 'Островский']}, 
                       columns=['author_id', 'author_name'])
print(authors)

   author_id author_name
0          1    Тургенев
1          2       Чехов
2          3  Островский


In [4]:
book = pd.DataFrame({'author_id':[1, 1, 1, 2, 2, 3, 3], 
                     'book_title':['Отцы и дети', 'Рудин', 'Дворянское гнездо', 'Толстый и тонкий', 'Дама с собачкой', 'Гроза', 'Таланты и поклонники'], 
                     'price':[450, 300, 350, 500, 450, 370, 290]}, 
                    columns=['author_id', 'book_title', 'price'])
print(book)

   author_id            book_title  price
0          1           Отцы и дети    450
1          1                 Рудин    300
2          1     Дворянское гнездо    350
3          2      Толстый и тонкий    500
4          2       Дама с собачкой    450
5          3                 Гроза    370
6          3  Таланты и поклонники    290


In [5]:
authors_price = pd.merge(authors, book, on = 'author_id', how = 'outer')
print(authors_price)

   author_id author_name            book_title  price
0          1    Тургенев           Отцы и дети    450
1          1    Тургенев                 Рудин    300
2          1    Тургенев     Дворянское гнездо    350
3          2       Чехов      Толстый и тонкий    500
4          2       Чехов       Дама с собачкой    450
5          3  Островский                 Гроза    370
6          3  Островский  Таланты и поклонники    290


In [6]:
top5 = authors_price.nlargest(5, 'price')
print(top5)

   author_id author_name         book_title  price
3          2       Чехов   Толстый и тонкий    500
0          1    Тургенев        Отцы и дети    450
4          2       Чехов    Дама с собачкой    450
5          3  Островский              Гроза    370
2          1    Тургенев  Дворянское гнездо    350


In [9]:
authors_stat = authors_price.groupby('author_name').agg({'price':['min', 'max', 'mean']})
authors_stat = authors_stat.rename(columns={'min':'min_price', 'max':'max_price', 'mean':'mean_price'})
print(authors_stat)

                price                      
            min_price max_price  mean_price
author_name                                
Островский        290       370  330.000000
Тургенев          300       450  366.666667
Чехов             450       500  475.000000


In [14]:
authors_price['cover'] = ['твердая', 'мягкая', 'мягкая', 'твердая', 'твердая', 'мягкая', 'мягкая']
print(authors_price)

   author_id author_name            book_title  price    cover
0          1    Тургенев           Отцы и дети    450  твердая
1          1    Тургенев                 Рудин    300   мягкая
2          1    Тургенев     Дворянское гнездо    350   мягкая
3          2       Чехов      Толстый и тонкий    500  твердая
4          2       Чехов       Дама с собачкой    450  твердая
5          3  Островский                 Гроза    370   мягкая
6          3  Островский  Таланты и поклонники    290   мягкая


In [22]:
book_info = pd.pivot_table(authors_price, values='price', index=['author_name'], columns=['cover'], aggfunc = np.sum)
book_info['мягкая'] = book_info['мягкая'].fillna(0)
book_info['твердая'] = book_info['твердая'].fillna(0)
print(book_info)

cover        мягкая  твердая
author_name                 
Островский    660.0      0.0
Тургенев      650.0    450.0
Чехов           0.0    950.0


In [23]:
book_info.to_pickle('book_info.pkl')

In [24]:
book_info2 = pd.read_pickle('book_info.pkl')

In [25]:
book_info.equals(book_info2)

True