In [1]:
import numpy as np

In [2]:
at = np.array([[1, 2, 3, 3, 1],
            [6, 8, 11, 10, 7]])

In [3]:
a = at.transpose()
a

array([[ 1,  6],
       [ 2,  8],
       [ 3, 11],
       [ 3, 10],
       [ 1,  7]])

In [4]:
mean_a = np.mean(a, 0)
mean_a

array([2. , 8.4])

In [5]:
a_centered = a - mean_a
a_centered

array([[-1. , -2.4],
       [ 0. , -0.4],
       [ 1. ,  2.6],
       [ 1. ,  1.6],
       [-1. , -1.4]])

In [6]:
a1 = a_centered[:,0]
a2 = a_centered[:,1]
a_centered_sp = np.dot(a1,a2)
a_centered_sp

8.0

In [7]:
N = a.shape[0]

In [8]:
a_cov = a_centered_sp / (N - 1)
a_cov

2.0

In [9]:
np.cov(a.transpose())

array([[1. , 2. ],
       [2. , 4.3]])

In [10]:
import pandas as pd

In [11]:
authors = pd.DataFrame({'author_id': [1, 2, 3], 'author_name': ['Тургенев', 'Чехов', 'Островский']},
                      columns = ['author_id', 'author_name'])
authors

Unnamed: 0,author_id,author_name
0,1,Тургенев
1,2,Чехов
2,3,Островский


In [12]:
books = pd.DataFrame({'author_id': [1, 1, 1, 2, 2, 3, 3], 
                      'book_title': ['Отцы и дети', 'Рудин', 'Дворянское гнездо', 'Толстый и тонкий','Дама с собачкой', 'Гроза', 'Таланты и поклонники'],
                     'price': [450, 500, 870, 740, 420, 600, 520]},
                     columns = ['author_id', 'book_title', 'price'])
books

Unnamed: 0,author_id,book_title,price
0,1,Отцы и дети,450
1,1,Рудин,500
2,1,Дворянское гнездо,870
3,2,Толстый и тонкий,740
4,2,Дама с собачкой,420
5,3,Гроза,600
6,3,Таланты и поклонники,520


In [13]:
author_price = pd.merge(authors, books, on = 'author_id', how = 'outer')
author_price

Unnamed: 0,author_id,author_name,book_title,price
0,1,Тургенев,Отцы и дети,450
1,1,Тургенев,Рудин,500
2,1,Тургенев,Дворянское гнездо,870
3,2,Чехов,Толстый и тонкий,740
4,2,Чехов,Дама с собачкой,420
5,3,Островский,Гроза,600
6,3,Островский,Таланты и поклонники,520


In [14]:
top5 = author_price.nlargest(5,'price')
top5

Unnamed: 0,author_id,author_name,book_title,price
2,1,Тургенев,Дворянское гнездо,870
3,2,Чехов,Толстый и тонкий,740
5,3,Островский,Гроза,600
6,3,Островский,Таланты и поклонники,520
1,1,Тургенев,Рудин,500


In [15]:
authors_stat = pd.concat([author_price.groupby('author_name').agg({'price': 'max'}).rename(columns = {'price': 'max_price'}),
                         author_price.groupby('author_name').agg({'price': 'min'}).rename(columns = {'price': 'min_price'}),
                         author_price.groupby('author_name').agg({'price': 'mean'}).rename(columns = {'price': 'mean_price'})],
                         axis = 1)
authors_stat

Unnamed: 0_level_0,max_price,min_price,mean_price
author_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Островский,600,520,560.0
Тургенев,870,450,606.666667
Чехов,740,420,580.0


In [16]:
cover = pd.DataFrame({'cover':['твердая', 'мягкая','мягкая','твердая','твердая','мягкая','мягкая']}, columns = ['cover'])
author_cover = pd.concat([author_price, cover], axis = 1)
author_cover

Unnamed: 0,author_id,author_name,book_title,price,cover
0,1,Тургенев,Отцы и дети,450,твердая
1,1,Тургенев,Рудин,500,мягкая
2,1,Тургенев,Дворянское гнездо,870,мягкая
3,2,Чехов,Толстый и тонкий,740,твердая
4,2,Чехов,Дама с собачкой,420,твердая
5,3,Островский,Гроза,600,мягкая
6,3,Островский,Таланты и поклонники,520,мягкая


In [17]:
?pd.pivot_table

In [18]:
book_info = pd.pivot_table(author_cover, values = 'price', index = ['author_name'], 
                           columns = ['cover'], aggfunc = np.sum, fill_value=0)
book_info

cover,мягкая,твердая
author_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Островский,1120,0
Тургенев,1370,450
Чехов,0,1160


In [19]:
book_info.to_pickle('book_info.pkl')

In [20]:
book_info1 = pd.read_pickle('book_info.pkl')

In [21]:
book_info = book_info1