### Numpy

In [3]:
import numpy as np

In [5]:
arr = np.array([[1, 2, 3, 3, 1], [6, 8, 11, 10, 7]])
arr

array([[ 1,  2,  3,  3,  1],
       [ 6,  8, 11, 10,  7]])

In [26]:
mean_a = np.array([np.mean(arr_i) for arr_i in arr])
mean_a

array([2. , 8.4])

In [17]:
mean_a.reshape(2,1)
centered_a = arr - mean_a
centered_a

array([[-1. ,  0. ,  1. ,  1. , -1. ],
       [-2.4, -0.4,  2.6,  1.6, -1.4]])

In [25]:
a_centered_sp = centered_a[0].dot(centered_a[1]) / (len(centered_a[0]) - 1)
a_centered_sp

2.0

In [24]:
check_cov = np.cov(centered_a[0], centered_a[1])[0, 1]
check_cov

2.0

### Pandas

In [27]:
import pandas as pd

In [29]:
authors = pd.DataFrame({
    'author_id': [1, 2, 3], 
    'author_name': ['Тургенев', 'Чехов', 'Островский']
})
authors

Unnamed: 0,author_id,author_name
0,1,Тургенев
1,2,Чехов
2,3,Островский


In [32]:
books = pd.DataFrame({
    'author_id': [1, 1, 1, 2, 2, 3, 3], 
    'book_title': ['Отцы и дети', 'Рудин', 'Дворянское гнездо', 'Толстый и тонкий', 'Дама с собачкой', 'Гроза', 'Таланты и поклонники'],
    'price': [450, 300, 350, 500, 450, 370, 290]
})
books

Unnamed: 0,author_id,book_title,price
0,1,Отцы и дети,450
1,1,Рудин,300
2,1,Дворянское гнездо,350
3,2,Толстый и тонкий,500
4,2,Дама с собачкой,450
5,3,Гроза,370
6,3,Таланты и поклонники,290


In [33]:
authors_price = pd.merge(authors, books, on='author_id', how='left')
authors_price

Unnamed: 0,author_id,author_name,book_title,price
0,1,Тургенев,Отцы и дети,450
1,1,Тургенев,Рудин,300
2,1,Тургенев,Дворянское гнездо,350
3,2,Чехов,Толстый и тонкий,500
4,2,Чехов,Дама с собачкой,450
5,3,Островский,Гроза,370
6,3,Островский,Таланты и поклонники,290


In [37]:
top5 = authors_price.nlargest(5, 'price')
top5

Unnamed: 0,author_id,author_name,book_title,price
3,2,Чехов,Толстый и тонкий,500
0,1,Тургенев,Отцы и дети,450
4,2,Чехов,Дама с собачкой,450
5,3,Островский,Гроза,370
2,1,Тургенев,Дворянское гнездо,350


In [63]:
author_names = authors_price['author_name'].unique()
min_prices = np.empty((0, 1))
max_prices = np.empty((0, 1))
mean_prices = np.empty((0, 1))

for author_name in author_names:
    df_author = authors_price[authors_price['author_name'] == author_name]['price']
    min_prices = np.append(min_prices, df_author.min())
    max_prices = np.append(max_prices, df_author.max())
    mean_prices = np.append(mean_prices, df_author.mean())
    
authors_stat = pd.DataFrame({
    'author_name': author_names, 
    'min_price': min_prices,
    'max_price': max_prices,
    'mean_price': mean_prices
})
authors_stat

Unnamed: 0,author_name,min_price,max_price,mean_price
0,Тургенев,300.0,450.0,366.666667
1,Чехов,450.0,500.0,475.0
2,Островский,290.0,370.0,330.0


In [64]:
authors_price['cover'] = ['твердая', 'мягкая', 'мягкая', 'твердая', 'твердая', 'мягкая', 'мягкая']
authors_price

Unnamed: 0,author_id,author_name,book_title,price,cover
0,1,Тургенев,Отцы и дети,450,твердая
1,1,Тургенев,Рудин,300,мягкая
2,1,Тургенев,Дворянское гнездо,350,мягкая
3,2,Чехов,Толстый и тонкий,500,твердая
4,2,Чехов,Дама с собачкой,450,твердая
5,3,Островский,Гроза,370,мягкая
6,3,Островский,Таланты и поклонники,290,мягкая


In [70]:
book_info = pd.pivot_table(authors_price, values='price', index=['author_name', 'cover'], aggfunc=np.sum, fill_value=0, margins=True, dropna=False)
book_info

Unnamed: 0_level_0,Unnamed: 1_level_0,price
author_name,cover,Unnamed: 2_level_1
Островский,мягкая,660
Островский,твердая,0
Тургенев,мягкая,650
Тургенев,твердая,450
Чехов,мягкая,0
Чехов,твердая,950
All,,2710


In [71]:
book_info.to_pickle('book_info.pkl')
book_info2 = pd.read_pickle('book_info.pkl')
book_info2

Unnamed: 0_level_0,Unnamed: 1_level_0,price
author_name,cover,Unnamed: 2_level_1
Островский,мягкая,660
Островский,твердая,0
Тургенев,мягкая,650
Тургенев,твердая,450
Чехов,мягкая,0
Чехов,твердая,950
All,,2710
