## Вычисления с помощью Numpy

In [153]:
import numpy as np

In [154]:
a = np.array([[1, 2, 3, 3, 1],[6, 8, 11, 10, 7]])
a = a.T

In [155]:
a

array([[ 1,  6],
       [ 2,  8],
       [ 3, 11],
       [ 3, 10],
       [ 1,  7]])

In [156]:
mean_a = a.mean(axis=0)

In [158]:
mean_a

array([2. , 8.4])

In [159]:
a_centered = np.array([a[i]-mean_a for i in range(0,len(a))])

In [160]:
a_centered

array([[-1. , -2.4],
       [ 0. , -0.4],
       [ 1. ,  2.6],
       [ 1. ,  1.6],
       [-1. , -1.4]])

In [161]:
a_centered_sp = np.dot(a_centered[:,0],a_centered[:,1])

In [162]:
a_centered_sp = a_centered_sp/(len(a)-1) #ковариациия двух признаков

In [163]:
a_centered_sp

2.0

In [164]:
np.cov(a.T)[0,1]

2.0

## Работа с данными в Pandas

In [165]:
import pandas as pd

In [166]:
authors=pd.DataFrame({
    "author_id": pd.Series([1, 2, 3]),
    "author_name": pd.Series(['Тургенев', 'Чехов', 'Островский']),
})

In [167]:
book=pd.DataFrame({
    "author_id": pd.Series([1, 1, 1, 2, 2, 3, 3]),
    "book_title": pd.Series(['Отцы и дети', 'Рудин', 'Дворянское гнездо', 'Толстый и тонкий', 'Дама с собачкой', 'Гроза', 'Таланты и поклонники']),
    "price" : pd.Series([450, 300, 350, 500, 450, 370, 290])
})

In [168]:
book

Unnamed: 0,author_id,book_title,price
0,1,Отцы и дети,450
1,1,Рудин,300
2,1,Дворянское гнездо,350
3,2,Толстый и тонкий,500
4,2,Дама с собачкой,450
5,3,Гроза,370
6,3,Таланты и поклонники,290


In [169]:
authors_price = pd.merge(authors,book, on="author_id")

In [170]:
authors_price

Unnamed: 0,author_id,author_name,book_title,price
0,1,Тургенев,Отцы и дети,450
1,1,Тургенев,Рудин,300
2,1,Тургенев,Дворянское гнездо,350
3,2,Чехов,Толстый и тонкий,500
4,2,Чехов,Дама с собачкой,450
5,3,Островский,Гроза,370
6,3,Островский,Таланты и поклонники,290


In [171]:
top5 = authors_price.sort_values(['price'],ascending=False)[:5]

In [172]:
top5

Unnamed: 0,author_id,author_name,book_title,price
3,2,Чехов,Толстый и тонкий,500
0,1,Тургенев,Отцы и дети,450
4,2,Чехов,Дама с собачкой,450
5,3,Островский,Гроза,370
2,1,Тургенев,Дворянское гнездо,350


In [173]:
authors_stat = pd.pivot_table(authors_price, values='price', 
                                index=['author_name'],
                                aggfunc=[np.min, np.max, np.mean])

In [174]:
authors_stat 

Unnamed: 0_level_0,amin,amax,mean
Unnamed: 0_level_1,price,price,price
author_name,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Островский,290,370,330.0
Тургенев,300,450,366.666667
Чехов,450,500,475.0


In [175]:
authors_price['cover'] = ['твердая', 'мягкая', 'мягкая', 'твердая', 'твердая', 'мягкая', 'мягкая']

In [176]:
authors_price

Unnamed: 0,author_id,author_name,book_title,price,cover
0,1,Тургенев,Отцы и дети,450,твердая
1,1,Тургенев,Рудин,300,мягкая
2,1,Тургенев,Дворянское гнездо,350,мягкая
3,2,Чехов,Толстый и тонкий,500,твердая
4,2,Чехов,Дама с собачкой,450,твердая
5,3,Островский,Гроза,370,мягкая
6,3,Островский,Таланты и поклонники,290,мягкая


In [177]:
?pd.pivot_table

In [178]:
book_info = pd.pivot_table(authors_price,values='price',index=['author_name'],columns=['cover'],aggfunc='sum', fill_value=0)

In [179]:
book_info

cover,мягкая,твердая
author_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Островский,660,0
Тургенев,650,450
Чехов,0,950


In [180]:
book_info.to_pickle("./book_info.pkl")  

In [181]:
book_info2 = pd.read_pickle("./book_info.pkl")  
book_info2

cover,мягкая,твердая
author_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Островский,660,0
Тургенев,650,450
Чехов,0,950
