In [30]:
import numpy as np
import pandas as pd

## Вычисления с помощью Numpy

### Задание 1

In [7]:
# Создадим массив с двумя столбцами признаков
a = np.array([[1,6], [2, 8], [3, 11], [3, 10], [1, 7]])
a

array([[ 1,  6],
       [ 2,  8],
       [ 3, 11],
       [ 3, 10],
       [ 1,  7]])

In [11]:
# вычислим среднее по столбцам с признаками
mean_a = np.array([np.mean(a[:,0]), np.mean(a[:, 1])])
mean_a

array([2. , 8.4])

### Задание 2

In [12]:
# Посмотрим расхождение признаков относительно среднего, вычтем среднее по столбцам
a_centered = a - mean_a
a_centered

array([[-1. , -2.4],
       [ 0. , -0.4],
       [ 1. ,  2.6],
       [ 1. ,  1.6],
       [-1. , -1.4]])

### Задание 3

In [26]:
# Вычисляем скалярное произведение столбцов
a_centered_sp = np.dot(a_centered[:,0], a_centered[:,1])

# Делим на кол-во признаков, N - 1, получим ковариацию признаков
a_cov = a_centered_sp/(a.shape[0]-1)
a_cov

2.0

### Задание 4

In [27]:
# Найдё ковариацию признаков с помощью функции и сравни результаты
cov = np.cov(a.T)
cov

array([[1. , 2. ],
       [2. , 4.3]])

In [28]:
a_cov == cov[0, 1]

True

## Работа с данными Pandas

### Задание 1

In [36]:
authors = pd.DataFrame({'author_id': [1, 2, 3],
                       'author_name': ['Тургенев', 'Чехов', 'Островский']})

In [53]:
books = pd.DataFrame({'author_id': [1, 1, 1, 2, 2, 3, 3],
                    'book_title': ['Отцы и дети', 'Рудин', 'Дворянское гнездо', 'Толстый и тонкий',\
                                   'Дама с собачкой','Гроза', 'Таланты и поклонники'],
                                   'price': [500, 400, 300, 350, 450, 600, 200]})

### Задание 2

In [94]:
# Объединим датафреймы по столбцу автора
authors_price = pd.merge(authors, books, on='author_id', how='outer')
authors_price

Unnamed: 0,author_id,author_name,book_title,price
0,1,Тургенев,Отцы и дети,500
1,1,Тургенев,Рудин,400
2,1,Тургенев,Дворянское гнездо,300
3,2,Чехов,Толстый и тонкий,350
4,2,Чехов,Дама с собачкой,450
5,3,Островский,Гроза,600
6,3,Островский,Таланты и поклонники,200


### Задание 3

In [66]:
# Создадим dataframe с авторами с самыми дорогими книгами
top5 = authors_price.sort_values(by='price', ascending=False).head(5)
top5

Unnamed: 0,author_id,author_name,book_title,price
5,3,Островский,Гроза,600
0,1,Тургенев,Отцы и дети,500
4,2,Чехов,Дама с собачкой,450
1,1,Тургенев,Рудин,400
3,2,Чехов,Толстый и тонкий,350


### Задание 4

In [79]:
# Создадим датафрейм authors_stat на основе информации из authors_price со столбцами: min_price, max_price и mean_price
author_stat = authors_price.groupby('author_name')
author_stat.agg(min_price=pd.NamedAgg(column='price', aggfunc='min'),
                max_price=pd.NamedAgg(column='price', aggfunc='max'),
               mean_price=pd.NamedAgg(column='price', aggfunc='mean'))

Unnamed: 0_level_0,min_price,max_price,mean_price
author_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Островский,200,600,400.0
Тургенев,300,500,400.0
Чехов,350,450,400.0


### Задание 5

In [80]:
# добавим столбец с обложкой
authors_price['cover'] = ['твердая', 'мягкая', 'мягкая', 'твердая', 'твердая', 'мягкая', 'мягкая']
authors_price

Unnamed: 0,author_id,author_name,book_title,price,cover
0,1,Тургенев,Отцы и дети,500,твердая
1,1,Тургенев,Рудин,400,мягкая
2,1,Тургенев,Дворянское гнездо,300,мягкая
3,2,Чехов,Толстый и тонкий,350,твердая
4,2,Чехов,Дама с собачкой,450,твердая
5,3,Островский,Гроза,600,мягкая
6,3,Островский,Таланты и поклонники,200,мягкая


In [81]:
# ?pd.pivot_table

In [85]:
# Для каждого автора посчитаем суммарную стоимость книг в твердой и мягкой обложке
book_info = pd.pivot_table(authors_price, values='price', index='author_name', columns='cover', aggfunc='sum', fill_value=0)
book_info

cover,мягкая,твердая
author_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Островский,800,0
Тургенев,700,500
Чехов,0,800


In [89]:
# сохраним в файл
book_info.to_pickle('book_info.pkl')

In [93]:
# выгрузим датафрейм и сравним с исходным
book_info2 = pd.read_pickle('book_info.pkl')
book_info2.equals(book_info)

True