# “Python Data Science Handbook by Jake VanderPlas (O’Reilly). Copyright 2017 Jake VanderPlas, 978-1-491-91205-8.”

## Бібліотека NumPy (Numerical Python). Частина 2

### Операції над масивами. Транслювання (broadcasting)

Транслювання - це набір правил по застосуванню бінарних універсальних функцій (додавання, різниці, множення та інших) до масивів різного розміру.

Приклад 1. Результат додавання одновимірних масивів. Для масивів одного розміру операції виконуються поелементно.

In [None]:
a = np.arange(3)
b= np.array([5,5,5])
print(a); print(b)

In [None]:
print("a ndim: ", a.ndim)
print("b ndim: ", b.ndim) 
print("a shape: ", a.shape)
print("b shape: ", b.shape) 

In [None]:
print(a+b)
(a+b).shape

In [None]:
a = np.arange(3)
print(a+5)

Значення 5 розтягується (транслюється) в масив [5,5,5] для того, щоб відповідати формі масиву a.

РИСУНОК

Приклад 2. Результат додавання двовимірного та одновимірного масивів

In [None]:
M = np.ones((3,3))
a = np.arange(3)
print(M); print(a)

In [None]:
print("a ndim: ", a.ndim)
print("M ndim: ", M.ndim) 
print("a shape: ", a.shape)
print("M shape: ", M.shape) 

In [None]:
print(M + a)
(M + a).shape

Одновимірний масив a розтягується (транслюється) на другий вимір для того, щоб відповідати формі масиву M.

РИСУНОК

Приклад 3. Результат додавання масивів різного розміру 

In [None]:
a = np.arange(3)
b = np.arange(3)[:, np.newaxis] # перетворення одновимірного масиву в матрицю-стовбець
print(a); print(b)

In [None]:
print("a ndim: ", a.ndim)
print("b ndim: ", b.ndim) 
print("a shape: ", a.shape)
print("b shape: ", b.shape) 

In [None]:
print(a + b)
(a + b).shape

Масиви a та b розтягуються (транслюються) для приведення до двовимірної форми.

РИСУНОК

### Правила транслювання

Правило 1. Якщо розмірності двох масивів відрізняються, то форма масиву з меншою розмірністю доповнюється одиницями ліворуч.

Правило 2. Якщо форми двох масивів не збігаються в будь-якому вимірі, то масив з формою, рівною 1 в одному вимірі, розтягується до форми другого масиву в цьому ж вимірі.

Правило 3. Якщо форми двох масивів не збігаються в будь-якому вимірі і не один з вимірів не дорівнює 1, то генерується помилка.

#### Приклад 1. Транслювання одного масиву

In [None]:
a= np.arange(3)
M = np.ones((2,3))
print(a); print(M)

In [None]:
print("a ndim: ", a.ndim)
print("M ndim: ", M.ndim) 
print("a shape: ", a.shape)
print("M shape: ", M.shape) 

Згідно з правилом 1 розмірність a.ndim менше розмірності M.ndim, тому ми доповнюємо форму масиву a ліворуч одиницею

a.shape -> (1,3)

M.shape -> (2,3)

Згідно з правилом 2 форма a.shape не збігаються з формою M.shape, тому ми розтягуємо перший масив до форми другого масиву.

a.shape -> (2,3)

M.shape -> (2,3)

In [None]:
print(M + a)
(M+a).shape

#### Приклад 2. Транслювання двох масивів

In [None]:
a= np.arange(3).reshape((3,1))
b = np.arange(3)
print(a); print(b)

In [None]:
print("a ndim: ", a.ndim)
print("b ndim: ", b.ndim) 
print("a shape: ", a.shape)
print("b shape: ", b.shape) 

Згідно з правилом 1 розмірність b.ndim менше розмірності a.ndim, тому ми доповнюємо форму масиву b ліворуч одиницею

a.shape -> (3,1)

b.shape -> (1,3)

Згідно з правилом 2 форма a.shape не збігаються з формою b.shape, тому необхідно збільшувати одиниці 1 до збігу з розміром іншого масиву.

a.shape -> (3,3)

b.shape -> (3,3)

In [None]:
print(a + b)
(a + b).shape

#### Приклад 3. Два масиви несумісні

In [None]:
a = np.arange(3)
b = np.ones((3,2))
print(a); print(b)

In [None]:
print("a ndim: ", a.ndim)
print("b ndim: ", b.ndim) 
print("a shape: ", a.shape)
print("b shape: ", b.shape) 

Згідно з правилом 1 розмірність a.ndim менше розмірності b.ndim, тому ми доповнюємо форму масиву a ліворуч одиницею

a.shape -> (1,3)

b.shape -> (3,2)

Згідно з правилом 2 форма a.shape не збігаються з формою b.shape, тому необхідно збільшувати одиницю 1 до збігу з розміром іншого масиву.

a.shape -> (3,3)

b.shape -> (3,2)

In [None]:
print(a + b)

### Центрування масиву

In [None]:
X = np.random.random_sample(size=(10,3)) #масив розміром size рівномірно розподілених чисел на [0,1]
X

In [None]:
Xmean = X.mean(axis=0) # обчислення середнього значення по стовбцях
Xmean

In [None]:
X_centered = X - Xmean
X_centered

In [None]:
X_centered_mean = X_centered.mean(axis=0) # обчислення середнього значення по стовбцях
X_centered_mean

В границях машинної точності середнє значення по стовбцях дорівнює 0.

### Порівняння, маски та булева логіка 

Оператори порівняння:

In [None]:
x = np.array([1,2,3,4,5])
print("x < 3", x < 3)
print("x > 3", x > 3)
print("x <= 3", x <= 3)
print("x >= 3", x >= 3)
print("x != 3", x != 3)
print("x == 3", x == 3)

Еквівалентні універсальні функції:

In [None]:
x = np.array([1,2,3,4,5])
print("x < 3", np.less(x, 3))
print("x > 3", np.greater(x, 3))
print("x <= 3", np.less_equal(x, 3))
print("x >= 3", np.greater_equal(x, 3))
print("x != 3", np.not_equal(x, 3))
print("x == 3", np.equal(x, 3))

Універсальні функції працюють з масивами будь-якого розміру

In [None]:
np.random.seed(0)  # початкове значення для генерації одних і тих самих даних
x = np.random.randint(10, size =(3,4))
print(x)

In [None]:
print(np.less(x, 6))

### Робота з булевими масивами

In [None]:
np.count_nonzero(x < 6) #кількість елементів масиву менше 6

In [None]:
np.sum(x < 6) #кількість елементів масиву менше 6

In [None]:
np.sum(x < 6, axis=1) #кількість елементів менше 6 в кожному рядку

In [None]:
np.any(x > 8) #чи є значення, що перевищують 8?

In [None]:
np.any(x < 0) #чи є значення менше 0?

In [None]:
np.all( x < 10) #чи всі значення менше 10?

In [None]:
np.all( x < 8, axis=1) #чи всі значення менше 8 в кожному рядку?

### Булеві масиви як маски 

Для вибору значень масиву, які задовольняють певній умові, застосовують операцію маскування (masking).

In [None]:
x[x < 5] #або x[np.less(x, 5)]

In [None]:
x[x > 5] #або x[np.greater(x, 5)]

In [None]:
x[x <= 5] #або x[np.less_equal(x, 5)]

In [None]:
x[x >= 5] #або x[np.greater_equal(x, 5)]

In [None]:
x[x != 5] #або x[np.not_equal(x, 5)]

In [None]:
x[x == 5] #або x[np.equal(x, 5)]

### Приклад. Статистика опадів в Сіетлі з 1 січня по 31 грудня 2014 року

In [None]:
import numpy as np
import pandas as pd
rainfall = pd.read_csv('Seattle2014.txt')
rainfall

In [None]:
rainfall = np.array(rainfall['PRCP']) # кількість опадів в мм
print(rainfall)

In [None]:
inches = rainfall/254.0
print(inches)
inches.shape

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt 
import seaborn; seaborn.set()

In [None]:
plt.hist(inches,40)
plt.title('Histogram of 2014 rainfall in Seattle')
plt.xlabel('rainfall (inches)')
plt.ylabel('number')

Кількість опадів в більшості днів в 2014 році близька до нуля. 
Гістограма не відображає інформацію щодо кількості днів без опадів, кількості днів з опадами, 
кількості днів з товщиною слою опадів більше 0.5 дюймів, кількості днів з товщиною слою опадів менше 0.2 дюймів.
Застосуємо оператори порівняння, маски та булеві логічні оператори для відповіді на ці питання.

In [None]:
print("Number days without rain: ", np.sum(inches == 0))
print("Number days with rain: ", np.sum(inches != 0))
print("Days with more than 0.5 inches: ", np.sum(inches > 0.5))
print("Rainy days with < 0.2 inches: ", np.sum((inches > 0) & (inches < 0.2)))
print("Rainy days with < 0.2 inches: ", np.sum(~((inches <= 0)|(inches >= 0.2))))

In [None]:
rainy = (inches > 0)  # маска для всіх днів з опадами
summer = (np.arange(365) - 172 < 90) & (np.arange(365) - 172 > 0)  # маска для всіх літніх днів
# 21 червня - 172ий день

In [None]:
#print(rainy)
#print(summer)

In [None]:
print("Median precip on rainy days in 2014 (inches): ", np.median(inches[rainy]))
print("Median precip on summer days in 2014 (inches): ", np.median(inches[summer]))
print("Maximum precip on summer days in 2014 (inches): ", np.max(inches[summer]))
print("Median precip on non-summer rainy days in 2014 (inches): ", np.median(inches[rainy & ~summer]))