In [1]:
import numpy as np
import pandas as pd

---

# Базовый Numpy

### Базовые операции

In [2]:
# В нампай и пандас работа ведется с векторами

x = np.array([1, 2, 3, 4, 5])
y = np.array([-2, 0, 10, 100, 4])

In [3]:
# Все операции поэлементные


x + y

array([ -1,   2,  13, 104,   9])

In [4]:
x * y

array([ -2,   0,  30, 400,  20])

In [6]:
x - y

array([  3,   2,  -7, -96,   1])

In [7]:
x - 3

array([-2, -1,  0,  1,  2])

In [9]:
# Эквивалентно предыдущей записи
# На самом деле, нампай, когда вы делаете операции
# Numpy.Array и какая-то константа - numpy неявно приводит эту константу к массиву такой же размерности
# Состоящим из этой константы:

x - np.array([3] * x.size)

array([-2, -1,  0,  1,  2])

---

### Прикольные операции с матрицами:

In [10]:
A = np.array([
    [1, 2, 3, 4, 5],
    [5, 6, 7, 8, 9],
    [10, 11, 12, 13, 14],
])

In [11]:
A

array([[ 1,  2,  3,  4,  5],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [19]:
A.shape # Размерность

(3, 5)

In [13]:
A.flatten() # равзернули матрицу в вектор

array([ 1,  2,  3,  4,  5,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [15]:
# Матрицы тоже Numpy.Array и тоже поддерживают поэлементные векторные операции

A + A

array([[ 2,  4,  6,  8, 10],
       [10, 12, 14, 16, 18],
       [20, 22, 24, 26, 28]])

In [17]:
A * 5

array([[ 5, 10, 15, 20, 25],
       [25, 30, 35, 40, 45],
       [50, 55, 60, 65, 70]])

---

In [21]:
A.diagonal(0) # Можно извлекать диагональ из матрицы

array([ 1,  6, 12])

In [22]:
# Можно матрицы склеивать по вертикали

np.vstack((
    A,
    A + 10
))

array([[ 1,  2,  3,  4,  5],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [11, 12, 13, 14, 15],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [23]:
# Можно матрицы склеивать по горизонтали

np.hstack((
    A,
    A + 10
))

array([[ 1,  2,  3,  4,  5, 11, 12, 13, 14, 15],
       [ 5,  6,  7,  8,  9, 15, 16, 17, 18, 19],
       [10, 11, 12, 13, 14, 20, 21, 22, 23, 24]])

---

In [29]:
# Создать матрицу определенной размерности из около-нулевых элементов


tmp = np.empty(A.shape)
tmp

array([[5.43e-323, 5.93e-323, 6.42e-323, 6.92e-323, 7.41e-323],
       [7.41e-323, 7.91e-323, 8.40e-323, 8.89e-323, 9.39e-323],
       [9.88e-323, 1.04e-322, 1.09e-322, 1.14e-322, 1.19e-322]])

In [30]:
# Заполнить всю матрицу каким-то значением

tmp.fill(5)

In [31]:
tmp

array([[5., 5., 5., 5., 5.],
       [5., 5., 5., 5., 5.],
       [5., 5., 5., 5., 5.]])

### Broadcasting Numpy

In [24]:
A

array([[ 1,  2,  3,  4,  5],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

array([[5.43e-323, 5.93e-323, 6.42e-323, 6.92e-323, 7.41e-323],
       [7.41e-323, 7.91e-323, 8.40e-323, 8.89e-323, 9.39e-323],
       [9.88e-323, 1.04e-322, 1.09e-322, 1.14e-322, 1.19e-322]])

In [42]:
# Две эквивалентные операции:


print(
    A + 3.0, # Вот тут неявно происходит тоже, что и ниже
    end='\n---\n'
)

# ------
tmp = np.empty(A.shape)
tmp.fill(3.0)
print(
    A + tmp,
    end='\n---\n'    
)

[[ 4.  5.  6.  7.  8.]
 [ 8.  9. 10. 11. 12.]
 [13. 14. 15. 16. 17.]]
---
[[ 4.  5.  6.  7.  8.]
 [ 8.  9. 10. 11. 12.]
 [13. 14. 15. 16. 17.]]
---


In [38]:
A

array([[ 1,  2,  3,  4,  5],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [48]:
x = np.array([3, 4, 5, 6, 7])
print(np.repeat(x, 3), end='\n---\n') # Продублировали каждый элемент исходного массива 3 раза
print(np.repeat(x, 3).reshape(5, 3), end='\n---\n') # Развернули в матрицу, так чтобы каждая колонка - дубль массива
print(np.repeat(x, 3).reshape(5, 3).T, end='\n---\n') # транспонировали полученную матрицу

# По факту получили матрицу из трех одинаковых строк исходного массива (broadcast на размерность (3, 5))

[3 3 3 4 4 4 5 5 5 6 6 6 7 7 7]
---
[[3 3 3]
 [4 4 4]
 [5 5 5]
 [6 6 6]
 [7 7 7]]
---
[[3 4 5 6 7]
 [3 4 5 6 7]
 [3 4 5 6 7]]
---


In [51]:
# Аналогично бродкастятся и вектора к нужной размерности матрицы:

print(A, end='\n---\n')




print(
    A + x,
    end='\n---\n'
)

print(
    A + np.repeat(x, 3).reshape(5, 3).T # Сами забродкастили массив и получили то же самое
)

[[ 1  2  3  4  5]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
---
[[ 4  6  8 10 12]
 [ 8 10 12 14 16]
 [13 15 17 19 21]]
---
[[ 4  6  8 10 12]
 [ 8 10 12 14 16]
 [13 15 17 19 21]]


In [52]:
# Это все важно понимать, чтобы знать, что происходит когда вы делаете простые операции с добавлением
# констант к векторам/матрицам
# векторов к матрицам и тп


# Самим бродкастить - НЕ НУЖНО

---

### Индексация (очень важно)

In [53]:
A

array([[ 1,  2,  3,  4,  5],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [55]:
print(A[0], end='\n---\n') # Нулевая строчка
print(A[:, 0], end='\n---\n') # Нулевая колонка
print(A[:2], end='\n---\n') # Первые две строчки
print(A[:, :2], end='\n---\n') # Первые две колонки
print(A[:2, :2], end='\n---\n') # Левый-верхний угол (2х2) из 4х элементов

[1 2 3 4 5]
---
[ 1  5 10]
---
[[1 2 3 4 5]
 [5 6 7 8 9]]
---
[[ 1  2]
 [ 5  6]
 [10 11]]
---
[[1 2]
 [5 6]]
---


---

In [56]:
x

array([3, 4, 5, 6, 7])

In [58]:
# Можно в качестве индексов передать список индексов
# Результат - в порядке переданных индексов соответствующие индексам исходные значения

x[[0, 3, 4]] # Нулевой, Третий и Четвертый элементы x в порядке следования

array([3, 6, 7])

In [59]:
# Список индексов можно давать любого размера, произвольного характера


x[[0, 0, 0, 0, 0, 1, 4, 4, 0, 1, 2]]

array([3, 3, 3, 3, 3, 4, 7, 7, 3, 4, 5])

In [61]:
y = np.array([100, -4, 101, 13, 8, 19])

### Парные сортировки (тоже важно)

In [63]:
# Отсюда можно делать крутые хаки:


np.argsort(y) # Индексы в исходном массиве в порядке сортировки
# То есть:
# на 1ом индексе - самый маленький
# на 4ом индексе - второй по меньшинству
# на 3м индексе - третий ...
# на 5м индексе - четвертый
# на 0ом индексе - пятый ...
# на 2ой позиции в исходном массиве - самый большой элемент

array([1, 4, 3, 5, 0, 2])

In [66]:
print(y[1])
print(y[4])
print(y[3])
print(y[5])
print(y[0])
print(y[2])

# Вывели в отсортированном порядке

-4
8
13
19
100
101


In [68]:
# А можно красиво в numpy-style сделать то же самое:


sorted_idxs = np.argsort(y)
print(sorted_idxs, end='\n---\n')

print(y[sorted_idxs]) # Проиндексировали как уже умеем по отсортированным индексам и получили отсортированный массив

[1 4 3 5 0 2]
---
[ -4   8  13  19 100 101]


In [69]:
# Когда это полезно:


costs = np.array([500, 4, 300, 2, 99, 100]) # Стоимости товаров
products = np.array(['Milk', 'Molk', 'Bread', 'Bruuuh', 'TV', 'TOVU']) # Сами товары

# Причем массивы созданы так, что
# costs[i] - цена products[i]

# Хотим: найти K товаров с самой высокой стоимостью

In [72]:
K = 2 # например 2 товара

sorted_idxs = np.argsort(costs) # Получили отсортированные индексы цен
print(sorted_idxs[-K:], end='\n---\n') # Вывели два последних индекса, они соответствуют самым большим стоимостям в costs
# И они так же соответствуют, соответствующим товарам в products

# А значит:
print(products[sorted_idxs[-K:]]) # Два самых дорогих товара в порядке увеличения цены

[2 0]
---
['Bread' 'Milk']
