# Семинар 2

## numpy

- документация: http://www.numpy.org/

Библиотека numpy является удобным инструментом для работы с многомерными массивами с возможностью векторизации вычислений. Рассмотрим базовые вещи, которые можно делать с помощью нее.

In [2]:
import numpy as np

In [118]:
vec = np.array([[1, 2], [3, 4], [5, 6]])

In [65]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [66]:
print(vec)

[[1 2]
 [3 4]
 [5 6]]


С чем мы работаем?

In [119]:
vec.dtype

dtype('int32')

In [68]:
type(vec)

numpy.ndarray

Размер массива:

In [8]:
vec.shape

(3, 2)

Число осей:

In [9]:
vec.ndim

2

У некоторых функций бывает параметр `axis`, который позволяет применить эту функцию по разным осям - в данном случае, по строкам или столбцам:

In [10]:
np.sum(vec)

21

In [11]:
np.sum(vec, axis=0)

array([ 9, 12])

In [12]:
np.sum(vec, axis=1)

array([ 3,  7, 11])

In [13]:
vec.sum()

21

Транспонируем массив:

In [14]:
vec.T

array([[1, 3, 5],
       [2, 4, 6]])

In [15]:
vec.transpose()

array([[1, 3, 5],
       [2, 4, 6]])

Обратите внимание, что переменная `vec` не поменялась!

In [69]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

Размеры массивов можно менять:

In [17]:
vec.reshape(2, 3)

array([[1, 2, 3],
       [4, 5, 6]])

In [18]:
vec.reshape(-1, 3)

array([[1, 2, 3],
       [4, 5, 6]])

In [75]:
vec.reshape(1, -1)
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

Индексирование:

In [78]:
vec[:, 1]

array([2, 4, 6])

In [81]:
vec[2, :]

array([5, 6])

In [88]:
vec[1:2, 0]

array([3])

In [93]:
vec[::2, :]

array([[1, 2],
       [5, 6]])

Булевы массивы:

In [98]:
is_even = vec % 2 == 0
print(is_even)

[[False  True]
 [False  True]
 [False  True]]


In [36]:
np.sum(is_even)

3

Булевы массивы позволяют вытаскивать элементы с True из массива того-же размера

In [99]:
vec[vec % 2 == 0]

array([2, 4, 6])

Иногда бывает полезно создавать специфичные массивы. Массив из нулей:

In [101]:
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

Массив из единиц:

In [39]:
np.ones((3, 2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

Единичная матрица:

In [102]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

Массивы можно объединять:

In [170]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [171]:
np.hstack((vec, np.zeros(vec.shape)))

array([[1., 2., 0., 0.],
       [3., 4., 0., 0.],
       [5., 6., 0., 0.]])

In [172]:
np.vstack((vec, np.zeros(vec.shape)))

array([[1., 2.],
       [3., 4.],
       [5., 6.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

И, наконец - арифметические операции!

In [173]:
vec + 1

array([[2, 3],
       [4, 5],
       [6, 7]])

In [104]:
vec * 2

array([[ 2,  4],
       [ 6,  8],
       [10, 12]])

In [112]:
vec ** 2

array([[ 1.,  4.],
       [ 9., 16.],
       [25., 36.]])

In [48]:
vec + vec ** 2

array([[ 2,  6],
       [12, 20],
       [30, 42]])

In [108]:
vec * vec ** 3

array([[   1,   16],
       [  81,  256],
       [ 625, 1296]])

In [50]:
np.sin(vec)

array([[ 0.84147098,  0.90929743],
       [ 0.14112001, -0.7568025 ],
       [-0.95892427, -0.2794155 ]])

Матричное умножение:

In [174]:
vec.dot(vec)

ValueError: ignored

In [175]:
vec.dot(vec.T)

array([[ 5, 11, 17],
       [11, 25, 39],
       [17, 39, 61]])

In [121]:
vec.dot((vec ** 2).T)

array([[  9,  41,  97],
       [ 19,  91, 219],
       [ 29, 141, 341]])

In [55]:
vec @ (vec ** 2).T

array([[  9,  41,  97],
       [ 19,  91, 219],
       [ 29, 141, 341]])

Broadcasting:
https://docs.scipy.org/doc/numpy-1.15.0/user/basics.broadcasting.html

In [56]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [127]:
np.arange(3).reshape(3, 1)

array([[0],
       [1],
       [2]])

In [58]:
vec + np.arange(3).reshape(3, 1)

array([[1, 2],
       [4, 5],
       [7, 8]])

Генерация случайных чисел:

In [128]:
np.random.rand(2, 3)

array([[0.00422451, 0.39796618, 0.17185922],
       [0.96079367, 0.529853  , 0.30382593]])

In [135]:
np.random.seed(2018)
np.random.rand(2, 3)

array([[0.88234931, 0.10432774, 0.90700933],
       [0.3063989 , 0.44640887, 0.58998539]])

In [140]:
np.random.seed(2018)
np.random.rand(2, 3)

array([[0.88234931, 0.10432774, 0.90700933],
       [0.3063989 , 0.44640887, 0.58998539]])

In [130]:
np.random.randn(3, 2)

array([[ 0.57376143,  0.28772767],
       [-0.23563426,  0.95349024],
       [-1.6896253 , -0.34494271]])

In [141]:
np.random.normal(2, 1, size=3)

array([2.50227689, 2.8560293 , 1.85720992])

In [142]:
np.random.randint(5, 10, size=3)

array([6, 5, 7])

Почему вообще используют `numpy`?

In [143]:
n = 300
A = np.random.rand(n, n)
B = np.random.rand(n, n)

In [148]:
%%time
C = np.zeros((n, n))
for i in range(n):
    for j in range(n):
        for k in range(n):
            C[i, j] += A[i, k] * B[k, j]

Wall time: 40.2 s


In [176]:
%%time
C = A @ B

Wall time: 2 ms


In [None]:
from collections import defaultdict
def checkhash(sequence, f, m):
    d = defaultdict(lambda: 0)
    for elem in sequence:
        d[f(elem) % m] += 1
    return min(d.values()), max(d.values())

a = (1, 2, 3, 3)
b = frozenset(a)
hash(a)

In [177]:
import sys
a = [1, 2, 3]
b = a
sys.getrefcount(a)
del a
sys.getrefcount(b)
b

In [None]:
import sys

foo = []

print(sys.getrefcount(foo))

def bar(a):
    print(sys.getrefcount(a))

bar(foo)
print(sys.getrefcount(foo))

In [None]:
import gc
import ctypes

# We use ctypes moule  to access our unreachable objects by memory address.
class PyObject(ctypes.Structure):
    _fields_ = [("refcnt", ctypes.c_long)]


gc.disable()

lst = [1, 2, 3]
lst.append(lst)

lst_address = id(lst)

del lst

object_1 = {}
object_2 = {}
object_1['obj2'] = object_2
object_2['obj1'] = object_1

obj_address = id(object_1)

del object_1, object_2

gc.collect()

# Check the reference count
print(PyObject.from_address(obj_address).refcnt)
print(PyObject.from_address(lst_address).refcnt)

https://storage.googleapis.com/coderzcolumn/static/blogs/python/mark-and-sweep.gif

In [None]:
import weakref
import gc

class MyObject(object):
    def my_method(self):
        print('my_method was called!')

obj = MyObject()
r = weakref.ref(obj)
print(sys.getrefcount(obj))

gc.collect()
assert r() is obj

obj = 1
gc.collect()
assert r() is None

In [None]:
from threading import Thread

In [None]:
def countdown(n):
    while n > 0:
        n -= 1

In [None]:
count = 50000000

In [None]:
import time

In [None]:
%%time
start = time.time()
countdown(count)
print(time.time() - start)

In [None]:
  %%time
t1 = Thread(target=countdown, args=(count//2,))
t2 = Thread(target=countdown, args=(count//2,))
start = time.time()
t1.start()
t2.start()
t1.join()
t2.join()
print(time.time() - start)