# NumPy

In [2]:
import numpy as np

In [3]:
np.__version__

'1.16.5'

## Массивы

In [4]:
a = np.array([1, 4, 5, 8], float) #создание массива
print(a)

[1. 4. 5. 8.]


In [5]:
type(a)

numpy.ndarray

In [6]:
#действия с массивами аналогичны действия с обычными списками

In [7]:
a[:2]

array([1., 4.])

In [8]:
a[3]

8.0

In [9]:
a[:-3:2]

array([1.])

In [10]:
a[0] = 10. #присвоение значение элементу массива

In [11]:
a

array([10.,  4.,  5.,  8.])

In [12]:
a = np.array([[1, 2, 3], [4, 5, 6]], float) #массивы могут быть многомерными

In [13]:
a[1,0]

4.0

In [14]:
a[:-1,:-1]

array([[1., 2.]])

In [15]:
a[:2, :2]

array([[1., 2.],
       [4., 5.]])

In [16]:
# У каждого n-мерного массива есть форма. 
# Например, форма матрицы (двумерного массива) из 3 строк и 5 колонок
# — это (3, 5), 
# форма вектора (вертикального массива) из 10 элементов — это (10, 1).

In [17]:
a.shape

(2, 3)

In [18]:
a = np.array([[1, 2, 3], [4, 5, 6]], float) #массивы могут быть многомерными

In [19]:
a = np.array([[1, 2], [3, 4]], float)
b = np.array([[5, 6], [7, 8]], float)
print(a + b)
print(a - b)
print(a * b)
print(a / b)

[[ 6.  8.]
 [10. 12.]]
[[-4. -4.]
 [-4. -4.]]
[[ 5. 12.]
 [21. 32.]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


## Как создать массив стандартных типов

In [20]:
# eye(N, M=N, k=0) -- двумерный массив с N строками с единицами на диагонали и нулями во всех остальных позициях.
# Число столбцов M по умолчанию равно N, k — сдвиг диагонали (0 для основной диагонали, положительные числа для верхних диагоналей и отрицательные для нижних),
# zeros(shape) -- новый массив указанной формы, заполненный нулями,
# ones(shape) -- новый массив указанной формы, заполненный единицами,
# full(shape, fill_value) -- новый массив указанной формы, заполненный fill_value.

In [21]:
print(np.eye(5, 3, k=-1))

[[0. 0. 0.]
 [1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]
 [0. 0. 0.]]


In [62]:
def f(x, y):
    return (x ** 2) + (x * y) + (y ** 2) 

a = np.fromfunction(f, (3, 4))
print(a)

[[ 0.  1.  4.  9.]
 [ 1.  3.  7. 13.]
 [ 4.  7. 12. 19.]]


## Основные методы ndarray

In [18]:
# Для работы с многомерными массивами в NumPy реализованы самые
# часто требующиеся операции. Некоторые из них 
# (которые особенно часто будут нужны в нашем курсе)мы сейчас покажем.

In [19]:
# Форма массива
# a.flatten() — превращает массив в одномерный.
# a.T или a.transpose(*axes) — транспонирование (или смена порядка осей в случае, когда размерность массива больше двух).
# a.reshape(shape) — смена формы массива. Массив "распрямляется" и построчно заполняется в новую форму.

In [75]:
import random
w = np.array(random.sample(range(1000), 12)) 
# одномерный массив из 12 случайных чисел от 1 до 1000
print(w)
w = w.reshape((2,2,3)) # превратим w в трёхмерную матрицу
print(w)
#w = w.flatten()
#print(w)

[891 820 418 225  52 995 640 857 188 120 761 863]
[[[891 820 418]
  [225  52 995]]

 [[640 857 188]
  [120 761 863]]]


In [93]:
a = np.array([[10, 6, 19], [21, 32, 5], [11, 58, 89]])

print("Минимум по всему массиву: {0}".format(a.min()))
print("Минимум по первой оси (столбцы): {0}".format(a.min(axis=0)))
print("Минимум по второй оси (строки): {0}".format(a.min(axis=1)))

Минимум по всему массиву: 5
Минимум по первой оси (столбцы): [10  6  5]
Минимум по второй оси (строки): [ 6  5 11]


In [76]:
mat = w.transpose(0,2,1)
print(mat)

[[[891 225]
  [820  52]
  [418 995]]

 [[640 120]
  [857 761]
  [188 863]]]


## Основные методы ndarray 

In [None]:
Базовые статистики

# a.min(axis=None), a.max(axis=None), a.mean(axis=None), a.std(axis=None)
# — минимум, максимум, среднее арифметическое и стандартное отклонение вдоль указанной оси. 
# По умолчанию ось не указана и статистика считается по всему массиву. 
# a.argmin(axis=None), a.argmax(axis=None)
# — индексы минимального и максимального элемента

In [24]:
v = np.array([[1, 2, 3, 4], [1, 2, 3, 4], [1, 2, 3, 4]], int)
print(v)

[[1 2 3 4]
 [1 2 3 4]
 [1 2 3 4]]


In [25]:
print(v.mean(axis=0))  # вдоль столбцов

[1. 2. 3. 4.]


In [26]:
print(v.mean(axis=1))  # вдоль строк

[2.5 2.5 2.5]


In [27]:
print(v.mean(axis=None))  # вдоль всего массива

2.5


In [28]:
#Чтобы лучше понять, почему говорят «усреднение вдоль оси» — можно нарисовать эту матрицу на бумажке
#и прямыми линиями соединить те элементы, которые сливаются в один при усреднении


## Линейная алгебра

In [None]:
# Пакет numpy.linalg содержит большую часть стандартных операций и разложений матриц. 
# Некоторые самые популярные функции вынесены в корень пакета NumPy.
# a.dot(b) — матричное произведение двух массивов (размерности должны быть согласованы),
# linalg.matrix_power(M, n) — возведение матрицы M в степень n,
# a.T — транспонирование
# linalg.norm(a, ord=None) — норма матрицы a, по умолчанию норма Фробениуса для матриц и L2-норма для векторов;
# linalg.inv(a) — матрица, обратная к a (если a необратима, выбрасывается LinAlgError; псевдообратная считается через linalg.pinv(a))

In [98]:
w = np.array([[1, 3],  [6, 8], [1, 4], [3, 1]])
a = np.array([[1, 3, 4, 5], [1, 2, 3, 5]])
dot = w.dot(a)
print(dot)

dot_4 = np.linalg.matrix_power(dot, 2)
print(dot_4)

[[ 4  9 13 20]
 [14 34 48 70]
 [ 5 11 16 25]
 [ 4 11 15 20]]
[[ 287  705  992 1435]
 [1052 2580 3632 5260]
 [ 354  870 1224 1770]
 [ 325  795 1120 1625]]


## Как считать данные из файла:


In [25]:
 sbux = np.loadtxt("sbux.csv", usecols=(0,1,4), skiprows=1, delimiter=",", 
                      dtype={'names': ('date', 'open', 'close'),
                             'formats': ('datetime64[D]', 'f4', 'f4')})

In [26]:
print(sbux[0:4])

[('2012-09-12', 50.99, 51.17) ('2012-09-11', 51.  , 50.73)
 ('2012-09-10', 51.18, 50.83) ('2012-09-07', 50.97, 51.17)]


In [None]:
Здесь использованы не все параметры функции loadtxt (полный их список можно посмотреть в справке).
Разберём имеющиеся, так как они являются наиболее часто встречающимися.
"sbux.csv" — имя файла (или сюда же можно передать объект файла, 
                        такой пример вы увидите в следующей задаче урока), из которого считываются данные.
usecols — список колонок, которые нужно использовать. Если параметр не указан, считываются все колонки.
skiprows — количество рядов в начале файла, которые нужно пропустить. В нашем случае пропущен ряд заголовков. 
По умолчанию (если значение параметра не указано явно) skiprows = 0.
delimiter — разделитель столбцов в одной строке, в csv-файлах это запятая,
по умолчанию разделителем является любой пробел (в том числе — знак табуляции).
dtype — словарь из названий колонок (переменных) и типов хранящихся в них значений. 
NumPy использует свою собственную систему типов, и названия именно этих типов нужно указать. 
По умолчанию функция попытается самостоятельно угадать, какому типу принадлежат подаваемые на вход значения.