# NumPy

In [5]:
import numpy as np

## Массивы в NumPy

- **array(object)** - n-мерный массив из любой (возможно, вложенной) последовательности
- **eye(N, M=N, k=0)** - двумерный массив с N строками с единицами на диагонали и нулями во всех остальных позициях. Число столбцов M по умолчанию равно N, k — сдвиг диагонали (0 для основной диагонали, положительные числа для верхних диагоналей и отрицательные для нижних)
- **zeros(shape)** - новый массив указанной формы, заполненный нулями,
- **ones(shape)** - новый массив указанной формы, заполненный единицами,
- **full(shape, fill_value)** - новый массив указанной формы, заполненный fill_value.

In [7]:
a = np.array([[1,2,3], [4,5,6]])  # создаём массив
print(a)  # смотрим на массив

[[1 2 3]
 [4 5 6]]


In [8]:
print('По умолчанию:\n',np.eye(3))
print('\nИспользуя все параметры:\n',np.eye(3,4,1))

По умолчанию:
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]

Используя все параметры:
 [[0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


In [9]:
print(np.zeros((2,2)))

[[0. 0.]
 [0. 0.]]


In [10]:
print(np.ones(3))

[1. 1. 1.]


In [11]:
print(np.full((2,3), 5))

[[5 5 5]
 [5 5 5]]


Форма массива в NumPy хранится в атрибуте **shape**.

In [12]:
a.shape  # смотрим на форму массива из первого примера

(2, 3)

## Основные методы ndarray

### Форма массива

- **a.flatten()** — превращает массив в одномерный.
- **a.T или a.transpose(axes)** — транспонирование (или смена порядка осей в случае, когда размерность массива больше двух).
- **a.reshape(shape)** — смена формы массива. Массив "распрямляется" и построчно заполняется в новую форму.

In [21]:
import random
w = np.array(random.sample(range(1000), 12)) # одномерный массив из 12 случайных чисел от 1 до 1000
w_resh = w.reshape((2,2,3)) # превратим w в трёхмерную матрицу
print('одномерный массив:\n', w)
print('\nтрёхмерная матрица:\n', w_resh)
print('\nсмена порядка осей:\n', w_resh.transpose(0,2,1))

одномерный массив:
 [ 91 426 111 832 482  30 785 723 889 910  67 622]

трёхмерная матрица:
 [[[ 91 426 111]
  [832 482  30]]

 [[785 723 889]
  [910  67 622]]]

смена порядка осей:
 [[[ 91 832]
  [426 482]
  [111  30]]

 [[785 910]
  [723  67]
  [889 622]]]


### Базовые статистики

- **a.min(axis=None)**, **a.max(axis=None)**, **a.mean(axis=None)**, **a.std(axis=None)** — минимум, максимум, среднее арифметическое и стандартное отклонение вдоль указанной оси. По умолчанию ось не указана и статистика считается по всему массиву. 
- **a.argmin(axis=None)**, **a.argmax(axis=None)** — индексы минимального и максимального элемента.

In [36]:
v = np.array([[1, 2, 3, 4] for i in range(3)])
print(v)
print('\nвдоль столбцов', v.mean(axis = 0))        # вдоль столбцов
print('\nвдоль строк', v.mean(axis=1))             # вдоль строк
print('\nвдоль всего массива', v.mean(axis=None))  # вдоль всего массива

[[1 2 3 4]
 [1 2 3 4]
 [1 2 3 4]]

вдоль столбцов [1. 2. 3. 4.]

вдоль строк [2.5 2.5 2.5]

вдоль всего массива 2.5


- **a.sum(axis=None)**, **a.prod(axis=None)** - сумма и произведение всех элементов вдоль указанной оси.
- **a.cumsum(axis=None)**, **a.cumprod(axis=None)** - частичные суммы и произведения (для 


In [44]:
print('\nсумма вдоль столбцов', v.sum(axis = 0)) 
print('\n частичные суммы вдоль столбцов\n', v.cumsum(axis = 0)) 


сумма вдоль столбцов [ 3  6  9 12]

 частичные суммы вдоль столбцов
 [[ 1  2  3  4]
 [ 2  4  6  8]
 [ 3  6  9 12]]


### Линейная алгебра

Пакет **numpy.linalg** содержит большую часть стандартных операций и разложений матриц.
- **a.dot(b)** — матричное произведение двух массивов (размерности должны быть согласованы),
- **linalg.matrix_power(M, n)** — возведение матрицы M в степень n,
- **a.T** — транспонирование
- **linalg.norm(a, ord=None)** — норма матрицы a, по умолчанию норма Фробениуса для матриц и L2-норма для векторов
- **linalg.inv(a)** — матрица, обратная к a (если a необратима, выбрасывается LinAlgError; псевдообратная считается через **linalg.pinv(a)**)

In [18]:
w = np.array([[1, 2, 3], [1, 2, 3], [1, 2, 3]])
a = w.dot([1,2,3])
print(a)

a = np.array([[4740, 2671],[2552, 2912]])
ainv = np.linalg.inv(a)
print(a.dot(ainv))

[14 14 14]
[[ 1.00000000e+00  3.98986399e-17]
 [-1.50920942e-16  1.00000000e+00]]


- **map(f, iterable, …)** - встроенная функция языка Python, возвращает результат поэлементного применения функции f к элементам последовательности iterable; если f принимает несколько аргументов, то на вход должно быть подано соответствующее число последовательностей: результатом map(f, x, y, z) будет итератор, возвращающий поочерёдно f(x[0], y[0], z[0]), f(x[1], y[1], z[1]), f(x[2], y[2], z[2]) и так далее; результат применения f к очередному набору аргументов вычисляется только тогда, когда требуется использовать этот результат, но не ранее
- **np.fromiter** - создаёт NumPy-массив из итератора, то есть заставляет итератор вычислить все доступные значения и сохраняет их в массив

In [43]:
inp_str = '1 2 4 6 3 -7 1 4 6'
X = np.fromiter(map(int, inp_str.split()), int).reshape((3,3))
print(X)

[[ 1  2  4]
 [ 6  3 -7]
 [ 1  4  6]]


## Как считать данные из файла

**numpy.loadtxt**(fname, dtype=<class 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0, encoding=None, max_rows=None, *, quotechar=None, like=None)

https://numpy.org/doc/stable/reference/generated/numpy.loadtxt.html

Важные элементы:
- **usecols** — список колонок, которые нужно использовать. Если параметр не указан, считываются все колонки.
- **skiprows** — количество рядов в начале файла, которые нужно пропустить. По умолчанию (если значение параметра не указано явно) skiprows = 0.
- **delimiter** — разделитель столбцов в одной строке, в csv-файлах это запятая, по умолчанию разделителем является любой пробел (в том числе — знак табуляции).
- **dtype** — словарь из названий колонок (переменных) и типов хранящихся в них значений. NumPy использует свою собственную систему типов, и названия именно этих типов нужно указать. По умолчанию функция попытается самостоятельно угадать, какому типу принадлежат подаваемые на вход значения.

In [60]:
from urllib.request import urlopen
f = urlopen('https://stepik.org/media/attachments/lesson/16462/boston_houses.csv')

mtrx = np.loadtxt(f, skiprows=1, delimiter=",")
print(mtrx)

[[2.4000e+01 6.3200e-03 1.8000e+01 ... 5.3800e-01 6.5750e+00 4.0900e+00]
 [2.1600e+01 2.7310e-02 0.0000e+00 ... 4.6900e-01 6.4210e+00 4.9671e+00]
 [3.4700e+01 2.7290e-02 0.0000e+00 ... 4.6900e-01 7.1850e+00 4.9671e+00]
 ...
 [2.3900e+01 6.0760e-02 0.0000e+00 ... 5.7300e-01 6.9760e+00 2.1675e+00]
 [2.2000e+01 1.0959e-01 0.0000e+00 ... 5.7300e-01 6.7940e+00 2.3889e+00]
 [1.1900e+01 4.7410e-02 0.0000e+00 ... 5.7300e-01 6.0300e+00 2.5050e+00]]


----------------------------------------------------------------------------------------------

# Практика

### Задача 1
Создайте и напечатайте (с помощью функции print) массив класса np.ndarray ширины 4 и высоты 3 с двойками на главной диагонали и единицами на первой диагонали над главной, т.е. воплощение матрицы

In [14]:
ar = np.eye(3,4,1) + np.eye(3, 4)*2
print(ar)

[[2. 1. 0. 0.]
 [0. 2. 1. 0.]
 [0. 0. 2. 1.]]


### Задача 2
Создайте массив mat из рандомных чисел. Превратите его в вертикальный вектор и напечатайте.

In [28]:
mat = np.array(random.sample(range(100), 10))
print(mat.reshape(10,1))

[[64]
 [33]
 [85]
 [15]
 [46]
 [47]
 [10]
 [74]
 [48]
 [26]]


### Задача 3

На вход программе подаются две матрицы, каждая в следующем формате: на первой строке два целых положительных числа 
n и m, разделенных пробелом - размерность матрицы. В следующей строке находятся элементы матрицы. Подразумевается, что матрица заполняется построчно, то есть первые 
m чисел - первый ряд матрицы, числа от m+1 до 2⋅m - второй, и т.д.

Напечатайте произведение матриц XY-транспонированное, если они имеют подходящую форму, или строку "matrix shapes do not match", если формы матриц не совпадают должным образом. 

In [56]:
x_shape = tuple(map(int, input().split()))
mtrx_x = np.fromiter(map(int, input().split()), int).reshape(x_shape)
y_shape = tuple(map(int, input().split()))
mtrx_y = np.fromiter(map(int, input().split()), int).reshape(y_shape)

 2 3
 5 9 9 10 8 9
 3 4
 6 11 3 5 4 5 3 2 5 8 2 2


In [57]:
print(mtrx_x.dot(mtrx_y.T)) if x_shape[1] == y_shape[1] else print('matrix shapes do not match')

matrix shapes do not match


### Задача 4

In [None]:
Cчитайте данные из файла и посчитайте их средние значения.

In [62]:
from urllib.request import urlopen
import numpy as np

filename = 'https://stepik.org/media/attachments/lesson/16462/boston_houses.csv'
f = urlopen(filename)
mtrx = np.loadtxt(f, skiprows=1, delimiter=",")
print(mtrx.mean(axis = 0))

[22.53280632  3.61352356 11.36363636  0.06916996  0.55469506  6.28463439
  3.79504269]
