## 1.6 NumPy: основы

##### Как создать массив:

+ `array(object)` — n-мерный массив из любой (возможно, вложенной) последовательности
+ `eye(N, M=N, k=0)` -- двумерный массив с N строками с единицами на диагонали и нулями во всех остальных позициях. Число столбцов M по умолчанию равно N, k — сдвиг диагонали (0 для основной диагонали, положительные числа для верхних диагоналей и отрицательные для нижних),
- `zeros(shape)` -- новый массив указанной формы, заполненный нулями,
- `ones(shape)` -- новый массив указанной формы, заполненный единицами,
- `full(shape, fill_value)` -- новый массив указанной формы, заполненный `fill_value`.


##### Форма массива
+ `a.flatten()` — превращает массив в одномерный.
+ `a.T` или `a.transpose(*axes)` — транспонирование (или смена порядка осей в случае, когда размерность массива больше двух).
+ `a.reshape(shape)` — смена формы массива. Массив "распрямляется" и построчно заполняется в новую форму.
+ `a.shape` - Форма массива

##### Базовые статистики

+ `a.min(axis=None)`, `a.max(axis=None)`, `a.mean(axis=None)`, `a.std(axis=None)` — минимум, максимум, среднее арифметическое и стандартное отклонение вдоль указанной оси. По умолчанию ось не указана и статистика считается по всему массиву.
+ `a.argmin(axis=None)`, `a.argmax(axis=None)` — индексы минимального и максимального элемента.
+ `a.sum(axis=None)`, `a.prod(axis=None)` — сумма и произведение всех элементов вдоль указанной оси.
+ `a.cumsum(axis=None)`, `a.cumprod(axis=None)` — частичные суммы и произведения (для (a1,⋯,an) вектор частичных сумм — это `(a1,a1+a2,⋯,a1+⋯+an))`.

##### Линейная алгебра
Пакет `numpy.linalg` содержит большую часть стандартных операций и разложений матриц. Некоторые самые популярные функции вынесены в корень пакета NumPy.
+ `a.dot(b)` — матричное произведение двух массивов (размерности должны быть согласованы),
+ `linalg.matrix_power(M, n)` — возведение матрицы `M` в степень `n`,
+ `a.T` — транспонирование
+ `linalg.norm(a, ord=None)` — норма матрицы `a`, по умолчанию норма Фробениуса для матриц и L2-норма для векторов; подробное описание возможных норм — в справке,
+ `linalg.inv(a)` — матрица, обратная к `a` (если `a` необратима, выбрасывается `LinAlgError`; псевдообратная считается через `linalg.pinv(a)`)


In [87]:
import numpy as np

x_shape = tuple(map(int, input().split()))
X = np.fromiter(map(int, input().split()), np.int).reshape(x_shape)
y_shape = tuple(map(int, input().split()))
Y = np.fromiter(map(int, input().split()), np.int).reshape(y_shape)

if (X.shape[1] == Y.shape[1]):
    print(X.dot(Y.T))
else:
    print('matrix shapes do not match')

2 3
8 7 7 14 4 6
4 3
5 5 1 5 2 6 3 3 9 1 4 6
matrix shapes do not match


##### Как считать данные из файла:

> sbux = np.loadtxt("sbux.csv", usecols=(0,1,4), skiprows=1, delimiter=",",
                      dtype={'names': ('date', 'open', 'close'),
                      'formats': ('datetime64[D]', 'f4', 'f4')})

Здесь использованы не все параметры функции loadtxt (полный их список можно посмотреть в справке). Разберём имеющиеся, так как они являются наиболее часто встречающимися.
+ `"sbux.csv"` — имя файла (или сюда же можно передать объект файла, такой пример вы увидите в следующей задаче урока), из которого считываются данные.
+ `usecols` — список колонок, которые нужно использовать. Если параметр не указан, считываются все колонки.
+ `skiprows` — количество рядов в начале файла, которые нужно пропустить. В нашем случае пропущен ряд заголовков. По умолчанию (если значение параметра не указано явно) `skiprows = 0`.
+ `delimiter` — разделитель столбцов в одной строке, в `csv`-файлах это запятая, по умолчанию разделителем является любой пробел (в том числе — знак табуляции).
+ `dtype` — словарь из названий колонок (переменных) и типов хранящихся в них значений. NumPy использует свою собственную систему типов, и названия именно этих типов нужно указать. По умолчанию функция попытается самостоятельно угадать, какому типу принадлежат подаваемые на вход значения.


In [12]:
from urllib.request import urlopen
import numpy as np

filename = input()
f = urlopen(filename)
a = np.loadtxt(f, skiprows=1, delimiter=',')
print(a.mean(axis=0))

https://stepic.org/media/attachments/lesson/16462/boston_houses.csv
[22.53280632  3.61352356 11.36363636  0.06916996  0.55469506  6.28463439
  3.79504269]


In [7]:
fuf = lambda *args: print(args)
fuf(1,2,3,4)


(1, 2, 3, 4)


In [8]:
(lambda *args: print(args))(1,2,3,4)

(1, 2, 3, 4)


In [9]:
a = [1,2,3]
b = [1,2,3]
c = [2,3]
lis = [a,b,c]
print(*lis)

[1, 2, 3] [1, 2, 3] [2, 3]


In [6]:
nums = [1,2,3]

print(map(lambda x: x*x, nums))

<map object at 0x0000024D66765DA0>


In [3]:
def a_b(a,b):
    return a*b

n = [4,5,6]

print(list(map(lambda x,y: x*y,nums,n)))

NameError: name 'nums' is not defined

In [5]:
x = [1, 2]
y = [3, 4]
print(list(zip(x,y)))

[(1, 3), (2, 4)]
