# Numpy

In [1]:
import numpy as np

* **array(object)** — n-мерный массив из любой (возможно, вложенной) последовательности


* **eye(N, M=N, k=0)** -- двумерный массив с N строками с единицами на диагонали и нулями во всех остальных позициях. Число столбцов M по умолчанию равно N, k — сдвиг диагонали (0 для основной диагонали, положительные числа для верхних диагоналей и отрицательные для нижних)


* **zeros(shape)** -- новый массив указанной формы, заполненный нулями


* **ones(shape)** -- новый массив указанной формы, заполненный единицами


* **full(shape, fill_value)** -- новый массив указанной формы, заполненный fill_value

In [2]:
np.eye(5, 3, k=-1)

array([[0., 0., 0.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 0.]])

In [3]:
np.array([[1,2,3], [4,5,6]])                          # матрица формы (2, 3) из последовательности последовательностей

array([[1, 2, 3],
       [4, 5, 6]])

In [4]:
np.eye(3, 4, k=1) + 2 * np.eye(3, 4)

array([[2., 1., 0., 0.],
       [0., 2., 1., 0.],
       [0., 0., 2., 1.]])

### Основные методы

* **a.flatten()** — превращает массив в одномерный.


* **a.T или a.transpose(*axes)** — транспонирование (или смена порядка осей в случае, когда размерность массива больше двух).


* **a.reshape(shape)** — смена формы массива. Массив "распрямляется" и построчно заполняется в новую форму.

In [5]:
import random
w = np.array(random.sample(range(1000), 12))                     # одномерный массив из 12 случайных чисел от 1 до 1000
w.reshape((2,2,3))                                               # превратим w в трёхмерную матрицу

array([[[531, 939, 159],
        [571, 145, 282]],

       [[ 65, 733, 293],
        [980, 761, 680]]])

In [6]:
mat = np.eye(3, 4, k=1) + 2 * np.eye(3, 4)

In [7]:
mat = mat.flatten()

In [8]:
mat.T

array([2., 1., 0., 0., 0., 2., 1., 0., 0., 0., 2., 1.])

* **a.min(axis=None)**, **a.max(axis=None)**, **a.mean(axis=None)**, **a.std(axis=None)** — минимум, максимум, среднее арифметическое и стандартное отклонение вдоль указанной оси. 
По умолчанию ось не указана и статистика считается по всему массиву. 



* **a.argmin(axis=None)**, **a.argmax(axis=None)** — индексы минимального и максимального элемента

In [16]:
w = w.reshape((2, 2, 3))

In [18]:
w.mean(axis=0)                                                   # вдоль столбцов

array([[298. , 836. , 226. ],
       [775.5, 453. , 481. ]])

In [17]:
w.mean(axis=1)                                                   # вдоль строк

array([[551. , 542. , 220.5],
       [522.5, 747. , 486.5]])

* **a.sum(axis=None)**, **a.prod(axis=None)** — сумма и произведение всех элементов вдоль указанной оси.


* **a.cumsum(axis=None)**, **a.cumprod(axis=None)** — частичные суммы и произведения (для (a_1,⋯,a_n), вектор частичных сумм — это (a_1,a_1+a_2,⋯,a_1+⋯+a_n)(a_1, a_1+a_2, ⋯ , a_1 +...+ a_n)) 

Пакет **numpy.linalg** содержит большую часть стандартных операций и разложений матриц. Некоторые самые популярные функции вынесены в корень пакета NumPy.


* **a.dot(b)** — матричное произведение двух массивов (размерности должны быть согласованы)


* **linalg.matrix_power(M, n)** — возведение матрицы M в степень n


* **a.T** — транспонирование


* **linalg.norm(a, ord=None)** — норма матрицы a, по умолчанию норма Фробениуса для матриц и L2-норма для векторов; подробное описание возможных норм — в справке


* **linalg.inv(a)** — матрица, обратная к a (если a необратима, выбрасывается LinAlgError; псевдообратная считается через linalg.pinv(a))

In [19]:
a = w.dot([1,2,3])

In [20]:
a

array([[2886, 1707],
       [2410, 4542]])

In [21]:
ainv = np.linalg.inv(a)

In [22]:
ainv

array([[ 0.00050498, -0.00018979],
       [-0.00026795,  0.00032087]])

In [23]:
a.dot(ainv)

array([[1., 0.],
       [0., 1.]])

In [25]:
# Задача: перемножьте две матрицы
x_shape = tuple(map(int, input().split()))
X = np.fromiter(map(int, input().split()), np.int).reshape(x_shape)

y_shape = tuple(map(int, input().split()))
Y = np.fromiter(map(int, input().split()), np.int).reshape(y_shape)

try:
    print(X.dot(Y.T))
except:
    print('matrix shapes do not match')

2 3
8 7 7 14 4 6


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  X = np.fromiter(map(int, input().split()), np.int).reshape(x_shape)


4 3
5 5 1 5 2 6 3 3 9 1 4 6
[[ 82  96 108  78]
 [ 96 114 108  66]]


Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  Y = np.fromiter(map(int, input().split()), np.int).reshape(y_shape)


### Считывание данных из файла

In [None]:
# sbux = np.loadtxt("sbux.csv", usecols=(0,1,4), skiprows=1, delimiter=",", 
#                       dtype={'names': ('date', 'open', 'close'),
#                              'formats': ('datetime64[D]', 'f4', 'f4')})

* **"sbux.csv"** — имя файла (или сюда же можно передать объект файла, такой пример вы увидите в следующей задаче урока), из которого считываются данные.


* **usecols** — список колонок, которые нужно использовать. Если параметр не указан, считываются все колонки.


* **skiprows** — количество рядов в начале файла, которые нужно пропустить. В нашем случае пропущен ряд заголовков. По умолчанию (если значение параметра не указано явно) skiprows = 0.


* **delimiter** — разделитель столбцов в одной строке, в csv-файлах это запятая, по умолчанию разделителем является любой пробел (в том числе — знак табуляции).


* **dtype** — словарь из названий колонок (переменных) и типов хранящихся в них значений. NumPy использует свою собственную систему типов, и названия именно этих типов нужно указать. По умолчанию функция попытается самостоятельно угадать, какому типу принадлежат подаваемые на вход значения.

In [26]:
from urllib.request import urlopen

filename = input()
f = urlopen(filename)
data = np.loadtxt(f, skiprows=1, delimiter=',')
data.mean(axis=0)

https://stepic.org/media/attachments/lesson/16462/boston_houses.csv


array([22.53280632,  3.61352356, 11.36363636,  0.06916996,  0.55469506,
        6.28463439,  3.79504269])

In [42]:
X = np.matrix([[1, 60], [1, 50], [1, 75]])

In [43]:
X

matrix([[ 1, 60],
        [ 1, 50],
        [ 1, 75]])

In [46]:
Y = np.matrix([[10], [7], [12]])

In [47]:
Y

matrix([[10],
        [ 7],
        [12]])

In [51]:
t = (X.T).dot(X)

In [53]:
np.linalg.inv(t).dot(X.T).dot(Y)

matrix([[-2.34210526],
        [ 0.19473684]])

In [54]:
import urllib
from urllib import request
import numpy as np

fname = 'https://stepic.org/media/attachments/lesson/16462/boston_houses.csv'  # read file name from stdin
f = urllib.request.urlopen(fname)                                              # open file from URL
data = np.loadtxt(f, delimiter=',', skiprows=1)                                # load data to work with

In [79]:
data

array([[2.4000e+01, 6.3200e-03, 1.8000e+01, ..., 5.3800e-01, 6.5750e+00,
        4.0900e+00],
       [2.1600e+01, 2.7310e-02, 0.0000e+00, ..., 4.6900e-01, 6.4210e+00,
        4.9671e+00],
       [3.4700e+01, 2.7290e-02, 0.0000e+00, ..., 4.6900e-01, 7.1850e+00,
        4.9671e+00],
       ...,
       [2.3900e+01, 6.0760e-02, 0.0000e+00, ..., 5.7300e-01, 6.9760e+00,
        2.1675e+00],
       [2.2000e+01, 1.0959e-01, 0.0000e+00, ..., 5.7300e-01, 6.7940e+00,
        2.3889e+00],
       [1.1900e+01, 4.7410e-02, 0.0000e+00, ..., 5.7300e-01, 6.0300e+00,
        2.5050e+00]])

In [80]:
y = [i[0] for i in data]

In [81]:
y = np.matrix(y)

In [109]:
y = y.reshape(y.shape[1], 1)

ValueError: cannot reshape array of size 506 into shape (1,1)

In [84]:
X = [i[1:] for i in data]

In [88]:
X = np.hstack((np.ones_like(y), X))

In [89]:
X

matrix([[1.0000e+00, 6.3200e-03, 1.8000e+01, ..., 5.3800e-01, 6.5750e+00,
         4.0900e+00],
        [1.0000e+00, 2.7310e-02, 0.0000e+00, ..., 4.6900e-01, 6.4210e+00,
         4.9671e+00],
        [1.0000e+00, 2.7290e-02, 0.0000e+00, ..., 4.6900e-01, 7.1850e+00,
         4.9671e+00],
        ...,
        [1.0000e+00, 6.0760e-02, 0.0000e+00, ..., 5.7300e-01, 6.9760e+00,
         2.1675e+00],
        [1.0000e+00, 1.0959e-01, 0.0000e+00, ..., 5.7300e-01, 6.7940e+00,
         2.3889e+00],
        [1.0000e+00, 4.7410e-02, 0.0000e+00, ..., 5.7300e-01, 6.0300e+00,
         2.5050e+00]])

In [90]:
t = (X.T).dot(X)

In [103]:
ans = np.linalg.inv(t).dot(X.T).dot(y)

In [110]:
ans = np.array(ans.reshape(1, ans.shape[0]))

ValueError: cannot reshape array of size 7 into shape (1,1)

In [106]:
" ".join(map(str, ans.reshape(1, 7)[0]))

'-3.6558042850732786 -0.2163955023691257 0.07373059817547858 4.4124505769127955 -25.468448784090903 7.143201550746698 -1.3010876776485503'

In [112]:
ans.shape

(1, 7)

In [100]:
ans = np.array(ans.reshape(1, 7))

In [101]:
ans

array([[ -3.65580429,  -0.2163955 ,   0.0737306 ,   4.41245058,
        -25.46844878,   7.14320155,  -1.30108768]])

In [None]:
# ПОЛНОЕ РЕШЕНИЕ ЗАДАЧИ

# import urllib
# from urllib import request
# import numpy as np

# fname = input()  # read file name from stdin
# f = urllib.request.urlopen(fname)  # open file from URL
# data = np.loadtxt(f, delimiter=',', skiprows=1)  # load data to work with

# # here goes your solution
# y = [i[0] for i in data]
# y = np.matrix(y)
# y = y.reshape((y.shape[1], 1))

# X = [i[1:] for i in data]
# X = np.hstack((np.ones_like(y), X))

# t = (X.T).dot(X)
# ans = np.linalg.inv(t).dot(X.T).dot(y)

# ans = np.array(ans.reshape(1, ans.shape[0]))
# print(" ".join(map(str, ans.reshape(1, ans.shape[1])[0])))