# Машинное обучение, MDS

## НИУ ВШЭ, 2025-26 учебный год

# Занятие 1. Numpy

Вся документация по библиотеке - http://www.numpy.org/

Библиотека numpy является удобным инструментом для работы с многомерными массивами с возможностью векторизации вычислений. Рассмотрим базовые вещи, которые можно делать с помощью нее.

In [None]:
import numpy as np

In [None]:
vec = np.array([[1, 2], [3, 4], [5, 6]], dtype = int)

In [None]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
print(vec)

[[1 2]
 [3 4]
 [5 6]]


С чем мы работаем?

In [None]:
vec.dtype

dtype('int8')

In [None]:
type(vec)

numpy.ndarray

Размер массива:

In [None]:
vec.shape

(3, 2)

Число осей:

In [None]:
vec.ndim

2

У некоторых функций бывает параметр `axis`, который позволяет применить эту функцию по разным осям - в данном случае, по строкам или столбцам:

In [None]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
np.sum(vec)

np.int64(21)

In [None]:
np.sum(vec, axis=0)

array([ 9, 12])

In [None]:
np.sum(vec, axis=1)

array([ 3,  7, 11])

In [None]:
vec.sum()

np.int64(21)

Транспонируем массив:

In [None]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
vec.T

array([[1, 3, 5],
       [2, 4, 6]])

In [None]:
vec.transpose()

array([[1, 3, 5],
       [2, 4, 6]])

Обратите внимание, что переменная `vec` не поменялась!

In [None]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

Размеры массивов можно менять:

In [None]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
vec.reshape(2, 3)

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
vec.reshape(-1, 3)

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
vec.reshape(2, -10)

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
vec.reshape(-2, 5)

ValueError: cannot reshape array of size 6 into shape (5)

Индексирование:

In [None]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
vec[:, 1]

array([2, 4, 6])

In [None]:
vec[2, :]

array([5, 6])

In [None]:
vec[1:2, 0:1]

array([[3]])

In [None]:
vec[1, 0]

np.int64(3)

In [None]:
vec[::2, :]

array([[1, 2],
       [5, 6]])

И, наконец - арифметические операции!

In [None]:
vec + 1

array([[2, 3],
       [4, 5],
       [6, 7]])

In [None]:
vec * 2

array([[ 2,  4],
       [ 6,  8],
       [10, 12]])

In [None]:
vec ** 2

array([[ 1,  4],
       [ 9, 16],
       [25, 36]])

In [None]:
vec + vec ** 2

array([[ 2,  6],
       [12, 20],
       [30, 42]])

In [None]:
vec * vec ** 2

array([[  1,   8],
       [ 27,  64],
       [125, 216]])

In [None]:
np.sin(vec)

array([[ 0.84147098,  0.90929743],
       [ 0.14112001, -0.7568025 ],
       [-0.95892427, -0.2794155 ]])

Матричное умножение:

In [None]:
vec.dot(vec ** 2)

ValueError: shapes (3,2) and (3,2) not aligned: 2 (dim 1) != 3 (dim 0)

In [None]:
vec.dot((vec ** 2).T)

array([[  9,  41,  97],
       [ 19,  91, 219],
       [ 29, 141, 341]])

In [None]:
vec @ (vec ** 2).T

array([[  9,  41,  97],
       [ 19,  91, 219],
       [ 29, 141, 341]])

Полезные фичи:

In [None]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
np.arange(3).reshape(3, 1)

array([[0],
       [1],
       [2]])

In [None]:
vec + np.arange(3).reshape(3, 1)

array([[1, 2],
       [4, 5],
       [7, 8]])

Булевы массивы:

In [None]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
is_even = vec % 2 == 0
print(is_even)

[[False  True]
 [False  True]
 [False  True]]


In [None]:
np.sum(is_even)

np.int64(3)

Булевы массивы позволяют вытаскивать элементы с True из массива того-же размера

In [None]:
vec[vec % 2 == 0]

array([2, 4, 6])

In [None]:
vec[np.abs(np.sin(vec)) > np.abs(np.cos(vec))]

array([1, 2, 4, 5])

Иногда бывает полезно создавать специфичные массивы. Массив из нулей:

In [None]:
np.zeros((2, 3), dtype = int)

array([[0, 0, 0],
       [0, 0, 0]])

Массив из единиц:

In [None]:
np.ones((3, 2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

Единичная матрица:

In [None]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

Массивы можно объединять:

In [None]:
vec

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
np.hstack((vec, np.zeros(vec.shape, dtype = int)))

array([[1, 2, 0, 0],
       [3, 4, 0, 0],
       [5, 6, 0, 0]])

In [None]:
np.vstack((vec, np.zeros(vec.shape)))

array([[1., 2.],
       [3., 4.],
       [5., 6.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

Генерация случайных чисел:

In [None]:
np.random.rand(2, 3)

array([[0.32879374, 0.94017484, 0.0380261 ],
       [0.77684511, 0.38464466, 0.71672375]])

In [None]:
np.random.seed(2019)
np.random.rand(2, 3)

array([[0.90348221, 0.39308051, 0.62396996],
       [0.6378774 , 0.88049907, 0.29917202]])

In [None]:
np.random.randn(3, 2)

array([[ 0.57376143,  0.28772767],
       [-0.23563426,  0.95349024],
       [-1.6896253 , -0.34494271]])

In [None]:
np.random.normal(300000, 50000, size=(3,2))

array([[342296.52221813, 274822.92089303],
       [251833.22350769, 303248.43147483],
       [139747.98835801, 352748.47132074]])

In [None]:
np.random.randint(0, 10, size=(5, 3))

array([[7, 7, 0],
       [3, 4, 8],
       [1, 0, 6],
       [1, 8, 2],
       [3, 0, 9]])

Почему вообще используют `numpy`?

In [None]:
n = 3000
A = np.random.rand(n, n)
B = np.random.rand(n, n)

In [None]:
from tqdm import tqdm

In [None]:
%%time
C = np.zeros((n, n))
for i in tqdm(range(n)):
    for j in range(n):
        for k in range(n):
            C[i, j] += A[i, k] * B[k, j]

  0%|          | 4/3000 [00:26<5:24:49,  6.51s/it]


KeyboardInterrupt: 

In [None]:
%%time
C = A @ B

CPU times: user 2.32 s, sys: 21.5 ms, total: 2.34 s
Wall time: 1.2 s


### Задания для самостоятельного решения

- 1+2 -> 1+
- 3+4 -> 1+
- 5 -> 1+

In [None]:
import numpy as np

1. Развернуть одномерный массив (сделать так, чтобы его элементы шли в обратном порядке).
2. Найти максимальный нечетный элемент в массиве.
3. Замените все нечетные элементы массива на ваше любимое число.
4. Создайте массив первых n нечетных чисел, записанных в порядке убывания. Например, если `n=5`, то ответом будет `array([9, 7, 5, 3, 1])`. *Функции, которые могут пригодиться при решении: `.arange()`*
5. Вычислите самое близкое и самое дальнее числа к данному в рассматриваемом массиве чисел. Например, если на вход поступают массив `array([0, 1, 2, 3, 4])` и число 1.33, то ответом будет `(1, 4)`. _Функции, которые могут пригодиться при решении: `.abs()`, `.argmax()`, `.argmin()`_
6. Вычисляющую первообразную заданного полинома (в качестве константы возьмите ваше любимое число). Например, если на вход поступает массив коэффициентов `array([4, 6, 0, 1])`, что соответствует полиному $4x^3 + 6x^2 + 1$, на выходе получается массив коэффициентов `array([1, 2, 0, 1, -2])`, соответствующий полиному $x^4 + 2x^3 + x - 2$. _Функции, которые могут пригодиться при решении: `.append()`_
7. Пользуясь пунктом 6, посчитайте первую производную для заданного полинома в заданной точке.

In [None]:
vec = np.array([4, 5, -11, 13, 6, 8])
vec[::-1]

array([  8,   6,  13, -11,   5,   4])

In [None]:
vec[vec % 2 != 0].max()

np.int64(13)

In [None]:
vec[vec % 2 != 0] = 4
vec

array([4, 4, 4, 4, 6, 8])

In [None]:
n = int(input())
np.arange(2 * n - 1, 0, -2)

5


array([9, 7, 5, 3, 1])

In [None]:
vec = np.array([-1, 0, 1, 2, 3, 4])
n = 1.33

dist = np.abs(vec - n)
vec[np.argmin(dist)], vec[np.argmax(dist)]

(np.int64(1), np.int64(4))