# NumPy

Краткий интерактивный ноутбук для быстрого освоения библиотеки **NumPy** — на русском языке. Каждый раздел содержит пример кода и краткое пояснение[1].

## Что такое NumPy и зачем он нужен?

**Фундамент всей экосистемы**: NumPy (Numerical Python) — это математическое сердце Python для Data Science. Представьте, что Python — это автомобиль, а NumPy — его двигатель.

**Аналогия для новичков**: Если обычные списки Python — это корзина с фруктами (разные типы, медленно считать), то массивы NumPy — это конвейер на заводе (все элементы одного типа, молниеносная обработка).

**Почему NumPy критически важен**:
- **Скорость**: В 10-100 раз быстрее обычных списков Python
- **Основа**: Pandas, scikit-learn, TensorFlow — все построено на NumPy
- **Память**: Эффективное хранение больших массивов данных
- **Математика**: Готовые функции для линейной алгебры, статистики, обработки сигналов

## Импорт библиотеки

**Золотое правило**: Всегда импортируйте NumPy как `np` — это стандарт, который используют все специалисты по всему миру. Это как рукопожатие в мире Data Science.

In [None]:
import numpy as np

## Основы массивов NumPy

**Урок первый**: Массив — это основа всего в NumPy. Это как атом в физике — все состоит из них.

**Ключевые понятия**:
- **Массив** — упорядоченная коллекция элементов одного типа
- **Ранг (rank)** — количество измерений (1D, 2D, 3D...)
- **Форма (shape)** — размеры по каждому измерению
- **Тип данных (dtype)** — какие числа хранятся (int, float, bool...)

**Простая аналогия**:
- **1D массив** — поезд с вагонами (линейная последовательность)
- **2D массив** — многоэтажный дом (строки и столбцы)  
- **3D массив** — город с домами (слои, строки, столбцы)

**В чем отличие от списков Python**: Список может содержать `[1, "hello", 3.14]`, а массив NumPy — только `[1, 2, 3]` (один тип). Зато работает в разы быстрее!

## Создание массивов

**Урок второй**: Есть много способов создать массив. Выберите подходящий для вашей задачи.

**Из обычного списка Python:**

**Практический совет**: Самый простой способ начать. NumPy автоматически определит тип данных (int64, float64...) по содержимому.

In [None]:
a = np.array([1, 2, 3])  # Создать массив ранга 1
print(type(a), a.shape, a[0], a[1], a[2])
a[0] = 5                 # Изменить элемент массива
print(a)

<class 'numpy.ndarray'> (3,) 1 2 3
[5 2 3]


In [None]:
b = np.array([[1,2,3],[4,5,6]])   # Создать массив ранга 2
print(b)

[[1 2 3]
 [4 5 6]]


In [None]:
print(b.shape)
print(b[0, 0], b[0, 1], b[1, 0])

(2, 3)
1 2 4


**Специальные массивы — ваши помощники:**

**Зачем нужно**: В 90% случаев вам нужен не случайный массив, а заготовка определенного вида. NumPy предлагает готовые решения:

In [None]:
a = np.zeros((2,2))  # Создать массив из нулей
print(a)

[[0. 0.]
 [0. 0.]]


In [None]:
b = np.ones((1,2))   # Создать массив из единиц
print(b)

[[1. 1.]]


In [None]:
c = np.full((2,2), 7) # Создать постоянный массив
print(c)

[[7 7]
 [7 7]]


In [None]:
d = np.eye(2)        # Создать единичную матрицу 2x2
print(d)

[[1. 0.]
 [0. 1.]]


In [None]:
e = np.random.random((2,2)) # Создать массив, заполненный случайными значениями
print(e)

[[0.502921   0.724404  ]
 [0.75152948 0.31612853]]


## Индексация и нарезка — искусство доступа к данным

**Урок третий**: Умение быстро извлекать нужные части массива — ключевой навык для анализа данных.

**Основные принципы**:
- Индексы начинаются с 0 (как в Python)
- Можно использовать отрицательные индексы (-1 = последний элемент)
- Срезы работают как `[начало:конец:шаг]`
- Изменения среза меняют исходный массив!

**Важное отличие от списков**: В многомерных массивах используйте `arr[i, j]` вместо `arr[i][j]` — это быстрее и понятнее.

**Нарезка многомерных массивов:**

**Мастер-класс**: Каждое измерение указывается через запятую. `:` означает "взять все по этому измерению".

In [None]:
import numpy as np

# Создать следующий массив ранга 2 с формой (3, 4)
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

# Использовать нарезку для извлечения подмассива, состоящего из первых 2 строк
# и столбцов 1 и 2; b - следующий массив формы (2, 2):
# [[2 3]
#  [6 7]]
b = a[:2, 1:3]
print(b)

[[2 3]
 [6 7]]


**ОСТОРОЖНО**: Срез — это не копия, а вид на те же данные! Изменение среза изменяет исходный массив. Это экономит память, но может привести к неожиданным результатам.

In [None]:
print(a[0, 1])
b[0, 0] = 77    # b[0, 0] - это тот же кусок данных, что и a[0, 1]
print(a[0, 1])

2
77


**Разница в размерности — важно понимать!**

**Ключевой момент**: Способ индексации влияет на форму результата. Это критично для дальнейших вычислений.

In [None]:
# Создать следующий массив ранга 2 с формой (3, 4)
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


**Понимание размерности при индексации:**

**Практическое правило**:
- `a[1, :]` → 1D массив (строка)
- `a[1:2, :]` → 2D массив (одна строка, но в 2D)
- `a[[1], :]` → 2D массив (через fancy indexing)

**Когда это важно**: При умножении матриц и других операциях линейной алгебры размерность критична!

In [None]:
row_r1 = a[1, :]    # Представление ранга 1 второй строки a
row_r2 = a[1:2, :]  # Представление ранга 2 второй строки a
row_r3 = a[[1], :]  # Представление ранга 2 второй строки a
print(row_r1, row_r1.shape)
print(row_r2, row_r2.shape)
print(row_r3, row_r3.shape)

[5 6 7 8] (4,)
[[5 6 7 8]] (1, 4)
[[5 6 7 8]] (1, 4)


In [None]:
# Мы можем сделать то же различие при доступе к столбцам массива:
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print(col_r1, col_r1.shape)
print()
print(col_r2, col_r2.shape)

[ 2  6 10] (3,)

[[ 2]
 [ 6]
 [10]] (3, 1)


**Продвинутая индексация — выбираем произвольные элементы:**

**Магия fancy indexing**: Можете передать список индексов для выбора произвольных элементов. Это как VIP-доступ к любым данным в массиве!

In [None]:
a = np.array([[1,2], [3, 4], [5, 6]])

# Пример целочисленной индексации массива.
# Возвращенный массив будет иметь форму (3,) и
print(a[[0, 1, 2], [0, 1, 0]])

# Приведенный выше пример целочисленной индексации массива эквивалентен этому:
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))

[1 4 5]
[1 4 5]


In [None]:
# При использовании целочисленной индексации массива вы можете повторно использовать тот же
# элемент из исходного массива:
print(a[[0, 0], [1, 1]])

# Эквивалентно предыдущему примеру целочисленной индексации массива
print(np.array([a[0, 1], a[0, 1]]))

[2 2]
[2 2]


**Практический пример — выбор элементов по строкам:**

**Реальная задача**: Часто нужно взять один элемент из каждой строки матрицы. Например, выбрать максимальное значение из каждой строки по его индексу.

In [None]:
# Создать новый массив, из которого мы будем выбирать элементы
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(a)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [None]:
# Создать массив индексов
b = np.array([0, 2, 0, 1])

# Выбрать один элемент из каждой строки a, используя индексы в b
print(a[np.arange(4), b])  # Выводит "[ 1  6  7 11]"

[ 1  6  7 11]


In [None]:
# Изменить один элемент из каждой строки a, используя индексы в b
a[np.arange(4), b] += 10
print(a)

[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


**Булева индексация — фильтрация как в SQL:**

**Суперсила NumPy**: Создавайте маски условий для фильтрации данных. Это как WHERE-условие в базах данных, но гораздо мощнее!

**Как это работает**:
1. `a > 2` создает массив True/False
2. `a[маска]` возвращает только элементы, где True
3. Результат — всегда 1D массив

In [None]:
import numpy as np

a = np.array([[1,2], [3, 4], [5, 6]])

bool_idx = (a > 2)  # Найти элементы a, которые больше 2;
                    # это возвращает массив NumPy булевых значений той же
                    # формы, что и a, где каждый слот bool_idx говорит
                    # больше ли этот элемент a чем 2.

print(bool_idx)

[[False False]
 [ True  True]
 [ True  True]]


In [None]:
# Мы используем булеву индексацию массива для создания массива ранга 1,
# состоящего из элементов a, соответствующих значениям True
# в bool_idx
print(a[bool_idx])

# Мы можем сделать все вышеперечисленное в одном кратком утверждении:
print(a[a > 2])

[3 4 5 6]
[3 4 5 6]


**Дополнительные материалы**: Индексация в NumPy — огромная тема. Мы показали основы, но возможностей гораздо больше. Если хотите стать экспертом, изучите [документацию NumPy по индексации](http://docs.scipy.org/doc/numpy/reference/arrays.indexing.html).

## Типы данных — эффективность превыше всего

**Урок четвертый**: Правильный выбор типа данных может кардинально повлиять на скорость и память.

**Почему это важно**:
- `int8` занимает 1 байт, `int64` — 8 байт
- Для массива из миллиона элементов разница в 8 раз по памяти!
- Неправильный тип может привести к переполнению или потере точности

**Автоматическое определение vs явное указание:**

**Умный NumPy**: Автоматически определяет подходящий тип, но иногда лучше указать явно для контроля памяти и производительности.

In [None]:
x = np.array([1, 2])  # Позволить NumPy выбрать тип данных
y = np.array([1.0, 2.0])  # Позволить NumPy выбрать тип данных
z = np.array([1, 2], dtype=np.int64)  # Принудительно задать конкретный тип данных

print(x.dtype, y.dtype, z.dtype)

int64 float64 int64


Вы можете прочитать все о типах данных NumPy в [документации](http://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html).

## Математические операции — сердце NumPy

**Урок пятый**: NumPy превращает математику в простые команды. Все операции работают поэлементно и молниеносно.

**Философия NumPy**: "Делайте сложные вычисления простыми". Одна строка кода может заменить циклы из сотен строк.

**Поэлементные операции — как калькулятор, но для массивов:**

**Принцип**: Каждая операция применяется к соответствующим элементам. `a[0] + b[0]`, `a[1] + b[1]`, и так далее. Никаких циклов в коде!

In [None]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# Поэлементное сложение; оба производят массив
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


In [None]:
# Поэлементное вычитание; оба производят массив
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [None]:
# Поэлементное произведение; оба производят массив
print(x * y)
print(np.multiply(x, y))

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]


In [None]:
# Поэлементное деление; оба производят массив
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [None]:
# Поэлементный квадратный корень; производит массив
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print(np.sqrt(x))

[[1.         1.41421356]
 [1.73205081 2.        ]]


**ВАЖНОЕ ОТЛИЧИЕ от MATLAB**: В NumPy `*` означает поэлементное умножение, а не матричное! Для матричного умножения используйте `@` или `np.dot()`.

In [None]:
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11, 12])

# Внутреннее произведение векторов; оба производят 219
print(v.dot(w))
print(np.dot(v, w))

219
219


**Современный способ**: Оператор `@` введен в Python 3.5+ и является предпочтительным для матричного умножения. Читается естественно!

In [None]:
print(v @ w)

219


In [None]:
# Произведение матрицы на вектор; оба производят массив ранга 1 [29 67]
print(x.dot(v))
print(np.dot(x, v))
print(x @ v)

[29 67]
[29 67]
[29 67]


In [None]:
# Произведение матриц; оба производят массив ранга 2
# [[19 22]
#  [43 50]]
print(x.dot(y))
print(np.dot(x, y))
print(x @ y)

[[19 22]
 [43 50]]
[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


**Агрегирующие функции — извлекаем смысл из данных:**

**Зачем нужны**: Превращают массивы в конкретные числа для принятия решений. Сумма, среднее, максимум — основа статистики.

In [None]:
x = np.array([[1,2],[3,4]])

print(np.sum(x))  # Вычислить сумму всех элементов; выводит "10"
print(np.sum(x, axis=0))  # Вычислить сумму каждого столбца; выводит "[4 6]"
print(np.sum(x, axis=1))  # Вычислить сумму каждой строки; выводит "[3 7]"

10
[4 6]
[3 7]


**Понимание осей — ключ к успеху:**

**Простое правило**:
- `axis=0` — операция "сверху вниз" (по строкам, результат для каждого столбца)
- `axis=1` — операция "слева направо" (по столбцам, результат для каждой строки)
- Без указания оси — операция по всему массиву

**Транспонирование — переворачиваем матрицу:**

**Когда нужно**: Часто в машинном обучении данные должны быть в определенной ориентации. Транспонирование — ваш инструмент для этого.

In [None]:
print(x)
print("транспонирование\n", x.T)

[[1 2]
 [3 4]]
транспонирование
 [[1 3]
 [2 4]]


In [None]:
v = np.array([[1,2,3]])
print(v )
print("транспонирование\n", v.T)

[[1 2 3]]
транспонирование
 [[1]
 [2]
 [3]]


## Broadcasting — магия NumPy

**Урок шестой**: Broadcasting — это суперсила NumPy, которая позволяет выполнять операции с массивами разных размеров.

**Аналогия**: Представьте, что у вас есть штамп и большой лист бумаги. Broadcasting — это когда NumPy автоматически "штампует" маленький массив по большому массиву.

**Задача**: Добавить вектор к каждой строке матрицы.

**Наивный подход** (медленно, много кода):
```python
for i in range(len(matrix)):
    matrix[i] = matrix[i] + vector
```

**Подход NumPy** (быстро, одна строка):
```python
result = matrix + vector  # Broadcasting!
```

In [None]:
# Мы добавим вектор v к каждой строке матрицы x,
# сохраняя результат в матрице y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = np.empty_like(x)   # Создать пустую матрицу с той же формой, что и x

# Добавить вектор v к каждой строке матрицы x с помощью явного цикла
for i in range(4):
    y[i, :] = x[i, :] + v

print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


**Альтернативный способ** (работает, но расходует память):

**Проблема**: `np.tile()` создает реальные копии в памяти. Broadcasting делает то же самое, но эффективнее!

In [None]:
vv = np.tile(v, (4, 1))  # Наложить 4 копии v друг на друга
print(vv)                # Выводит "[[1 0 1]
                         #          [1 0 1]
                         #          [1 0 1]
                         #          [1 0 1]]"

[[1 0 1]
 [1 0 1]
 [1 0 1]
 [1 0 1]]


In [None]:
y = x + vv  # Добавить x и vv поэлементно
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


**Broadcasting в действии — магия происходит автоматически:**

**Как это работает**: NumPy "мысленно" растягивает маленький массив до размера большого, но в памяти создает только результат.

In [None]:
import numpy as np

# Мы добавим вектор v к каждой строке матрицы x,
# сохраняя результат в матрице y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = x + v  # Добавить v к каждой строке x, используя транслирование
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


**Правила Broadcasting** (не обязательно запоминать, но полезно понимать):

1. **Выравнивание размеров**: Если ранги разные, добавляются единицы слева
2. **Совместимость**: Размеры совместимы, если они равны или один из них равен 1
3. **Растяжение**: Размерность 1 "растягивается" до нужного размера
4. **Результат**: Форма результата — максимум по каждой размерности

**Практические примеры Broadcasting:**

In [None]:
# Вычислить внешнее произведение векторов
v = np.array([1,2,3])  # v имеет форму (3,)
w = np.array([4,5])    # w имеет форму (2,)
# Чтобы вычислить внешнее произведение, мы сначала изменяем форму v до столбца
# вектора формы (3, 1); затем мы можем транслировать его против w, чтобы получить
# выход формы (3, 2), который является внешним произведением v и w:

print(np.reshape(v, (3, 1)) * w)

[[ 4  5]
 [ 8 10]
 [12 15]]


In [None]:
# Добавить вектор к каждой строке матрицы
x = np.array([[1,2,3], [4,5,6]])
# x имеет форму (2, 3), а v имеет форму (3,), поэтому они транслируются в (2, 3),
# давая следующую матрицу:

print(x + v)

[[2 4 6]
 [5 7 9]]


In [None]:
# Добавить вектор к каждому столбцу матрицы
# x имеет форму (2, 3), а w имеет форму (2,).
# Если мы транспонируем x, то он имеет форму (3, 2) и может быть транслирован
# против w, чтобы получить результат формы (3, 2); транспонирование этого результата
# дает конечный результат формы (2, 3), который является матрицей x с
# вектором w, добавленным к каждому столбцу. Дает следующую матрицу:

print((x.T + w).T)

[[ 5  6  7]
 [ 9 10 11]]


In [None]:
# Другое решение - изменить форму w до вектора-строки формы (2, 1);
# затем мы можем транслировать его непосредственно против x, чтобы получить тот же
# выход.
print(x + np.reshape(w, (2, 1)))

[[ 5  6  7]
 [ 9 10 11]]


In [None]:
# Умножить матрицу на константу:
# x имеет форму (2, 3). NumPy рассматривает скаляры как массивы формы ();
# они могут быть транслированы вместе до формы (2, 3), производя
# следующий массив:
print(x * 2)

[[ 2  4  6]
 [ 8 10 12]]


**Почему Broadcasting так важен**:
- **Скорость**: Избегает медленных циклов Python
- **Читаемость**: Код становится понятнее и короче
- **Память**: Не создает лишних копий данных
- **Естественность**: Операции записываются так, как думаем о них математически

**Совет**: Используйте Broadcasting везде, где возможно. Это делает код быстрее и элегантнее!

---

## Заключение

**Что вы изучили**: Основы NumPy — фундамент для всей экосистемы Python в Data Science. Теперь вы знаете:
- Как создавать и манипулировать массивами
- Секреты эффективной индексации
- Магию Broadcasting для элегантных вычислений
- Основы математических операций

**Что дальше**: NumPy — огромная библиотека. Мы показали основы, но впереди еще много интересного: линейная алгебра, Фурье-преобразования, полиномы и многое другое.

> **Полная документация и дополнительные примеры доступны в [официальной документации NumPy](http://docs.scipy.org/doc/numpy/reference/)[1].**

[1] https://numpy.org/doc/stable/user/quickstart.html