# Введение в NumPy и базовые операции

Библиотека [`NumPy`](https://numpy.org) (Numerical Python) является основой для научных вычислений в Python и позволяет работать с **многомерными массивами** и математическими функциями

[ndarray](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html) - это N-мерный *однотипный* массив (структура данных), который используется для хранения элементов одного типа данных в многомерной сетке.

**Важно**: все элементы массива NumPy должны быть одного типа данных (int, float, complex и др.)

**Важно**: массивы NumPy значительно быстрее и эффективнее по памяти, чем списки Python

Функционал NumPy:

- многомерные массивы (1D, 2D, 3D и более)
- математические функции и операции
- линейная алгебра
- случайные числа
- преобразование Фурье
- работа с формой массивов
- логические операции
- статистические функции
- интеграция с C/C++ и Fortran
- основа для других библиотек (Pandas, Matplotlib, SciPy)

**Важное замечание**: *индексация массивов начинается с нуля!*

## 1. Импорт библиотеки

In [None]:
# Стандартное соглашение по импорту
import numpy as np
print(f"Версия NumPy: {np.__version__}")

### Зачем нужен NumPy?

In [None]:
import numpy as np
import time

# Сравнение производительности: списки Python vs NumPy массивы
python_list = list(range(1000000))
numpy_array = np.arange(1000000)

# Операция умножения на 2
# С обычными списками Python
start = time.time()
python_result = [x * 2 for x in python_list]
python_time = time.time() - start

# С массивами NumPy
start = time.time()
numpy_result = numpy_array * 2
numpy_time = time.time() - start

print(f"Python список: {python_time:.4f} секунд")
print(f"NumPy массив: {numpy_time:.4f} секунд")
print(f"NumPy быстрее в {python_time/numpy_time:.1f} раз")

## 2. Создание массивов

Согласно официальной документации, существует 6 общих механизмов создания массивов:

1. Преобразование из других структур Python (списки, кортежи)
2. Встроенные функции NumPy (arange, ones, zeros и др.)
3. Копирование, объединение или изменение существующих массивов
4. Чтение массивов с диска (стандартные или пользовательские форматы)
5. Создание из сырых байтов через строки или буферы
6. Использование специальных библиотечных функций (random и др.)

Более подробно о создании массивов см. документацию https://numpy.org/doc/stable/user/basics.creation.html

### 2.1. Преобразование из других структур Python (списки, кортежи)

Основной способ — создание массива из списка или кортежа с помощью функции `np.array()`

In [None]:
# Создание одномерного массива (вектора)
a1D = np.array([1, 2, 3, 4])
print("1D массив:\n", a1D)

In [None]:
# Создание двумерного массива (матрицы)
a2D = np.array([[1, 2], [3, 4]])
print("2D массив:\n", a2D)

In [None]:
# Создание трехмерного массива (тензора)
a3D = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print("3D массив:\n", a3D)

In [None]:
# Создание из кортежа
tuple_1 = (1, 2, 3, 4, 5)
arr_from_tuple = np.array(tuple_1)
print("Массив из кортежа:", arr_from_tuple)

# Вложенные структуры создают многомерные массивы
list_of_lists = [[1, 2, 3], [4, 5, 6]] # список списков -> 2D массив
list_of_tuples = [(1, 2, 3), (4, 5, 6)] # список кортежей -> 2D массив
tuple_of_lists = ([1, 2, 3], [4, 5, 6]) # кортеж списков -> 2D массив

arr_2d_from_nested = np.array(list_of_lists)
print("2D массив из списка списков:\n", arr_2d_from_nested)
arr_2d_from_nested_tuples = np.array(list_of_tuples)
print("2D массив из списка кортежей:\n", arr_2d_from_nested_tuples)
arr_2d_from_tuple_of_lists = np.array(tuple_of_lists)
print("2D массив из кортежа списков:\n", arr_2d_from_tuple_of_lists)

## 2.3. Контроль над типом данных (dtype)

Тип данных (`dtype`) — это один из краеугольных камней производительности NumPy. Это явное указание на то, как именно следует интерпретировать биты в памяти, выделенной для массива.

- **Эффективность**: Знание точного типа данных позволяет NumPy оптимизировать вычисления на низком уровне (C/C++).

- **Контроль памяти**: Вы можете выбрать минимально необходимый тип (например, int32 вместо int64), чтобы экономить память для больших массивов.

- **Предсказуемость**: Вы точно знаете, с каким типом данных работаете, что предотвращает трудноуловимые ошибки.


Тип можно задать явно при создании массива с помощью параметра `dtype`.

In [None]:
# NumPy сам определяет dtype на основе входных данных
auto_arr = np.array([1, 2, 3])
print("Автоматический dtype:", auto_arr.dtype) # int32 или int64

# Явное указание типа данных
arr_float = np.array([1, 2, 3], dtype=np.float64) # 64-битное число с плавающей точкой
print("Принудительный float64:", arr_float.dtype)

arr_float_32 = np.array([1, 2, 3], dtype=np.float32) # 32-битное (меньшая точность, меньше памяти)
print("Принудительный float32:", arr_float_32.dtype)

arr_int16 = np.array([100, 200], dtype=np.int16) # 16-битное целое
print("Принудительный int16:", arr_int16.dtype)

### Что произойдет, если попытаться поместить слишком большое число?

NumPy может вести себя по-разному: обрезать значение или вызвать ошибку.
Это зависит от версии NumPy и настроек. Всегда лучше контролировать типы.

In [None]:
try:
    overflow_arr = np.array([50000], dtype=np.int16) # 50000 > 32767 (max для int16)
    print("Переполнение (возможное обрезание):", overflow_arr)
except Exception as e:
    print("Ошибка переполнения:", e)

### Изменение типа данных

In [None]:
# Создание массива с определённым типом
int_array = np.array([1, 2, 3, 4], dtype=np.int32)
print("Целые числа:", int_array.dtype)

# Преобразование типов
float_array = int_array.astype(np.float64)
print("После преобразования в float:", float_array.dtype)

# Преобразование в строки
str_array = int_array.astype(str)
print("Строковый массив:", str_array)

**Важно для анализа данных**: При загрузке данных из файлов всегда полезно проверять и, при необходимости, явно указывать `dtype` для оптимизации памяти и скорости.

## 2.2. Встроенные функции NumPy

NumPy предоставляет более 40 встроенных функций для создания массивов, которые можно разделить на три основные категории:

- Функции для создания 1D массивов
- Функции для создания 2D массивов и матриц
- Функции для создания массивов любой размерности (ndarrays)

Более подробно о встроенных функциях для создания массивов см. документацию: https://numpy.org/doc/stable/reference/routines.array-creation.html#routines-array-creation

### 2.2.1. Функции для создания 1D массивов

Функция `numpy.arange([start, ]stop, [step, ]dtype=None, device=None, like=None)` --- создаёт одномерный массив (ndarray) с равномерно распределёнными значениями в заданном интервале. Эти значения генерируются в полуоткрытом интервале [start, stop), то есть включая start, но исключая stop

📌 Параметры функции:
- `start` (число, опциональный): начало интервала. Значение по умолчанию — 0. Интервал включает это значение.

- `stop` (число, обязательный): конец интервала. Интервал не включает это значение (за исключением случаев, связанных с ошибками округления при использовании чисел с плавающей запятой).

- `step` (число, опциональный): шаг — расстояние между соседними значениями в массиве. По умолчанию — 1. Если указан step, необходимо также указать и start .

- `dtype` (тип данных, опциональный): тип данных элементов выходного массива. Если не указан, тип выводится автоматически на основе других аргументов. Может быть любым допустимым типом NumPy, таким как int32, float64, complex64 и др. .

- `device` (строка, опциональный): устройство, на котором будет создан массив. По умолчанию — None. Используется только для совместимости с Array API; если указано, должно быть "cpu". 

- `like` (array-like, опциональный): ссылка на объект, позволяющий создавать массивы, не являющиеся массивами NumPy. Если объект поддерживает протокол __array_function__, результат будет определён этим объектом.

↪️ Возвращаемое значение:
`ndarray`: одномерный массив равномерно распределенных значений. Для целочисленных аргументов функция аналогична встроенной в Python `range()`, но возвращает массив NumPy.

💡 Примеры использования:

| Пример кода | Результат | Описание |
| :--- | :--- | :--- |
| `np.arange(5)` | `array([0, 1, 2, 3, 4])`  | Один аргумент трактуется как `stop`. |
| `np.arange(2, 8)` | `array([2, 3, 4, 5, 6, 7])`  | Два аргумента: `start` и `stop`. |
| `np.arange(0, 1, 0.2)` | `array([0.0, 0.2, 0.4, 0.6, 0.8])`  | Использование дробного шага. |
| `np.arange(10, 30, 3)` | `array([10, 13, 16, 19, 22, 25, 28])`  | Указание `start`, `stop` и `step`. |
| `np.arange(5, dtype=float)` | `array([0., 1., 2., 3., 4.])`  | Явное указание типа данных `dtype`. |
| `np.arange(30, 14, -3)` | `array([30, 27, 24, 21, 18, 15])`  | Генерация массива в обратном порядке. |


💎 Заключение:

`numpy.arange` — мощный и гибкий инструмент для создания последовательностей чисел, особенно полезный в научных вычислениях и анализе данных. Однако при работе с нецелыми шагами или очень большими числами важно понимать её ограничения и потенциальные проблемы с точностью. В таких случаях стоит рассмотреть альтернативы, такие как `numpy.linspace`.

In [None]:
# Создаем массив чисел с дробным шагом
np.arange(2, 3, 0.1)

---

Функция `numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None, axis=0, *, device=None)` — функция для создания одномерных массивов с равномерно распределёнными значениями в заданном интервале.

📌 Параметры

- **`start`** (число или array-like)
  Начальное значение последовательности. Обязательный параметр.

- **`stop`** (число или array-like)
  Конечное значение последовательности. Обязательный параметр.

- **`num`** (int, необязательный)
  Количество генерируемых samples. По умолчанию: 50. Должно быть неотрицательным.

- **`endpoint`** (bool, необязательный)
  Если True (по умолчанию), `stop` включается в последовательность. Если False — не включается.

- **`retstep`** (bool, необязательный)
  Если True, возвращает кортеж (`массив`, `шаг`). По умолчанию: False.

- **`dtype`** (data-type, необязательный)
  Тип данных выходного массива. Если не указан, тип определяется автоматически на основе `start` и `stop`.

- **`axis`** (int, необязательный)
  Ось в результате, вдоль которой должны быть расположены samples. По умолчанию: 0.

- **`device`** (str, необязательный)
  Устройство, на котором должен быть создан массив. По умолчанию: None.

↪️ Возвращаемое значение

- **`samples`** (ndarray)
  Массив с равномерно распределёнными значениями.

- **`step`** (float, возвращается только если `retstep=True`)
  Размер шага между samples.

💡 Особенности и отличия от `numpy.arange`

| Особенность | `numpy.linspace` | `numpy.arange` |
|-------------|------------------|----------------|
| Контроль | По количеству элементов | По размеру шага |
| Конечная точка | Может включаться или исключаться | Всегда исключается |
| Точность | Высокая для float | Может накапливать ошибки |
| Использование | Когда важно количество элементов | Когда важен размер шага |

Функция `numpy.linspace` особенно полезна в научных вычислениях и визуализации данных, когда необходимо точно контролировать количество точек в заданном интервале.

⚠️ Важные замечания

1. При `endpoint=True` (по умолчанию) количество интервалов равно `num-1`.
2. При `endpoint=False` количество интервалов равно `num`.
3. Для нескалярных значений `start` и `stop` массивы должны иметь одинаковую форму.
4. Параметр `axis` определяет ось, вдоль которой будут расположены значения.

In [None]:
# Базовые примеры

# Простое создание массива из 5 элементов от 0 до 1
arr1 = np.linspace(0, 1, 5)
print("Массив с 5 элементами от 0 до 1 включаяя конечную точку:", arr1)

# Исключение конечной точки
arr2 = np.linspace(0, 1, 5, endpoint=False)
print("Массив с 5 элементами от 0 до 1 без конечной точки:", arr2)

# Возврат информации о шаге
arr3, step = np.linspace(0, 1, 5, retstep=True)
print("Массив:", arr3)
print("Шаг между элементами:", step)

In [None]:
# Специфические применения

# Создание массива с определенным типом данных
arr_int = np.linspace(0, 10, 5, dtype=int)
print(arr_int)

# Создание массива комплексных чисел
arr_complex = np.linspace(1+2j, 10+20j, 5)
print(arr_complex)

# Многомерные массивы (с использованием axis)
arr_2d = np.linspace([1, 2, 3], [10, 20, 30], 5, axis=0)
print(arr_2d)

### 2.2.2. Функции для создания 2D массивов и матриц

Часто нужно создавать массивы "с нуля" заданной формы и заполнения.

Функция `numpy.eye(N, M=None, k=0, dtype=float, order='C', *, device=None)`** — создает двумерный массив с единицами на указанной диагонали и нулями в остальных позициях.

📌 Параметры:
- **`N`** (int): Количество строк в выходном массиве.
- **`M`** (int, опционально): Количество столбцов. По умолчанию равно `N`.
- **`k`** (int, опционально): Индекс диагонали:
  - `k = 0`: Главная диагональ (по умолчанию)
  - `k > 0`: Диагональ выше главной
  - `k < 0`: Диагональ ниже главной
- **`dtype`** (data-type, опционально): Тип данных массива. По умолчанию: `float`.
- **`order`** (`{'C', 'F'}`, опционально): Порядок хранения в памяти.

In [None]:
# Единичная матрица 3x3
print(np.eye(3))

# Матрица 3x3 с единицами на первой наддиагонали
print(np.eye(3, k=1))

# Матрица 2x3 с единицами на главной диагонали
print(np.eye(2, 3))

Функция `numpy.diag(v, k=0)` — извлекает диагональ или создает диагональный массив.

📌 Параметры:
- **`v`** (array_like): Если `v` является 2D массивом, возвращает его диагональ. Если 1D массив, создает 2D диагональную матрицу.
- **`k`** (int, опционально): Индекс диагонали (аналогично `numpy.eye`).


In [None]:
# Создание диагональной матрицы из вектора
v = np.array([1, 2, 3])
print(np.diag(v))

# Извлечение диагонали из матрицы
matrix = np.array([[1, 2, 3], 
                   [4, 5, 6], 
                   [7, 8, 9]])
print(np.diag(matrix))  

# Создание матрицы с диагональю выше главной
print(np.diag(v, k=1))

### 2.2.3. Функции для создания массивов любой размерности (ndarrays)

Функция `numpy.ones(shape, dtype=None, order='C', *, device=None)`** — создает массив заданной формы, заполненный единицами.

📌 Параметры:
- **`shape`** (int или tuple of ints): Форма выходного массива.
- **`dtype`** (data-type, опционально): Тип данных. По умолчанию: `float`.
- **`order`** (`{'C', 'F'}`, опционально): Порядок хранения в памяти.

In [None]:
# Вектор из 5 единиц
print(np.ones(5)) 

# Матрица 2x3 из единиц
print(np.ones((2, 3)))

# Массив 2x3x4 из единиц типа int
print(np.ones((2, 3, 4), dtype=int))

Функция `numpy.zeros(shape, dtype=None, order='C', *, device=None)`** — создает массив заданной формы, заполненный нулями.

📌 Параметры:
- **`shape`** (int или tuple of ints): Форма выходного массива.
- **`dtype`** (data-type, опционально): Тип данных. По умолчанию: `float`.
- **`order`** (`{'C', 'F'}`, опционально): Порядок хранения в памяти.

In [None]:
# Вектор из 5 нулей
print(np.zeros(5)) 

# Матрица 2x3 из нулей
print(np.zeros((2, 3)))

# Массив 2x3x4 из нулей типа int
print(np.zeros((2, 3, 4), dtype=int))

Функция `numpy.full(shape, fill_value, dtype=None, order='C', device=None, like=None)` - возвращает новый массив заданной формы (shape) и типа, заполненный указанным значением fill_value

📌 Параметры:

- `shape`: Форма нового массива. Может быть целым числом (для 1D массива) или кортежем целых чисел (для многомерных массивов) 
- `fill_value`: Значение, которым будет заполнен массив. Если параметр `dtype` не указан, тип данных массива определяется на основе типа `fill_value`
- `dtype`: Желаемый тип данных для массива. По умолчанию `None`
- `order`: Определяет порядок хранения многомерных данных в памяти: 'C' для row-major (C-стиль), 'F' для column-major (Fortran-стиль)
- `device`: Устройство, на котором следует разместить созданный массив. По умолчанию None. Только для совместимости с Array API, поэтому если передается, должно быть "cpu"
- `like`: Ссылка на объект, позволяющий создавать массивы, не являющиеся массивами NumPy

In [None]:
# Создание массива 2x2, заполненного бесконечностями
arr1 = np.full((2, 2), np.inf)
print("Массив с бесконечностями:")
print(arr1)

# Создание массива 2x2, заполненного числом 10
arr2 = np.full((2, 2), 10)
print("\nМассив с числом 10:")
print(arr2)

# Создание массива 2x2, заполненного списком значений
arr3 = np.full((2, 2), [1, 2])
print("\nМассив со списком значений:")
print(arr3)

In [None]:
# Трехмерный массив 2x4x3
arr_3d = np.full((2, 4, 3), 2, dtype=float)
print("Трехмерный массив:")
print(arr_3d)

# Четырехмерный массив 4x4x3
arr_4d = np.full((4, 4, 3), 2, dtype=np.double)
print("\nЧетырехмерный массив:")
print(arr_4d.shape)  # (4, 4, 3)

Функция `numpy.vander(x, N=None, increasing=False)` — создает матрицу Вандермонда.

📌 Параметры:
- **`x`** (array_like): Входной 1D массив.
- **`N`** (int, опционально): Количество столбцов в выходной матрице. По умолчанию равно `len(x)`.
- **`increasing`** (bool, опционально): Если `True`, степени увеличиваются слева направо.

In [None]:
x = np.array([1, 2, 3, 4])

# Матрица Вандермонда 4x4
print(np.vander(x))

# Матрица Вандермонда 4x3
print(np.vander(x, N=3))

# С возрастающим порядком степеней
print(np.vander(x, increasing=True))

#### Модуль numpy.random — содержит основные функции генерации случайных чисел

- Функция `numpy.random.rand(d0, d1, ..., dn)`** — создает массив заданной формы со случайными числами из равномерного распределения [0, 1).

- Функция `numpy.random.randn(d0, d1, ..., dn)`** — создает массив заданной формы со случайными числами из стандартного нормального распределения (среднее=0, стандартное отклонение=1).

- Функция `numpy.random.randint(low, high=None, size=None, dtype=int)`** — возвращает случайные целые числа из равномерного распределения.

- Функция `numpy.random.random(size=None)`** — возвращает случайные числа из равномерного распределения [0, 1).


## 3. Свойства массивов

У каждого массива есть три ключевых свойства, которые нужно знать.

In [None]:
# Создадим массив для примера
sample_arr = np.array([[1, 2, 3], [4, 5, 6]])

# Форма массива (shape) - размерность по каждой из осей
print("Форма (shape):", sample_arr.shape) # (2, 3) - 2 строки, 3 столбца

# Размерность (ndim) - количество осей (измерений)
print("Размерность (ndim):", sample_arr.ndim) # 2

# Тип данных (dtype) - что хранится в массиве (int, float, bool и т.д.)
print("Тип данных (dtype):", sample_arr.dtype) # int32 или int64

## 4. Базовые операции с массивами и векторизация вычислений

**Векторизация** — это выполнение операций над всем массивом сразу, без использования циклов. Это ключ к скорости NumPy.

### 4.1. Арифметические операции

Они выполняются поэлементно.

In [None]:
# Создаем массивы для операций
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

print("a =", a)
print("b =", b)
print("a + b =", a + b) # Сложение
print("a - b =", a - b) # Вычитание
print("a * b =", a * b) # Умножение (поэлементное, НЕ матричное)
print("a / b =", a / b) # Деление
print("a ** 2 =", a ** 2) # Возведение в степень

# Операции с числами
print("a + 10 =", a + 10) # Добавление числа ко всем элементам
print("a - 1 =", a - 1)   # Вычитание числа из всех элементов
print("a / 2 =", a / 2)   # Деление всех элементов на
print("a * 2 =", a * 2)   # Умножение всех элементов на число

## 4.2. Сравнения и логические операции

Сравнения и логические операции выполняются поэлементно и возвращают массив булевых значений (`True` / `False`).

In [None]:
a = np.array([1, 2, 3, 4, 5])
print("a > 3:", a > 3)
print("a % 2 == 0:", a % 2 == 0) # Проверка на четность

## 4.3. Математические функции

NumPy предоставляет полный набор математических функций (`sin, cos, exp, log` и т.д.), которые также работают с массивами.

In [None]:
angles = np.array([0, np.pi/2, np.pi]) # np.pi - число π
print("sin(angles):", np.sin(angles))

numbers = np.array([1, 10, 100])
print("ln(numbers):", np.log(numbers))   # Натуральный логарифм
print("log10(numbers):", np.log10(numbers)) # Десятичный логарифм

## 4.4. Индексация и срезы

Работает аналогично спискам Python, но для многомерных массивов.

Более подробно о индексировании см. документацию https://numpy.org/doc/stable/user/basics.indexing.html

In [None]:
arr = np.arange(1, 10) # массив [1, 2, 3, 4, 5, 6, 7, 8, 9]
print("Исходный массив:", arr)

# Индексация (начинается с 0)
print("arr[0]:", arr[0])
print("arr[-1]:", arr[-1]) # Последний элемент

# Срезы [start:stop:step]
print("arr[2:5]:", arr[2:5])   # элементы с 2 по 4 (5 не включительно)
print("arr[::2]:", arr[::2])   # каждый второй элемент
print("arr[::-1]:", arr[::-1]) # разворот массива

# Для двумерных массивов [строки, столбцы]
arr_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("Исходная матрица:\n", arr_2d)
print("arr_2d[0, 1]:", arr_2d[0, 1]) # элемент в 0-й строке и 1-м столбце -> 2
print("arr_2d[:, 1]:", arr_2d[:, 1]) # весь первый столбец -> [2, 5, 8]
print("arr_2d[1:, :2]:\n", arr_2d[1:, :2]) # со 1-й строки до конца, первые 2 столбца