# Продвинутая работа с NumPy

## 1. Генерация случайных чисел

NumPy предоставляет мощную подсистему для генерации псевдослучайных чисел через модуль `numpy.random`. Современный подход использует `Generator` объекты.

### Инициализация генератора

In [None]:
import numpy as np
from numpy.random import default_rng

# Создание генератора с seed для воспроизводимости
rng = default_rng(42)

# Генератор без seed (каждый раз разные результаты)
rng = default_rng()

### Целые случайные числа

In [None]:
# Случайные целые числа в диапазоне [0, 10)
rng.integers(0, 10, size=5)

In [None]:
# Случайные целые числа в форме матрицы
rng.integers(1, 100, size=(3, 4))

In [None]:
# Включая верхнюю границу
rng.integers(1, 6, size=10, endpoint=True)  # Кубик 1-6

### Дробные случайные числа

In [None]:
# Случайные дробные числа от 0 до 1
rng.random(5)

In [None]:
# Случайные дробные числа от 0 до 1 в форме матрицы
rng.random((2, 3))

In [None]:
# Случайные дробные числа от 1 до 5 включая 1, исключая 5
rng.random(5) * 4 + 1  # Масштабирование и сдвиг

In [None]:
# Случайные дробные числа от -5 до 0 невключая 0
rng.random((3, 2)) * 5 - 5

In [None]:
# Случайные дробные числа от 1 до 5 включая 1, исключая 5
rng.uniform(1, 5, size=5)

In [None]:
# Случайные числа в заданном диапазоне [10.0, 20.0) в форме матрицы
rng.uniform(10.0, 20.0, size=(2, 3))

### Выборки из нормального распределения

In [None]:
# Выборка из 10 элементов из стандартного нормального распределения (μ=0, σ=1)
rng.standard_normal(10)

In [None]:
# Нормальное распределение с заданными параметрами
# μ=100, σ=15 (например, IQ тесты)
rng.normal(100, 15, size=8)

In [None]:
# Многомерное нормальное распределение
mean = [0, 0]
cov = [[1, 0.5], [0.5, 2]]
rng.multivariate_normal(mean, cov, size=5)

### Выборки из равномерного распределения

In [None]:
# Равномерное распределение на [0, 1)
rng.uniform(size=5)

In [None]:
# Равномерное распределение на [a, b)
rng.uniform(-5, 5, size=8)

In [None]:
# Равномерное распределение для матрицы
rng.uniform(0, 100, size=(2, 3))

### Выбор элементов из массива

In [None]:
# Исходный массив
arr = np.array(['apple', 'banana', 'cherry', 'date', 'elderberry'])

In [None]:
# Выбор одного случайного элемента
rng.choice(arr)

In [None]:
# Выбор нескольких элементов с возвращением
rng.choice(arr, size=3)

In [None]:
# Выбор без возвращения
rng.choice(arr, size=3, replace=False)

In [None]:
# Выбор с заданными вероятностями
probabilities = [0.1, 0.2, 0.3, 0.3, 0.1]
rng.choice(arr, size=10, p=probabilities)

### Перемешивание массивов

In [None]:
# Перемешивание существующего массива (изменяет исходный)
arr = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
rng.shuffle(arr) # Изменяет arr на месте
print(arr)

In [None]:
# Создание перемешанной копии (не изменяет исходный)
original = np.array([1, 2, 3, 4, 5])
shuffled = rng.permutation(original)
print(original)
print(shuffled)

In [None]:
# Случайная перестановка индексов
indices = rng.permutation(len(arr))
shuffled_arr = arr[indices]

## 2. Статистические функции

NumPy предоставляет обширный набор статистических функций для анализа данных.

### Меры центральной тенденции

In [None]:
# Для одномерных массивов
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
print("Data:", data)

# Среднее арифметическое
mean = np.mean(data)
print("Mean:", mean)

# Медиана
median = np.median(data)
print("Median:", median)

In [None]:
# Для многомерных массивов
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("Matrix:\n", matrix)

# Среднее по всем элементам
mean_all= np.mean(matrix)  # 5.0
print("Mean of all elements:", mean_all)

# Среднее по оси (axis=0 - по столбцам, axis=1 - по строкам)
mean_col = np.mean(matrix, axis=0)
print("Mean of each column:", mean_col)

mean_row = np.mean(matrix, axis=1)
print("Mean of each row:", mean_row)

### Дисперсия и стандартное отклонение

In [None]:
# Для одномерных массивов
data = np.array([2, 4, 4, 4, 5, 5, 7, 9])
print("Data:", data)

# Смещенная дисперсия (делитель n)
var_biased = np.var(data)  # ddof=0 по умолчанию
print("Biased Variance:", var_biased)

# Несмещенная дисперсия (делитель n-1)
var_unbiased = np.var(data, ddof=1)
print("Unbiased Variance:", var_unbiased)

# Смещенное стандартное отклонение (делитель n)
std_dev_biased = np.std(data)  # ddof=0 по умолчанию
print("Biased Standard Deviation:", std_dev_biased)

# Несмещенное стандартное отклонение (делитель n-1)
std_dev_unbiased = np.std(data, ddof=1)
print("Unbiased Standard Deviation:", std_dev_unbiased)

In [None]:
# Для многомерных массивов
matrix = rng.normal(10, 2, size=(5, 4))
print("Matrix:\n", matrix)

# Смещенная дисперсия по оси (axis=0 - по столбцам, axis=1 - по строкам)
var_biased = np.var(matrix, ddof=0, axis=0)   # Дисперсия по столбцам
print("Biased Variance of each column:", var_biased)

# Смещенное стандартное отклонение по оси (axis=0 - по столбцам, axis=1 - по строкам)
std_dev_biased = np.std(matrix, ddof=1, axis=1)   # Стд. откл. по строкам
print("Biased Standard Deviation of each row:", std_dev_biased)

### Квантили и перцентили

In [None]:
# Для одномерных массивов
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
print("Data:", data)
# Перцентили
np.percentile(data, 25)   # 1-й квартиль: 3.25
np.percentile(data, 50)   # Медиана: 5.5
np.percentile(data, 75)   # 3-й квартиль: 7.75
np.percentile(data, 90)   # 90-й перцентиль: 9.1

In [None]:
# Несколько перцентилей одновременно
np.percentile(data, [25, 50, 75])

In [None]:
# Квантили (более общая функция)
np.quantile(data, 0.25)   # То же что 25-й перцентиль

In [None]:
# несколько квантилей
np.quantile(data, [0.1, 0.5, 0.9])

In [None]:
# Для многомерных массивов
matrix = rng.integers(1, 100, size=(6, 4))
np.percentile(matrix, 50, axis=0)  # Медиана по столбцам

### Минимальные и максимальные значения

In [None]:
# Для одномерных массивов
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
print("Data:", data)

# Минимум (Наименьшее значение)
minimum = np.min(data)
print("Minimum:", minimum)

# Максимум (Наибольшее значение)
maximum = np.max(data)
print("Maximum:", maximum)

# Размах (разность между max и min)
sample_range= np.ptp(data)
print("Range of data:", sample_range)

In [None]:
# Для многомерных массивов
matrix = np.array([[1, 8, 3], [4, 2, 6], [7, 5, 9]])

np.min(matrix)           # 1 - общий минимум
np.min(matrix, axis=0)   # array([1, 2, 3]) - минимум по столбцам
np.min(matrix, axis=1)   # array([1, 2, 5]) - минимум по строкам

np.max(matrix, axis=0)   # array([7, 8, 9]) - максимум по столбцам

### Дополнительные статистики

In [None]:
# Размах межквартильный
q75, q25 = np.percentile(data, [75, 25])
iqr = q75 - q25
print(f"Межквартильный размах: {iqr}")

In [None]:
# Ковариация между массивами
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 1, 3, 5])
covariance_matrix = np.cov(x, y)
covariance = covariance_matrix[0, 1]
print(f"Ковариация: {covariance}")

In [None]:
# Корреляция между массивами
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 1, 3, 5])
correlation_matrix = np.corrcoef(x, y)
correlation = correlation_matrix[0, 1]
print(f"Корреляция: {correlation}")

## 3. Обработка пропусков и NaN

NumPy предоставляет специальные функции для работы с пропущенными значениями (NaN - Not a Number).

### Создание и обнаружение NaN

In [None]:
# Создание массива с NaN
data = np.array([1.0, 2.0, np.nan, 4.0, 5.0, np.nan, 7.0])

# Проверка на NaN
np.isnan(data)

In [None]:
# Количество NaN значений
np.sum(np.isnan(data))

In [None]:
# Проверка наличия хотя бы одного NaN
np.any(np.isnan(data))

In [None]:
# Проверка, что все значения не NaN
np.all(~np.isnan(data))

### Статистические функции с NaN
NumPy предоставляет версии статистических функций, которые игнорируют NaN значения:

In [None]:
data = np.array([1.0, 2.0, np.nan, 4.0, 5.0, np.nan, 7.0])

# Обычные функции возвращают NaN при наличии NaN в данных
np.mean(data)    # nan
np.sum(data)     # nan

# Функции с префиксом "nan" игнорируют NaN
np.nanmean(data)    # 3.8
np.nansum(data)     # 19.0
np.nanstd(data)     # 2.23606797749979
np.nanvar(data)     # 5.0
np.nanmin(data)     # 1.0
np.nanmax(data)     # 7.0
np.nanmedian(data)  # 4.0

# Квантили с NaN
np.nanpercentile(data, [25, 50, 75])
# array([2. , 4. , 5.5])

### Обработка NaN в многомерных массивах

In [None]:
# Создание матрицы с NaN
matrix = np.array([[1.0, 2.0, np.nan],
                   [4.0, np.nan, 6.0],
                   [7.0, 8.0, 9.0]])
print(matrix)

# Статистики по осям
np.nanmean(matrix, axis=0)  # array([4. , 5. , 7.5])
np.nanmean(matrix, axis=1)  # array([1.5, 5. , 8. ])

# Подсчет не-NaN элементов по осям
np.sum(~np.isnan(matrix), axis=0)  # array([3, 2, 2])
np.sum(~np.isnan(matrix), axis=1)  # array([2, 2, 3])

### Удаление и замена NaN

In [None]:
data = np.array([1.0, 2.0, np.nan, 4.0, 5.0, np.nan, 7.0])
print(data)
# Фильтрация NaN (удаление)
clean_data = data[~np.isnan(data)]
clean_data

In [None]:
# Замена NaN на конкретное значение
filled_data = np.nan_to_num(data, nan=0.0)
filled_data

In [None]:
# Замена NaN на среднее значение
mean_value = np.nanmean(data)
data_filled = np.where(np.isnan(data), mean_value, data)
data_filled

### Обработка бесконечности

In [None]:
# Создание массива с бесконечными значениями
data = np.array([1.0, np.inf, -np.inf, 4.0, 5.0])
print(data)
# Проверка на бесконечность
np.isinf(data)

In [None]:
# Проверка на положительную бесконечность
np.isposinf(data)        # array([False,  True, False, False, False])

In [None]:
# Проверка на отрицательную бесконечность
np.isneginf(data)        # array([False,  True, False, False, False])

In [None]:
# Проверка на конечность
np.isfinite(data)        # array([ True, False, False,  True,  True])

In [None]:
# Замена бесконечных значений
np.nan_to_num(data, posinf=999, neginf=-999)

## 4. Функции поиска
NumPy предоставляет мощные функции для поиска элементов и индексов в массивах

### Функция where()

In [None]:
# Базовое использование where для условной фильтрации
data = np.array([1, 5, 3, 8, 2, 9, 4])
print(data)

# Поиск индексов элементов, удовлетворяющих условию
indices = np.where(data > 5)
print(indices)
print(data[indices])

In [None]:
# Условная замена значений
result = np.where(data > 5, data, 0)  # Если > 5, оставить, иначе 0
result

In [None]:
# Сложные условия
conditions = ((data > 3) & 
              (data < 7)
              )
result = np.where(conditions, data, -1)
result

In [None]:
# Многомерные массивы
matrix = np.array([[1, 8, 3], [4, 2, 9], [7, 5, 6]])
print(matrix)

row_indices, col_indices = np.where(matrix > 5)
print(f"Строки: {row_indices}, Столбцы: {col_indices}")

In [None]:
# Значения, удовлетворяющие условию
values = matrix[row_indices, col_indices]
print(values)

### argmin() и argmax()

In [None]:
data = np.array([3, 1, 4, 1, 5, 9, 2, 6])
print(data)

# Индекс минимального элемента
min_index = np.argmin(data)
print(f"Минимальный элемент: {data[min_index]} в позиции {min_index}")

# Индекс максимального элемента
max_index = np.argmax(data)
print(f"Максимальный элемент: {data[max_index]} в позиции {max_index}")

In [None]:
# Для многомерных массивов
matrix = np.array([[1, 8, 3], [4, 2, 9], [7, 5, 6]])
print(matrix)

# индексы минимумов по столбцам
np.argmin(matrix, axis=0)

In [None]:
# индексы минимумов по строкам
np.argmin(matrix, axis=1) 

### Функции поиска с NaN

In [None]:
data = np.array([3.0, np.nan, 4.0, 1.0, 5.0, np.nan, 2.0])

# Обычные функции могут работать некорректно с NaN
np.argmin(data)  # 1 (находит NaN как минимум)
np.argmax(data)  # 1 (находит NaN как максимум)

# Функции, игнорирующие NaN
np.nanargmin(data)  # 3 (индекс значения 1.0)
np.nanargmax(data)  # 4 (индекс значения 5.0)

# Для многомерных массивов
matrix = np.array([[1.0, np.nan, 3.0], 
                   [4.0, 2.0, np.nan], 
                   [np.nan, 5.0, 6.0]])

# Поиск с игнорированием NaN
np.nanargmin(matrix, axis=0)  # array([0, 1, 0])
np.nanargmax(matrix, axis=1)  # array([2, 0, 2])

## 5. Продвинутая индексация

NumPy поддерживает два типа продвинутой индексации: булевую и fancy индексацию.

### Булевая индексация

In [None]:
# Создание данных
data = np.array([1, 5, 3, 8, 2, 9, 4, 6])
print(data)

# Создание булевой маски
mask = data > 5
print(mask)

In [None]:
# Создание данных
data = np.array([1, 5, 3, 8, 2, 9, 4, 6])
print(data)

# Использование маски для фильтрации
filtered_data = data[mask]
print(filtered_data)

In [None]:
# Создание данных
data = np.array([1, 5, 3, 8, 2, 9, 4, 6])
print(data)

# Комбинированные условия
complex_mask = (data > 3) & (data < 7)
print(data[complex_mask])

In [None]:
# Создание данных
data = np.array([1, 5, 3, 8, 2, 9, 4, 6])
print(data)

# Логические операторы для масок
mask1 = data > 5
mask2 = data % 2 == 0  # четные числа
print(data[mask1 | mask2])  # ИЛИ
print(data[mask1 & mask2])  # И
print(data[~mask1])         # НЕ

In [None]:
# Булевая индексация для многомерных массивов
matrix = np.array([[1, 8, 3], [4, 2, 9], [7, 5, 6]])
print(matrix)

# Фильтрация элементов, удовлетворяющих условию
print(matrix[matrix > 5])

# Построчная фильтрация
row_sums = np.sum(matrix, axis=1)
row_mask = row_sums > 15
print(matrix[row_mask])  # Строки с суммой > 15

# Изменение значений через булевую индексацию
data_copy = data.copy()
data_copy[data_copy > 5] = 99
print(data_copy)

### Fancy индексация (индексация массивами)

In [None]:
# Индексация массивом индексов
data = np.array([10, 20, 30, 40, 50, 60, 70, 80])
print(data)

# Выбор элементов по списку индексов
indices = [1, 3, 5, 7]
selected = data[indices]
print(selected)

In [None]:
# Индексация массивом индексов
data = np.array([10, 20, 30, 40, 50, 60, 70, 80])
print(data)

# Индексы могут повторяться
indices = [0, 0, 2, 2, 4]
print(data[indices])

In [None]:
# Fancy индексация для многомерных массивов
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])

# Выбор строк
row_indices = [0, 2, 3]
print(matrix[row_indices])

### Расширенная индексация с условиями

In [None]:
# Создание данных
scores = np.array([[85, 92, 78], [76, 88, 95], [91, 83, 87], [69, 79, 84]])
names = np.array(['Alice', 'Bob', 'Charlie', 'David'])

# Поиск студентов со средним баллом > 85
avg_scores = np.mean(scores, axis=1)
high_achievers_mask = avg_scores > 85
high_achievers = names[high_achievers_mask]
high_scores = scores[high_achievers_mask]

print("Студенты с высокими оценками:")
for name, score_row in zip(high_achievers, high_scores):
    print(f"{name}: {score_row}, среднее: {np.mean(score_row):.1f}")

# Индексация по нескольким условиям
math_scores = scores[:, 0]
english_scores = scores[:, 1] 
science_scores = scores[:, 2]

# Студенты с математикой > 80 И английским > 85
mask = (math_scores > 80) & (english_scores > 85)
selected_students = names[mask]
print(f"Студенты с математикой > 80 И английским > 85: {selected_students}")

# Сортировка по индексам
sort_indices = np.argsort(avg_scores)[::-1]  # По убыванию
sorted_names = names[sort_indices]
sorted_scores = scores[sort_indices]
print(f"Рейтинг: {sorted_names}")

### Изменение значений через продвинутую индексацию

In [None]:
# Исходные данные
data = np.array([10, 20, 30, 40, 50])
print(data)

# Изменение через булевую индексацию
data[data > 30] *= 2  # Удваиваем значения > 30
print(data)

# Изменение через fancy индексацию
data[[0, 2, 4]] = 999
print(data)

# Многомерные массивы
matrix = np.arange(12).reshape(3, 4)
print("Исходная матрица:")
print(matrix)

# Изменение целых строк
matrix[[0, 2]] = 0
print("После изменения строк 0 и 2:")
print(matrix)

# Условное изменение
matrix[matrix < 5] = -1
print("После условного изменения:")
print(matrix)

## 6. Линейная алгебра
NumPy предоставляет обширные возможности для работы с линейной алгеброй через модуль `numpy.linalg`.

### Основные операции с векторами

In [None]:
# Создание векторов
u = np.array([1, 2, 3])
v = np.array([4, 5, 6])

# Скалярное произведение
dot_product = np.dot(u, v)
# или
dot_product = u @ v  # Оператор матричного умножения
print(f"Скалярное произведение: {dot_product}")

In [None]:
# Норма вектора (длина)
norm_u = np.linalg.norm(u)
print(f"Норма вектора u: {norm_u:.3f}")  # 3.742

# Различные типы норм
l1_norm = np.linalg.norm(u, ord=1)        # L1 норма (сумма абс. значений)
l2_norm = np.linalg.norm(u, ord=2)        # L2 норма (евклидова)
inf_norm = np.linalg.norm(u, ord=np.inf)  # Максимальная норма

In [None]:
# Нормализация вектора
u_normalized = u / np.linalg.norm(u)
print(f"Нормализованный вектор: {u_normalized}")

In [None]:
# Векторное произведение (для 3D векторов)
cross_product = np.cross(u, v)
print(f"Векторное произведение: {cross_product}")

### Матричные операции

In [None]:
# Создание матриц
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

# Матричное умножение
C = np.dot(A, B)  # или A @ B
print("A @ B =")
print(C)

In [None]:
# Транспонирование
A_T = A.T  # или np.transpose(A)
print("Транспонированная матрица A:")
print(A_T)

In [None]:
# Определитель
det_A = np.linalg.det(A)
print(f"Определитель A: {det_A}")

In [None]:
# Обратная матрица
A_inv = np.linalg.inv(A)
print("Обратная матрица A:")
print(A_inv)

# Проверка: A * A^(-1) = I
identity_check = A @ A_inv
print("A @ A^(-1) =")
print(identity_check)

In [None]:
# След матрицы (сумма диагональных элементов)
trace_A = np.trace(A)
print(f"След матрицы A: {trace_A}")

### Системы линейных уравнений

In [None]:
# Система уравнений Ax = b
# 2x + y = 3
# x + 3y = 4
A = np.array([[2, 1], [1, 3]])
print("A:", A)
b = np.array([3, 4])
print("b:", b)

In [None]:
# Решение системы
x = np.linalg.solve(A, b)
print(f"Решение системы: x = {x}")

In [None]:
# Проверка решения
check = A @ x
print(f"Проверка: A @ x = {check}")