# Основы NumPy

NumPy - это библиотека для работы с многомерными массивами и математическими операциями. Она незаменима для анализа биологических данных.

In [None]:
# Импорт библиотеки
import numpy as np

# Проверка версии
print(f"NumPy версия: {np.__version__}")

## 1. Создание массивов

Массивы NumPy - это эффективные структуры данных для хранения числовых данных.

### 1.1 Создание массивов из списков

In [None]:
# Одномерный массив - например, концентрации образцов
concentrations = np.array([10.5, 15.2, 8.7, 12.3, 9.8])
print("Концентрации образцов:")
print(concentrations)
print(f"Тип данных: {concentrations.dtype}")
print(f"Размерность: {concentrations.shape}")

In [None]:
# Двумерный массив - например, данные микропланшета
plate_data = np.array([
    [0.234, 0.456, 0.789, 0.321],
    [0.567, 0.234, 0.654, 0.432],
    [0.876, 0.543, 0.234, 0.765]
])

print("Данные оптической плотности (OD) 3x4 планшета:")
print(plate_data)
print(f"Размерность: {plate_data.shape}")  # (строки, столбцы)
print(f"Общее количество элементов: {plate_data.size}")

### 1.2 Специальные способы создания массивов

In [None]:
# Массив из нулей - инициализация данных
empty_plate = np.zeros((8, 12))  # Планшет 96 лунок
print("Пустой планшет 8x12:")
print(empty_plate)

In [None]:
# Массив из единиц
control_wells = np.ones((3, 3))
print("Контрольные лунки:")
print(control_wells)

In [None]:
# Последовательность чисел - например, временные точки
time_points = np.arange(0, 24, 2)  # от 0 до 24 часов с шагом 2
print("Временные точки (часы):")
print(time_points)

In [None]:
# Равномерно распределенные значения
concentrations_series = np.linspace(0, 100, 11)  # 11 точек от 0 до 100
print("Серия разведений:")
print(concentrations_series)

In [None]:
# Случайные числа - полезно для симуляций
np.random.seed(42)  # Для воспроизводимости

# Случайные значения от 0 до 1
random_measurements = np.random.random((3, 4))
print("Случайные измерения:")
print(random_measurements)

# Нормальное распределение (среднее=100, стандартное отклонение=15)
gene_expression = np.random.normal(100, 15, 10)
print("\nУровни экспрессии генов:")
print(gene_expression)

## 2. Индексация и срезы

Доступ к элементам массива и их выборка.

In [None]:
# Создадим данные экспрессии генов
expression_data = np.array([120, 95, 156, 87, 203, 145, 98, 176])
print("Данные экспрессии:")
print(expression_data)

In [None]:
# Доступ к отдельным элементам (индексация с 0)
print(f"Первый образец: {expression_data[0]}")
print(f"Последний образец: {expression_data[-1]}")
print(f"Третий образец: {expression_data[2]}")

In [None]:
# Срезы (slicing)
print(f"Первые три образца: {expression_data[:3]}")
print(f"Последние три образца: {expression_data[-3:]}")
print(f"Образцы с 2 по 5: {expression_data[2:6]}")
print(f"Каждый второй образец: {expression_data[::2]}")

In [None]:
# Работа с двумерными массивами
plate = np.array([
    [0.123, 0.145, 0.167, 0.134],
    [0.234, 0.256, 0.278, 0.245],
    [0.345, 0.367, 0.389, 0.356],
    [0.456, 0.478, 0.490, 0.467]
])

print("Планшет:")
print(plate)

# Доступ к элементу [строка, столбец]
print(f"\nЛунка [0, 0]: {plate[0, 0]}")
print(f"Лунка [2, 3]: {plate[2, 3]}")

# Доступ к целой строке
print(f"\nВторая строка: {plate[1, :]}")

# Доступ к целому столбцу
print(f"Третий столбец: {plate[:, 2]}")

# Срез подматрицы
print(f"\nПодматрица 2x2:")
print(plate[1:3, 1:3])

### 2.1 Булева индексация (фильтрация данных)

In [None]:
# Экспрессия генов
expression = np.array([120, 95, 156, 87, 203, 145, 98, 176])

# Найти все значения больше 100
high_expression = expression > 100
print("Маска высокой экспрессии:")
print(high_expression)

# Получить сами значения
print("\nГены с высокой экспрессией:")
print(expression[high_expression])

# Можно делать в одну строку
print("\nГены с низкой экспрессией (<100):")
print(expression[expression < 100])

In [None]:
# Сложные условия
# Гены с экспрессией от 100 до 150
moderate = expression[(expression >= 100) & (expression <= 150)]
print("Умеренная экспрессия (100-150):")
print(moderate)

## 3. Математические операции

NumPy позволяет выполнять операции над всем массивом сразу (векторизация).

### 3.1 Арифметические операции

In [None]:
# Концентрации в мкМ
concentrations = np.array([10, 20, 30, 40, 50])
print("Исходные концентрации (мкМ):")
print(concentrations)

# Умножить все на коэффициент (разведение в 2 раза)
diluted = concentrations / 2
print("\nПосле разведения в 2 раза:")
print(diluted)

# Перевести в нМ (умножить на 1000)
in_nanomolar = concentrations * 1000
print("\nВ наномолярах (нМ):")
print(in_nanomolar)

# Добавить константу (background correction)
corrected = concentrations - 2.5
print("\nПосле коррекции фона (-2.5):")
print(corrected)

In [None]:
# Операции между массивами
sample_1 = np.array([100, 120, 110, 130])
sample_2 = np.array([95, 125, 105, 135])

print("Образец 1:", sample_1)
print("Образец 2:", sample_2)

# Разница между образцами
difference = sample_1 - sample_2
print("\nРазница:", difference)

# Среднее значение двух образцов
average = (sample_1 + sample_2) / 2
print("Среднее:", average)

# Fold change
fold_change = sample_1 / sample_2
print("Fold change:", fold_change)

### 3.2 Математические функции

In [None]:
# Данные для логарифмирования (типично для данных экспрессии)
raw_expression = np.array([1, 10, 100, 1000, 10000])
print("Исходная экспрессия:", raw_expression)

# Логарифм по основанию 10
log10_expression = np.log10(raw_expression)
print("Log10:", log10_expression)

# Натуральный логарифм
ln_expression = np.log(raw_expression)
print("Ln:", ln_expression)

# Логарифм по основанию 2 (часто для RNA-seq)
log2_expression = np.log2(raw_expression)
print("Log2:", log2_expression)

In [None]:
# Другие полезные функции
values = np.array([-2.3, -0.5, 1.7, 3.2, 4.8])

print("Исходные значения:", values)
print("Абсолютные значения:", np.abs(values))
print("Округление:", np.round(values, 1))
print("Квадратный корень (из положительных):", np.sqrt(np.abs(values)))
print("Экспонента:", np.exp(values))

## 4. Статистические функции

Базовая статистика - основа анализа биологических данных.

In [None]:
# Данные измерений (например, уровни белка в разных образцах)
measurements = np.array([23.5, 25.1, 24.8, 26.2, 23.9, 25.5, 24.3, 25.8])

print("Измерения:")
print(measurements)
print()

# Основные статистики
print(f"Среднее значение: {np.mean(measurements):.2f}")
print(f"Медиана: {np.median(measurements):.2f}")
print(f"Стандартное отклонение: {np.std(measurements):.2f}")
print(f"Дисперсия: {np.var(measurements):.2f}")
print(f"Минимум: {np.min(measurements):.2f}")
print(f"Максимум: {np.max(measurements):.2f}")
print(f"Сумма: {np.sum(measurements):.2f}")

In [None]:
# Статистика по осям в многомерных массивах
# Данные: 3 гена, 4 образца
gene_expression = np.array([
    [120, 135, 128, 142],  # Ген 1
    [85, 92, 88, 95],      # Ген 2
    [200, 215, 205, 220]   # Ген 3
])

print("Матрица экспрессии (гены x образцы):")
print(gene_expression)
print()

# Среднее по образцам для каждого гена (по оси 1 - столбцы)
mean_per_gene = np.mean(gene_expression, axis=1)
print("Средняя экспрессия каждого гена:")
print(mean_per_gene)

# Среднее по генам для каждого образца (по оси 0 - строки)
mean_per_sample = np.mean(gene_expression, axis=0)
print("\nСредняя экспрессия в каждом образце:")
print(mean_per_sample)

In [None]:
# Перцентили и квартили
data = np.random.normal(100, 15, 100)  # 100 измерений

print(f"25-й перцентиль (Q1): {np.percentile(data, 25):.2f}")
print(f"50-й перцентиль (медиана): {np.percentile(data, 50):.2f}")
print(f"75-й перцентиль (Q3): {np.percentile(data, 75):.2f}")
print(f"95-й перцентиль: {np.percentile(data, 95):.2f}")

## 5. Изменение формы массивов

In [None]:
# Одномерный массив данных
data = np.arange(12)
print("Исходный массив:")
print(data)
print(f"Форма: {data.shape}")

In [None]:
# Изменение формы на 3x4
reshaped = data.reshape(3, 4)
print("\nИзменённая форма (3x4):")
print(reshaped)
print(f"Форма: {reshaped.shape}")

In [None]:
# Изменение на 4x3
reshaped2 = data.reshape(4, 3)
print("\nИзменённая форма (4x3):")
print(reshaped2)

In [None]:
# Транспонирование (смена строк и столбцов местами)
matrix = np.array([
    [1, 2, 3],
    [4, 5, 6]
])

print("Исходная матрица (2x3):")
print(matrix)

transposed = matrix.T
print("\nТранспонированная (3x2):")
print(transposed)

In [None]:
# Развёртывание в одномерный массив
matrix = np.array([
    [1, 2, 3],
    [4, 5, 6]
])

flattened = matrix.flatten()
print("Развёрнутый массив:")
print(flattened)

## 6. Объединение массивов

In [None]:
# Данные двух экспериментов
experiment1 = np.array([12.3, 15.6, 14.2])
experiment2 = np.array([13.1, 16.2, 14.8])

# Горизонтальное объединение (в один ряд)
combined = np.concatenate([experiment1, experiment2])
print("Объединённые данные:")
print(combined)

In [None]:
# Вертикальное объединение (stack)
stacked = np.vstack([experiment1, experiment2])
print("Стек (вертикально):")
print(stacked)

In [None]:
# Горизонтальное объединение матриц
plate1 = np.ones((3, 4))
plate2 = np.zeros((3, 4))

combined_horizontal = np.hstack([plate1, plate2])
print("Объединение планшетов горизонтально:")
print(combined_horizontal)
print(f"Форма: {combined_horizontal.shape}")

## 7. Практические примеры из биологии

### 7.1 Нормализация данных экспрессии генов

In [None]:
# Сырые данные экспрессии 5 генов в 4 образцах
raw_data = np.array([
    [1200, 1350, 1280, 1420],
    [850, 920, 880, 950],
    [2000, 2150, 2050, 2200],
    [450, 480, 460, 490],
    [3200, 3400, 3300, 3500]
])

print("Сырые данные:")
print(raw_data)

# Z-score нормализация для каждого гена
# (значение - среднее) / стандартное отклонение
mean_per_gene = np.mean(raw_data, axis=1, keepdims=True)
std_per_gene = np.std(raw_data, axis=1, keepdims=True)
z_scores = (raw_data - mean_per_gene) / std_per_gene

print("\nZ-scores:")
print(z_scores)

# Проверка: среднее должно быть ~0, std ~1
print(f"\nСреднее Z-scores по генам: {np.mean(z_scores, axis=1)}")
print(f"Std Z-scores по генам: {np.std(z_scores, axis=1)}")

### 7.2 Расчет IC50 (метод линейной интерполяции)

In [None]:
# Концентрации препарата (мкМ) и жизнеспособность клеток (%)
concentrations = np.array([0.1, 1, 10, 100, 1000])
viability = np.array([98, 92, 75, 35, 5])

print("Концентрация (мкМ):", concentrations)
print("Жизнеспособность (%):", viability)

# Используем интерполяцию для нахождения концентрации при 50% жизнеспособности
ic50 = np.interp(50, viability[::-1], concentrations[::-1])
print(f"\nIC50: {ic50:.2f} мкМ")

### 7.3 Обработка данных микропланшета

In [None]:
# Симуляция данных 96-луночного планшета
np.random.seed(42)
plate_96 = np.random.normal(0.5, 0.1, (8, 12))

# Добавим бланки (нулевая концентрация) в первый столбец
plate_96[:, 0] = np.random.normal(0.1, 0.02, 8)

print("Планшет 96 лунок (OD600):")
print(plate_96)

# Среднее значение бланка
blank_mean = np.mean(plate_96[:, 0])
print(f"\nСреднее значение бланка: {blank_mean:.4f}")

# Коррекция на бланк
corrected_plate = plate_96 - blank_mean
corrected_plate = np.maximum(corrected_plate, 0)  # Убрать отрицательные значения

print("\nПланшет после коррекции на бланк:")
print(corrected_plate)

# Статистика по строкам (репликаты)
print("\nСреднее по каждой строке:")
print(np.mean(corrected_plate, axis=1))

### 7.4 Фильтрация генов по уровню экспрессии

In [None]:
# Данные экспрессии 10 генов в 2 условиях (контроль vs обработка)
np.random.seed(42)
gene_names = [f"Gene_{i+1}" for i in range(10)]
control = np.random.normal(100, 20, 10)
treated = control * np.random.normal(1.5, 0.5, 10)  # Некоторые гены изменяются

# Рассчитаем fold change
fold_change = treated / control
log2_fc = np.log2(fold_change)

print("Ген\t\tКонтроль\tОбработка\tFC\t\tLog2(FC)")
print("="*70)
for i in range(10):
    print(f"{gene_names[i]}\t\t{control[i]:.1f}\t\t{treated[i]:.1f}\t\t{fold_change[i]:.2f}\t\t{log2_fc[i]:.2f}")

# Найдём дифференциально экспрессированные гены (|log2FC| > 1)
de_genes_mask = np.abs(log2_fc) > 1
de_gene_names = np.array(gene_names)[de_genes_mask]

print(f"\nДифференциально экспрессированные гены (|log2FC| > 1):")
for gene in de_gene_names:
    idx = gene_names.index(gene)
    print(f"  {gene}: log2FC = {log2_fc[idx]:.2f}")

### 7.5 Расчёт корреляции между образцами

In [None]:
# Экспрессия 100 генов в 3 биологических репликатах
np.random.seed(42)
n_genes = 100

# Создаём коррелированные данные (хорошие репликаты)
base_expression = np.random.normal(100, 30, n_genes)
replicate1 = base_expression + np.random.normal(0, 5, n_genes)
replicate2 = base_expression + np.random.normal(0, 5, n_genes)
replicate3 = base_expression + np.random.normal(0, 5, n_genes)

# Объединяем в матрицу
expression_matrix = np.column_stack([replicate1, replicate2, replicate3])

# Корреляционная матрица (Пирсон)
correlation_matrix = np.corrcoef(expression_matrix.T)

print("Корреляционная матрица между репликатами:")
print(correlation_matrix)
print("\nРепликаты высоко коррелированы - эксперимент успешен!")

## 8. Практические задания

### Задание 1: Нормализация на housekeeping ген

In [None]:
# Данные qPCR: 4 гена в 5 образцах
# Первая строка - housekeeping ген (GAPDH)
ct_values = np.array([
    [18.5, 18.3, 18.6, 18.4, 18.5],  # GAPDH
    [22.1, 23.5, 22.8, 24.2, 23.1],  # Gene1
    [25.3, 24.8, 25.1, 24.9, 25.0],  # Gene2
    [19.8, 21.2, 20.5, 22.1, 20.8]   # Gene3
])

# Задание: нормализуйте гены на GAPDH (ΔCt = Ct_gene - Ct_GAPDH)
# Ваш код здесь

# delta_ct = ?
# print("ΔCt значения:")
# print(delta_ct)

### Задание 2: Найти выбросы в данных

In [None]:
# Измерения концентрации белка (мкг/мл)
measurements = np.array([23.5, 24.1, 23.8, 45.2, 24.3, 23.9, 24.5, 23.7, 2.1, 24.0])

# Задание: найдите выбросы используя метод IQR
# (значения за пределами Q1 - 1.5*IQR и Q3 + 1.5*IQR)
# Ваш код здесь

# q1 = ?
# q3 = ?
# iqr = ?
# outliers = ?

### Задание 3: Создать матрицу дистанций

In [None]:
# Координаты 4 клеток в 2D пространстве
cell_positions = np.array([
    [0, 0],
    [3, 4],
    [6, 8],
    [1, 1]
])

# Задание: создайте матрицу Евклидовых дистанций между всеми парами клеток
# Подсказка: используйте циклы и формулу расстояния sqrt((x1-x2)^2 + (y1-y2)^2)
# Ваш код здесь

# n_cells = len(cell_positions)
# distance_matrix = np.zeros((n_cells, n_cells))
# ...