# Основы Pandas

Pandas - это библиотека для работы с табличными данными. Она идеальна для анализа экспериментальных данных, результатов секвенирования, клинических исследований и многого другого.

In [None]:
# Импорт библиотек
import pandas as pd
import numpy as np

# Проверка версии
print(f"Pandas версия: {pd.__version__}")

# Настройки отображения
pd.set_option('display.max_columns', None)
pd.set_option('display.precision', 2)

## 1. Основные структуры данных

Pandas имеет две основные структуры:
- **Series** - одномерный массив с метками (как столбец таблицы)
- **DataFrame** - двумерная таблица с метками строк и столбцов

### 1.1 Series

In [None]:
# Создание Series из списка
gene_expression = pd.Series([120, 95, 156, 87, 203], 
                            index=['BRCA1', 'TP53', 'EGFR', 'MYC', 'KRAS'])

print("Экспрессия генов:")
print(gene_expression)
print(f"\nТип данных: {gene_expression.dtype}")

In [None]:
# Доступ к элементам
print(f"Экспрессия BRCA1: {gene_expression['BRCA1']}")
print(f"Экспрессия TP53: {gene_expression['TP53']}")

# Операции со Series
print(f"\nСредняя экспрессия: {gene_expression.mean():.2f}")
print(f"Максимум: {gene_expression.max()}")
print(f"Ген с макс. экспрессией: {gene_expression.idxmax()}")

### 1.2 DataFrame

In [None]:
# Создание DataFrame из словаря
data = {
    'Gene': ['BRCA1', 'TP53', 'EGFR', 'MYC', 'KRAS'],
    'Chromosome': ['17', '17', '7', '8', '12'],
    'Expression_Control': [120, 95, 156, 87, 203],
    'Expression_Treated': [145, 78, 189, 92, 234],
    'p_value': [0.023, 0.041, 0.012, 0.234, 0.008]
}

df = pd.DataFrame(data)
print("Таблица экспрессии генов:")
print(df)

In [None]:
# Основная информация о DataFrame
print("Размерность (строки, столбцы):", df.shape)
print("\nНазвания столбцов:", df.columns.tolist())
print("\nИндексы строк:", df.index.tolist())
print("\nТипы данных:")
print(df.dtypes)

In [None]:
# Быстрый просмотр данных
print("Первые 3 строки:")
print(df.head(3))

print("\nПоследние 2 строки:")
print(df.tail(2))

In [None]:
# Сводная информация
print("Информация о DataFrame:")
print(df.info())

print("\nСтатистика по числовым столбцам:")
print(df.describe())

## 2. Выбор данных

### 2.1 Выбор столбцов

In [None]:
# Один столбец (возвращает Series)
genes = df['Gene']
print("Гены:")
print(genes)
print(f"Тип: {type(genes)}")

In [None]:
# Несколько столбцов (возвращает DataFrame)
expression_data = df[['Gene', 'Expression_Control', 'Expression_Treated']]
print("Данные экспрессии:")
print(expression_data)

### 2.2 Выбор строк

In [None]:
# По индексу (loc - по метке)
print("Первая строка:")
print(df.loc[0])

# Несколько строк
print("\nПервые три строки:")
print(df.loc[0:2])

In [None]:
# По позиции (iloc - по числовому индексу)
print("Вторая строка (позиция 1):")
print(df.iloc[1])

print("\nСтроки 1-3 (позиции 1:3):")
print(df.iloc[1:3])

### 2.3 Выбор конкретных ячеек

In [None]:
# Конкретная ячейка
value = df.loc[0, 'Gene']
print(f"Ген в первой строке: {value}")

# Несколько ячеек
subset = df.loc[0:2, ['Gene', 'Expression_Control']]
print("\nПодвыборка:")
print(subset)

### 2.4 Фильтрация данных (булева индексация)

In [None]:
# Найти гены с экспрессией в контроле > 100
high_expression = df[df['Expression_Control'] > 100]
print("Гены с высокой экспрессией в контроле:")
print(high_expression)

In [None]:
# Найти статистически значимые гены (p < 0.05)
significant = df[df['p_value'] < 0.05]
print("Статистически значимые гены:")
print(significant)

In [None]:
# Сложные условия (И - &, ИЛИ - |)
# Гены с высокой экспрессией И значимые
filtered = df[(df['Expression_Control'] > 100) & (df['p_value'] < 0.05)]
print("Гены с высокой экспрессией и p < 0.05:")
print(filtered)

In [None]:
# Фильтрация по спискам значений
genes_of_interest = ['BRCA1', 'TP53', 'EGFR']
selected = df[df['Gene'].isin(genes_of_interest)]
print("Выбранные гены:")
print(selected)

## 3. Добавление и изменение данных

### 3.1 Добавление новых столбцов

In [None]:
# Создадим копию для работы
df_work = df.copy()

# Добавить столбец с константой
df_work['Organism'] = 'Homo sapiens'

print("С новым столбцом:")
print(df_work)

In [None]:
# Вычислить Fold Change
df_work['Fold_Change'] = df_work['Expression_Treated'] / df_work['Expression_Control']

print("С Fold Change:")
print(df_work[['Gene', 'Expression_Control', 'Expression_Treated', 'Fold_Change']])

In [None]:
# Log2 Fold Change
df_work['Log2_FC'] = np.log2(df_work['Fold_Change'])

print("С Log2 FC:")
print(df_work[['Gene', 'Fold_Change', 'Log2_FC']])

In [None]:
# Категориальный столбец на основе условий
df_work['Regulation'] = 'No change'
df_work.loc[df_work['Log2_FC'] > 0.5, 'Regulation'] = 'Upregulated'
df_work.loc[df_work['Log2_FC'] < -0.5, 'Regulation'] = 'Downregulated'

print("С категорией регуляции:")
print(df_work[['Gene', 'Log2_FC', 'Regulation']])

### 3.2 Добавление строк

In [None]:
# Создать новую строку как DataFrame
new_gene = pd.DataFrame({
    'Gene': ['PTEN'],
    'Chromosome': ['10'],
    'Expression_Control': [110],
    'Expression_Treated': [85],
    'p_value': [0.015]
})

# Добавить к существующему DataFrame
df_extended = pd.concat([df, new_gene], ignore_index=True)

print("С добавленным геном:")
print(df_extended)

## 4. Сортировка данных

In [None]:
# Сортировка по одному столбцу
sorted_by_expression = df.sort_values('Expression_Control', ascending=False)
print("Отсортированы по экспрессии (убывание):")
print(sorted_by_expression)

In [None]:
# Сортировка по p-value (возрастание)
sorted_by_pvalue = df.sort_values('p_value')
print("Отсортированы по p-value:")
print(sorted_by_pvalue[['Gene', 'p_value']])

In [None]:
# Сортировка по нескольким столбцам
sorted_multi = df.sort_values(['Chromosome', 'Expression_Control'], 
                              ascending=[True, False])
print("Отсортированы по хромосоме, затем по экспрессии:")
print(sorted_multi[['Gene', 'Chromosome', 'Expression_Control']])

## 5. Группировка и агрегация

In [None]:
# Создадим более сложный датасет - результаты клинического исследования
clinical_data = pd.DataFrame({
    'Patient_ID': ['P001', 'P002', 'P003', 'P004', 'P005', 'P006', 'P007', 'P008'],
    'Age': [45, 52, 38, 61, 49, 55, 43, 58],
    'Gender': ['M', 'F', 'F', 'M', 'F', 'M', 'F', 'M'],
    'Treatment': ['A', 'A', 'B', 'B', 'A', 'B', 'A', 'B'],
    'Response': [85, 92, 78, 88, 90, 82, 87, 85],
    'Tumor_Size': [2.3, 1.8, 3.1, 2.7, 2.1, 3.0, 2.5, 2.8]
})

print("Клинические данные:")
print(clinical_data)

In [None]:
# Группировка по полу
by_gender = clinical_data.groupby('Gender').mean(numeric_only=True)
print("Средние значения по полу:")
print(by_gender)

In [None]:
# Группировка по типу лечения
by_treatment = clinical_data.groupby('Treatment')['Response'].agg(['mean', 'std', 'count'])
print("Статистика ответа по типу лечения:")
print(by_treatment)

In [None]:
# Группировка по двум переменным
by_gender_treatment = clinical_data.groupby(['Gender', 'Treatment'])['Response'].mean()
print("Средний ответ по полу и лечению:")
print(by_gender_treatment)

In [None]:
# Множественная агрегация
aggregated = clinical_data.groupby('Treatment').agg({
    'Age': ['mean', 'min', 'max'],
    'Response': ['mean', 'std'],
    'Tumor_Size': ['mean', 'median']
})

print("Множественная агрегация:")
print(aggregated)

## 6. Работа с пропущенными данными

In [None]:
# Создадим данные с пропусками
data_with_missing = pd.DataFrame({
    'Sample': ['S1', 'S2', 'S3', 'S4', 'S5'],
    'Concentration': [12.5, np.nan, 15.3, 14.1, np.nan],
    'Purity': [98.5, 97.2, np.nan, 99.1, 96.8],
    'Volume': [50, 50, 50, np.nan, 50]
})

print("Данные с пропусками:")
print(data_with_missing)

In [None]:
# Проверка на пропуски
print("Есть ли пропуски?")
print(data_with_missing.isnull())

print("\nКоличество пропусков в каждом столбце:")
print(data_with_missing.isnull().sum())

In [None]:
# Удаление строк с пропусками
cleaned = data_with_missing.dropna()
print("После удаления строк с пропусками:")
print(cleaned)

In [None]:
# Заполнение пропусков средним значением
filled_mean = data_with_missing.copy()
filled_mean['Concentration'] = filled_mean['Concentration'].fillna(
    filled_mean['Concentration'].mean()
)

print("Пропуски заполнены средним:")
print(filled_mean)

In [None]:
# Заполнение пропусков конкретным значением
filled_value = data_with_missing.fillna(0)
print("Пропуски заполнены нулями:")
print(filled_value)

In [None]:
# Forward fill - заполнение предыдущим значением
filled_forward = data_with_missing.fillna(method='ffill')
print("Forward fill:")
print(filled_forward)

## 7. Объединение DataFrame

### 7.1 Concatenation (конкатенация)

In [None]:
# Два набора данных (например, из двух экспериментов)
exp1 = pd.DataFrame({
    'Gene': ['BRCA1', 'TP53', 'EGFR'],
    'Expression': [120, 95, 156]
})

exp2 = pd.DataFrame({
    'Gene': ['MYC', 'KRAS', 'PTEN'],
    'Expression': [87, 203, 110]
})

print("Эксперимент 1:")
print(exp1)
print("\nЭксперимент 2:")
print(exp2)

# Объединение по вертикали (добавить строки)
combined = pd.concat([exp1, exp2], ignore_index=True)
print("\nОбъединённые данные:")
print(combined)

### 7.2 Merge (слияние по ключу)

In [None]:
# Данные экспрессии
expression = pd.DataFrame({
    'Gene': ['BRCA1', 'TP53', 'EGFR', 'MYC'],
    'Expression': [120, 95, 156, 87]
})

# Аннотация генов
annotation = pd.DataFrame({
    'Gene': ['BRCA1', 'TP53', 'EGFR', 'KRAS'],
    'Chromosome': ['17', '17', '7', '12'],
    'Function': ['DNA repair', 'Tumor suppressor', 'Growth factor', 'Signaling']
})

print("Экспрессия:")
print(expression)
print("\nАннотация:")
print(annotation)

In [None]:
# Inner join (только общие гены)
merged_inner = pd.merge(expression, annotation, on='Gene', how='inner')
print("Inner join (только общие гены):")
print(merged_inner)

In [None]:
# Left join (все из левой таблицы)
merged_left = pd.merge(expression, annotation, on='Gene', how='left')
print("Left join (все гены из expression):")
print(merged_left)

In [None]:
# Outer join (все гены из обеих таблиц)
merged_outer = pd.merge(expression, annotation, on='Gene', how='outer')
print("Outer join (все гены):")
print(merged_outer)

## 8. Чтение и запись файлов

### 8.1 CSV файлы

In [None]:
# Создадим пример данных
example_data = pd.DataFrame({
    'Sample_ID': ['S001', 'S002', 'S003', 'S004'],
    'Treatment': ['Control', 'Drug_A', 'Control', 'Drug_A'],
    'Cell_Count': [1250000, 980000, 1320000, 1050000],
    'Viability': [98.5, 87.2, 97.8, 89.1]
})

# Запись в CSV
example_data.to_csv('cell_culture_data.csv', index=False)
print("Данные сохранены в cell_culture_data.csv")

# Чтение из CSV
loaded_data = pd.read_csv('cell_culture_data.csv')
print("\nЗагруженные данные:")
print(loaded_data)

### 8.2 Excel файлы

In [None]:
# Запись в Excel (требуется openpyxl или xlsxwriter)
# example_data.to_excel('cell_culture_data.xlsx', index=False, sheet_name='Experiment_1')

# Чтение из Excel
# loaded_excel = pd.read_excel('cell_culture_data.xlsx', sheet_name='Experiment_1')

print("Для работы с Excel установите: pip install openpyxl")

## 9. Практические примеры из биологии

### 9.1 Анализ RNA-seq данных

In [None]:
# Симуляция RNA-seq данных
np.random.seed(42)

n_genes = 20
gene_names = [f'Gene_{i+1:03d}' for i in range(n_genes)]

rnaseq_data = pd.DataFrame({
    'Gene_ID': gene_names,
    'Control_1': np.random.negative_binomial(10, 0.1, n_genes),
    'Control_2': np.random.negative_binomial(10, 0.1, n_genes),
    'Control_3': np.random.negative_binomial(10, 0.1, n_genes),
    'Treated_1': np.random.negative_binomial(15, 0.1, n_genes),
    'Treated_2': np.random.negative_binomial(15, 0.1, n_genes),
    'Treated_3': np.random.negative_binomial(15, 0.1, n_genes)
})

print("RNA-seq данные (counts):")
print(rnaseq_data.head(10))

In [None]:
# Расчет средних значений для каждой группы
rnaseq_data['Mean_Control'] = rnaseq_data[['Control_1', 'Control_2', 'Control_3']].mean(axis=1)
rnaseq_data['Mean_Treated'] = rnaseq_data[['Treated_1', 'Treated_2', 'Treated_3']].mean(axis=1)

# Fold Change
rnaseq_data['Fold_Change'] = rnaseq_data['Mean_Treated'] / (rnaseq_data['Mean_Control'] + 1)  # +1 для избежания деления на 0
rnaseq_data['Log2_FC'] = np.log2(rnaseq_data['Fold_Change'])

print("\nС расчётами:")
print(rnaseq_data[['Gene_ID', 'Mean_Control', 'Mean_Treated', 'Log2_FC']].head(10))

In [None]:
# Найти топ дифференциально экспрессированные гены
top_de_genes = rnaseq_data.sort_values('Log2_FC', key=abs, ascending=False).head(5)

print("Топ-5 дифференциально экспрессированных генов:")
print(top_de_genes[['Gene_ID', 'Mean_Control', 'Mean_Treated', 'Log2_FC']])

### 9.2 Анализ данных qPCR

In [None]:
# Данные qPCR (Ct values)
qpcr_data = pd.DataFrame({
    'Sample': ['Control', 'Control', 'Control', 'Treated', 'Treated', 'Treated'],
    'Gene': ['GAPDH', 'Target', 'Target', 'GAPDH', 'Target', 'Target'],
    'Replicate': [1, 1, 2, 1, 1, 2],
    'Ct': [18.5, 22.3, 22.6, 18.4, 20.1, 20.3]
})

print("qPCR данные:")
print(qpcr_data)

In [None]:
# Расчёт средних Ct для каждой комбинации
ct_means = qpcr_data.groupby(['Sample', 'Gene'])['Ct'].mean().reset_index()
print("\nСредние Ct:")
print(ct_means)

# Pivot для удобства расчётов
ct_pivot = ct_means.pivot(index='Sample', columns='Gene', values='Ct')
print("\nPivot таблица:")
print(ct_pivot)

In [None]:
# ΔCt и ΔΔCt расчёты
ct_pivot['Delta_Ct'] = ct_pivot['Target'] - ct_pivot['GAPDH']
delta_ct_control = ct_pivot.loc['Control', 'Delta_Ct']
ct_pivot['Delta_Delta_Ct'] = ct_pivot['Delta_Ct'] - delta_ct_control
ct_pivot['Fold_Change'] = 2 ** (-ct_pivot['Delta_Delta_Ct'])

print("\nАнализ qPCR:")
print(ct_pivot)

### 9.3 Анализ данных микропланшета

In [None]:
# Создание данных 96-луночного планшета
rows = list('ABCDEFGH')
cols = list(range(1, 13))

# Генерация координат
wells = [f'{row}{col}' for row in rows for col in cols]

# Симуляция данных (OD600)
np.random.seed(42)
od_values = np.random.normal(0.5, 0.1, 96)

plate_df = pd.DataFrame({
    'Well': wells,
    'OD600': od_values
})

# Добавить информацию о строках и столбцах
plate_df['Row'] = plate_df['Well'].str[0]
plate_df['Column'] = plate_df['Well'].str[1:].astype(int)

print("Данные планшета:")
print(plate_df.head(10))

In [None]:
# Средние значения по строкам
row_means = plate_df.groupby('Row')['OD600'].mean().sort_index()
print("Средние значения по строкам:")
print(row_means)

# Средние значения по столбцам
col_means = plate_df.groupby('Column')['OD600'].mean().sort_index()
print("\nСредние значения по столбцам:")
print(col_means)

In [None]:
# Pivot table для визуализации планшета
plate_pivot = plate_df.pivot(index='Row', columns='Column', values='OD600')
print("\nПланшет в виде матрицы:")
print(plate_pivot.round(3))

### 9.4 Анализ клинических данных

In [None]:
# Симуляция клинических данных
np.random.seed(42)
n_patients = 50

clinical = pd.DataFrame({
    'Patient_ID': [f'P{i+1:03d}' for i in range(n_patients)],
    'Age': np.random.normal(55, 12, n_patients).astype(int),
    'Gender': np.random.choice(['M', 'F'], n_patients),
    'Tumor_Stage': np.random.choice(['I', 'II', 'III', 'IV'], n_patients, p=[0.2, 0.3, 0.3, 0.2]),
    'Treatment': np.random.choice(['Surgery', 'Chemo', 'Radio', 'Combination'], n_patients),
    'Response': np.random.choice(['Complete', 'Partial', 'Stable', 'Progressive'], n_patients, p=[0.3, 0.35, 0.25, 0.1]),
    'Survival_Months': np.random.exponential(24, n_patients).astype(int)
})

print("Клинические данные:")
print(clinical.head(10))

In [None]:
# Сводная статистика по стадиям
stage_summary = clinical.groupby('Tumor_Stage').agg({
    'Patient_ID': 'count',
    'Age': 'mean',
    'Survival_Months': ['mean', 'median', 'std']
}).round(2)

stage_summary.columns = ['N_Patients', 'Mean_Age', 'Mean_Survival', 'Median_Survival', 'SD_Survival']
print("\nСтатистика по стадиям:")
print(stage_summary)

In [None]:
# Crosstab - таблица сопряжённости
response_by_treatment = pd.crosstab(clinical['Treatment'], clinical['Response'])
print("\nОтвет на лечение по типу терапии:")
print(response_by_treatment)

# С процентами
response_pct = pd.crosstab(clinical['Treatment'], clinical['Response'], normalize='index') * 100
print("\nПроценты:")
print(response_pct.round(1))

In [None]:
# Фильтрация сложных случаев
advanced_cases = clinical[
    (clinical['Tumor_Stage'].isin(['III', 'IV'])) & 
    (clinical['Age'] > 60)
]

print(f"\nПродвинутые стадии у пациентов старше 60: {len(advanced_cases)} случаев")
print(advanced_cases[['Patient_ID', 'Age', 'Tumor_Stage', 'Treatment', 'Survival_Months']].head())

## 10. Полезные функции apply и lambda

In [None]:
# Создадим данные
genes_df = pd.DataFrame({
    'Gene': ['brca1', 'tp53', 'egfr', 'myc', 'kras'],
    'Expression': [120, 95, 156, 87, 203]
})

print("Исходные данные:")
print(genes_df)

In [None]:
# Применить функцию к столбцу (сделать заглавными)
genes_df['Gene_Upper'] = genes_df['Gene'].apply(lambda x: x.upper())

print("\nС заглавными буквами:")
print(genes_df)

In [None]:
# Категоризация значений
def categorize_expression(value):
    if value < 100:
        return 'Low'
    elif value < 150:
        return 'Medium'
    else:
        return 'High'

genes_df['Expression_Category'] = genes_df['Expression'].apply(categorize_expression)

print("\nС категориями:")
print(genes_df)

In [None]:
# Apply к нескольким столбцам (axis=1)
df_calc = pd.DataFrame({
    'Control': [100, 120, 95],
    'Treated': [150, 130, 85]
})

# Расчёт по строкам
df_calc['Ratio'] = df_calc.apply(lambda row: row['Treated'] / row['Control'], axis=1)

print("\nРасчёт по строкам:")
print(df_calc)

## 11. Практические задания

### Задание 1: Анализ дифференциальной экспрессии

In [None]:
# Даны данные экспрессии генов
expr_data = pd.DataFrame({
    'Gene': ['Gene_A', 'Gene_B', 'Gene_C', 'Gene_D', 'Gene_E'],
    'Control_Mean': [100, 150, 80, 200, 120],
    'Treated_Mean': [250, 160, 40, 195, 180],
    'p_value': [0.001, 0.234, 0.003, 0.567, 0.015]
})

# Задание:
# 1. Добавьте столбец Log2_FC
# 2. Добавьте столбец Significant (True если p < 0.05)
# 3. Найдите гены, которые значимо изменились (|Log2_FC| > 1 и p < 0.05)
# 4. Отсортируйте по абсолютному значению Log2_FC

# Ваш код здесь

### Задание 2: Анализ планшета ELISA

In [None]:
# Данные ELISA планшета
elisa_data = pd.DataFrame({
    'Well': ['A1', 'A2', 'A3', 'B1', 'B2', 'B3', 'C1', 'C2', 'C3'],
    'Sample_Type': ['Blank', 'Blank', 'Blank', 'Standard', 'Standard', 'Standard', 
                   'Sample', 'Sample', 'Sample'],
    'Concentration': [0, 0, 0, 100, 100, 100, np.nan, np.nan, np.nan],
    'OD450': [0.05, 0.06, 0.05, 0.45, 0.47, 0.46, 0.32, 0.34, 0.33]
})

# Задание:
# 1. Рассчитайте среднее значение Blank
# 2. Скорректируйте все OD450 на Blank (вычесть среднее Blank)
# 3. Рассчитайте среднее скорректированное OD для каждого Sample_Type
# 4. Найдите OD для стандарта (100 ng/ml) и оцените концентрацию образцов

# Ваш код здесь

### Задание 3: Объединение данных из разных источников

In [None]:
# Таблица 1: Экспрессия генов
expression_table = pd.DataFrame({
    'Gene_Symbol': ['BRCA1', 'TP53', 'EGFR', 'MYC'],
    'Expression_Level': [120, 95, 156, 87]
})

# Таблица 2: Локализация генов
location_table = pd.DataFrame({
    'Gene_Symbol': ['BRCA1', 'TP53', 'KRAS', 'MYC'],
    'Chromosome': ['17', '17', '12', '8'],
    'Start': [43044295, 7668402, 25205246, 127735434]
})

# Таблица 3: Функция генов
function_table = pd.DataFrame({
    'Gene_Symbol': ['TP53', 'EGFR', 'MYC', 'KRAS'],
    'Function': ['Tumor suppressor', 'Growth factor receptor', 'Transcription factor', 'GTPase']
})

# Задание:
# 1. Объедините все три таблицы по Gene_Symbol
# 2. Используйте outer join, чтобы сохранить все гены
# 3. Заполните пропущенные Expression_Level значением 0
# 4. Найдите гены, для которых есть и экспрессия, и функция

# Ваш код здесь