# Домашнее задание: Классическое машинное обучение для биологов

В этом задании мы будем работать с биологическими данными и применять методы классического машинного обучения.

**Цели:**
- Освоить работу с реальными биологическими датасетами
- Применить алгоритмы классификации и регрессии
- Научиться правильно оценивать модели
- Интерпретировать результаты в биологическом контексте

**Оценка:**
- Задание 1: 2 балла
- Задание 2: 3 балла
- Задание 3: 3 балла
- Задание 4: 2 балла
- **Всего: 10 баллов**

In [1]:
# Импорты
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.linear_model import LogisticRegression, Ridge, Lasso
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.svm import SVC, SVR
from sklearn.neighbors import KNeighborsClassifier
from sklearn.decomposition import PCA
import warnings
import ssl

# Исправление ошибки SSL на macOS (CERTIFICATE_VERIFY_FAILED)
ssl._create_default_https_context = ssl._create_unverified_context

warnings.filterwarnings('ignore')

np.random.seed(42)
sns.set_style('whitegrid')

---

## Задание 1: Классификация типов ирисов (2 балла)

### Контекст
Датасет Iris содержит измерения цветков трёх видов ирисов (Setosa, Versicolor, Virginica). Хотя это классический датасет, он отлично демонстрирует основы классификации в биологии.

### Задача
1. Загрузите датасет Iris
2. Проведите разведочный анализ данных (EDA)
3. Обучите несколько моделей классификации
4. Сравните их производительность
5. Интерпретируйте результаты

In [2]:
# 1.1 Загрузка данных
from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data
y = iris.target
feature_names = iris.feature_names
target_names = iris.target_names

# Создаём DataFrame для удобства
df_iris = pd.DataFrame(X, columns=feature_names)
df_iris['species'] = [target_names[i] for i in y]

print("Размер датасета:", df_iris.shape)
print("\nПервые строки:")
df_iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [3]:
# 1.2 EDA - Разведочный анализ данных

# TODO: Выведите основную статистику по датасету
# Используйте df_iris.describe()


In [4]:
# TODO: Визуализируйте распределение признаков
# Подсказка: используйте sns.pairplot(df_iris, hue='species')


In [5]:
# TODO: Постройте матрицу корреляций
# Подсказка: используйте df_iris.corr() и sns.heatmap()


In [6]:
# 1.3 Подготовка данных

# TODO: Разделите данные на train и test (80/20)
# X_train, X_test, y_train, y_test = ...

# TODO: Нормализуйте признаки с помощью StandardScaler
# scaler = StandardScaler()
# X_train_scaled = ...
# X_test_scaled = ...


In [7]:
# 1.4 Обучение моделей

# TODO: Обучите следующие модели:
# 1. Logistic Regression
# 2. Decision Tree
# 3. Random Forest
# 4. K-Nearest Neighbors
# 5. SVM

# Для каждой модели:
# - Обучите на train данных
# - Сделайте предсказания на test
# - Вычислите accuracy
# - Постройте confusion matrix


In [8]:
# 1.5 Сравнение моделей

# TODO: Создайте таблицу с результатами всех моделей
# Включите: название модели, accuracy, precision, recall, f1-score


**Вопросы для анализа (ответьте текстом):**

1. Какая модель показала лучшие результаты? Почему, на ваш взгляд?
2. Какие признаки наиболее важны для классификации?
3. Есть ли классы, которые модель путает чаще других? С чем это может быть связано?

**Ваши ответы:**
1. ...
2. ...
3. ...

---

## Задание 2: Предсказание диабета (3 балла)

### Контекст
Датасет Pima Indians Diabetes содержит медицинские данные женщин индейского племени Пима. Задача — предсказать наличие диабета на основе диагностических измерений.

### Признаки:
- Pregnancies: количество беременностей
- Glucose: концентрация глюкозы в плазме
- BloodPressure: диастолическое давление (мм рт.ст.)
- SkinThickness: толщина кожной складки (мм)
- Insulin: уровень инсулина (mu U/ml)
- BMI: индекс массы тела
- DiabetesPedigreeFunction: функция наследственности диабета
- Age: возраст

### Задача
1. Загрузите и изучите данные
2. Обработайте пропущенные значения
3. Проведите feature engineering
4. Обучите модели с подбором гиперпараметров
5. Проанализируйте важность признаков

In [9]:
!pip install --upgrade certifi


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m26.0.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [10]:
# 2.1 Загрузка данных
# Датасет можно загрузить так:
url = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv'
column_names = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 
                'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'Outcome']
df_diabetes = pd.read_csv(url, names=column_names)

print("Размер датасета:", df_diabetes.shape)
print("\nПервые строки:")
df_diabetes.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [11]:
# 2.2 Исследование данных

# TODO: Проверьте наличие пропущенных значений
# Подсказка: некоторые нули могут быть замаскированными пропусками (например, Glucose=0 невозможен)


In [12]:
# TODO: Визуализируйте распределение целевой переменной (Outcome)
# Есть ли дисбаланс классов?


In [13]:
# TODO: Постройте boxplots для числовых признаков по классам
# Какие признаки хорошо разделяют классы?


In [14]:
# 2.3 Обработка данных

# TODO: Замените невозможные нули на NaN для следующих признаков:
# Glucose, BloodPressure, SkinThickness, Insulin, BMI

# TODO: Заполните пропуски медианными значениями (отдельно для каждого класса)
# Подсказка: используйте df.groupby('Outcome').transform('median')


In [15]:
# 2.4 Feature Engineering

# TODO: Создайте новые признаки, например:
# - Категориальные версии возраста (young, middle, old)
# - Категориальные версии BMI (underweight, normal, overweight, obese)
# - Взаимодействия между признаками (например, Glucose * BMI)
# - Полиномиальные признаки


In [16]:
# 2.5 Подготовка данных

# TODO: Разделите данные на X и y
# TODO: Train/test split (80/20)
# TODO: Нормализация признаков


In [17]:
# 2.6 Baseline модель

# TODO: Обучите простую Logistic Regression без подбора параметров
# Это будет ваш baseline для сравнения


In [18]:
# 2.7 Подбор гиперпараметров

# TODO: Используйте GridSearchCV для подбора гиперпараметров Random Forest
# Параметры для поиска:
# - n_estimators: [50, 100, 200]
# - max_depth: [5, 10, 15, None]
# - min_samples_split: [2, 5, 10]
# - min_samples_leaf: [1, 2, 4]

# Используйте cv=5 и scoring='roc_auc'


In [19]:
# 2.8 Анализ важности признаков

# TODO: Постройте график важности признаков для лучшей модели Random Forest
# Какие признаки наиболее важны для предсказания диабета?


In [20]:
# 2.9 Анализ ошибок

# TODO: Постройте confusion matrix
# TODO: Вычислите precision, recall, F1 для обоих классов
# TODO: Постройте ROC-кривую и вычислите AUC


**Вопросы для анализа:**

1. Какие признаки оказались наиболее важными? Соответствует ли это медицинским знаниям?
2. Какой тип ошибок (False Positive или False Negative) более критичен в этой задаче?
3. Как можно улучшить модель?
4. Как обработка пропущенных значений повлияла на результаты?

**Ваши ответы:**
1. ...
2. ...
3. ...
4. ...

---

## Задание 3: Регрессия — предсказание экспрессии генов (3 балла)

### Контекст
В этом задании мы будем работать с синтетическими данными об экспрессии генов. Задача — предсказать уровень экспрессии целевого гена на основе уровней экспрессии других генов и условий эксперимента.

### Задача
1. Сгенерируйте синтетические данные
2. Проведите анализ данных
3. Обучите регрессионные модели
4. Сравните их производительность
5. Проанализируйте residuals (остатки)

In [21]:
# 3.1 Генерация синтетических данных

np.random.seed(42)

n_samples = 500
n_genes = 50

# Экспрессия генов (логнормальное распределение)
gene_expression = np.random.lognormal(mean=2, sigma=1, size=(n_samples, n_genes))

# Условия эксперимента
temperature = np.random.uniform(20, 37, n_samples)
ph = np.random.uniform(6.5, 7.5, n_samples)
treatment = np.random.choice(['control', 'drug_A', 'drug_B'], n_samples)

# Целевой ген зависит от нескольких других генов и условий
target_gene = (
    2.5 * gene_expression[:, 0] + 
    1.8 * gene_expression[:, 5] - 
    0.5 * gene_expression[:, 10] +
    0.3 * temperature +
    5.0 * ph +
    np.where(treatment == 'drug_A', 10, 0) +
    np.where(treatment == 'drug_B', -5, 0) +
    np.random.normal(0, 5, n_samples)  # шум
)

# Создаём DataFrame
df_genes = pd.DataFrame(gene_expression, columns=[f'gene_{i}' for i in range(n_genes)])
df_genes['temperature'] = temperature
df_genes['ph'] = ph
df_genes['treatment'] = treatment
df_genes['target_gene'] = target_gene

print("Размер датасета:", df_genes.shape)
df_genes.head()

Unnamed: 0,gene_0,gene_1,gene_2,gene_3,gene_4,gene_5,gene_6,gene_7,gene_8,gene_9,...,gene_44,gene_45,gene_46,gene_47,gene_48,gene_49,temperature,ph,treatment,target_gene
0,12.14253,6.434896,14.12136,33.886946,5.84652,5.846616,35.845313,15.917748,4.620605,12.712173,...,1.684516,3.5972,4.661612,21.26627,10.418867,1.26739,29.103632,6.837584,drug_B,76.700518
1,10.217316,5.027474,3.754961,13.621866,20.71793,18.751619,3.19243,5.423751,10.290935,19.600305,...,4.992276,1.709986,9.93556,9.593207,7.426936,5.843985,36.916245,7.316207,control,97.346816
2,1.794326,4.851824,5.245054,3.312565,6.288448,11.06792,48.724691,8.79847,9.559643,6.858948,...,9.581966,16.148431,2.144806,1.972977,12.452751,9.944152,22.416227,6.556842,drug_B,60.516014
3,9.492413,10.448393,3.743329,9.320849,9.905325,3.617013,47.740233,11.867848,2.24498,14.247103,...,8.786188,10.86251,3.053054,8.616898,7.831928,2.356152,34.657849,6.832178,drug_A,82.444605
4,10.567543,12.94597,21.824894,21.195779,1.863266,2.892656,12.367045,12.351604,12.367199,348.184144,...,2.224881,5.28831,4.595395,3.844605,43.183317,11.078228,28.452451,6.59436,drug_B,59.463396


In [22]:
# 3.2 Разведочный анализ

# TODO: Постройте распределение целевой переменной


In [23]:
# TODO: Найдите топ-10 генов с наибольшей корреляцией с target_gene
# Подсказка: используйте df_genes.corr()['target_gene'].sort_values()


In [24]:
# TODO: Постройте scatter plots для топ-5 генов vs target_gene


In [25]:
# TODO: Визуализируйте влияние treatment на target_gene (boxplot)


In [26]:
# 3.3 Подготовка данных

# TODO: Преобразуйте категориальную переменную treatment в dummy variables
# Подсказка: pd.get_dummies()

# TODO: Разделите на X и y
# TODO: Train/test split (80/20)
# TODO: Нормализация признаков


In [27]:
# 3.4 Обучение моделей

# TODO: Обучите следующие регрессионные модели:
# 1. Linear Regression
# 2. Ridge Regression (с подбором alpha через GridSearchCV)
# 3. Lasso Regression (с подбором alpha через GridSearchCV)
# 4. Decision Tree Regressor
# 5. Random Forest Regressor
# 6. SVR (Support Vector Regression)

# Для каждой модели вычислите:
# - MSE, RMSE, MAE, R²


In [28]:
# 3.5 Сравнение моделей

# TODO: Создайте таблицу с метриками всех моделей


In [29]:
# 3.6 Анализ residuals (остатков)

# TODO: Для лучшей модели:
# 1. Постройте график predicted vs actual
# 2. Постройте histogram residuals
# 3. Постройте residuals vs predicted (проверка гомоскедастичности)
# 4. QQ-plot residuals (проверка нормальности)


In [30]:
# 3.7 Анализ важности признаков

# TODO: Для Lasso модели — найдите признаки с ненулевыми коэффициентами
# TODO: Для Random Forest — постройте график важности признаков
# TODO: Сравните результаты обоих методов


**Вопросы для анализа:**

1. Какая модель показала лучшие результаты? Почему?
2. Какие признаки (гены) наиболее важны для предсказания?
3. Соответствуют ли выбранные моделью признаки тем, что вы использовали при генерации данных?
4. Удовлетворяют ли residuals предположениям линейной регрессии?
5. В чём разница между признаками, выбранными Lasso и Random Forest?

**Ваши ответы:**
1. ...
2. ...
3. ...
4. ...
5. ...

---

## Задание 4: Уменьшение размерности и кластеризация (2 балла)

### Контекст
Данные экспрессии генов часто имеют очень высокую размерность (тысячи генов). PCA (Principal Component Analysis) помогает уменьшить размерность и визуализировать данные.

### Задача
1. Примените PCA к данным из Задания 3
2. Визуализируйте данные в пространстве главных компонент
3. Проанализируйте объяснённую дисперсию
4. Проведите кластеризацию

In [31]:
# 4.1 Подготовка данных

# TODO: Выберите только признаки генов (gene_0 ... gene_49)
# TODO: Нормализуйте данные с помощью StandardScaler


In [32]:
# 4.2 Применение PCA

# TODO: Примените PCA with n_components=2
# TODO: Трансформируйте данные


In [33]:
# 4.3 Визуализация в 2D

# TODO: Постройте scatter plot первых двух главных компонент
# TODO: Раскрасьте точки по:
#   a) treatment группам
#   b) квартилям target_gene (низкая, средняя, высокая экспрессия)


In [34]:
# 4.4 Анализ объяснённой дисперсии

# TODO: Примените PCA с n_components=20
# TODO: Постройте scree plot (explained variance vs number of components)
# TODO: Постройте cumulative explained variance
# Сколько компонент нужно, чтобы объяснить 90% дисперсии?


In [35]:
# 4.5 Кластеризация

from sklearn.cluster import KMeans

# TODO: Используйте метод локтя для выбора оптимального числа кластеров
# Попробуйте k от 2 до 10


In [36]:
# TODO: Примените KMeans с оптимальным k
# TODO: Визуализируйте кластеры в пространстве первых двух главных компонент


In [37]:
# 4.6 Характеристика кластеров

# TODO: Для каждого кластера вычислите:
# - Средний уровень target_gene
# - Распределение по treatment группам
# - Средние значения temperature и ph


**Вопросы для анализа:**

1. Сколько главных компонент нужно для объяснения 90% дисперсии?
2. Можно ли визуально разделить treatment группы в пространстве главных компонент?
3. Сколько кластеров оказалось оптимальным?
4. Соответствуют ли кластеры каким-либо биологическим группам (treatment, уровни экспрессии)?
5. Какие преимущества даёт PCA для анализа данных высокой размерности?

**Ваши ответы:**
1. ...
2. ...
3. ...
4. ...
5. ...

---

## Бонусное задание (+2 балла)

### Задача: Cross-validation и learning curves

Выберите одну из моделей из предыдущих заданий и:

1. Проведите k-fold cross-validation (k=5, k=10)
2. Постройте learning curves (train/validation scores vs training set size)
3. Постройте validation curves для одного гиперпараметра
4. Проанализируйте, есть ли у модели overfitting или underfitting
5. Предложите способы улучшения модели на основе анализа

In [38]:
# TODO: Ваш код здесь


---

## Итоговые выводы

**Напишите краткое резюме (5-7 предложений):**

1. Что вы узнали о применении машинного обучения к биологическим данным?
2. Какие модели лучше всего подходят для каких типов задач?
3. Какие трудности вы встретили?
4. Что бы вы применили в своих исследованиях?

**Ваше резюме:**
...

---

## Критерии оценки

### Задание 1 (2 балла):
- 0.5 балла: EDA с визуализацией
- 1 балл: Корректное обучение всех 5 моделей
- 0.5 балла: Анализ и ответы на вопросы

### Задание 2 (3 балла):
- 0.5 балла: Корректная обработка пропущенных значений
- 0.5 балла: Feature engineering
- 1 балл: GridSearchCV и обучение моделей
- 0.5 балла: Анализ важности признаков
- 0.5 балла: Анализ и ответы на вопросы

### Задание 3 (3 балла):
- 0.5 балла: EDA регрессионных данных
- 1 балл: Обучение всех регрессионных моделей
- 0.5 балла: Анализ residuals
- 0.5 балла: Анализ важности признаков
- 0.5 балла: Анализ и ответы на вопросы

### Задание 4 (2 балла):
- 0.5 балла: Корректное применение PCA
- 0.5 балла: Визуализация и анализ главных компонент
- 0.5 балла: Кластеризация
- 0.5 балла: Анализ и ответы на вопросы

### Бонус (+2 балла):
- 1 балл: Корректная реализация всех техник
- 1 балл: Глубокий анализ и выводы

**Максимум: 12 баллов (10 + 2 бонусных)**

---

## Полезные ресурсы

1. **Scikit-learn документация**: https://scikit-learn.org/
2. **Pandas документация**: https://pandas.pydata.org/
3. **Seaborn gallery**: https://seaborn.pydata.org/examples/index.html
4. **Machine Learning Mastery**: https://machinelearningmastery.com/