In [15]:
import warnings
import pandas as pd
import numpy as np
import random
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from umap import UMAP

Hints. Для работы с UMAP вам необходимо установить библиотеку umap-learn

## Аннотация клеточных типов (100 баллов)

В этом задании вам предстоит немного поработать с данными проточной цитометрии. Данный метод позволяет изучать единичные клетки в суспензии на основе поверхностной экспрессии различных маркеров, а также косвенно говорить о размере и гранулярности клеток. Каждая строка в данных соответствует информации об одной клетке, столбцы **FSC-A**, **SSC-A** косвенным образом свидетельствуют о размере клеток, остальные показывают интенсивность флуоресценции различных поверхностных маркеров. 

В этом задании вам необходимо провести EDA, использовать алгоритмы снижения размерности и в пространстве сниженной размерности проаннотировать клеточные типы. Вам дана информация о пренадлежности каждой клетки к конкретному классу (labels). Вашей задачей будет соотнести каждый класс к конкретному типу иммунных клеток по экспрессии поверхностных маркеров, измеренных с помощью проточной цитометрии.

Для тех, кто мало знаком с маркерами иммунных клеток, оставляем полезную [ссылку](https://www.cellsignal.com/pathways/immune-cell-markers-human).

### EDA (20 баллов)

Проведите предварительный EDA:

1. Посмотрите на данные (можно попробовать метод `describe`)
2. Сколько у нас клеток / признаков
3. Постройте распределения каждого признака (есть ли очевидные выбросы?). P.S. используйте разные типы графиков, чтобы увидеть выбросы (боксплоты, гистограммы и т.д.)
4. Если вы решаете удалить какие-либо клетки, пожалуйста, прокомментируете какие именно клетки и почему вы удаляете. Это можно сделать графически. 

In [5]:
fc_data = pd.read_csv("../data/flow_c_data.csv", index_col=0)
labels = pd.read_csv("../data/labels.csv", index_col=0)

In [20]:
#your code for EDA

### Анализ (40 баллов)

Теперь, когда вы провели ЕДА и у вас на руках есть ваш финальный процессированный датасет, можно приступить к анализу. В данном датасете клеточных маркеров не очень много (кстати, подумайте, почему в проточной цитометрии количество этих маркеров довольно ограничено?) и можно было бы нарисовать графики, на которых мы бы попарно сравнивали интенсивность флуоресценции различных маркеров. Однако, теперь мы уже знаем о методах снижения размерности. А значит, мы можем перейти от нашего n-мерного датасета к 2 измерениям. 

В качестве следующего задания вам предлагается сделать PCA, t-SNE и UMAP на этом датасете.

In [21]:
scaler = StandardScaler()

#your code is here

P.S. По умолчанию мы говорил, что данные нужно шкалировать. Если у вас хватит времени, поиграйте с датасетом и попробуйте подать на вход как шкалированные, так и нешкалированные данные. Какой из алгоритмов будет страдать больше всего и почему?

#### PCA (10 баллов)
Постройте **PCA** по числовым переменным, а затем покрасьте его по клеточным типам.  

In [None]:
#your code is here

#### t-SNE (10 баллов)
Постройте **t-SNE** по числовым переменным, а затем покрасьте его по клеточным типам. Если будет интересно, можно [почитать](https://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf)

Посмотрите на разные значения параметра perplexity. Какой лучше всего подходит для вашего датасета? **(доп. 10 баллов)**

In [None]:
#your code is here

#### UMAP (10 баллов)
Постройте **UMAP** по числовым переменным, а затем покрасьте его по клеточным типам. Если будет интересно, можно [почитать](https://arxiv.org/pdf/1802.03426)

Посмотрите на разные значения параметра min_dist и k_neighbors. Какие лучше всего подходят для вашего датасета? **(доп. 10 баллов)**

In [None]:
#your code is here

Какой из методов, на ваш взгляд, наилучшим образом отражает взаимоотношения между различными клетками в данном датасете? **(10 баллов)**

In [22]:
#your answer is here

#### Немного усложним (10 баллов)
Более того, в некоторых случаях, когда количество ваших переменных очень велико, можно прибегать к последовательному применению линейных и нелинейных методов снижения размерности. Так, к примеру, можно сначала использовать PCA, а затем на полученных координатах пространства сниженной размерности инициализировать t-SNE или UMAP. В следующей части мы предлагаем вам использовать уже готовый код и сравнить полученные ранее результаты с новыми.

Кратко опишите результаты сравнения, которое вы провели. Подкрепите их графиками. 

In [None]:
def plot_tsne(data, n_iter=1000, 
              perplexity=40, color=None):
    """
    Функция для отрисовки результатов работы t-SNE
        :param data: таблица объекты х признаки
        :param n_iter: число итераций градиентного спуска,
            может быть полезно увеличить, чтобы получить результаты получше
        :param perplexity: 
        :param color: np.array[n_samples] с переменной,
            которой мы хотим покрасить наши наблюдения
        :return tsne_emb: np.array[n_samples, 2] - результаты работы t-SNE
    """
    
    # Сначала сделаем PCA, так как это хорошее начальное приближение для t-SNE
    # позволит алгоритму быстрее сойтись
    pca = PCA().fit(data)
    pca_embedding = pca.transform(data)
    
    # Запустим t-SNE, он выдаст нам для каждого объекта по 2 числа, 
    # которые мы сможем нарисовать
    tnse = TSNE(n_components=2, init=pca_embedding[:, :2], n_jobs=-1,
                n_iter=n_iter, perplexity=perplexity)
    tsne_embedding = tnse.fit_transform(pca_embedding)
    
    sns.scatterplot(x=tsne_embedding[:, 0],
                    y=tsne_embedding[:, 1],
                    hue=color.values.reshape(-1), palette="colorblind")
    plt.xlabel("$TSNE_1$", fontsize=18)
    plt.ylabel("$TSNE_2$", fontsize=18)
    
    # Вернем также результаты t-SNE, так как, если потом захотим перестроить картинку,
    # в таком случае нам не придется ждать заново, просто нарисуем новую с готовыми данными
    
    return tsne_embedding

In [None]:
tsne_res = plot_tsne(fc_data, color=labels)

In [23]:
#your answer is here

#### Немного иммунологии (30 баллов)
Отлично, мы определились с методом снижения размерности. Теперь попробуем определить конкретные клеточные типы, которые есть в нашем датасете. 

Для этого мы нарисуем PCA/t-SNE/UMAP (что на ваш взгляд лучше выбрать?) и покрасим точки в зависимости от интенсивности экспрессии поверхностных маркеров **(20 баллов)**. В датасете присутствуют следующие типы клеток:

* B-клетки
* Т-клетки
* Моноциты и дендритные клетки
* NK-клетки
* NKT-клетки

Вам нужно будет выяснить, какие клетки экспрессируют определенные маркеры и присвоить каждому кластеру один из типов клеток. Можно обратиться к информации по экспрессии [маркеров](https://www.cellsignal.com/pathways/immune-cell-markers-human).

Для каждого из типов клеток выберите один или два маркера и визуализируйте экспрессию этих генов. У вас должна получиться картинка, где ярким цветом будут обозначены те клетки, в которых экспрессия очень велика, а менее ярким -- экспрессия меньше. Такие визуализации очень часто используются в анализе данных single-cell. Можете погуглить себе парочку примеров:)

In [None]:
# your code is here

Как распредлены ваши типы клеток по количеству? **(5 баллов)**

In [1]:
# your code is here

Дальше дело за вами, нужнов определить клеточный тип для каждого кластера и записать их как значения в словаре: **(5 баллов)**

In [52]:
cell_type_cluster_map = {0: "Celltype1", 
                         1: "Celltype2", 
                         2: "Celltype3", 
                         3: "Celltype4",
                         4: "Celltype5"}

In [53]:
labels["celltype"] = labels["celltype"].map(cell_type_cluster_map)

Можно еще порисовать)

**Отлично! Вы дошли до конца первой части этой домашки!**

Поделитесь с нами вашими ощущениями об этой домашке, если хотите. Было это сложно или легко, понятно или запутанно, долго или быстро. Напишите что нового вы узнали.

In [None]:
#that's your turn