<a href="https://colab.research.google.com/github/serjisa/transcriptomics.msu/blob/main/%D0%A1%D0%B5%D0%BC%D0%B8%D0%BD%D0%B0%D1%80%D1%8B/09_%D0%A1%D0%BD%D0%B8%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%80%D0%BD%D0%BE%D1%81%D1%82%D0%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Семинар 9. Методы снижения размерности



## Домашнее задание

UMAP (и библиотека openTSNE) позволяют к уже существующей модели снижения размерности добавлять новые точки. Попробуйте разобраться, каким именно образом можно сохранить модель UMAP, которая используется в scanpy, чтобы использовать в дальнейшем для добавления новых клеток.

Можете начать с openTSNE, однако в случае с UMAP это актуальнее. Можете рассмотреть, каким образом точки добавляются на эмбеддинг в случае с методом `sc.tl.ingest` (<a href="https://github.com/scverse/scanpy/blob/3d597046ac81a7f8c305cfa20594d8ecaba11fb8/scanpy/tools/_ingest.py">ссылка на код</a>), но можете также и поступить проще, просто сохранив модель.

Цель - написать функции, которые берут какой-то внешний датасет (экспрессию клеток), перекидывает экспрессию в уже рассчитанные компоненты PCA (через линейную комбинацию генов и коэффициентов каждой из компонент PCA), а потом отправляет всё в TSNE-эмбеддинги.

In [274]:
def openTSNE(adata):
    from openTSNE import TSNE
    new_adata = adata.copy()
    tsne = TSNE(perplexity=30, exaggeration=1, verbose=True)
    new_adata.obsm["X_open_tsne"] = tsne.fit(new_adata.obsm["X_pca"])
    return new_adata

In [None]:
def add_points(adata_to_add, adata):
    
    # рассчитываем координаты на основе старого датасета
    adata_to_add.obsm['X_pca'] = adata_to_add.X @ adata.varm['PCs'] 

    # переводим в точки X_open_tsne
    adata_to_add.obsm['X_open_tsne'] = adata.obsm["X_open_tsne"].transform(adata_to_add.obsm['X_pca']) 

    # конкатенируем датасеты 
    new_adata = adata.concatenate(adata_to_add)
    
    return new_adata

Представим, что у нас есть такие датасеты

In [275]:
adata = sc.datasets.pbmc3k() # основной датасет, 2700 точек
new_points = sc.datasets.pbmc3k()[:5, :] # датасет, 5 точек из которого нужно добавить основному датасету

In [276]:
# отшкалируем и рассчитаем PCA основной даты
sc.pp.scale(adata)
sc.tl.pca(adata, n_comps=50)

... as `zero_center=True`, sparse input is densified and may lead to large memory consumption
computing PCA
    with n_comps=50
    finished (0:00:08)


In [277]:
# отшкалируем наш новый датасет
sc.pp.scale(new_points)

... as `zero_center=True`, sparse input is densified and may lead to large memory consumption


  view_to_actual(adata)


In [280]:
# получаем координаты Open_TSNE основного датасета
new_adata = openTSNE(adata)

--------------------------------------------------------------------------------
TSNE(exaggeration=1, verbose=True)
--------------------------------------------------------------------------------
===> Finding 90 nearest neighbors using Annoy approximate search using euclidean distance...
   --> Time elapsed: 0.97 seconds
===> Calculating affinity matrix...
   --> Time elapsed: 0.08 seconds
===> Calculating PCA-based initialization...
   --> Time elapsed: 0.00 seconds
===> Running optimization with exaggeration=12.00, lr=225.00 for 250 iterations...
Iteration   50, KL divergence 3.4667, 50 iterations in 0.7843 sec
Iteration  100, KL divergence 3.1117, 50 iterations in 0.6791 sec
Iteration  150, KL divergence 3.0555, 50 iterations in 0.6784 sec
Iteration  200, KL divergence 3.0363, 50 iterations in 0.6654 sec
Iteration  250, KL divergence 3.0275, 50 iterations in 0.6430 sec
   --> Time elapsed: 3.45 seconds
===> Running optimization with exaggeration=1.00, lr=225.00 for 500 iterations..

In [282]:
new_adata = add_points(new_points, new_adata)

===> Finding 15 nearest neighbors in existing embedding using Annoy approximate search...
   --> Time elapsed: 0.00 seconds
===> Calculating affinity matrix...
   --> Time elapsed: 0.00 seconds
===> Running optimization with exaggeration=4.00, lr=0.10 for 0 iterations...
   --> Time elapsed: 0.00 seconds
===> Running optimization with exaggeration=1.50, lr=0.10 for 250 iterations...
Iteration   50, KL divergence 25.8180, 50 iterations in 0.0691 sec
Iteration  100, KL divergence 25.7996, 50 iterations in 0.0560 sec
Iteration  150, KL divergence 25.7999, 50 iterations in 0.0659 sec
Iteration  200, KL divergence 25.7999, 50 iterations in 0.0811 sec
Iteration  250, KL divergence 25.7999, 50 iterations in 0.0558 sec
   --> Time elapsed: 0.33 seconds


  [AnnData(sparse.csr_matrix(a.shape), obs=a.obs) for a in all_adatas],


In [283]:
new_adata.obsm["X_open_tsne"].shape # появились дополнительные 5 точек

(2705, 2)