## Выявление корреляций между признаками

С помощью R я построила heatmap корреляций, предварительно отнормировав признаки и выкинув строки с пропущенными данными.

In [None]:
data = read.csv('../rna-ion-step2/set_minresol_N_5.csv', sep = '\t', skipNul = T)
data = data[,2:362]
data = data[apply(data,1,var)>0,]
data_om = scale(na.omit(data))
correlation.gene = cor(data_om,method = 'spearman')
heat = heatmap(correlation.gene,
        symm = TRUE,
        distfun = function(x){as.dist(1-x)},
        main = 'Gene',
        keep.dendro = T)

Вот что получилось. Светлые, желтые пятна - наиболее скоррелированные признаки, красные - наоборот. 
Наиболее скоррелированные участки будут приближены в следующих слайдах. Для удобства я их пронумеровала на хитмапе справа.
![](images/Heatmap ful+nav+color_bar.png)

### Дендрогаммы скоррелированых участков.
Цвета и номера совпадают с хитмапами. Стрелочки указывают на корреляции между объектами.
<img src="images/Dendrograms_nav.png">

### Ниже будут показаны приближенные участки. 
Интенсивность и расположение подписей могут чуть-чуть отличаться, так как в виду технических сложностей приближеные хитмапы и хитмапы с первых слайдов были построены с помощью разных функций, но с одинаковыми параметрами, указанными на <a href='#/1'>первом слайде.</a>

<img src="images/Plots from mapply/Heatmap_1+2+nav.png">

<img src="images/Plots from mapply/Heatmap_3+4+nav.png">

<img src="images/Plots from mapply/Heatmap_5+6+nav.png">

### Здесь ниже представлены те же участки, но построенные отдельно.
Поэтому интенсивность цветов (читай скоррелированость) вычисляется относительно блока. Т.е. мы можем увидеть наиболее скоррелировнные участки в скоррелированных участках.

<img src="images/Plots separately/Heatmap 1+2+nav.png">

<img src="images/Plots separately/Heatmap 3+4+nav.png">

Поскольку здесь коррелируют разные участки, то опять же в силу некоторых технических моментов, эти графики скорее неочень содержательны.
<img src="images/Plots separately/Heatmap 5+6+nav.png">

### Выводы
Корреляции наиболее подвержены углы нуклеотида, которые в свою очередь делятся на довольно четкие группы.

А также нуклеотиды С и G со своими спариваниями.

Ниже есть картинка, где я постаралась выделить все паттенрны, присутствующие в дендрограмме.

<img src="images/Dendrograms_patterns.png">

### Ссылки и источники

* <a href="Correlations Interactive version сlassic.html">Интерактивный heatmap, где можно приближать интересующие участки. </a>
* <a href="Correlations. R code.html">Исходный код R, с помощью которого были построены все хитмапы и дендрограммы. </a>
* <a href="https://pollytikhonova.github.io/coursework/correlation/">Все файлы корреляционного исследования.</a>

P.s. можно нажать Esc и откроется структура презентации. 

<a href="https://github.com/PollyTikhonova/coursework/tree/master/correlation"><img src="https://pollytikhonova.github.io/coursework/GitHub-Mark-32px.png" alt="В репозиторий" title="В репозиторий" style="max-width:100%;  display: block; margin: auto;"></a>