In [1]:
packages <- c("oligo",  # Пакет для нормализации и проверки качества экспрессии
              "readxl")  # Пакет для чтения excel 

if (!requireNamespace(packages, quietly = TRUE))
    BiocManager::install(packages)

No methods found in package ‘RSQLite’ for request: ‘dbListFields’ when loading ‘oligo’



### Как прочитать csv файлы?

In [9]:
data.csv <- read.csv('../data/GSE150392_new.csv')  # Указываем путь до csv файла
head(data.csv)

Unnamed: 0_level_0,X,ENSEMBL,SYMBOL,Cov1,Cov2,Cov3,Mock1,Mock2,Mock3
Unnamed: 0_level_1,<int>,<chr>,<chr>,<int>,<int>,<int>,<int>,<int>,<int>
1,1,ENSG00000000003,15_TSPAN6,1270,1013,848,4571,5500,4844
2,2,ENSG00000000005,6_TNMD,121,125,49,3220,6435,2977
3,3,ENSG00000000419,12_DPM1,1023,1045,674,2404,4794,1819
4,4,ENSG00000000457,14_SCYL3,1049,713,692,854,356,1015
5,5,ENSG00000000460,17_C1orf112,211,158,90,576,195,477
6,6,ENSG00000000938,13_FGR,9,8,2,10,5,0


### Как прочитать xls/xlsx файлы?

In [20]:
library("readxl")
data.xlsx <- read_excel("../data/GSE120836.xlsx")  # Указываем путь до xls/xlsx файла
head(data.xlsx)

GeneID,GeneSymbol,GeneBiotype,logFC,logCPM,F,PValue,FDR,log10FDR
<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
ENSG00000275023,MLLT6,protein_coding,1.331053,6.486403,125.431,1.925606e-07,0.0006650474,3.177147
ENSG00000084073,ZMPSTE24,protein_coding,-1.327802,6.078147,124.7526,1.9806e-07,0.0006650474,3.177147
ENSG00000107736,CDH23,protein_coding,1.720707,4.759523,123.0843,2.123901e-07,0.0006650474,3.177147
ENSG00000076344,RGS11,protein_coding,1.6432,3.90328,120.0231,2.41992e-07,0.0006650474,3.177147
ENSG00000198242,RPL23A,protein_coding,-1.166847,4.589575,118.462,2.589489e-07,0.0006650474,3.177147
ENSG00000214193,SH3D21,protein_coding,1.756014,2.278549,106.872,4.399784e-07,0.0006650474,3.177147


### Как прочитать CEL файлы?

In [21]:
library(oligo)

In [22]:
data.cel <- oligo::read.celfiles('../data/GSM1053914_G_1.CEL')  # Указываем путь до CEL файла

Platform design info loaded.



Reading in : ../data/GSM1053914_G_1.CEL


In [31]:
# Давайте разберем, как у нас устроенные данные,
# разработанные специально под экспрессию генов
data.cel

GeneFeatureSet (storageMode: lockedEnvironment)
assayData: 1102500 features, 1 samples 
  element names: exprs 
protocolData
  rowNames: GSM1053914_G_1.CEL
  varLabels: exprs dates
  varMetadata: labelDescription channel
phenoData
  rowNames: GSM1053914_G_1.CEL
  varLabels: index
  varMetadata: labelDescription channel
featureData: none
experimentData: use 'experimentData(object)'
Annotation: pd.hugene.1.0.st.v1 

Все дело в том, что на одной экспресии данные не заканиваются. Для более точного анализа необходимо знать,на каком устройстве была взята экспресиия(нужно для нормализации), аннотации к данным, из каких клеток брали экспресиию, какие гены закодированы в **microarray probes** итд. Поэтому решили создать тип данных `ExpressionSet`, чтобы совместить все эти данные в один объект.

Данные в ExpressionSet состят из:
1. **assayData**: таблица с значениями самой экспресии, где индексы строк - названия проб, которые описывают гены (**microarray probes**), а названия колонок - названия тканей\болезней итд, в общем разбивка по классам (**sample IDs**). Здесь она закрашена красным
2. **phenoData**: таблица с описанием отношений между **sample IDs** и **microarray probes**. Здесь указана розовым
3. **featureData**: таблица с описанием метаданных о каждой ячейке чипа. Здесь закрашена фиолетовым

![structure of ExpressionSet](index.png)

In [32]:
phenoData(data.cel)

An object of class 'AnnotatedDataFrame'
  rowNames: GSM1053914_G_1.CEL
  varLabels: index
  varMetadata: labelDescription channel

In [37]:
# У нас нет featureData
head(featureData(data.cel))

An object of class 'AnnotatedDataFrame': none

Помимо этого есть функции, которые выводят сами значения:
* `pData` - функция, которая выводит значение `phenoData`
* `fData` - функция, которая выводит значение `featureData`
* `exprs` - функция, которая выводит саму матрицу экспресии

In [39]:
pData(data.cel)

Unnamed: 0_level_0,index
Unnamed: 0_level_1,<int>
GSM1053914_G_1.CEL,1


In [41]:
head(fData(data.cel))

1
2
3
4
5
6


In [43]:
head(exprs(data.cel))

Unnamed: 0,GSM1053914_G_1.CEL
1,8792
2,117
3,8322
4,94
5,59
6,135


### Как прочитать XYS файлы?

In [44]:
data.xys <- read.xysfiles("../data/somedata.xys")
data.xys

Loading required package: pd.hg18.60mer.expr

Platform design info loaded.



Checking designs for each XYS file... Done.
Allocating memory... Done.
Reading ../data/somedata.xys.


ExpressionFeatureSet (storageMode: lockedEnvironment)
assayData: 76774 features, 1 samples 
  element names: exprs 
protocolData
  rowNames: somedata.xys
  varLabels: exprs dates
  varMetadata: labelDescription channel
phenoData
  rowNames: somedata.xys
  varLabels: index
  varMetadata: labelDescription channel
featureData: none
experimentData: use 'experimentData(object)'
Annotation: pd.hg18.60mer.expr 