# Laboratorio 9: GEO – Gene Expression Omnibus

## Pregunta A:

La finalidad de *GEO2R* es poder identificar genes que sean expresados de manera diferenciada comparando dos o más muestras de una *GEO Series* a lo largo de condiciones experimentales. El resultado es brindado como una tabla de genes en orden de importancia.

## Preguntas B-K:

Al momento de insertar el número de acceso, obtenemos los resultados dados por la base de datos

![](GSE18388.png)

Luego podemos definir grupos para comparar las muestras, deben ser al menos 2 grupos cada uno con al menos 1 muestra. En nuestro caso definimos los grupos `prueba` (celeste) y `control` (rosa).

![](SeteandoGrupos.png)

Al presionar el botón **Top 250** aparecen los primeros 250 genes relacionados.

![](ResultadosTabla.png)

Cuando se abre la pestaña de alguno de los genes aparece un gráfico de comparación:

![](ResultadosIndividuales.png)

De la tabla, notamos que la mayoría de genes tienen un valor-P cercano entre sí, el rango general del valor-P sin procesar es $[0.0000804,	0.01468]$.

Los siguientes son los resultados de los primeros 4 genes:

![Gen1](ResultadosGen1.png)

![Gen2](ResultadosGen2.png)

![Gen3](ResultadosGen3.png)

![Gen4](ResultadosGen4.png)

El R-Script dado es el siguiente:

```R
# Version info: R 3.2.3, Biobase 2.30.0, GEOquery 2.40.0, limma 3.26.8
# R scripts generated  Fri Nov 10 10:44:26 EST 2017

################################################################
#   Differential expression analysis with limma
library(Biobase)
library(GEOquery)
library(limma)

# load series and platform data from GEO

gset <- getGEO("GSE18388", GSEMatrix =TRUE, AnnotGPL=TRUE)
if (length(gset) > 1) idx <- grep("GPL6246", attr(gset, "names")) else idx <- 1
gset <- gset[[idx]]

# make proper column names to match toptable 
fvarLabels(gset) <- make.names(fvarLabels(gset))

# group names for all samples
gsms <- "10101010"
sml <- c()
for (i in 1:nchar(gsms)) { sml[i] <- substr(gsms,i,i) }

# log2 transform
ex <- exprs(gset)
qx <- as.numeric(quantile(ex, c(0., 0.25, 0.5, 0.75, 0.99, 1.0), na.rm=T))
LogC <- (qx[5] > 100) ||
          (qx[6]-qx[1] > 50 && qx[2] > 0) ||
	            (qx[2] > 0 && qx[2] < 1 && qx[4] > 1 && qx[4] < 2)
if (LogC) { ex[which(ex <= 0)] <- NaN
		      exprs(gset) <- log2(ex) }

# set up the data and proceed with analysis
sml <- paste("G", sml, sep="")    # set group names
fl <- as.factor(sml)
gset$description <- fl
design <- model.matrix(~ description + 0, gset)
colnames(design) <- levels(fl)
fit <- lmFit(gset, design)
cont.matrix <- makeContrasts(G1-G0, levels=design)
fit2 <- contrasts.fit(fit, cont.matrix)
fit2 <- eBayes(fit2, 0.01)
tT <- topTable(fit2, adjust="fdr", sort.by="B", number=250)
tT <- subset(tT, select=c("ID","adj.P.Val","P.Value","t","B","logFC","Gene.symbol","Gene.title"))
write.table(tT, file=stdout(), row.names=F, sep="\t")

################################################################
#   Boxplot for selected GEO samples
library(Biobase)
library(GEOquery)

# load series and platform data from GEO

gset <- getGEO("GSE18388", GSEMatrix =TRUE, getGPL=FALSE)
if (length(gset) > 1) idx <- grep("GPL6246", attr(gset, "names")) else idx <- 1
gset <- gset[[idx]]

# group names for all samples in a series
gsms <- "10101010"
sml <- c()
for (i in 1:nchar(gsms)) { sml[i] <- substr(gsms,i,i) }
sml <- paste("G", sml, sep="")  set group names

# order samples by group
ex <- exprs(gset)[ , order(sml)]
sml <- sml[order(sml)]
fl <- as.factor(sml)
labels <- c("prueba","control")

# set parameters and draw the plot
palette(c("#dfeaf4","#f4dfdf", "#AABBCC"))
dev.new(width=4+dim(gset)[[2]]/5, height=6)
par(mar=c(2+round(max(nchar(sampleNames(gset)))/2),4,2,1))
title <- paste ("GSE18388", '/', annotation(gset), " selected samples", sep ='')
boxplot(ex, boxwex=0.6, notch=T, main=title, outline=FALSE, las=2, col=fl)
legend("topleft", labels, fill=palette(), bty="n")
```

## Pregunta 2: Non-Alcoholic Fatty Liver Disease

Elegimos el número de acceso GSE72756 debido a que plantea el estudio de las *Long non-codig RNA*, cuya influencia sobre la enfermedad analizada aún no ha sido determinada, recayendo en un estudio interesante de esta. El organismo claramente es el *Homo Sapiens*

![](NAFLDGEOSeries.png)

Como ya realizamos los pasos anteriormente determinamos los grupos `prueba` y `control` una vez más para experimentar:

![](GSE72756.png)

![](GruposNAFLD.png)

Obtuvimos lo siguiente:

![](ResultadosNAFLDTabla.png)

El rango de los valores-P sin procesar es $[0.0000033,0.005243]$.

Acá están los resultados para los 4 primeros genes.

![](ResultadosNAFLDG1.png)

![](ResultadosNAFLDG2.png)

![](ResultadosNAFLDG3.png)

![](ResultadosNAFLDG4.png)