Skip to content
This repository has been archived by the owner on Jan 8, 2019. It is now read-only.

Przygotować dane do analizy #3

Closed
pbiecek opened this issue Feb 10, 2016 · 13 comments
Closed

Przygotować dane do analizy #3

pbiecek opened this issue Feb 10, 2016 · 13 comments

Comments

@pbiecek
Copy link
Collaborator

pbiecek commented Feb 10, 2016

Pracujemy na RSEM_genes_normalized
Są w katalogu data

@pbiecek
Copy link
Collaborator Author

pbiecek commented Feb 10, 2016

Kornel wgrał do data/rsem-normalized surowe z gdaca.

@Kornel czy możesz zaznaczyć gdzieś z jakiego freeza one były pobrane? W katalogu z którego pobierałeś powinna być data

@ursole czy możesz potwierdzić, że na tych danych mają być wykonywane analizy?

@ursole
Copy link
Collaborator

ursole commented Feb 11, 2016

tak, na tych danych RSEM_genes_normalized robimy analizy

@Kornel
Copy link
Owner

Kornel commented Feb 21, 2016

@pbiecek to wynika ze skryptów jaka to data, ale to dobry pomysł aby była explicite w nazwie folderu.

Tylko że tam są tylko nagłówki, nie ma surowych danych. Surowe są "za duże" na githuba (100MB+).

Wrzucać na git-lfs? Myślałem, aby to co da się pobrać z gdac nie umieszczać w repo, ale może lepiej ab wszystko było?

@pbiecek
Copy link
Collaborator Author

pbiecek commented Feb 21, 2016

całych danych myślę że nie warto, jeżeli jeden plik am więcej niż 100MB to i tak będzie problematycznie go pobierać z githuba (ja z git-lfs mam zawsze jakieś problemy)
Może w katalogu z danymi dodać readme.md z informacją o dacie pobrania?

@ursole
Copy link
Collaborator

ursole commented Feb 22, 2016

@Kornel Mógłbyś jeszcze raz podać linka do strony, z której ściągasz dane? Dzięki

@Kornel
Copy link
Owner

Kornel commented Feb 22, 2016

dane są o tu: http://gdac.broadinstitute.org/runs/stddata__2015_11_01/data/

pon., 22.02.2016 o 13:03 użytkownik ursole notifications@github.com
napisał:

@Kornel https://github.com/Kornel Mógłbyś jeszcze raz podać linka do
strony, z której ściągasz dane? Dzięki


Reply to this email directly or view it on GitHub
#3 (comment).

@ursole
Copy link
Collaborator

ursole commented Feb 23, 2016

@Kornel Które konkretnie pliki ściągałeś z gdac'a? Bo dla rnaseqv2 są tar.gz i tar.gz.md5 i do tego kombinacje: data, data.aux i data.mage

@Kornel
Copy link
Owner

Kornel commented Feb 23, 2016

data.

np:
gdac.broadinstitute.org_UVM.Merge_rnaseqv2__illuminahiseq_rnaseqv2__unc_edu__Level_3__RSEM_genes_normalized__data.Level_3.2015110100.0.0.

md5 to sumy kontrolne, danych nie zawierają. Czyli interesuje nas tylko
tar.gz (bez md5). W projekcie jest plik download-tcga-mrna.R który pobierze
te dane. Generalnie staram się pracować tak aby wszystko co nie jest w
repozytorium dało się pobrać/wygenerować jakimś skryptem (gwarantuje
powtarzalność)

wt., 23.02.2016 o 16:26 użytkownik ursole notifications@github.com
napisał:

@Kornel https://github.com/Kornel Które konkretnie pliki ściągałeś z
gdac'a? Bo dla rnaseqv2 są tar.gz i tar.gz.md5 i do tego kombinacje: data,
data.aux i data.mage


Reply to this email directly or view it on GitHub
#3 (comment).

@ursole
Copy link
Collaborator

ursole commented Feb 24, 2016

Cześć; ściągnęłam ten plik R, trochę się nawalczyłam, żeby zainstalować pakiet RTCGA, ale się w końcu udało. Niestety, kod mi się i tak wykrzaczył. Dostałam takie info:

cohorts <- infoTCGA() %>% rownames() %>% sub('-counts', '', x=.)
Error: could not find function "%>%"

Czy mogę to jakoś obejść?

@pbiecek Po przerwie bez R chciałam wrócić do "Pogromców danych", ale niektóre strony nie są aktywne. Czy masz może materiały z tych odcinków?

@Kornel
Copy link
Owner

Kornel commented Feb 24, 2016

Hej, %>% jest w pakiecie dplyr.

Dodaj prosze do pliku

library(dplyr)
On Wed, 24 Feb 2016 at 11:31, ursole notifications@github.com wrote:

Cześć; ściągnęłam ten plik R, trochę się nawalczyłam, żeby zainstalować
pakiet RTCGA, ale się w końcu udało. Niestety, kod mi się i tak wykrzaczył.
Dostałam takie info:

cohorts <- infoTCGA() %>% rownames() %>% sub('-counts', '', x=.)
Error: could not find function "%>%"

Czy mogę to jakoś obejść?

@pbiecek https://github.com/pbiecek Po przerwie bez R chciałam wrócić
do "Pogromców danych", ale niektóre strony nie są aktywne. Czy masz może
materiały z tych odcinków?


Reply to this email directly or view it on GitHub
#3 (comment).

@ursole
Copy link
Collaborator

ursole commented Feb 24, 2016

Ok, dplyr zadziałało. Ale niestety skrypt wyrzucił kolejne błędy. Jak można je obejść? Zastanawiam się, czy parametrów nie trzeba jakoś bardziej sprecyzować. Poniżej moja konwersacja z R:

library(dplyr)

Dołączanie pakietu: ‘dplyr’

Następujące obiekty zostały zakryte z ‘package:stats’:

filter, lag

Następujące obiekty zostały zakryte z ‘package:base’:

intersect, setdiff, setequal, union

library(devtools)
Warning message:
pakiet ‘devtools’ został zbudowany w wersji R 3.2.3
library(RTCGA)
Welcome to the RTCGA (version: 1.1.14).

cohorts <- infoTCGA() %>% rownames() %>% sub('-counts', '', x=.)

release.dates <- c('2015-11-01')

download.dir <- '../../download/'

for (release.date in release.dates) {

  • dest.dir <- sprintf('%s/mrna-rsem-normalized-%s', download.dir, release.date)
    
  • dir.create(dest.dir, showWarnings = F)
    
  • sapply(cohorts, function(element){
    
  •     tryCatch({
    
  •         downloadTCGA(cancerTypes = element, 
    
  •                      dataSet ='RSEM_genes_normalized__data.Level_3',
    
  •                      destDir = dest.dir, 
    
  •                      date = release.date)
    
  •     },
    
  •     error = function(cond){
    
  •         cat("Error: Maybe there weren't mutations data for ", element, " cancer.\n")
    
  •     }
    
  •     )
    
  • })
    
  • }
    Error: Maybe there weren't mutations data for ACC cancer.
    Error: Maybe there weren't mutations data for BLCA cancer.
    Error: Maybe there weren't mutations data for BRCA cancer.
    Error: Maybe there weren't mutations data for CESC cancer.
    Error: Maybe there weren't mutations data for CHOL cancer.
    There were more than one datasets matching the dataSet parameter.
    Downloaded only
    gdac.broadinstitute.org_COAD.Merge_rnaseqv2__illuminaga_rnaseqv2__unc_edu__Level_3__RSEM_genes_normalized__data.Level_3.2015110100.0.0.tar.gz

All matches were

gdac.broadinstitute.org_COAD.Merge_rnaseqv2__illuminaga_rnaseqv2__unc_edu__Level_3__RSEM_genes_normalized__data.Level_3.2015110100.0.0.tar.gz
gdac.broadinstitute.org_COAD.Merge_rnaseqv2__illuminahiseq_rnaseqv2__unc_edu__Level_3__RSEM_genes_normalized__data.Level_3.2015110100.0.0.tar.gzError: Maybe there weren't mutations data for COAD cancer.
There were more than one datasets matching the dataSet parameter.
Downloaded only
gdac.broadinstitute.org_COADREAD.Merge_rnaseqv2__illuminaga_rnaseqv2__unc_edu__Level_3__RSEM_genes_normalized__data.Level_3.2015110100.0.0.tar.gz

All matches were

gdac.broadinstitute.org_COADREAD.Merge_rnaseqv2__illuminaga_rnaseqv2__unc_edu__Level_3__RSEM_genes_normalized__data.Level_3.2015110100.0.0.tar.gz
gdac.broadinstitute.org_COADREAD.Merge_rnaseqv2__illuminahiseq_rnaseqv2__unc_edu__Level_3__RSEM_genes_normalized__data.Level_3.2015110100.0.0.tar.gzError: Maybe there weren't mutations data for COADREAD cancer.
Error: Maybe there weren't mutations data for DLBC cancer.
Error: Maybe there weren't mutations data for ESCA cancer.
Error: Maybe there weren't mutations data for FPPP cancer.
Error: Maybe there weren't mutations data for GBM cancer.
Error: Maybe there weren't mutations data for GBMLGG cancer.
Error: Maybe there weren't mutations data for HNSC cancer.
Error: Maybe there weren't mutations data for KICH cancer.
Error: Maybe there weren't mutations data for KIPAN cancer.
Error: Maybe there weren't mutations data for KIRC cancer.
Error: Maybe there weren't mutations data for KIRP cancer.
Error: Maybe there weren't mutations data for LAML cancer.
Error: Maybe there weren't mutations data for LGG cancer.
Error: Maybe there weren't mutations data for LIHC cancer.
Error: Maybe there weren't mutations data for LUAD cancer.
Error: Maybe there weren't mutations data for LUSC cancer.
Error: Maybe there weren't mutations data for MESO cancer.
Error: Maybe there weren't mutations data for OV cancer.
Error: Maybe there weren't mutations data for PAAD cancer.
Error: Maybe there weren't mutations data for PCPG cancer.
Error: Maybe there weren't mutations data for PRAD cancer.
There were more than one datasets matching the dataSet parameter.
Downloaded only
gdac.broadinstitute.org_READ.Merge_rnaseqv2__illuminaga_rnaseqv2__unc_edu__Level_3__RSEM_genes_normalized__data.Level_3.2015110100.0.0.tar.gz

All matches were

gdac.broadinstitute.org_READ.Merge_rnaseqv2__illuminaga_rnaseqv2__unc_edu__Level_3__RSEM_genes_normalized__data.Level_3.2015110100.0.0.tar.gz
gdac.broadinstitute.org_READ.Merge_rnaseqv2__illuminahiseq_rnaseqv2__unc_edu__Level_3__RSEM_genes_normalized__data.Level_3.2015110100.0.0.tar.gzError: Maybe there weren't mutations data for READ cancer.
Error: Maybe there weren't mutations data for SARC cancer.
Error: Maybe there weren't mutations data for SKCM cancer.
Error: Maybe there weren't mutations data for STAD cancer.
Error: Maybe there weren't mutations data for STES cancer.
Error: Maybe there weren't mutations data for TGCT cancer.
Error: Maybe there weren't mutations data for THCA cancer.
Error: Maybe there weren't mutations data for THYM cancer.
There were more than one datasets matching the dataSet parameter.
Downloaded only
gdac.broadinstitute.org_UCEC.Merge_rnaseqv2__illuminaga_rnaseqv2__unc_edu__Level_3__RSEM_genes_normalized__data.Level_3.2015110100.0.0.tar.gz

All matches were

gdac.broadinstitute.org_UCEC.Merge_rnaseqv2__illuminaga_rnaseqv2__unc_edu__Level_3__RSEM_genes_normalized__data.Level_3.2015110100.0.0.tar.gz
gdac.broadinstitute.org_UCEC.Merge_rnaseqv2__illuminahiseq_rnaseqv2__unc_edu__Level_3__RSEM_genes_normalized__data.Level_3.2015110100.0.0.tar.gzError: Maybe there weren't mutations data for UCEC cancer.
Error: Maybe there weren't mutations data for UCS cancer.
Error: Maybe there weren't mutations data for UVM cancer.
There were 38 warnings (use warnings() to see them)

@pbiecek
Copy link
Collaborator Author

pbiecek commented Feb 24, 2016

@ursole czy możesz mi wysłać niedziałające linki? Na mój stan wiedzy to wszystko powinno wciąż działać, choć w ICM już nie pracuję więc może coś się zmieniło.

Materiały można pobrać też jako epub/mobi ze strony
http://smarterpoland.pl/index.php/2015/05/pierwszy-sezon-pogromcow-w-liczbach-ebook/

@ursole
Copy link
Collaborator

ursole commented Mar 3, 2016

@pbiecek Widać były to przejściowe problemy, bo teraz wszystko działa ok. Dzięki za linka.

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants