Skip to content

repeat region from UCSC_table_browser

suimye edited this page Feb 15, 2016 · 4 revisions

#UCSC table browserを用いたrepeat領域の取得

Gyazo

上の図と同じのように設定にする。

  • genome: human
  • assembly: Feb. 2009 GRCh37/hg19
  • group: Repeats
  • region: genome
  • outputformat: BED
  • output file: hg19.rmsk.bed
  • file type returned:gzip compressed

get outputボタンを押す。

Gyazo

画面のget BEDを押す。

###解凍などのデータの下処理


#ファイルサイズを確認しておく
ls -lath
#結果
drwxr-xr-x   3 suimye  staff   102B  8  3 01:59 .
-rw-r--r--@  1 suimye  staff    57M  8  3 01:58 hg19.rmsk.bed.gz
drwxr-xr-x  49 suimye  staff   1.6K  7 28 18:49 ..


#gzipコマンドで解凍

gzip -d hg19.rmsk.bed.gz 


#中身の確認
head hg19.rmsk.bed 

chr1	16777160	16777470	AluSp	2147	+
chr1	25165800	25166089	AluY	2626	-
chr1	33553606	33554646	L2b	626	+
chr1	50330063	50332153	L1PA10	12545	+
chr1	58720067	58720973	L1PA2	8050	-
chr1	75496180	75498100	L1MB7	10586	+
chr1	83886030	83886750	ERVL-E-int	980	-
chr1	100662895	100663391	L2a	1422	-
chr1	117440426	117440514	L1ME1	532	+
chr1	117440494	117441457	L1ME1	4025	+


#余計な情報を除去しておいく
cat hg19.rmsk.bed |cut -f1,2,3,4 >hg19.rmsk.2.bed