## 모듈 설치하기 


- 모듈 (Module)이란 파이썬에서 제공하는 여러 기능을 사용하기 위한 수단이며, 
- Anaconda 설치시에는 기본적으로 많은 과학용 모듈이 설치되나, 설치되지 않은 것들도 존재한다. 
- 이를 위해서는 FASTA 파일을 다루는 모듈을 설치하는 것이 편하다. 


FASTA 파일 등의 생물학 데이터를 파이썬에서 불러와서 계산에 사용할 수 있다.  

우리가 사용할 모듈은 pyfaidx 라는 모듈이다. 

https://github.com/mdshw5/pyfaidx/blob/master/README.rst

이를 설치하기 위해서는 다음과 같이 한다. 
코맨드 프롬프트 (윈도우의 아나콘다 프롬프트) 를 열고 9ㅐㅐㅔ 

>conda install -c bioconda pyfaidx 

제대로 설치되었는지 보려면 Jupyter Notebook 을 실행하고 
새로운 Python 3 Notebook을 만든 다음 

from pyfaidx import Fasta

를 해본다. 

In [None]:
from pyfaidx import Fasta

인간 지놈  시퀀스의 단백질 파일을 다운로드하자.  
Jupyter notebook에서 curl 이 작동하지 않으면 그냥 커멘드 라인에서 다운로드하자. 


In [None]:
!curl -O "https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/reference/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_protein.faa.gz"

In [None]:
!ls

gunzip 으로 압축을 풀고...

In [None]:
!gunzip GCF_000001405.39_GRCh38.p13_protein.faa.gz

In [None]:
!head *.faa

이름을 간단하게 Human.faa 로 고친다 

In [None]:
!mv GCF_000001405.39_GRCh38.p13_protein.faa Human.faa

protein 이라는 이름으로 TAIR.faa 파일을 불러온다. 

In [None]:
from pyfaidx import Fasta
protein = Fasta('Human.faa')
protein

여기에는 단백질의 id가 들어 있다. 

In [None]:
protein.keys()

모두 몇 개의 단백질이 들어 있을까? 

In [None]:
len(protein.keys())

NP_000005.3 라는 단백질을 표시하고 싶다면...

In [None]:
print(protein['NP_000005.3'])

단백질을 모두 출력해보자. 
protein에 protein.keys() 에서 나오는 아이디를 넣으면 개별 단백질을 얻을 수 있다.  
protein[proteinkey].long_name  을 이용하면 헤더를 얻을 수 있다.   

In [None]:
for proteinkey in protein.keys():
    name = protein[proteinkey].long_name
    print ('>'+name)
    print (protein[proteinkey])

특정한 단백질만을 검색하고 싶다면?  
kinase 만을 골라내보자. 


문자열 내에 어떤 단어가 들어있는지를 찾으려면 
if '찾을문자열' in 문자열변수:
의 조건으로 검색한다. 

In [None]:
for proteinkey in protein.keys():
    name = protein[proteinkey].long_name
    if 'kinase' in name :
        #헤더 
        print ('>'+name)
        #단백질 내용물 
        print (protein[proteinkey])

In [None]:
모두 몇 개가 있을까? 스크립트를 다시 수정해부자. 

In [None]:
kinase = {}

for proteinkey in protein.keys():
    name = protein[proteinkey].long_name
    if 'kinase' in name :
        #헤더
        kinase[name]=protein[proteinkey]
        
print(len(kinase))

In [None]:
kinase

In [None]:
#proteinlength라는 List 에 단백질의 길이를 저장한다. 
proteinlength = []
for proteinkey in protein.keys():
    proteinlength.append (len(protein[proteinkey]))

In [None]:
sum(proteinlength)/len(proteinlength)

In [None]:
이 전체의 합을 구하려면?

단백질의 분자량을 구해보자.
지난 주에 사용한 코드를 약간 고쳐서, '함수'로 만들어보자. 
자주 사용하는 코드를 '함수'로 만들면 반복되는 코드를 좀 더 쉽게 작성 가능하다. 

함수는 

def 함수 이름 (함수에 전달하는 값)

    해당 값을 이용하여 계산을 한다
    return (출력값) 

과 같은 방식으로 되어 있다. 

a+b 를 함수로 만들어 보면, 

In [None]:
def plus (a,b):
    #a와 b를 더하여 리턴한다. 
    return (a+b)

plus(1,2)

In [None]:
#1부터 n까지 더하는 함수

def number(n):
    sum = 0 
    for i in range(1,n+1):
        sum = sum+i
    return(sum)

print(number(10))
print(number(100))

## 연습

주어진 서열을 Reverse Complement 로 변환하는 다음의 함수를 완성해 보자. 

In [None]:

def reversecomplement(sequence):
    #서열은 이러한 딕셔너리로 변환한다. 
    rev = {'A':'T',
           'T':'A',
           'C':'G',
           'G':'C'}
    reverse = ''
    #reverse complement 서열은 reverse 라는 변수에 저장한다. 
    #for loop에서 한 줄씩 sequence라는 변수에서 한 글자씩 읽어서, 
    #rev 딕셔너리를 이용하여 변환하고, 
    #이를 reverse에 저장해보자. 
    
    return(reverse)

reversecomplement('GAATTCG')
        

In [None]:
지난번에 배웠던 분자량을 구하는 코드를 함수로 변환해보자. 

In [None]:
def MolWeight(proteinsequence):
# 분자량을 구하는 함수 
# proteinsequence 에 아미노산 서열을 받고 
# MW 에는 각각의 아미노산과 분자량의 딕셔너리가 있다. 
    MW = {'G':57.05,
          'A':71.09,
          'S':87.08,
          'T':101.11,
          'C':103.15,
          'V':99.14,
          'L':113.16,
          'I':113.16,
          'M':131.19,
          'P':97.12,
          'F':147.18,
          'Y':163.18,
          'W':186.21,
          'D':115.09,
          'E':129.12,
          'N':114.11,
          'Q':128.14,
          'H':137.14,
          'K':128.17,
          'R':156.19,
          'U':168.53,
          'X':0,
          'J':0}
    MolecularWeight=0
    for aa in proteinsequence:
        MolecularWeight=MolecularWeight+MW[aa]
    return(MolecularWeight)


In [None]:
#함수를 테스트해보자

print(MolWeight('AFCGFGAAFFARTRR'))
print(MolWeight('AGGAGAGAGAGAGAGGAG'))

인간 단백질 중에서 분자량 1000000 이상인 단백질과 분자량만 출력해 보자. 

In [None]:
for p in protein.keys():
    if MolWeight(str(protein[p]))>100000:
        print (protein[p].long_name, MolWeight(str(protein[p])))

분자량 1000000 이상의 단백질의 이름과 서열을 출력해 보자. 

In [None]:
for p in protein.keys():
    if MolWeight(str(protein[p]))>100000:
        print ('>'+protein[p].long_name)
        print (str(protein[p]))

In [None]:
화면으로 출력하지 말고, 파일로 출력해 보자.  
이전의 스크립트를 조금 수정하여, 다음과 같이 고쳐 보자. 

In [None]:
#빈 리스트를 하나 만든다. 여기에 출력할 내용을 저장한다. 
buffer=[]

for p in protein.keys():
    
    단백질의 분자량을 계산하고, 이것이 만약 100000을 넘을 경우에는 
    if MolWeight(str(protein[p]))>100000:
        #buffer 에 추가한다. 
        #파일로 쓸 때는 줄 구분을 위해서 끝에 '\n'문자를 붙인다.
        buffer.append('>'+protein[p].long_name+'\n')
        buffer.append(str(protein[p])+'\n')

In [None]:
#파일을 저장한다. 파일을 열때 'w'를 지정하면 파일 쓰기 모드로 저장한다. 

f=open('file.fa','w')

#f(파일 핸들).writelines(리스트 이름)을 넣으면 리스트에 담긴 내용을 파일로 저장한다. 

f.writelines(buffer)
f.close()

In [None]:
!cat file.fa

## 연습 
분자량 1000000이상인 'Kinase' 만을 'kinase.fa' 라는 이름의 파일로 저장하는 코드를 작성해 보자. 

In [None]:
FASTA 데이터를 분석하여 이의 결과를 테이블 형식으로 출력해 보자. 

시퀀스 이름<Tab>시퀀스의 분자량<Tab>시퀀스

In [None]:
buffer=[]

for p in protein.keys():
    sequence_name = protein[p].long_name
    sequence_mw = MolWeight(str(protein[p]))
    sequence = str(protein[p])
    buffer.append(sequence_name+'\t'+str(sequence_mw)+'\t'+sequence+'\n')


In [None]:
f=open('formatted.tsv','w')
f.writelines(buffer)
f.close()

이렇게 저장된 파일은 엑셀 등에서 불러올 수 있다. 그러나, 이러한 형식의 파일을 좀 더 쉽게 읽고 다루는 모듈이 파이썬에 존재한다.

## Pandas 기초 사용법 

pandas 는 테이블 형식의 데이터를 다루기 쉽게 만들어진 모듈이다.   
파이썬으로 데이터 분석을 하는 것의 90% 는 Pandas를 얼마나 잘 쓸 수 있는지에 달렸음. 


pandas는 anaconda python 을 설치하면 같이 깔리기 때문에 따로 설치할 필요는 없다.  
pandas 를 사용하기 위해서는 다음과 같이 pandas 모듈을 로딩한다.

In [None]:
#보통 이렇게 임포트하면 pd 로 줄여서 사용할 수 있다. 

import pandas as pd


pandas의 기본 기능 단위는 데이터프레임 (DataFrame)이라고 불리는 데이터 단위이다.

* 데이터프레임 하나는 엑셀 쉬트 하나를 생각하면 된다. 
* 데이터프레임은 'Column'과 'row'로 구분된다. 

데이터프레임을 생성하는 데는 여러가지 방법이 있다. 

* 테이블 형식으로 되어 있는 데이터 파일 (CSV, TSV, excel) 등을 읽어오기
* 리스트, 딕셔너리 등의 파이썬 데이터 저장형식으로 저장된 것을 데이터프레임으로 변환 

일단은 예를 들기 위하여 간단한 데이터를 직접 코드로 입력하여 만들도록 함.  
아래의 예에서는 파이썬의 리스트를 이용하여 데이터프레임을 만들자. 

- 데이터프레임의 예제로 쓸 데이터를 리스트에 저장하자.
- 이름, 생년, 소속사, 신장, 국적에 관련된 데이터를 저장하자.

In [None]:
#조만간 해체될 모 걸그룹의 멤버 정보를 저장해보자. 

izone_name = ['권은비',
              '미야와키 사쿠라',
              '강혜원',
              '최예나',
              '이채연',
              '김채원',
              '김민주',
              '야부키 나코',
              '혼다 히토미',
              '조유리',
              '안유진',
              '장원영']

izone_birthdate = ['19950927',
                   '19980319',
                  '19990705',
                  '19990929',
                  '20000111',
                  '20000801',
                  '20010205',
                  '20010608',
                  '20011006',
                  '20011022',
                  '20030901',
                  '20040831']

izone_company = ['울림엔터테인먼트',
                'Mercury',
                '에잇디 크리에이티브',
                '위에화엔터테인먼트',
                'WM엔터테인먼트',
                '울림엔터테인먼트',
                '얼반웍스이엔티',
                'Mercury',
                'DH',
                '스톤뮤직엔터테인먼트',
                '스타쉽엔터테인먼트',
                '스타쉽엔터테인먼트']

izone_height = [160,
               163,
               163,
               163,
               165,
               164,
               166,
               150,
               158,
               160,
               169,
               169]

izone_nationality = ['대한민국',
                     '일본',
                     '대한민국',
                     '대한민국',
                     '대한민국',
                     '대한민국',
                     '대한민국',
                     '일본',
                     '일본',
                     '대한민국',
                     '대한민국',
                     '대한민국']

data= 에 딕셔너리 형식으로 '컬럼이름':데이터(리스트) 를 넣어 지정 가능하다.

In [None]:
izone = pd.DataFrame(data={'이름':izone_name,'생년월일':izone_birthdate,'소속사':izone_company,'국적':izone_nationality, '키':izone_height})
izone

In [None]:
izone['키']

In [None]:
izone['생년월일']

In [None]:
izone.sort_values(by=['키'],ascending=False)

In [None]:
izone.sort_values(by=['키'],ascending=True)

In [None]:
#현재는 생년월일이 문자열로 되어있는데 이를 날짜로 고친다. 

izone['생년월일']=pd.to_datetime(izone['생년월일'])

In [None]:
izone

조건을 이용한 검색 

괄호 안에 어떤 특정한 조건을 지정하면, 해당 조건에 맞는 행만 출력 가능하다. 

In [None]:
izone[izone['이름']=='강혜원']

In [None]:
izone[izone['소속사']=='스타쉽엔터테인먼트']

In [None]:
#'스타' 가 들어있는 소속사 

izone[izone['소속사'].str.contains('스타')]

In [None]:
#복수의 조건을 이용한 검색 
#국적이 '대한민국'이고 '2002년생 이후'인 멤버는
#AND 는 & 
#OR 는 |

from dateutil.parser import parse
izone[(izone['국적']=='대한민국') & (izone['생년월일']>parse('2002-04-01'))]

In [None]:
#소속사가 'Mercury'이거나 'DH'인 멤버 
izone[(izone['소속사']=='Mercury') | (izone['소속사']==('DH'))]

In [None]:
#키가 160-165 사이의 멤버를 출력하고 이를 키 순으로 정렬
test = izone[(izone['키']>=155) & (izone['키']<=160)].sort_values(by='키')
test

# 연습 
키가 165보다 크거나 160보다 작은 멤버를 출력하고 이름 순으로 정렬하려면?

다음과 같이 하면 데이터 중에서 일부 열만 추출 가능하다. 

In [None]:
izone[['이름','소속사','키']]

In [None]:
#추출할 행의 이름이 들어있는 리스트를 변수로 넣고 지정해도 된다. 
columns=['이름','키']
izone[columns]

# 연습 
이름, 키, 국적만을 추출하고, 이름으로 정렬해보자. 

# 인덱스 

인덱스를 설정하면 원하는 복수의 항목을 추출할 수 있다. 

In [None]:
izoneindex = izone.set_index('이름')
izoneindex.loc[['조유리','김민주']]

In [None]:
saknakhi = ['미야와키 사쿠라','야부키 나코','혼다 히토미']
izoneindex.loc[saknakhi]

인덱스가 아닌 컬럼에서 복수의 항목을 검색하려면 

In [None]:
company = ['DH','Mercury']

#소속사가 'company'리스트 내에 들어 있는 항목이면 

izone[izone['소속사'].isin(company)]

In [None]:
#숫자가 있는 컬럼의 통계는 다음과 같이 쉽게 볼 수 있다. 
izone.describe()

In [None]:
#소속사 별로 인원을 알고 싶다면? 
izone.groupby(by='소속사').count()

In [None]:
#국적 별로 인원을 알고 싶다면? 
izone.groupby(by='국적').count()

In [None]:
#국적별로 멤버의 키의 평균값 
izone.groupby(by='국적')['키'].mean()

엑셀로 저장 가능하다.

In [None]:
izone.to_excel('izone.xlsx')
izone[['이름','국적','생년월일']].to_excel('subset.xlsx')

반대로, 엑셀에 저장된 자료 역시 불러올 수 있다. 

In [None]:
iz = pd.read_excel('izone.xlsx')

이전에 FASTA 파일을 읽어서 저장한 formatted.tsv 라는 파일을 데이터 프레임에 불러와 보자.

In [None]:
data = pd.read_csv('formatted.tsv',sep='\t')
data

이 tsv 파일의 첫 줄에는 헤더 (컬럼 이름을 표시하는 줄)가 없다.  
헤더가 없도록 다시 읽어보자. 

In [None]:
data = pd.read_csv('formatted.tsv',sep='\t',header=None)
data

데이터프레임.columns 에 리스트 형식으로 컬럼 이름을 지정할 수 있다. 

In [None]:
data.columns=['protein name','Molecular Weight','Sequence']

In [None]:
data

데이터프레임에서 검색을 해보자. 

'protein name'에 'NADH'가 들어있는 열을 찾아본다면?

In [None]:
data[data['protein name'].str.contains('NADH')]

분자량 100000 이상 그리고 단백질 이름에 'kinase'가 들어 있는 것? 

In [171]:
kinase = data[(data['protein name'].str.contains('kinase'))&(data['Molecular Weight']>100000)]
kinase

Unnamed: 0,protein name,Molecular Weight,Sequence
35,NP_000042.3 serine-protein kinase ATM isoform ...,350678.61,MSLVLNDLLICCRQLEHDRATERKKEVEKFKRLIRDPETIKHLDRH...
168,NP_000179.2 hexokinase-1 isoform HKI [Homo sap...,102470.42,MIAAQLLAYYFTELKDDQVKKIDKYLYAMRLSDETLIDIMTRFRKE...
169,NP_000180.2 hexokinase-2 isoform 1 [Homo sapiens],102364.37,MIASHLLAYFFTELNHDQVQKVDQYLYHMRLSDETLLEISKRFRKE...
194,NP_000206.2 tyrosine-protein kinase JAK3 [Homo...,125084.44,MAPPSEETPLIPQRSCSLLSTEAGALHVLLPARGPGPPQRLSFSFG...
268,NP_000283.1 phosphorylase b kinase regulatory ...,138393.72,MRSRSNSGVRLDGYARLVQQTILCYQNPVTGLLSASHEQKDAWVRD...
...,...,...,...
115396,"XP_024309364.1 phosphatidylinositol 4,5-bispho...",114745.88,MLWKQVHNYPMFNLLMDIDSYMFACVNQTAVYEELEDETRRLCDVR...
115678,XP_024309676.1 homeodomain-interacting protein...,130829.07,MASQLQVFSPPSVSSSAFCSAKKLKIEPSGWDVSGQSSNDKYYTHS...
115813,XP_024309833.1 serine/threonine-protein kinase...,122057.53,MKNLVLKIISGSFPPVSLHYSYDLRSLVSQLFKRNPRDRPSVNSIL...
116013,XP_024310049.1 TBC domain-containing protein k...,100663.75,MFPLKDAEMGAFTFFASALPHDVCGSNGLPLTPNSIKILGRFQILK...


# 데이터프레임에 새로운 컬럼 추가 

단백질의 아미노산 갯수를 별도의 컬럼으로 추가해 보자. 

새로운 컬럼을 추가할 때는  
데이터프레임이름['새로운 컬럼 이름'] = 데이터 
와 같은 방식으로 추가한다. 

일단 'Sequence' 컬럼에서 단백질의 아미노산 갯수를 다음과 같이 계산하자. 

In [172]:
data['Sequence'].str.len()

0         1474
1          290
2          421
3          412
4          655
          ... 
116144      98
116145     459
116146     603
116147     174
116148     380
Name: Sequence, Length: 116149, dtype: int64

이 내용을 새로운 컬럼으로 추가하자. 

In [174]:
data['length']=data['Sequence'].str.len()

Unnamed: 0,protein name,Molecular Weight,Sequence,length
0,NP_000005.3 alpha-2-macroglobulin isoform a pr...,163277.91,MGKNKLLHPSLVLLLLVLLPTDASVSGKPQYMVLVPSLLHTETTEK...,1474
1,NP_000006.2 arylamine N-acetyltransferase 2 [H...,33553.30,MDIEAYFERIGYKNSRNKLDLETLTDILEHQIRAVPFENLNMHCGQ...,290
2,NP_000007.1 medium-chain specific acyl-CoA deh...,46571.70,MAAGFGRCCRVLRSISRFHWRSQHTKANRQREPGLGFSFEFTEQQK...,421
3,NP_000008.1 short-chain specific acyl-CoA dehy...,44280.58,MAAALLARASGPARRALCPRAWRQLHTIYQSVELPETHQMLLQTCR...,412
4,NP_000009.1 very long-chain specific acyl-CoA ...,70374.11,MQAARMAASLGRQLLRLGGGSSRLTALLGQPRPGPARRPYAGGAAQ...,655
...,...,...,...,...
116144,YP_003024034.1 NADH dehydrogenase subunit 4L (...,10723.43,MPLIYMNIMLAFTISLLGMLVYRSHLMSSLLCLEGMMLSLFIMATL...,98
116145,YP_003024035.1 NADH dehydrogenase subunit 4 (m...,51564.02,MLKLIVPTIMLLPLTWLSKKHMIWINTTTHSLIISIIPLLFFNQIN...,459
116146,YP_003024036.1 NADH dehydrogenase subunit 5 (m...,67010.18,MTMHTTMTTLTLTSLIPPILTTLVNPNKKNSYPHYVKSIVASTFII...,603
116147,YP_003024037.1 NADH dehydrogenase subunit 6 (m...,18604.53,MMYALFLLSVGLVMGFVGFSSKPSPIYGGLVLIVSGVVGCVIILNF...,174


컬럼의 내용을 이용하여 계산하여, 새로운 컬럼을 추가할 수도 있다.
만약 Molecular Weight 를 1000 으로 나누어 kDa 라는 칼럼을 추가한다면 

In [175]:
data['kDa']=data['Molecular Weight']/1000
data

Unnamed: 0,protein name,Molecular Weight,Sequence,length,kDa
0,NP_000005.3 alpha-2-macroglobulin isoform a pr...,163277.91,MGKNKLLHPSLVLLLLVLLPTDASVSGKPQYMVLVPSLLHTETTEK...,1474,163.27791
1,NP_000006.2 arylamine N-acetyltransferase 2 [H...,33553.30,MDIEAYFERIGYKNSRNKLDLETLTDILEHQIRAVPFENLNMHCGQ...,290,33.55330
2,NP_000007.1 medium-chain specific acyl-CoA deh...,46571.70,MAAGFGRCCRVLRSISRFHWRSQHTKANRQREPGLGFSFEFTEQQK...,421,46.57170
3,NP_000008.1 short-chain specific acyl-CoA dehy...,44280.58,MAAALLARASGPARRALCPRAWRQLHTIYQSVELPETHQMLLQTCR...,412,44.28058
4,NP_000009.1 very long-chain specific acyl-CoA ...,70374.11,MQAARMAASLGRQLLRLGGGSSRLTALLGQPRPGPARRPYAGGAAQ...,655,70.37411
...,...,...,...,...,...
116144,YP_003024034.1 NADH dehydrogenase subunit 4L (...,10723.43,MPLIYMNIMLAFTISLLGMLVYRSHLMSSLLCLEGMMLSLFIMATL...,98,10.72343
116145,YP_003024035.1 NADH dehydrogenase subunit 4 (m...,51564.02,MLKLIVPTIMLLPLTWLSKKHMIWINTTTHSLIISIIPLLFFNQIN...,459,51.56402
116146,YP_003024036.1 NADH dehydrogenase subunit 5 (m...,67010.18,MTMHTTMTTLTLTSLIPPILTTLVNPNKKNSYPHYVKSIVASTFII...,603,67.01018
116147,YP_003024037.1 NADH dehydrogenase subunit 6 (m...,18604.53,MMYALFLLSVGLVMGFVGFSSKPSPIYGGLVLIVSGVVGCVIILNF...,174,18.60453


# 연습 

'ubiquitin-protein ligase' 가 들어있는 단백질의 목록을 구하고, 
이들의 평균 분자량은 어떻게 되는지를 계산하라

# 데이터프레임의 데이터를 다른 형식으로 변환하기 

kinase 로 골라낸 단백질을 FASTA 형식의 파일로 저장하려면?
일단 단백질 이름과 서열을 리스트로 변환한다. 

In [None]:
seqname = kinase['protein name'].to_list()
seqname

In [None]:
sequence = kinase['Sequence'].to_list()
sequence

seqname과 sequence에 있는 내용을 동시에 출력한다. 
두 개의 리스트에 있는 내용을 동시에 출력하기 위하여 for...range를 사용한다. 
range(0,len(seqname))을 이용하면, 0,1,2,3....len(seqname)-1 까지의 숫자가 반복되고, 
len(seqname)은 1631이므로 
0,1,2,3...1630 까지 반복된다. 


In [None]:
#저장할 내용을 담을 버퍼
buffer = []
for i in range(0,len(seqname)):
    buffer.append('>'+seqname[i]+'\n')
    buffer.append(sequence[i]+'\n')

f=open('kinase.tsv','w')
f.writelines(buffer)
f.close()
    

In [165]:
STK = data[(data['protein name'].str.contains('serine/threonine-protein kinase'))]
STK

Unnamed: 0,protein name,Molecular Weight,Sequence
6,NP_000011.2 serine/threonine-protein kinase re...,56108.03,MTLGSPRKGLLMLLMALVTQGDPVKPSRGPLVTCTCESPHCKGPTC...
427,NP_000446.1 serine/threonine-protein kinase ST...,48619.02,MEVVDPQQLGMFTEGELMSVGMDTFIHRIDSTEVIYQPRRKRAKLI...
1059,NP_001001852.2 serine/threonine-protein kinase...,35874.08,MLLSKFGSLAHLCGPGGVDHLPVKILQPAKADKESFEKAYQVGAVL...
1181,NP_001002838.1 serine/threonine-protein kinase...,191776.76,MATDSGDPASTEDSEKPDGISFENRVPQVAATLTVEARLKEKNSTF...
1672,NP_001005735.1 serine/threonine-protein kinase...,65402.64,MSRESDVEAQQSHGSSACSQPHGSVTQSQGSSSQSQGISSSSTSTM...
...,...,...,...
115683,XP_024309681.1 serine/threonine-protein kinase...,73440.97,MASTRSIELEHFEERDKRPRPGSRRGAPSSSGGSSSSGPKGNGLIP...
115684,XP_024309682.1 serine/threonine-protein kinase...,64725.35,MASTRSIELEHFEERDKRPRPGSRRGAPSSSGGSSSSGPKGNGLIP...
115685,XP_024309683.1 serine/threonine-protein kinase...,63679.85,MASTRSIELEHFEERDKRPRPGSRRGAPSSSGGSSSSGPKGNGLIP...
115813,XP_024309833.1 serine/threonine-protein kinase...,122057.53,MKNLVLKIISGSFPPVSLHYSYDLRSLVSQLFKRNPRDRPSVNSIL...


In [169]:
#연습 



Unnamed: 0,protein name,Molecular Weight,Sequence
354,NP_000372.1 E3 ubiquitin-protein ligase Midlin...,75234.97,METLESELTCPICLELFEDPLLLPCAHSLCFNCAHRILVSHCATNE...
1047,NP_001001740.1 E3 ubiquitin-protein ligase COP...,77675.41,MSGSRQAGSGSAGTSPGSSAASSVTSASSSLSSSPSPPSVAVSAAA...
1066,NP_001001894.1 E3 ubiquitin-protein ligase TTC...,229856.93,MDNFAEGDFTVADYALLEDCPHVDDCVFAAEFMSNDYVRVTQLYCD...
1157,NP_001002266.1 E3 ubiquitin-protein ligase MAR...,32947.80,MSMPLHQISAIPSQDAISARVYRSKTKEKEREEQNEKTLGHFMSHS...
1529,NP_001005207.1 E3 ubiquitin-protein ligase TRI...,107890.79,MDEQSVESIAEVFRCFICMEKLRDARLCPHCSKLCCFSCIRRWLTE...
...,...,...,...
115145,XP_024309087.1 E3 ubiquitin-protein ligase MIB...,109101.68,MDPDPQAGVQVGMRVVRGVDWKWGQQDGGEGGVGTVVELGRHGSPS...
115158,XP_024309100.1 E3 ubiquitin-protein ligase RNF...,42796.80,MLLSIGMLMLSATQVYTILTVQLFAFLNLLPVEADILAYNFENASQ...
115785,XP_024309796.1 probable E3 ubiquitin-protein l...,41857.53,MPTTAKALSDDEQGGSAFVAQSHGANRVHLSSEAEEHHREKLQEIL...
115995,XP_024310029.1 E3 ubiquitin-protein ligase LNX...,80612.81,MNQPESANDPEPLCAVCGQAHSLEENHFYSYPEEVDDDLICHICLQ...


# 연습 

1. formatted.tsv 를 pandas 데이터프레임에 읽고,
2. 컬럼 이름을 'protein name', 'Molecular Weight', 'Sequence' 로 
3. 'protein name' 에서  'E3 ubiquitin-protein ligase'를 검색한 후, 
4.  분자량 30000보다 크고 100000 보다 작은 단백질을 검색한 후 
5. 이를 분자량으로 큰 순에서 작은 순으로 정렬한 다음, 
6.  엑셀 파일로 저장하는 스크립트를 작성해 보자. 
