# 데이터프레임 merge

데이터프레임을 다룰 때 가장 중요한 내용은. 
복수의 데이터프레임에서 데이터를 추출하고 이를 하나로 합치는 것이다.  
여기에는 여러가지 방법이 있으나,'merge'라고 불리는 테크닉이 가장 중요하다. 

일단 테스트 데이터셋을 입력해 보자. 


In [204]:
koreanplayer = pd.DataFrame(data={'이름':['류현진','김광현','최지만'],
                                  '포지션':['투수','투수','내야수'],
                                  '입단':[2020,2020,2018],
                                  '소속팀':['블루제이스','카디널스','레이스']})

pitcher = pd.DataFrame(data={'Name':['류현진','Jacob Degrom','Gerrit Cole','Justin Verlander','김광현'],
                             'W':[5,4,7,1,3],
                             'L':[2,2,3,0,0],
                             'ERA':[2.69,2.38,2.84,3.00,1.62],
                             'IP':[67.0,68.0,73.0,6.0,39.0]})


In [205]:
koreanplayer

Unnamed: 0,이름,포지션,입단,소속팀
0,류현진,투수,2020,블루제이스
1,김광현,투수,2020,카디널스
2,최지만,내야수,2018,레이스


In [206]:
pitcher

Unnamed: 0,Name,W,L,ERA,IP
0,류현진,5,2,2.69,67.0
1,Jacob Degrom,4,2,2.38,68.0
2,Gerrit Cole,7,3,2.84,73.0
3,Justin Verlander,1,0,3.0,6.0
4,김광현,3,0,1.62,39.0


모든 'koreanplayer'가 'pitcher'인 것은 아니다.    
koreanplayer 에 있는 선수 중에서 pitcher 통계에 있는 사람만을 골라서  
테이블을 통합해 보자.

통합할 두 개의 데이터프레임의 이름을 쓰고  
left_on 에는 왼쪽의 데이터프레임에서 기준이 되는 컬럼 이름을,  
right_on 에는 오른쪽의 데이터프레임에서 기준이 되는 컬럼 이름을 쓰자.  
how 에서는 어떻게 합칠 것인지를 정한다.  

두 컬럼에 동시에 존재하는 선수를 기준으로 하면 'inner'가 된다. 

In [221]:
#Inner Join

pd.merge(koreanplayer,pitcher,left_on='이름',right_on='Name',how='inner')

Unnamed: 0,이름,포지션,입단,소속팀,Name,W,L,ERA,IP
0,류현진,투수,2020,블루제이스,류현진,5,2,2.69,67.0
1,김광현,투수,2020,카디널스,김광현,3,0,1.62,39.0


만약 'outer'가 되면 어떻게 될까? 

In [208]:
#Outer Join

pd.merge(koreanplayer,pitcher,left_on='이름',right_on='Name',how='outer')

Unnamed: 0,이름,포지션,입단,소속팀,Name,W,L,ERA,IP
0,류현진,투수,2020.0,블루제이스,류현진,5.0,2.0,2.69,67.0
1,김광현,투수,2020.0,카디널스,김광현,3.0,0.0,1.62,39.0
2,최지만,내야수,2018.0,레이스,,,,,
3,,,,,Jacob Degrom,4.0,2.0,2.38,68.0
4,,,,,Gerrit Cole,7.0,3.0,2.84,73.0
5,,,,,Justin Verlander,1.0,0.0,3.0,6.0


'최지만'은 pitcher에 데이터가 없으므로 'Name','W','L','ERA','IP'의 데이터가 없다.  
Degrom, Cole, Verlander는 koreanplayer에 데이터가 없으므로 '이름','포지션','입단', '소속팀'에 대한 데이터가 없다.   

이 경우 데이터가 없으므로 테이블은 통합되었지만, 데이터가 없다는 표시로 'NaN'이라고 표시한다.   
두 가지 다른 방식이 있다. 

how='left'는 첫번째 데이터프레임만을 기준으로 데이터를 통합하며, 두번째에 없는 데이터는 NaN으로 표시한다. 

In [209]:
#Left Join
koreanpitcher = pd.merge(koreanplayer,pitcher,left_on='이름',right_on='Name',how='left')
koreanpitcher

Unnamed: 0,이름,포지션,입단,소속팀,Name,W,L,ERA,IP
0,류현진,투수,2020,블루제이스,류현진,5.0,2.0,2.69,67.0
1,김광현,투수,2020,카디널스,김광현,3.0,0.0,1.62,39.0
2,최지만,내야수,2018,레이스,,,,,


how='right'는 두번째 데이터프레임만을 기준으로 데이터를 통합하며, 
첫번째에 없는 데이터는 NaN으로 표시한다. 

In [210]:
#Right Join
allpitcher=pd.merge(koreanplayer,pitcher,left_on='이름',right_on='Name',how='right')
allpitcher

Unnamed: 0,이름,포지션,입단,소속팀,Name,W,L,ERA,IP
0,류현진,투수,2020.0,블루제이스,류현진,5,2,2.69,67.0
1,,,,,Jacob Degrom,4,2,2.38,68.0
2,,,,,Gerrit Cole,7,3,2.84,73.0
3,,,,,Justin Verlander,1,0,3.0,6.0
4,김광현,투수,2020.0,카디널스,김광현,3,0,1.62,39.0


NaN 이 들어있는 행을 삭제하고 싶으면?
데이터프레임에서 dropna()를 사용한다. 

In [211]:
allpitcher.dropna()

Unnamed: 0,이름,포지션,입단,소속팀,Name,W,L,ERA,IP
0,류현진,투수,2020.0,블루제이스,류현진,5,2,2.69,67.0
4,김광현,투수,2020.0,카디널스,김광현,3,0,1.62,39.0


# Concat

만약 동일한 형식을 가진 테이블의 데이터를 덧붙이려면 어떻게 해야 하는가?  
이러한 데이터가 추가로 있다고 하자.  

In [212]:
newkorean = pd.DataFrame(data={'이름':['김하성',],
                                  '포지션':['내야수'],
                                  '입단':[2021],
                                  '소속팀':['파드레즈']})
newkorean

Unnamed: 0,이름,포지션,입단,소속팀
0,김하성,내야수,2021,파드레즈


이를 위해서는 'concat'를 사용한다.  
통합할 같은 형식을 가진 데이터프레임을 리스트 형식으로 제공하면..

In [213]:
korean2021 = pd.concat([koreanplayer,newkorean])
korean2021

Unnamed: 0,이름,포지션,입단,소속팀
0,류현진,투수,2020,블루제이스
1,김광현,투수,2020,카디널스
2,최지만,내야수,2018,레이스
0,김하성,내야수,2021,파드레즈


##  Cell Line Data Analysis 

Pandas 에 대해서 배운 지식을 이용하여 실제로 지놈 수준의 데이터를 다루는 방법을 알아보자. 

오늘 예제로 사용할 데이터는 
https://depmap.org/portal/download/

에 존재하는 세포주 및 세포주 내의 유전자 발현 레벨, 유전자의 카피 넘버 변화, CRISPR 에 의한 세포 발현 관련 데이터 등등이다. 


- CCLE_expression.csv : 약 1376개의 인간 암 세포주에 대한 RNA Expression Data
- CCLE_mutation.csv : 1747개의 인간 암 세포주에 대한 돌연변이 시퀀싱 내용 
- Achilles_gene_effect.csv : 808 개의 세포주에 대한 CRISPR 및 세포 성장에 대한 민감도 데이터
- CCLE_gene_cn.csv : 1740개의 인간 암 세포주의 Copy Number 측정 결과 
- Sample_info.csv : 세포주에 대한 정보를 담고 있는 데이터이다. 

모든 데이터는 CSV (콤마로 구분된 텍스트 파일이다) 파일이다.  
브라우저에서 클릭하여 다운로드받은 다음, 노트북이 있는 위치로 옮기자.   

모두 다운로드받았다면 다음과 같이 파일을 확인 

In [None]:
!ls -l *.csv

파일의 앞을 확인해보자. 

먼저 각 세포주의 정보가 들어있는 sample_info.csv 라는 파일을 읽어보자. 

In [None]:
!head sample_info.csv

이 파일의 제일 첫 줄에는 헤더가 존재한다. 
그리고 콤마로 구분되어 있는 파일이다.  

이것을 감안하여 파일을 읽어보자.   


In [None]:
#Pandas 에서 열어보면..

import pandas as pd

#sep="," 를 하지 않아도 디폴트로 콤마로 구분된 파일은 읽을 수 있으나, 설명 목적으로 넣었음. 
#만약 탭으로 구분된 파일이라면 sep="\t" 옵션을 줄 것 

sample_info = pd.read_csv('sample_info.csv',sep=",")
sample_info

총 1811 개의 세포주 데이터가 들어있다. 

중요한 컬럼은 

DepMap_ID : DepMap 의 세포주 ID
cell_line_name : 세포주의 이름 
stripped_cell_line_name : 세포주의 특수문자 및 공백을 제거한 이름 
primary_disease : 암의 종류 
primary_disease Subtype : 암의 세부 분류
lineage : 암이 유래된 조직 
lineage_subtype : 조직의 세부 분류 

세포주 중에서 특정 암 종류만을 찾아보고 싶다. 그러기 위해서는 일단 'lineage'라는 컬럼 안에 어떤 내용이 들어있는지를 알아야 한다. 

In [None]:
#'lineage' 만을 선택하고 unique()를 선택하여 컬럼 내에 있는 데이터 중에서 고유한 내용이 어떤 것일 수 알 수 있다. 

sample_info['lineage'].unique()

만약 'lineage' 안에 있는 내용을 세포주 갯수대로 알고 싶다면?

In [None]:
#groupby 는 그룹화하여 계산을 하는 코맨드인데, 이 설명은 다음 주에 한다. 

sample_info.groupby('lineage')['lineage'].count()

유방암 세포주는 모두 83개 존재한다. 이것만을 검색해 보자. 

In [None]:
#'lineage'컬럼에 'breast'라는 값이 있는 세포주를 찾아서 breast_cancer 라는 데이터 프레임으로 저장한다. 

breast_cancer = sample_info[sample_info['lineage']=='breast']
breast_cancer

여기서 'NaN' 이라는 내용이 있는데,
'NaN'은 '데이터가 없음'을 표시하는 기호이다.    
데이터가 없는 것을 처리하는데는 여러가지 방법이 있는데, 
여기서는 일단 NaN을 공백으로 표시한다. 

이를 위해서는 'fillna' 라는 명령을 이용한다. 


In [None]:
breast_cancer = breast_cancer.fillna(value='')
breast_cancer

유방암은 마커를 기준으로 나뉘는데, 주된 마커는 ER (Estrogen Receptor positive, negative), HER2 (postivie, negative)로 나뉜다. 
'lineage_sub_subtype'에 'HER2pos'라고 마크된 유방암만 찾아보자. 

In [None]:
# 'lineage_sub_subtype'컬럼에 HER2pos 라는 텍스트가 들어가 있는 행을 찾는다. 

HER2pos=breast_cancer[breast_cancer['lineage_sub_subtype'].str.contains('HER2pos')]
HER2pos

# 연습 

HER2neg  
ERneg  
ERpos   

라는 이름으로 서브타입에 HER2neg, ERneg, ERpos 가 들어있는 세포주의 데이터만을 검색해서 넣어보자. 

In [None]:
HER2neg = 
ERneg = 
ERpos = 

HER2pos에서 필요한 몇 개의 행만을 추려내서 HER2 라는 이름의 새로운 데이터프레임으로 저장한다.  
추려낼 행은  
DepMap_ID, stripped_cell_line_name, primary_disease, Subtype, lineage, lineage_subtype, lineage_sub_subtype이다. 

In [None]:
#데이터프레임에서 일부 행만 추려내려면, 원하는 컬럼을 리스트 형태로 지정해서 넣는다. 

HER2=HER2pos[['DepMap_ID', 'stripped_cell_line_name','primary_disease', 'Subtype', 'lineage', 'lineage_subtype', 'lineage_sub_subtype']]
HER2

이것을 엑셀 파일로 저장하면..

In [None]:
HER2.to_excel('HER2.xlsx')

In [None]:
!ls *.xlsx

In [None]:
!ls *.csv

# 연습 

sample_info 에서 'lineage'에서 'lung' 인 세포주에 대한 데이터를 데이터프레임으로 만들고, 여기서 'DepMap_ID','stripped_cell_line_name','lineage' 컬럼만 선택해서 이것을 lung.xlsx 로 저장해 보자. 

# Expression Data 와 통합 

이제 이 세포주에 대한 expression data 등을 불러보자. 이를 위해서는 전체 데이터를 다 불러올 필요가 있다. 

매우 큰 데이터이므로 시간이 좀 걸리므로 기다릴 것. 

In [None]:
expression = pd.read_csv('CCLE_expression.csv',sep=",")
expression

데이터가 이런 식으로 되어 있다. 

첫번째 컬럼: 세포주 이름 'DEPMAP_ID'   
두번째부터 여러번째 컬럼 : 유전자 이름과 괄호로 나온 수치   

컬럼의 이름을 좀 바꿀 필요가 있다.  
일단 컬럼 목록을 얻어온다. 

In [None]:
#데이터프레임.columns 으로 컬럼 이름을 얻고, 이것을 to_list()로 리스트로 바꾼다. 

expression.columns.to_list()

In [None]:
#여기서 괄호로 되어 있는 수치는 없애고 싶다.
#이를 위해서 컬럼 이름을 리스트로 만들고, 이것을 하나씩 공백으로 나누고
#공백 왼쪽만을 고른다.
# TSPAN6 (7105)
# 를 TSPAN6 과 (7105)로 나눈다. 

columns = []

# 이를 위해서 리스트에 넣은 컬럼 이름을 한줄씩 line 이라는 변수에 넣은 후, 

for line in expression.columns.to_list():
    
    # split(' ') 라는 함수로 공백을 기준으로 텍스트를 나눈다. 
    data = line.split(' ')
    # data[0]에는 TSPAN6이, data[1]에는 (7105)가 저장된다. 
    # data[0]을 취해서 columns이라는 새로운 리스트에 저장한다. 
    columns.append(data[0])
    
# 이 과정을 끝내면
columns

In [None]:
#columns이라는 새로운 리스트에 담긴 고쳐진 컬럼 이름을 데이터프레임의 columns에 넣어서 컬럼 이름을 고친다. 

expression.columns=columns
expression

In [None]:
#사실 위의 코맨드를 한줄로 쓸 수도 있다. 
# 'List Comprehension'이라는 테크닉으로 https://mingrammer.com/introduce-comprehension-of-python/ 를 참조하기 바란다. 

expression.columns=[line.split(' ')[0] for line in expression.columns.to_list()]

In [None]:
#inplace=True 는 데이터프레임에 행한 변화를 그대로 원래 데이터프레임에 적용하는 옵션이다. 

expression.rename(columns={'Unnamed:':'Cell Line'},inplace= True)
expression

이제 유전자의 이름과 세포주 컬럼을 바꿨다. 다음에는 앞에서 선별해 둔 HER2 에서 매칭되는 데이터만을 골라보자. 

In [None]:
HER2

In [None]:
#여기서 우리가 필요한 데이터는 'DepMap_ID' 뿐이다. 이 데이터만을 리스트로 바꾼다. 
celllinelist = HER2['DepMap_ID'].to_list()
celllinelist

In [None]:
expression 데이터프레임 중에서 celllinelist 에 있는 것만을 골라내자. 

In [None]:
HER2express = expression[expression['Cell Line'].isin(celllinelist)]
HER2express

# 데이터프레임 merge

HER2 데이터프레임과 HER2express 데이터프레임을 merge를 이용하여 통합하자. 
양쪽의 데이터프레임에서 매칭되는 컬럼은 두 개이다. 
HER2 에서는 'DepMap ID'
HER2express 에서는 'Cell Line'
이 동일한 데이터를 담고 있다. 

이를 이용하여 HER2express와 HER2를 통합하면...

In [None]:
#merge 명령어의 자세한 레퍼런스는 여기를 참조한다. 
#https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html
#HER2 - 합치려는 첫번째 테이블 
#HER2express - 합치려는 두번째 테이블 
#left_on='첫번째 테이블의 기준이 되는 컬럼'
#right_on='두번째 테이블의 기준이 되는 컬럼'
#how='inner' : 합치는 방법. 'inner' 인 경우 양쪽에 모두 데이터가 있는 항목만을 선택한다. 

pd.merge(HER2, HER2express, left_on='DepMap_ID', right_on='Cell Line',how='inner')

In [None]:
#사실 미리 데이터를 골라낼 것도 없이, 애초의 expression 데이터 프레임에서 바로 merge를 해도 된다. 
HER2expressAll = pd.merge(HER2, expression, left_on='DepMap_ID', right_on='Cell Line',how='inner')
HER2expressAll

여기서 다음과 같은 조작을 하고 싶다. 

1. stripped_cell_line_name 만 남겨두고 셀라인 데이터는 다 지우고 싶다. 
2. 지금 현재는 컬럼이 유전자, 각 행이 셀라인으로 되어 있는데, 이를 바꿔서 컬럼이 셀라인, 각 행이 유전자가 되도록 하고 싶다. 

일단 특정한 컬럼만 지우려면 drop()을 쓰자. 여기서 컬럼에 삭제할 컬럼을 리스트로 제공하자. 

In [None]:
HER2expressAll.drop(columns=['DepMap_ID','primary_disease','Subtype','lineage','lineage_subtype','lineage_sub_subtype','Cell Line'])

일단 세포주 이름을 인덱스로 다시 설정한다. 

In [None]:
H=HER2expressAll.drop(columns=['DepMap_ID','primary_disease','Subtype','lineage','lineage_subtype','lineage_sub_subtype','Cell Line']).set_index('stripped_cell_line_name')
H

인덱스와 컬럼을 바꾸는 것은 'transpose()'라는 명령으로 간단히 해당된다. 
다른 방식으로 데이터의 형식을 바꾸는 것도 있으나, 이는 다음 시간에 공부한다. 

In [None]:
expressiondataset = H.transpose()
expressiondataset

각 세포주 별로 expression의 평균값을 구한다. 

In [None]:
expressiondataset.mean()

다른 유전자 간의 expression 평균값을 구하는 것은 큰 의미가 없다.  
다른 세포주 간에서 같은 유전자의 expression의 평균값을 구하려면?

In [None]:
expressiondataset.mean(axis=1)

만약 이를 정렬하려면?

In [None]:
expressiondataset.mean(axis=1).sort_values()

역순으로 정렬하려면?

In [None]:
expressiondataset.mean(axis=1).sort_values(ascending=False)

모든 세포주에서 발현이 0 인 것들을 제외해보자. 

In [None]:
expressiondataset[expressiondataset.mean(axis=1)>0]

평균값으로 상위 Top5000 유전자만  골라내 보자.

In [None]:
Top5000 = expressiondataset.mean(axis=1).sort_values(ascending=False)[0:5000]

In [None]:
Top5000expression = expressiondataset.loc[Top5000.index]
Top5000expression

가장 변화가 큰 유전자 (표준편차가 제일 큰 유전자 5000) 를 골라내 보자. 

In [None]:
Top5000var = expressiondataset.var(axis=1).sort_values(ascending=False)[0:5000]
Top5000varexpression = expressiondataset.loc[Top5000var.index]
Top5000varexpression

expressiondataset 에서 유전자 이름에 'MT-'가 들어있는 유전자를 찾아보자. 

In [None]:
MTgene = expressiondataset[expressiondataset.index.str.contains("MT-")].index.to_list()
MTgene

만약 이 유전자에 대한 데이터값만 구한다면..

In [None]:
expressiondataset.loc[MTgene]

이 유전자만을 제외한 것만 찾는다면?  
~ 연산자는 역값을 구하는데 사용한다. 


In [None]:
expressiondataset.loc[~expressiondataset.index.isin(MTgene)]

# 연습 

전체 유전자의 발현에 대한 '중간값'을 구하고, 
중간값에서 꼴등에서 5000등을 뺀 상위만을 선별해 보자. 

* 힌트 : 중간값을 위해서는 'mean'이나 'var' 대신 'median'이라는 함수를 사용한다. 
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.median.html

* 힌트 2 : 리스트에서 뒤에서 5000을 빼기 위해서는 -5000 을 사용한다. 혹은 정렬의 순서를 바꾸어도 된다. 


#
각각의 유전자에 대한 설명을 참고하여 원하는 유전자만 검색하고 싶으면 어떨까?
이를 위해서는 일단 유전자 기호와 설명에 대한 정보가 있는 데이터를 찾아, 데이터프레임화 해야 한다. 
유전자 이름과 이의 설명에 대한 데이터는 여러 군데서 찾을 수 있지만, 이래 링크가 제일 간단하다. 

https://www.genenames.org/tools/search/#!/?query=&rows=20&start=0&filter=document_type:gene
    
위의 링크에서 왼쪽 하단의 'Download all results'의 'txt'를 선택하여 다운받은 후, 이를 파이썬 노트북이 있는 디렉토리로 옮기자. 

In [None]:
!ls *.txt

파일 이름은 사람에 따라서 다르므로 자신의 파일 이름을 입력하자.

In [None]:
import pandas as pd
genename = pd.read_csv('hgnc-search-1617617243911.txt',sep='\t')
genename

'Name'에서 자신이 원하는 유전자를 검색하자. 

In [None]:
E3=genename[genename['Name'].str.contains('E3 ubiquitin protein ligase')]
E3

이렇게 검색한 내용을 기반으로 유전자 발현을 찾아보자. 'Symbol'에 유전자 이름이 있으므로 이것을 list로 만들어 

In [None]:
E3list = E3['Symbol'].to_list()
E3list

이것을 expressiondata에서 검색해 보자. 

In [None]:
expressiondataset.loc[E3list]

모든 유방암 데이터에서 EGF Receptor와 Estrogen data를 찾아보자. 일단 유전자의 이름을 검색해 보자. 

In [None]:
#EGF Receptor 
genename[genename['Symbol'].str.contains('ERBB')]

In [None]:
#estrogen receptor
genename[genename['Name'].str.contains('estrogen')]

breast cancer cell의 expression 데이터만 모아서 be에 담는다.

In [None]:
breast_cancer = sample_info[sample_info['lineage']=='breast']
breastexpress = pd.merge(breast_cancer,expression,left_on='DepMap_ID',right_on='Cell Line',how='inner')
breastexpress

deletelist = breast_cancer.columns.to_list()
deletelist.remove('stripped_cell_line_name')
deletelist.append('Cell Line')
deletelist

breastexpress.drop(columns=deletelist,inplace=True)
breastexpress.set_index('stripped_cell_line_name',inplace=True)
be=breastexpress.transpose()
be

'ERBB2','ERBB3','ERBB4','ESR1','ESR2' 유전자만을 선택한 후, 이를 transpose한다. 

In [None]:
be2 = be.loc[['ERBB2','ERBB3','ERBB4','ESR1','ESR2']].transpose()
be2

breast_cancer 에서 세포주 이름과 서브타입만을 추출해 낸다.

In [None]:
bc = breast_cancer[['stripped_cell_line_name','lineage_sub_subtype']].fillna('')
bc

'ERpos' 인 세포주만을 추출해 낸다. 

In [None]:
ERpos = bc[bc['lineage_sub_subtype'].str.contains('ERpos')]
ERpos

In [None]:
pd.merge(be2,ERpos,left_on='stripped_cell_line_name',right_on='stripped_cell_line_name',how='inner')

ER positive 와 Negative의 통계치를 계산한다. 

In [None]:
positivecalc = pd.merge(be2,ERpos,left_on='stripped_cell_line_name',right_on='stripped_cell_line_name',how='inner').describe()
positivecalc

In [None]:
ERneg = bc[bc['lineage_sub_subtype'].str.contains('ERneg')]
negativecalc = pd.merge(be2,ERneg,left_on='stripped_cell_line_name',right_on='stripped_cell_line_name',how='inner').describe()
negativecalc

In [None]:
new 라는 이름으로 새로운 데이터프레임을 만든다. 

In [None]:
new=pd.DataFrame(data={'positive':positivecalc['ESR1'],'negative':negativecalc['ESR1']})
new

In [None]:
new['fold']=new['positive']/new['negative']
new

# 연습 

HER2 positive와 HER2 negative 의 expression을 위에서 Estrogen Receptor 의 Expression 을 계산해 보자. 

# 연습

1. sample_info에서 lung cancer cell을 찾고, 
2. 이 중에서 'lineage_subtype'이 'NSCLC'인 것과 'SCLC'인 것을 구분하여 각각 NSCLC 와 SCLC 의 이름으로 저장한다. 
3. 각각의 expression 데이터를 NSCLCexpression 과 SCLCexpression 으로 저장한다. 
4. 유전자 중 'TP53','KRAS','PTEN','MET','FGFR1','BRAF'를 골라, 
5. NSCLC와 SCLC 세포주의 평균 expression 을 계산하고, 
6. 그룹별 각각의 유전자가 얼마나 expression 차이가 나는지를 계산하라. 

데이터 파일 읽기부터 결과 출력까지 한번에 실행되도록 만들어 볼 것! (처음에는 여러 개의 쉘로 단계별로 수행한 다음 제대로 수행되는 것을 확인한 후 합쳐도 상관없다) 