# Chapter 7. 분석을 위한 통계 및 수치 연산 


## Numpy 

생물정보 분석에는 숫자의 계산, 특히 행렬 형식의 계산이 필요하다.  

많은 생물정보 데이터 중 숫자 형식의 데이터 (예:RNA-Seq의 Expression data 등등) 는 행렬 형식의 숫자로 되어 있는 경우가 많이 있으며,  
파이썬에는 이를 효율적으로 다룰 수 있는 모듈이 존재한다. 

행렬 및 숫자 계산을 담당하는 모듈은 Numpy ('넘파이' 라고 읽는다) 라고 하며.  
이를 사용하려면 다음과 같이 모듈을 로딩한다. 

In [None]:
import numpy as np

### 1차원 배열 

행렬 형식의 데이터를 저장하는 장소를 배열 (Array) 이라고 하며,  
숫자 1,2,3,4를 배열로 저장하려면 다음과 같이 한다.

np.array([배열을 구성하는 항목, 배열을 구성하는 항목....])

In [None]:
a=np.array([1,2,3,4,5])
a

0 으로 채워진 일정한 크기의 배열을 만들 수도 있다.  
다음 예에서는 4개의 0 이 들어 있는 배열을 만든다. 

In [None]:
z = np.zeros(10)
z

1 로 채워진 배열을 만들 수도 있다. 

In [None]:
o = np.ones(10)
o

일정한 간격으로 증가되는 배열을 만들 수도 있다.  
다음의 예에서는 1부터 9까지 1씩 증가하는 숫자의 배열을 만든다. 

In [None]:
x = np.arange(2, 100, 2 )
x

### 2차원 배열 

지금까지는 1차원 배열 (벡터) 를 사용했으나, 2차원 배열을 만드는 것도 가능하다.  
많은 생물정보 관련 데이터는 2차원 배열 (행렬) 로 저장되는 경우가 많다. 

2차원 배열을 정의하려면 

[[a,b,c],
 [d,e,f],
 [g,h,i]]
 
 와 같은 식으로 정의한다. 

3x3 배열 

In [None]:

twodim = np.array(([1,2,3,4],
                   [4,5,6,4],
                   [7,8,9,10]))

twodim

3x4배열 

In [None]:
twodim2 =np.array(([1,2,3,4],
                   [4,5,6,7],
                   [7,8,9,10]))

twodim2

이미 만들어진 배열에 숫자를 추가할수도 있다. 

In [None]:
a=np.array([1,2,3,4])
a = np.append(a,5)
a

In [None]:
#a에 6을 추가해보자?

a=np.append(a,6)
a=np.append(a,7)
a

In [None]:
#두 개의 배열의 항목을 합칠 수도 있다. 

b = np.array([4,5,6,7])
c = np.append(a,b)
c

In [None]:
#배열의 각각의 항목을 살펴보자. 
a=np.array([1,2,3,4])
a[0]

In [None]:
#제일 끝의 항목
a[-2]

In [None]:
# 2차원 행렬에서는 어떻게 항목을 억세스할까? 
twodim =np.array(([1,2,3,4],
                  [4,5,6,7],
                  [7,8,9,10]))
#첫번째 행의 내용을 억세스한다. 
twodim[:,-1]

In [None]:
#첫번쨰 열의 내용을 억세스한다.
# ':'는 모든 행 혹은 열을 시하라는 표시이다. 
twodim[:,0]

In [None]:
#각각의 항목을 억세스한다. 

twodim[0,0]

배열의 일부 항목을 이용하여 새로운 배열로 저장할 수도 있다. 배열[시작:끝] 과 같이 사용한다. 
배열의 일부 내용을 

In [None]:
a = np.array([1,2,3,4,5,6,7,8,9,10])
a

In [None]:
#첫번째와 두번째 
a[1:3]

In [None]:
#이렇게 써도 된다. 
a[3:]

In [None]:
#두번째부터 다섯번째 
a[2:5]

In [None]:
#끝에서 3개 
a[-4:]

In [None]:
twodim2 =np.array(([1,2,3,4],
                   [4,5,6,7],
                   [7,8,9,10]))
#첫번째 행과 두번째 행 
twodim2[0:1,:]

In [None]:
#두번째 열과 세번째 열 
twodim2[:,1:3]

In [None]:
twodim2[1:,1:]

In [None]:
twodim2[:-1,:-1]

In [None]:
twodim2[-2:,-2:]

In [None]:
#배열 간의 계산 

a= np.array([1,2,3,4,5,6,7,8,9])
b= np.array([9,8,7,6,5,4,3,2,1])
a+b

In [None]:
a*b

In [None]:
#2차원 행렬 연산 

a =np.array(([1,2,3,4],
             [4,5,6,7],
             [7,8,9,10]))

b =np.array(([1,2,3,4],
             [4,5,6,7],
             [7,8,9,10]))

a+b

In [None]:
a*b

In [None]:
#이렇게 하면 어떻게 될까? 
a*2

제일 첫번째 열만 취하여 2를 곱함 

In [None]:
a[:,0]*2

In [None]:
#배열을 구성하는 모든 항목의 합
a

In [None]:
#각 열의 총합 

np.sum(a,axis=1)

In [None]:
#각 행의 총합 

np.sum(a,axis=0)

In [None]:
import pandas as pd
expression = pd.read_csv('CCLE_expression.csv')
expression

Pandas 로 읽어낸 숫자 데이터를 Numpy Array 로 만들 수 있다. 
일단 첫번째 행을 인덱스로 만들어 보자. 

In [None]:
expression.set_index('Unnamed: 0',inplace=True)
expression


Pandas DataFrame을 Numpy 로 변환하기 위해서는 dataframe.to_numpy() 를 사용한다. 

In [None]:
numpy = expression.to_numpy()
numpy

Numpy Array 형식으로 변환된 데이터는 Numpy의 모든 연산 기능을 이용하여 계산될 수 있다. 

In [None]:
numpy10 = numpy*10
numpy10

In [None]:
numpy.sum(axis=1)

In [None]:
numpy.var(axis=0)

numpy Array 를 가지고 데이터프레임을 생성하면, 다시 이를 데이터프레임 형식으로 변환할 수 있다.  
단, Numpy Array 는 컬럼 이름과 인덱스가 없으므로, 이는 별도로 지정해주어야 한다. 

In [None]:
pd.DataFrame(numpy10, columns=expression.columns, index=expression.index)

## 기초 통계 계산 

지난번에 사용한 데이터를 다시 이용하자. 

In [None]:
import pandas as pd

knockdown = pd.read_excel('knockdown.xlsx')
knockdown

In [None]:
#Pandas의 데이터를 Numpy의 배열로 바꿀 수 있다. 
#dropna()는 NaN 을 없애기 위해 넣음 

Control = knockdown['MI-Control'].dropna().to_numpy()
Control

In [None]:
RNAi = knockdown['MI-RNAi'].dropna().to_numpy()
RNAi

Rescue= knockdown['MI-Rescue'].dropna().to_numpy()

In [None]:
Rescue

In [None]:
#각각의 평균을 계산하자. 
np.mean(Control)

In [None]:
np.mean(RNAi)

In [None]:
np.mean(Rescue)

In [None]:
#표준편차 
print(np.std(Control))
print(np.std(RNAi))

## Mann-Whitney U-Test

- 30개 이하의 작은 데이터, 정규분포를 따르지 않는 데이터에 대해서 사용한다. 
- 지금의 데이터는 30개 이하이므로 T-test 등 데이터의 정규분포를 가정하는 분석방법으로 가설 검정하는 것은 바람직스럽지 않다. 
- 이를 위해서 Mann-Whitney의 U-Test를 수행한다. 
- U-test 를 수행하기 위해서는 통계 모듈을 불러와야 한다.   

Python에서 기초 통계 테스트를 하기 위해서는 scipy.stats이라는 모듈을 이용한다. 

In [None]:
from scipy.stats import mannwhitneyu
mannwhitneyu(Rescue,Control)

## T-test

30개 이상의 정규분포를 따르는 두 가지 서로 독립적인 데이터의 평균이 다른지를 살펴본다.   
이전에 사용한 인간 프로테옴 데이터를 이용하자. 



In [None]:
!curl -O "https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/reference/GCF_000001405.39_GRCh38.p13/GCF_000001405.39_GRCh38.p13_protein.faa.gz"

In [None]:
!ls

이전에 배운 것을 기반으로 하여 fasta 파일을 읽어들여서 분자량을 계산하고,  
이를 DataFrame으로 전환하는 코드를 작성하자. 

In [None]:

import pandas as pd
from pyfaidx import Fasta

def MolWeight(proteinsequence):
# 분자량을 구하는 함수 
# proteinsequence 에 아미노산 서열을 받고 
# MW 에는 각각의 아미노산과 분자량의 딕셔너리가 있다. 
    MW = {'G':57.05,
          'A':71.09,
          'S':87.08,
          'T':101.11,
          'C':103.15,
          'V':99.14,
          'L':113.16,
          'I':113.16,
          'M':131.19,
          'P':97.12,
          'F':147.18,
          'Y':163.18,
          'W':186.21,
          'D':115.09,
          'E':129.12,
          'N':114.11,
          'Q':128.14,
          'H':137.14,
          'K':128.17,
          'R':156.19,
          'U':168.53,
          'X':0,
          'J':0}
    MolecularWeight=0
    for aa in proteinsequence:
        MolecularWeight=MolecularWeight+MW[aa]
    return(MolecularWeight)


In [None]:
import pandas as pd
from pyfaidx import Fasta

#fasta 파일을 읽는다. 
Human = Fasta('GCF_000001405.39_GRCh38.p13_protein.faa')
name = {}
sequences = {}

for key in Human.keys():
    longname = Human[key].long_name
    sequence = str(Human[key])
    name[key]=longname
    sequences[key]=sequence

df = pd.DataFrame(data={'description':name,'sequence':sequences})

#description 에서 중간의 단백질 이름만 추출하여 'protein' 이라는 컬럼에 넣는다. 
df['protein']=df['description'].str.split('[').str[0].str.split().str[1:].str.join(' ')

#sequence 에 있는 시퀀스 파일에 MolWeight 함수를 적용하여 분자량을 계산한 후 'MW' 라는 컬럼에 저장한다. 
df['MW']=df['sequence'].map(MolWeight)
df

코드를 수정하여 파일 이름을 주면 DataFrame 을 리턴하는 함수를 만들어 보자. 

In [None]:
import pandas as pd
from pyfaidx import Fasta

def MolWeight(proteinsequence):
# 분자량을 구하는 함수 
# proteinsequence 에 아미노산 서열을 받고 
# MW 에는 각각의 아미노산과 분자량의 딕셔너리가 있다. 
    MW = {'G':57.05,
          'A':71.09,
          'S':87.08,
          'T':101.11,
          'C':103.15,
          'V':99.14,
          'L':113.16,
          'I':113.16,
          'M':131.19,
          'P':97.12,
          'F':147.18,
          'Y':163.18,
          'W':186.21,
          'D':115.09,
          'E':129.12,
          'N':114.11,
          'Q':128.14,
          'H':137.14,
          'K':128.17,
          'R':156.19,
          'U':168.53,
          'Z':0,
          'X':0,
          'J':0}
    MolecularWeight=0
    for aa in proteinsequence:
        MolecularWeight=MolecularWeight+MW[aa]
    return(MolecularWeight)

def protein(file):
    #파일 이름을 주면 이것을 읽어서 데이터프레임으로 반환하는 함수 

    Organism = Fasta(file)
    name = {}
    sequences = {}

    for key in Organism.keys():
        longname = Organism[key].long_name
        sequence = str(Organism[key])
        name[key]=longname
        sequences[key]=sequence

    df = pd.DataFrame(data={'description':name,'sequence':sequences})
    #description 에서 중간의 단백질 이름만 추출하여 'protein' 이라는 컬럼에 넣는다. 
    df['protein']=df['description'].str.split('[').str[0].str.split().str[1:].str.join(' ')
    #sequence 에 있는 시퀀스 파일에 MolWeight 함수를 적용하여 분자량을 계산한 후 'MW' 라는 컬럼에 저장한다. 
    df['MW']=df['sequence'].map(MolWeight)
    return(df)


human = protein('GCF_000001405.39_GRCh38.p13_protein.faa')

읽어들인 데이터프레임에서 특정한 항목만을 검색한다. 

In [None]:
kinase = human[human['description'].str.contains('kinase')]
kinase

Serine/Theonine Protein Kinase 만 검색한다. 

In [None]:
st=human[human['description'].str.contains('serine/threonine-protein kinase')]
st

Serine/Theronine Protein Kinase 의 MW 를 취하고, 'type' 라는 컬럼에 이를 구분할 라벨을 달아준다.

In [None]:
stmw = st[['MW']]
stmw['type']='serine/threonine'
stmw

동일한 방식으로 tyrosine protein kinase 를 찾는다.

In [None]:
tyrosine=human[human['description'].str.contains('tyrosine-protein kinase')]
tyrosine

tyrosine protein kinase 에 대한 정보를 얻는다.

In [None]:
tyrosinemw = tyrosine[['MW']]
tyrosinemw['type']='tyrosine'

In [None]:
mw=pd.concat([stmw, tyrosinemw])
mw

In [None]:
import seaborn as sns
from matplotlib import pyplot as plt
#x와 y의 인치로 지정
plt.figure(figsize=(15,10))
sns.set(font_scale=1.5)
sns.set_style("white")
g=sns.violinplot(data=mw,y='MW',x='type')
#X축의 범위를 지정 


Arabidopsis['MW']에 저장되어 있는 Arabidopsis 의 단백질 분자량 데이터와  
Rice['MW']에 저장되어 있는 Rice의 단백질 분자량 데이터를 이용하여   
T-Test 를 수행한다.  

T-Test와 같은 기본 통계 검정을 수행하기 위하여 Scipy.stats이라는 모듈을 이용한다. 

https://docs.scipy.org/doc/scipy/reference/tutorial/stats.html

두 개의 독립된 집단간의 결과를 비교하기 위해서는 다음 모듈을 이용한다. 

https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html

In [None]:
from scipy.stats import ttest_ind

#두 개의 데이터에서 MW 데이터만을 취해서 numpy array 로 변환하고 t-test를 실행한다. 
serinethreonine = stmw['MW'].to_numpy()
tyrosineMW=tyrosinemw['MW'].to_numpy()

#ttest_ind(첫번째 집단이 들어있는 Numpy array, 두번째 집단의 Numpy Array )
ttest_ind(serinethreonine,tyrosineMW)

# 연습 

human[human['description'].str.contains('protein phosphatase')]
를 이용하면 protein phosphatase를 검색할 수 있다. 

이것을 serine/threonine protein kinase 를 검색한 것과 t-test 를 수행하고, violin plot 을 그려보자.

## ANOVA와 Post-hoc analysis 

T-test는 두 개의 그룹의 비교를 위한 것이고, 만약 3개 이상의 집단을 비교하기 위해서는 다음과 같은 절차를 따라야 한다. 

ANOVA : 각 그룹간의 차이가 존재하는가를 검정 
Post-hoc analysis : 사후검정을 통하여 각각의 집단 간의 유의적인 변화를 조사한다. 

만약 3개 이상의 그룹간의 차이가 존재하는 경우, 각각의 그룹간의 비교를 수행하여 각각의 차이가 존재하는지를 본다. 
이때 단순한 T-test 분석을 수행하면 안되고, 다중 비교에 따라서 P-Value를 보정하는 테스트를 사용해야 함. 

4개 그룹을 비교하기 위하여 'protein phosphatase' 와 'protein ligase' 를 찾은 후 별도의 데이터프레임에 저장한다. 

In [None]:
phosphatase=human[human['description'].str.contains('protein phosphatase')]
phosphatasemw =phosphatase[['MW']]
phosphatasemw['type']='phosphatase'

ligase=human[human['description'].str.contains('protein ligase')]
ligasemw =ligase[['MW']]
ligasemw['type']='ligase'


4개의 데이터프레임을 통합한다. 

In [None]:
mw=pd.concat([stmw,tyrosinemw,phosphatasemw,ligasemw])
mw

In [None]:
import seaborn as sns
from matplotlib import pyplot as plt
#x와 y의 인치로 지정
plt.figure(figsize=(15,10))
sns.set(font_scale=1.5)
sns.set_style("white")
g=sns.violinplot(data=mw,y='MW',x='type')
#X축의 범위를 지정 


일단 4개의 분포가 통계학적으로 다른지를 검사한다.  
이를 위해서는 One-way anova (F-test)를 수행한다. 

In [None]:
from scipy.stats import f_oneway
f_oneway(stmw['MW'].to_numpy(),tyrosinemw['MW'].to_numpy(),phosphatasemw['MW'].to_numpy(),ligasemw['MW'].to_numpy())

이 결과는 4개의 분포가 통계학적으로 다른지만을 의미하고, 어떤 데이터가 서로 어떻게 상이한지를 이야기하지 못한다. 

각각의 샘플 간의 차이를 알기 위해서는 사후 분석 (Post-Hoc Analysis)를 수행해야 한다.  
사후 분석를 수행하기 위해서는 이전에 만든 4개의 데이터가 통합된 데이터프레임을 사용한다. 

사후분석을 수행하기 위하여 Tukey's hsd (honestly significant difference)를 수행한다.   

Tukey's HSD(honestly significant difference) test는 studentized range distribution을 이용하여 
모든 가능한 두 수준들의 평균간의 차이가 있는지를 검정(pairwise post-hoc testing using Tukey HSD test)하는 방법이다. 

T-test 를 여러번 수행하고, 여기에 따라서 p-value를 보정헌더,

https://rfriend.tistory.com/132 

Tukey's HSD를 수행하기 위해서는 우리가 수행한 것처럼 모든 데이터셋이 통합되어 있는 데이터프레임이 필요하며, 
여기서 비교할 값이 들어있는 컬럼과, 데이터의 종류가 들어있는 컬럼을 별도로 지정해 준다. 

In [None]:
from statsmodels.stats.multicomp import pairwise_tukeyhsd

mc=pairwise_tukeyhsd(mw['MW'],mw['type'])
print (mc)

Ubiquitin ligase 와 phosphatase 는 보정 p value가 0.001 : 차이가 없다는 귀무가설을 기각   
Ubiquitin ligase 와 s/t kinasee 는 보정 p value가 0.001 : 차이가 없다는 귀무가설을 기각   
Ubiquitin ligase 와 tyrosine kinase 는 보정 p value가 0.58 : 차이가 없다는 귀무가설을 기각하지 못함  
phosphatase와 s/t kinasee 는 보정 p value가 0.9 : 차이가 없다는 귀무가설을 기각   
phosphatase와 tyrosine kinase 는 보정 p value가 0.001 : 차이가 없다는 귀무가설을 기각   
serine/threonine 과 와 tyrosine kinase 는 보정 p value가 0.58 : 차이가 없다는 귀무가설을 기각하지 못함. 

serine/threonine kinase와 tyrosine kinase 만을 t-test 할때에 비해서 p-value가 커졌고, 
다중비교 상황에서는 귀무가설을 기각하지 못한다는 것을 알 수 있다. 

여러 종류의 샘플을 비교할 때의 p-value와 샘플 2종간의 p-value 의 차이를 알 수 있다.   
다중 비교의 상황이 될 때는 샘플간의 차이의 유의성을 검정하기 위해서는 좀 더 엄격한 기준으로 검사가 필요하다. 

# 연습 

human[human['description'].str.contains('protein-coupled receptor')]  
human[human['description'].str.contains('channel')]
human[human['description'].str.contains('transporter')]

1. 다음 3가지의 클래스의 단백질을 검색하고, 
2. MW의 차이가 3종류의 단백질에 대해서 있는지 F-test를 실시하고, 
3. 사후검정(Tukey's hsd)을 통하여 각각의 차이가 존재하는지를 확인한다. 

## 회귀 분석 

회귀 분석은 데이터 간의 상관관계를 추정하는 분석이다.   
지난주에 사용한 CCLE 데이터셋을 불러오자.    


In [None]:
import pandas as pd 

#sample_info를 읽고 lineage가 'breast'인 세포주만을 넣는다.  
sample_info = pd.read_csv('sample_info.csv')
breast = sample_info[sample_info['lineage']=='breast']

#expression data를 읽고 유전자 컬럼 이름을 수정한다. 
expression = pd.read_csv('CCLE_expression.csv',sep=",")
expression.columns=[line.split(' ')[0] for line in expression.columns.to_list()]
expression.rename(columns={'Unnamed:':'Cell Line'},inplace= True)

breastexpress = pd.merge(breast, expression, left_on='DepMap_ID', right_on='Cell Line',how='inner')
#불필요한 컬럼을 리스트로 만들어 삭제한다. 
removecolumnlist = breast.columns.to_list()
removecolumnlist.remove('stripped_cell_line_name')
removecolumnlist.append('Cell Line')
breastexpress.drop(removecolumnlist,axis=1,inplace=True)
breastexpress.set_index('stripped_cell_line_name',inplace=True)

#variation이 큰 것으로 2000개 추출
Top2000=breastexpress.var(axis=0).sort_values(ascending=False)[0:2000]
val = breastexpress[Top2000.index.to_list()].transpose()
val

지난주에 각각의 correlation matrix 

In [None]:
corr = val.corr()
corr

In [None]:
corr[['MCF7']].sort_values(by='MCF7',ascending=False)

In [None]:
import seaborn as sns
import seaborn as sns
from matplotlib import pyplot as plt
#x와 y의 인치로 지정
plt.figure(figsize=(15,10))
sns.set(font_scale=1.5)
sns.set_style("white")
g=sns.lmplot(x='MCF7',y='KPL1',data=val)

### 피어슨 상관계수 Pearson Correlation Coefficients 

두 변수가 선형 관계를 이루고, 두 값이 정규 분포를 이룬다는 가정을 통해 얼마나 선형 관계에 근접했는지를 추정한다. 
지난 주에 pandas 를 이용하여 


In [None]:
#부위에 대한 correlation을 살펴보자. 

from scipy.stats import pearsonr

MCF7 = val['MCF7'].to_numpy()
KPL1 = val['KPL1'].to_numpy()

#잎과 꽃의 correlation coeffient는 0.63, P=0.0
pearsonr(MCF7,KPL1)

## Spearman correlation 

각각의 분포를 순위로 정렬한 후 이의 상관관계를 비교한다. 
만약 선형 관계로 상관관계를 갖지 않는 경우에는 Pearson 보다는 Spearman Correlation이 더 상관 관계가 높다. 



In [None]:
from scipy.stats import spearmanr
spearmanr(MCF7,KPL1)

Heatmap 을 그린다. 

In [None]:
import numpy as np 
from matplotlib import pyplot as plt
p=plt.figure(figsize=(30,30))
sns.set(font_scale=0.75)
g=sns.heatmap(corr, annot=True)
p.savefig('correlation-heatmap.pdf')

단순한 Correlation 만으로는 복수의 샘플에서 특성이 유사한 것을 쉽게 찾아내기 어렵다. 

## Clustering and PCA

샘플의 특성을 비교하여 비슷한 것끼리 묶는 기법에 대해서 알아보도록 한다.  
여기에는 여러가지 방법이 있는데, 이번 강의에서는  다음 3 가지 방법에 대해서 알아본다.   

- Hierarchical clustering (계층적 군집화)
- Principal Component Analysis (PCA: 주성분 분석) 
- K-mean Clustering 

Clustering 을 하기 전에는 일반적으로 정규화 (Normalize)를 거친다. 
모든 데이터를 최대값은 1, 최소값은 0 기준으로 맞추는 작업이다. 

정규화를 거쳐서 보다 샘플간의 비교를 용이하게 할 수 있다. 

In [None]:
from sklearn.preprocessing import normalize

#만약 세포주 별로 클러스터링을 하고 싶다면, 세포주를 열로, 유전자를 행으로 재배열한다. 
t=val.transpose()
normal = normalize(t)
t

Hierarchical Clustering 을 수행한다.  
Clustering을 수행하는 방법에는 여러가지 알고리즘이 있으나 여기서에서는 'ward' method를 사용한다. 

https://www.youtube.com/watch?v=vg1w5ZUF5lA


In [None]:
import scipy.cluster.hierarchy as shc
from scipy.cluster.hierarchy import cut_tree

#그림 크리를 지정한다. 
plt.figure(figsize=(20, 15))  
plt.title("Dendrograms") 
#클러스터링을 수행한다.  
z=shc.linkage(normal, method='ward')

#Dendrogram을 그린다. 
dend = shc.dendrogram(z,labels = t.index, leaf_font_size=10)

Hieratchical Clustering 은 몇 개의 집단으로 나눌 것을 생각하지 않고, 일단 Dendrogram 을 만든 다음, 

In [None]:
plt.figure(figsize=(20, 15))  
plt.title("Dendrograms")  
dend = shc.dendrogram(z,labels = t.index, color_threshold=1, leaf_font_size=10)

In [None]:
plt.figure(figsize=(20, 15))  
plt.title("Dendrograms")  
dend = shc.dendrogram(z,labels = t.index, color_threshold=.75, leaf_font_size=10)

In [None]:
 celllieelist = t.index.to_list()
 celllieelist

cut_tree 를 사용하면 지정된 숫자로 트리를 분리하고, 
각각의 항목에 대한 클러스터 숫자를 지정해 준다.  

In [None]:
t

In [None]:
여기서 나오는 숫자는 각각의 행의 세포주가 트리를 통하여 어떤 클러스터로 지정되었는지에 대한 숫자이다. 
SKBR3, MCF7, KPL1 은 첫번째 클러스터 (0) 로 지정되었다. 

In [None]:
cluster = cut_tree(z,4).flatten().tolist()
cluster

In [None]:
클러스터 지정을 데이터프레임으로 만든다. 

In [None]:
celldata = pd.DataFrame({'cluster':cluster},index=t.index)
celldata

In [None]:
각각의 클러스터를 분리한다. 

In [None]:
cluster0=celldata[celldata['cluster']==0]
cluster1=celldata[celldata['cluster']==1]
cluster2=celldata[celldata['cluster']==2]
cluster3=celldata[celldata['cluster']==3]

In [None]:
cluster0

In [None]:
cluster1

클러스터에 있는 세포주 이름을 이용하여, 각각의 클러스터를 형성하는 세포주의 발현 데이터를 가져올 수 있다.  
cluster0 의 발현 데이터 

In [None]:
t.loc[cluster0.index]

Cluster 1 의 발현 데이터 

In [None]:

t.loc[cluster1.index]

원래의 발현 데이터를 클러스터링 된 순으로 재정렬해 보자.   
일단 shc.leaves_list(z) 로 순서가 어떤 순으로 되어있는지를 알아보자. 

In [None]:
neworder = shc.leaves_list(z)
neworder

클러스터링 된 순서는 원래의 순서를 기준으로 22번째, 0번째, 12번째, 1번째....로 재정렬되었다.   
이 정보를 이용하여 원래의 데이터를 재정렬한다. 

세포의 이름이 들어있는 t.index 를 Numpy 로 바꾼 다음, neworder 를 이용하여 순서를 바꾼다. 

In [None]:
t.index.to_numpy()

Numpy array[새로운 순서가 들어있는 Numpy Array] 를 이용하여 순서를 바꿀 수 있다. 

In [None]:
#Clustering의 순서가 반영된 세포주 순서. 

neworderindex = t.index.to_numpy()[neworder]
neworderindex

순서가 변경된 인덱스를 이용하여 데이터프레임 내의 열의 순서를 바꾸자. 

데이터프레임 내에서 인덱스를 기준으로 바꾸기 위해서는 세포주 순서를 리스트로 바꾸고,   
이를 .loc 을 이용하여 억세스하자.   

In [None]:
reordered = t.loc[neworderindex.tolist()]
reordered

In [None]:
plt.figure(figsize=(10, 10))  
sns.heatmap(reordered)

In [None]:
같은 발현 패턴을 가진 세포주 끼리 정렬하였으므로, 이웃의 세포주와는 발현 패턴이 비슷하다. 
그러나 아직 유전자 순으로는 클러스터링을 하지 않았다. 

이번에는 유전자를 기준으로 클러스터링을 해 보자.


In [None]:
from sklearn.preprocessing import normalize
normal = normalize(val)
data_normalized = pd.DataFrame(normal, columns=val.columns, index = val.index)
val

이전과는 달리 이번에는 유전자가 행, 세포주가 열이 된다.  

In [None]:
data_normalized

Dendrogram을 그린다.
실행에 시간이 다소 (수 분) 걸리므로 기다릴 것. 

In [None]:
import scipy.cluster.hierarchy as shc
from scipy.cluster.hierarchy import cut_tree
plt.figure(figsize=(20, 15))  
plt.title("Dendrograms")  
z=shc.linkage(normal, method='ward')
dend = shc.dendrogram(z,labels = val.index, leaf_font_size=10)

다른 색으로 트리를 구분하는 기준을 3 으로 지정한다. 

In [None]:
plt.figure(figsize=(20, 15))  
plt.title("Dendrograms")  
dend = shc.dendrogram(z,labels = val.index, color_threshold=3, leaf_font_size=10)

14개로 클러스터를 나눔

In [None]:
cluster = cut_tree(z,14).flatten().tolist()
celldata = pd.DataFrame({'cluster':cluster},index=val.index)
celldata.sort_values(by='cluster')

In [None]:
celldata[celldata['cluster']==0]

이전에 한 것과 동일한 방법으로 clustering된 유전자의 순서를 불러온다. 

In [None]:
neworder_genes = shc.leaves_list(z)
neworder_genes

In [None]:
neworderindex_genes = val.index.to_numpy()[neworder_genes]
neworderindex_genes

세포주와 유전자 이름을 클러스터링 한 결과의 순서대로 바꾼다. 

In [None]:
#유전자로 클러스터링 한 순서대로 유전자 순서를 바꾼다. 
reordered_gene = val.loc[neworderindex_genes.tolist()]
#이전의 세포주로 클러스터링 한 순서대로 세포주 순서를 바꾼다. 
all_new_ordered_gene = reordered_gene[neworderindex]
all_new_ordered_gene

이제 새롭개 재정렬된 결과로 heatmap을 그려 보자. 
seaborn 의 clustermap 결과와 흡사한 결과가 나온다. 

In [None]:
plt.figure(figsize=(10, 10))  
sns.heatmap(all_new_ordered_gene)

유전자와 세포주가 발현 유사성에 맞게 재조정된 파일을 엑셀로 익스포트하여, 결과를 엑셀로 살펴보자. 

In [None]:
all_new_ordered_gene.to_excel('breast.xlsx')

엑셀로 익스포트한 결과를 값에 따라서 조건부 서식을 이용하여 표시하면 특정한 세포주에서 과발현, 혹은 적게 발현되는 클러스터링된 유전자를 쉽게 찾아볼 수 있다.

## PCA

principle compotent analysis 로 세포주의 군집 분석을 수행하자. 
PCA 도 처리 전에 동일한 벙법으로 normalize를 수행한다. 

In [None]:
from sklearn.preprocessing import normalize
t=val.transpose()
normal = normalize(t)
data_normalized = pd.DataFrame(normal, columns=t.columns, index = t.index)

In [None]:
from sklearn import decomposition

#2차원 PCA를 수행하자. n_components=2 를 설정한다. 
pca = decomposition.PCA(n_components=2)
pca.fit(normal)

In [None]:
principalComponents = pca.fit_transform(normal)
principalDf = pd.DataFrame(data = principalComponents, columns = ['principal component 1', 'principal component 2'])
#principal component 의 인덱스에 세포주의 이름을 지정해 준다. 
principalDf.index = t.index

약 2천개의 유전자로 구성되어 있던 데이터가 2개의 데이터로 축소되었다. 

In [None]:
principalDf

이것을 그대로 Scatter plot 으로 출력해 보자. 

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(20,20))
p=sns.scatterplot(x="principal component 1",y="principal component 2",data=principalDf)

for index in principalDf.index.to_list():
    x = principalDf.loc[index]['principal component 1']
    y = principalDf.loc[index]['principal component 2']
    p.text(x+0.01,y,index,size='large',color='black')

3차원 PCA를 수행한다면?

In [None]:
pca = decomposition.PCA(n_components=3)
pca.fit(normal)
principalComponents = pca.fit_transform(normal)
principalDf = pd.DataFrame(data = principalComponents, columns = ['PC1', 'PC2','PC3'])
principalDf.index = t.index
principalDf


In [None]:
from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure(figsize=(30,30))
ax = fig.add_subplot(111, projection = '3d')

x = principalDf['PC1']
y = principalDf['PC2']
z = principalDf['PC3']

ax.set_xlabel("PC1")
ax.set_ylabel("PC2")
ax.set_zlabel("PC3")

ax.scatter(x, y, z)


for index in principalDf.index.to_list():
    x = principalDf.loc[index]['PC1']
    y = principalDf.loc[index]['PC2']
    z = principalDf.loc[index]['PC3']
    ax.text(x+0.01,y,z,index,size='large',color='black')

PCA는 다차원 (수천 개의 유전자 발현 데이터)를 2,3차원으로 축소하여 각각의 구분을 쉽게 해주지만, 
그 자체만으로는 classification을 해주지 않는다. 

원래 세포주의 classification 데이터가 있다면 이를 이용하여 다른 색으로 칠해보자. 

Breast Cancer 에서 lineage_sub_subtype 관련 데이터를 가지고 이것을 칼라로 표시해보자.  
lineage_sub_subtype에 NaN 이 있으므로 이를 적절히 처리해야 한다. 

In [None]:
breast

'lineage_sub_subtype'의 'NaN'을 'unknown'으로 설정한다. 

In [None]:
breast['lineage_sub_subtype']=breast['lineage_sub_subtype'].fillna("unknown")
b=breast[['stripped_cell_line_name','lineage_sub_subtype']]
b

In [None]:
b['lineage_sub_subtype'].unique()

각각의 표현형에 적절한 색을 지정해 주고 이것을 'color' 라는 컬럼으로 저장한다. 

In [None]:
colordict = {'ERneg_HER2pos':'red', 'ERpos_HER2neg':'blue', 'ERneg_HER2neg':'green', 'ERpos_HER2pos':'violet','unknown':'black'}
b['color']=b['lineage_sub_subtype'].map(colordict)

In [None]:
b

PCA 데이터와 세포주의 데이터를 merge 한다. 

In [None]:
PC=pd.merge(principalDf,b,left_index=True,right_on='stripped_cell_line_name',how='inner').set_index('stripped_cell_line_name')
PC

색을 추가하여 플롯을 한다. 

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(20,20))
sns.set(font_scale=0.75)
p=sns.scatterplot(x="PC1",y="PC2",hue='lineage_sub_subtype',s=200, data=PC)

for index in principalDf.index.to_list():
    x = PC.loc[index]['PC1']
    y = PC.loc[index]['PC2']
    p.text(x+0.005,y-0.0025,index,size='large',color='black')

In [None]:
from mpl_toolkits.mplot3d import Axes3D

fig = plt.figure(figsize=(30,30))
ax = fig.add_subplot(111, projection = '3d')

x = PC['PC1']
y = PC['PC2']
z = PC['PC3']
c = PC['color']

ax.set_xlabel("PC1")
ax.set_ylabel("PC2")
ax.set_zlabel("PC3")

ax.scatter(x, y, z, color=c, s=200)


for index in PC.index.to_list():
    x = PC.loc[index]['PC1']
    y = PC.loc[index]['PC2']
    z = PC.loc[index]['PC3']
    ax.text(x+0.01,y,z,index,size='large',color='black')

# K-mean Clustering

PCA 자체는 외부의 Classification 을 이용하여 구분을 표시할 수 있으나, Classification 을 할 수는 없다.  
K-mean clustering을 이용하여 지정된 갯수로 분류를 수행할 수 있다. 

PCA와 동일하게 scikit-learn에서 KMeans 을 임포트한 다음, K-mean clustering을 수행한다. 

In [None]:
from sklearn.cluster import KMeans 
kmeans = KMeans(n_clusters=4)
kmeans.fit(normal)

In [None]:
각각의 세포에 대한 클러스터링 결과는 kmeans.labels_ 를 통해 얻는다. 

In [None]:
kmeans.labels_

이 결과를 이전의 PC데이터에 합쳐준다. 

In [None]:
PC['kmean']=kmeans.labels_
PC

이전과 동일한 2D PCA plot 을 출력하되, 칼라를 K-mean clustering 을 통하여 한 분류로 맞추어 주자. 

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(20,20))
sns.set(font_scale=0.75)
p=sns.scatterplot(x="PC1",y="PC2",hue='kmean',s=200, data=PC)

for index in principalDf.index.to_list():
    x = PC.loc[index]['PC1']
    y = PC.loc[index]['PC2']
    p.text(x+0.005,y-0.0025,index,size='large',color='black')

K-mean cluster 갯수를 6 으로 바꾸었다. 

In [None]:
kmeans = KMeans(n_clusters=6)
kmeans.fit(normal)
PC['kmean']=kmeans.labels_

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(20,20))
sns.set(font_scale=0.75)
p=sns.scatterplot(x="PC1",y="PC2",hue='kmean',s=200, data=PC)

for index in principalDf.index.to_list():
    x = PC.loc[index]['PC1']
    y = PC.loc[index]['PC2']
    p.text(x+0.005,y-0.0025,index,size='large',color='black')

#연습 

1. 'blood' lineage cell line의 발현 데이터를 선택한 후, 
2. 이것을 세포주별, 유전자별로 계층 군집분석을 수행하여 Dendrogram을 그린 후, 적절한 숫자의 cluster를 찾아 보자. 'blood' lineage의 세포주는 대략적으로 몇 종류로 구별되는가?
3. 데이터를 clustering 결과에 따라서 재배열하여 heat map 을 작성한다. 
4. 이들을 2차원 PCA 를 그린 후, 
5. K-mean clustering으로 계층분석에서 얻은 cluster 숫자로 분류하여 PCA plot을 각각 색칠해 보자. 
6. 이렇게 분류된 세포주의 cluster의 expression 데이터를 각각 따로 데이터테이블로 만들어서, 엑셀 파일로 저장해 보자. 