# PCA

In [1]:
import netCDF4 as nc
import numpy as np
from mpl_toolkits.basemap import Basemap
import matplotlib.pyplot as plt

In [4]:
DATA_PATH = '../DATA/'
data = nc.Dataset(DATA_PATH + '/T2m_ERA5_1979_2018_lowR.nc', 'r')

In [3]:
lon = data.variables['lon'][:] ## Lon
lat = data.variables['lat'][:] ## Lat
time = data.variables['time'][:] ## Time
T2 = data.variables['t2m'][:,:,:] ## T2m data
print("lon = 경도(가로)\nlat = 위도\ntime = 시간\nT2 = 평균온도")
data.close()

lon = 경도(가로)
lat = 위도
time = 시간
T2 = 평균온도


In [5]:
print(lon.shape,"열의 개념")
print(lat.shape,"행의 개념")
print(time.shape,"1979~2018 층의개념")
print(T2.shape,"72,000 총 관측 개수(array,행,열)")

(60,) 열의 개념
(30,) 행의 개념
(40,) 1979~2018 층의개념
(40, 30, 60) 72,000 총 관측 개수(array,행,열)


## eigenvalue & eigenvector

#### Square matrix A 에 대하여 다음 식을 만족하는 zero vector 가 아닌 vectr v, 실수 ramda 를 찾을 수 있다고 가정.
#### A*v = ramda*v
#### ramda = eigenvalue
#### ramda = eigenvector

## 고유값과 고유벡터를 찾는 작업인 고유값분해 ( eigenvalue decomposition )

##### v 에다가 A 를 곱해도 방향이 바뀌지 않고 크기만 바뀌는것이 고유벡터의 특성.
##### 고유값 ramda 는 변환된 고유벡터와 원래 고유벡터 크기의 비율이다. 보통 고유값과 고유벡터를 찾을때는 고유값 분해를 이용한다.
##### Av=rv
##### Av-rv = (A-rI)v=0

## 그럼 어떻게 구할까?
![ex_screenshot](../img/example1.png)

## 그러면 행렬이 주어졌을 때, 고유값-고유벡터를 어떻게 구할까?
### 특성방정식 ( characteristic equation ) 의 해를 구해야 한다.
##### Av-rv=(A-rI)v=0
##### det(A-rI)=0 이 조건은 행렬 (A-rI)가 역행렬이 존재하지 않는다는 의미. 이렇게해서 r = -1 을 도출
### 이 경우는 고유값이 1개밖에 없는 특별한 경우이며 2개일수도 있다. 그럴 경우 조금 더 디테일 하게 접근해야한다.
### 따라서 특성방정식으로 정리하면 다음과 같다.
![ex_screenshot](../img/example2.png)
### 단위백터 형태가 좀더 일반적이다.

# 실습

In [8]:
A = np.array([[1,-2],[2,-3]])
A

array([[ 1, -2],
       [ 2, -3]])

In [9]:
np.linalg.eig(A)

(array([-0.99999998, -1.00000002]),
 array([[0.70710678, 0.70710678],
        [0.70710678, 0.70710678]]))

In [10]:
lambda_1, v_1 = np.linalg.eig(A)

In [11]:
lambda_1

array([-0.99999998, -1.00000002])

In [12]:
v_1

array([[0.70710678, 0.70710678],
       [0.70710678, 0.70710678]])

# 주성분 분석 ( Principal Component Analysis, PCA )
### 고차원 데이터 집합이 주어졌을 때, 원래의 고차원 데이터와 가장 비슷하면서 더 낮은 차원의 데이터를 찾아내는 방법.
### 대표적인 차원축소( dimension reduction ) 방법 중 하나.

![ex_screenshot](../img/example3.png)

### 데이터의 분산을 최대한 보존 하면서, 서로 직교하는 새로운 기저(축)를 찾아, 고차원 공간의 샘플들을 저차원의 공간으로 변환.
### 분산을 최대한 보존한다는 의미는?
### 데이터들의 흩어진 정도가 가장 큰 경우인 방향벡터 v 를 주성분으로 찾는다는 의미.
### 분산이 가장 큰 경우가 PC1 직교하는것이 PC2

# PCA 의 정의
### PCA 는 K개의 독립변수로 구성된 X 를 선형결합을 이용해 축소한다.( weighted averages )
### 각 독립변수들의 n 개의 unit 들을 가지고 있으므로, .....

### 행이 n 개 열이 K 개인 행렬 X 를 구성 가능.
### y1 = Xa1  X 메트릭스에 a 벡터를 곱해서 y 를 구하는 거라고 생각하면 됨. 

# 그러면 a1 는 어떻게 구할까?

### 정규화( Normalization ) 과 평균 중심화 ( mean centering ) 을 해야 한다.
### 선형 결합의 정규화.
### 행렬 X 에 평균 중심화.
![ex_screenshot](../img/example4.png)

# 평균을 빼주는 개념이 여기서 등장
![ex_screenshot](../img/example5.png)

# 여기서 a1 이 v1 ( 고유벡터 )

### orthogonal 상관관계가 없다는 의미.

## 벡터 a 들을 로딩 이라고 하고 그것이 고유벡터.
## yij 를 스코어 라고 한다. ( 선형결합으로 나온 것 )

# 공분산 행렬 ( Covariance Matrix ) 어떻게 구할까?
## X 와 Y 의 분산을 구하면 (실제 관측값-기댓값)^2 의 기댓값.
## 그러면 공분산 Cov(X,Y) 는 X와 Y 각각에 대한 관측값에서 그 각각의 기댓값을 빼 주고 곱한것(아래참조).

![ex_screenshot](../img/example6.png)



# 우리의 데이터의 경우

![ex_screenshot](../img/example7.png)

# 대각 행렬이 분산 상삼각 하삼각이 공분산부분 그래서 공분산 행렬은 1800X1800

# 다시한번 고유값, 고유벡터 정리

![ex_screenshot](../img/example8.png)

## 공헌도가 PC1 가 몇 퍼센트냐 그런 부분임


# 공분산행렬 C(1800,1800) 의 아이겐 벡터 E 를 구하면 (1800,1800 이 나온다.)
# E 의 첫 열이 아이겐 벨류 r1 두번째 열이 r2 ...... 1800 번 째 열이 r1800

# 따라서 Y(40, 1800) = X(40,1800) * E(1800,1800)
# Y 의 첫번째 열이 E 의 PC1 을 토대로해서 X 를 곱하고 나온 것 Y값의 첫번째 Y1 score 이다.

# 주성분분석 요약정리

![ex_screenshot](../img/example9.png)


1. 평균 중심화 (mean centering) 해야한다.
2. 그 상태에서 pc1(v1) 을 구한다. 
3. 이때 그 분산의 크기가 r1
4. 그다음 잘 설명하는 직교하는 PC2 를 구한다.

# PC1 과 PC2 프로젝션 (3차원 데이터를 2차원 데이터로 차원 축소 후 살펴본다).

![ex_screenshot](../img/example10.png)

# X = 40(시간) * 1800(공간)  -> 이 X 를 통해 C 를 구하는것, 이를토대로 eigenvl eignevec 를 구하고 PC1 을 찾는다. 이렇게 분석하는것이 EOF 분석.

In [13]:
T2_mean = np.mean(T2, 0)
T2_mean

masked_array(
  data=[[228.51035, 228.1084 , 227.91245, ..., 230.61523, 229.86162,
         229.14555],
        [235.6998 , 234.14482, 232.92598, ..., 242.51596, 239.65938,
         237.34123],
        [234.32129, 233.7637 , 230.42593, ..., 252.92734, 247.52563,
         239.55595],
        ...,
        [272.92023, 274.20264, 274.48615, ..., 264.4002 , 267.38165,
         271.1935 ],
        [263.57272, 265.01468, 266.00766, ..., 255.47832, 261.1138 ,
         262.2783 ],
        [259.89447, 259.99738, 260.09128, ..., 259.523  , 259.6492 ,
         259.77002]],
  mask=False,
  fill_value=1e+20,
  dtype=float32)

In [14]:
print("평균 중심화(mean centering)하는 부분. 1800개 spot의 40년치 1800개 평균을 구함. 즉 온도데이터를 한점에 압축시켜논 의미, 시간차원축소 없앤다 .")
T2_mean.shape

평균 중심화(mean centering)하는 부분. 1800개 spot의 40년치 1800개 평균을 구함. 즉 온도데이터를 한점에 압축시켜논 의미, 시간차원축소 없앤다 .


(30, 60)

In [15]:
T2.shape

(40, 30, 60)

In [16]:
print("이부분이 mean centering 결국 T2a 가 X matrix")
T2a = np.array(T2-T2_mean)
T2a.shape

이부분이 mean centering 결국 T2a 가 X matrix


(40, 30, 60)

### 모든 값에서 평균을 빼준 것을 펼친것
### 결국 위도 경도 2차원 데이터를 1800 길이의 1차원 데이터로 펼친것 그것을 시간에 따라 나열한것

In [17]:
T2a_1d = np.reshape(T2a,(len(time), len(lon)*len(lat)))
T2a_1d.shape

(40, 1800)

# 분산 공분산 구하기 matmul ( Matrix multipication)
##### 밑부분은 이제 기댓값이 0 이기 때문에  제곱 부분만 진행 하고 전체 갯수인 n 으로 나눠준것임. 그러면 공분산 C 행렬이 구해짐

In [19]:
cov_T2a_1d=np.matmul(T2a_1d.T, T2a_1d)/len(time)
cov_T2a_1d.shape

print(T2a_1d.T.shape,T2a_1d.shape)
print((cov_T2a_1d).shape)
print((np.matmul(T2a_1d.T, T2a_1d)) == cov_T2a_1d)

(1800, 40) (40, 1800)
(1800, 1800)
[[False False False ... False False False]
 [False False False ... False False False]
 [False False False ... False False False]
 ...
 [False False False ... False False False]
 [False False False ... False False False]
 [False False False ... False False False]]


# Retrieving eigenvaluese & eigenvectors

In [20]:
eigen_val, eigen_vec = np.linalg.eig(cov_T2a_1d)

In [21]:
eigen_val.shape

(1800,)

In [22]:
eigen_vec.shape

(1800, 1800)

# Variance fraction (Eigen value = real part + imaginary part (=0)) 공헌도

In [23]:
efrac = eigen_val.real / np.sum(eigen_val.real)
efrac

array([ 3.5285237e-01,  7.8903191e-02,  7.1158513e-02, ...,
        7.4918483e-12,  5.0081714e-12, -4.4252609e-12], dtype=float32)

# PC Time-series

In [24]:
Y = np.dot(T2a_1d, eigen_vec)
Y.shape

(40, 1800)

In [25]:
print(T2a_1d.shape,eigen_vec.shape)
print(np.matmul(T2a_1d,eigen_vec).shape)
print(np.matmul(eigen_vec,T2a_1d.T).shape)
print(np.matmul(np.dot(T2a_1d.T,T2a_1d),eigen_vec) is np.matmul(eigen_val,eigen_vec))

(40, 1800) (1800, 1800)
(40, 1800)
(1800, 40)
False


# Primary Modes ( PC1 )

In [26]:
MODE = 1

# EOF First mode 
# 가장 관심이 있는 PC1 만 살펴보기 위해 eigenvector의첫번째 열만 가져온다.
# 그것을 EOF 에 저장

In [27]:
EOF = np.reshape(eigen_vec[:,MODE-1],(len(lat),len(lon)))
print(eigen_vec[:,MODE-1].shape, len(lat),len(lon))
EOF.shape

(1800,) 30 60


(30, 60)

In [28]:
Y1 = Y[:,MODE-1]
Y1.shape

(40,)

In [29]:
efrac1 = efrac[MODE-1] * 100
efrac1

35.285237431526184

# Normalization

In [31]:
n_eigen_vec = -EOF * np.sqrt(eigen_val[MODE-1])

# Dimensionless PC Time-series & Normalization

## y score 값을 정리해서 update
# 평균을 빼주고 표준편차로 나눠줘서 표준화 시켜줌  

In [32]:
dY = Y1 / np.sqrt(eigen_val[MODE-1])
n_Y = -(dY - np.mean(dY)) / np.std(dY)
print(n_eigen_vec.shape, dY.shape, n_Y.shape)

(30, 60) (40,) (40,)
