# 정렬과 순위 구하기

### 정렬하기

In [None]:
import numpy as np
import pandas as pd
idx = [x for x in range(1,13)]
col = ['서울', '경기', '광주', '대구', '부산', '전주', '대전', '세종']
df2d = pd.DataFrame(np.random.randn(12, 8), columns=col, index = idx)
df2d = np.abs(df2d)*100
df2d

칼럼명을 '가나다'순으로 정렬하기

In [None]:
df2d = df2d.sort_index(axis = 1)
df2d

매달 평균 계산하여 칼럼 추가하기

In [None]:
df2d.loc[:, '평균'] = df2d.iloc[:, :8].mean(axis=1)
df2d

평균값을 기준으로 정렬하기(오름차순)

In [None]:
df2d.sort_values(by=["평균"], ascending=True)

평균값을 기준으로 정렬하기(내림차순)

In [None]:
df2d.sort_values(by=["평균"], ascending=False)

### 순위 구하기

#### method<br>
* first : DataFrame에 같은 값이 존재하는 경우 저장되어 있는 순서대로 순위를 지정 (값 : 100, 85, 85, 70 ==> 순위 : 1, 2, 3, 4)
  - 주의 : first 방법은 숫자 타입만 가능, numeric_only=True도 같이 설정해야 함
* min : 중복 값이 있는 만큼 순위를 건너뛰고 표시 (값 : 100, 85, 85, 70 ==> 순위 : 1, 2, 2, 4)
* max : (값 : 100, 85, 85, 70 ==> 순위 : 1, 3, 3, 4)



In [None]:
r = df2d['평균'].rank(method='min', ascending=False).astype('int32')
df2d.loc[:, '순위'] = r
df2d

# 기술 통계 계산과 요약

In [None]:
import numpy as np
import pandas as pd

df2d = pd.DataFrame(np.random.randn(12, 8), columns=['서울', '경기', '광주', '대구', '부산', '전주', '대전', '세종'], index = [1,2,3,4,5,6,7,8,9,10,11,12])
df2d = np.abs(df2d)*100
df2d

## 합계(sum()), 평균(mean())

### 합계

In [None]:
df2d.loc['합계'] = df2d.sum()
df2d

In [None]:
df2d.loc[:, '월별합계'] = df2d.sum(axis=1)
df2d

### 평균

In [None]:
df2d.loc[2, '경기'] = np.nan
df2d.loc[4, '대구'] = np.nan
df2d.loc[11, '부산'] = np.nan
df2d.loc[6, '전주'] = np.nan
df2d.loc[8, '세종'] = np.nan
df2d

In [None]:
imsi = df2d.iloc[:, :8]
df2d.loc[:, '월별평균']=imsi.mean(axis=1)
df2d

In [None]:
df2d.mean(skipna=True) # NaN을 제외하고 평균 계산

In [None]:
df2d.mean(axis=1, skipna=False) # NaN을 제외하지 않음

### 누산(cumsum())

In [None]:
df2d.cumsum() # 세로 방향으로 누적합 계산

In [None]:
df2d.cumsum(axis=1) # 가로 뱡향으로 누적합 계산

## 요약

* count : NaN 값을 제외한 값의 개수를 반환
* describe : Series나 DataFrame의 각 칼럼에 대한 요약 통계를 계산
* min, max : 최솟값과 최댓값을 계산
* argmin, argmax : 각각 최솟값과 최댓값을 가지고 있는 색인의 위치를 정수로 반환
* idmin, idmax : 각각 최솟값과 최댓값을 가지고 있는 색인의 값을 반환
* quantile : 0부터 1까지의 분위수를 계산
* mean : 평균 계산
* median : 중앙값을 계산
* mad : 평균값에서 평균 절대편차를 계산
* prod : 모든 값의 곱을 계산
* var : 표본 분산 값을 계산
* std : 표본 표준편차 값을 계산
* cumsum : 누적합을 계산
* cumprod : 누적곱을 계산
* diff : 1차 산술차를 계산, 시계열 데이터 처리 시 유용

In [None]:
df2d.describe()

# 상관관계와 공분산

[공분산과 상관계수(https://destrudo.tistory.com/15)](https://destrudo.tistory.com/15) <br>
공분산은 두 변수간의 단위로 인한 모호한 크기량을 갖고 있는데, 이를 표준화한 것이 '상관계수'이다. 

### 상관관계 : 
  * 두 쌍의 인자(X, Y)가 필요
  * X가 증감할 때 Y가 얼마나 증감하는가를 나타내는 관계
  * -1과 1 사이의 상관계수를 통해 함께 늘어나는지 아니면 반대로 줄어드는지를 설명할 수 있음
  * -1과 1에 가까울수록 상관성이 강하고, 0에 가까울수록 상관성이 약함

## 피어슨 상관계수


* 피어슨 상관 계수(Pearson Correlation Coefficient ,PCC)란 두 변수 X 와 Y 간의 선형 상관 관계를 계량화한 수치


In [None]:
from google.colab import drive
from IPython.display import Image

drive.mount('/gdrive', force_remount=True)
Image('/gdrive/My Drive/Notebooks/images/pearson_corr.png')

In [None]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

야후 금융 사이트에서 Apple, IBM, Microsoft, Google의 주식가격과 시가총액 데이터를 얻어서 데이터프레임을 만들자.

In [None]:
import numpy as np
import pandas as pd
import pandas_datareader.data as web
all_data = {ticker : web.get_data_yahoo(ticker) for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}
price = pd.DataFrame({ticker : data['Adj Close'] for ticker, data in all_data.items()})
#volume = pd.DataFrame({ticker : data['Volume'] for ticker, data in all_data.items()})
returns= price.pct_change() # (퍼센트 변화율 계산)
all_data

pct_change() : 퍼센트 변화율 계산<p>
[수익율 계산(https://wikidocs.net/84256)](https://wikidocs.net/84256)

In [None]:
# 4개 회사의 주식 수익율 사이의 피어슨 상관분석
returns.corr(method='pearson')

In [None]:
# 4개 회사의 주식 수익율 사이의 상관분석
returns.corr() # pandas에서 상관분석 방법은 기본적으로 피어슨 상관계수를 이용한다.

4개 회사의 주식 가격 사이의 공분산

In [None]:
returns.cov()

Microsoft사와 IBM사의 주식 수익율 사이의 공분산

In [None]:
returns['MSFT'].cov(returns['IBM'])

Microsoft사와 IBM사의 주식 수익율 사이의 상관관계

In [None]:
returns['MSFT'].corr(returns['IBM'])

In [None]:
import numpy as np
import pandas as pd
import pandas_datareader.data as seb
SAMSUNG_EL = web.get_data_yahoo('005930.KS', start='2010-01-01', end='2020-10-26')
LG_EL = web.get_data_yahoo('066570.KS', start='2010-01-01', end='2020-10-26')
SAMSUNG_EL

In [None]:
import matplotlib.pyplot as plt
date = SAMSUNG_EL.index
samsungClose = SAMSUNG_EL['Close']
lgClose = LG_EL['Close']
#plt.plot(SAMSUNG_EI.loc[:,'Close'], label='삼성전자')
#plt.plot(LG_EI.loc[:,'Close'], label='엘지전자')
#plt.title('일별 종가')
plt.plot(date, samsungClose, 'b-', label='SAMSUNG')
plt.plot(date, lgClose, 'r-', label='LG')
plt.rcParams["figure.figsize"] = (24,12)
plt.legend()
plt.show()

In [None]:
SAMSUNG_EL['Close'].corr(LG_EL['Close'])