# Numpy, Pandas 연산, 공분산, 상관관계

## NUMPY

### 간단 연산

In [3]:
import numpy as np

arr = np.array([1,2,3,4,5], dtype=np.int32)
print(arr.sum())
print(arr.mean())
print(arr.var())
print(arr.std())

15
3.0
2.0
1.4142135623730951


### 금융 데이터를 사용한 통계 (공분산, 상관계수)

#### 공분산

In [16]:
"""
공분산?
두 개의 확률의 관계
연관성이 없으면 =0
확률변수(random variables) X와 Y의 관계
두 변수의 변하는 방향을 알기 위해 사용.
X가 증가하면 Y도 증가 == 공분산 양수
X가 증가하면 Y가 준다 == 공분산 음수
상관계수
두 확률변수의 관계정도(strength)를 측정하기가 좋지 않다?
"""
# 공분산이 양수인 경우 (KOSPI지수와 삼성전자 주가)
import numpy as np
import pandas as pd
import datetime
import pandas_datareader.data as pdr # 설치!

start = datetime.datetime(2019,1,1)
end = datetime.datetime(2019,12,31)

# Yahoo에서 제공하는 코스피 지수정보 > DataFrame
# df_KOSPI = pdr.DataReader("011390","google",start,end) # proxy 문제떄문에 일단 skip

df_BUSAN = pd.read_json("./data/stock/부산산업.json")["Close"]
df_LIG = pd.read_json("./data/stock/LIG넥스원.json")["Close"]

# numpy자체의 covaraince 함수가 있다.
np.cov(df_BUSAN,df_LIG)

array([[ 4.64762211e+09, -3.86535936e+08],
       [-3.86535936e+08,  6.35924170e+07]])

#### 상관관계

In [18]:
"""
상관관계(correlation)
서로 연관이 있어보이는 관계
상관계수(correlation coefficient)는 0~1사이의 값이 나온다.

0.0~0.3 약한 관계
0.3~0.7 중간 관계
0.7~1.0 강한 관계
"""
import numpy as np
import pandas as pd
import datetime
import pandas_datareader.data as pdr # 설치!

start = datetime.datetime(2019,1,1)
end = datetime.datetime(2019,12,31)

df_KOSPI = pd.read_json("./data/stock/KOSPI.json")["Close"]
df_SE = pd.read_json("./data/stock/SE.json")["Close"]

# numpy의 corrcoef 함수가 있다.
display(np.corrcoef(df_KOSPI,df_SE))

df_BUSAN = pd.read_json("./data/stock/부산산업.json")["Close"]
df_LIG = pd.read_json("./data/stock/LIG넥스원.json")["Close"]

display(np.corrcoef(df_BUSAN,df_LIG))

array([[1.        , 0.91317306],
       [0.91317306, 1.        ]])

array([[ 1.        , -0.71100361],
       [-0.71100361,  1.        ]])

## PANDAS

### 간단 연산

In [8]:
"""
pandas를 활용한 연산
.sum()
.mean()
.sum(axis=1)
"""
import numpy as np
import pandas as pd

data = [
    [2.0, np.nan],
    [7,-3],
    [np.nan, np.nan],
    [1,-2]]

df = pd.DataFrame(data,
                 columns=["one","two"],
                  index=["a","b","c","d"])
display(df)
display(df.sum())
display(df.mean())
display(df.sum(axis=1))

'''
결측값 해결
one column의 결측값은 one column의 평균으로 대체
two column의 결측값은 two column의 최소값으로 대체
데이터프레임 출력
'''
df["one"].fillna(value=df["one"].mean(),inplace=True)
df["two"].fillna(value=df["two"].min(),inplace=True)
display(df)

Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0


one    10.0
two    -5.0
dtype: float64

one    3.333333
two   -2.500000
dtype: float64

a    2.0
b    4.0
c    0.0
d   -1.0
dtype: float64

Unnamed: 0,one,two
a,2.0,-3.0
b,7.0,-3.0
c,3.333333,-3.0
d,1.0,-2.0


### 금융 데이터를 사용한 통계 (공분산, 상관계수)

In [17]:
import numpy as np
import pandas as pd
import datetime
import pandas_datareader.data as pdr # 설치!

start = datetime.datetime(2019,1,1)
end = datetime.datetime(2019,12,31)

df_KOSPI = pd.read_json("./data/stock/KOSPI.json")["Close"]
df_SE = pd.read_json("./data/stock/SE.json")["Close"]
df_BUSAN = pd.read_json("./data/stock/부산산업.json")["Close"]
df_LIG = pd.read_json("./data/stock/LIG넥스원.json")["Close"]

data = {
    "KOSPI" : df_KOSPI,
    "SE":df_SE,
    "LIG":df_LIG,
    "BUSAN":df_BUSAN
}

df = pd.DataFrame(data)

display( df["BUSAN"].corr(df["KOSPI"]) )

#공분산 확인
display( df.cov() )

# 상관계수 확인
display( df.corr() )
'''
상관계수 분석결과:
KOSPI와 SE의 관계계수가 높다!
KOSPI와 LIG의 관계계수가 높다!
KOSPI와 BUSAN의 관계는 전혀 없다...

SE와 LIG의 관계계수가 높다.
'''

-0.5766876815236218

Unnamed: 0,KOSPI,SE,LIG,BUSAN
KOSPI,24177.23,490222.1,980094.8,-6113070.0
SE,490222.1,11919910.0,17969940.0,-110377800.0
LIG,980094.8,17969940.0,63592420.0,-386535900.0
BUSAN,-6113070.0,-110377800.0,-386535900.0,4647622000.0


Unnamed: 0,KOSPI,SE,LIG,BUSAN
KOSPI,1.0,0.913173,0.790428,-0.576688
SE,0.913173,1.0,0.652691,-0.468954
LIG,0.790428,0.652691,1.0,-0.711004
BUSAN,-0.576688,-0.468954,-0.711004,1.0


# 추가: 인덱스 순서 sorting

In [27]:
import numpy as np
import pandas as pd

np.random.seed(0)
df = pd.DataFrame( np.random.randint(0,10,(6,4)),
                  columns = ["A","B","C","D"],
                  index= pd.date_range("20190101",periods=6) )
display(df)

# 새로운 데이터프레임에 df 인덱스 바꿔친 값을 넣은다.
random_index = np.random.permutation(df.index)
df2 = df.reindex(index=random_index, columns=["B","D","C","A"])

# 이거 한 이유는 섞여있는것을 다시 sort_index()로 정렬하기 위해;;
display(df2)

df2.sort_index(axis=0, ascending=False, inplace=True)
# ascending=False하면 내림차순!
# axis=1 하면 열의 순서를 정렬 가능!
display(df2)

Unnamed: 0,A,B,C,D
2019-01-01,5,0,3,3
2019-01-02,7,9,3,5
2019-01-03,2,4,7,6
2019-01-04,8,8,1,6
2019-01-05,7,7,8,1
2019-01-06,5,9,8,9


Unnamed: 0,B,D,C,A
2019-01-03,4,6,7,2
2019-01-06,9,9,8,5
2019-01-02,9,5,3,7
2019-01-01,0,3,3,5
2019-01-04,8,6,1,8
2019-01-05,7,1,8,7


Unnamed: 0,B,D,C,A
2019-01-06,9,9,8,5
2019-01-05,7,1,8,7
2019-01-04,8,6,1,8
2019-01-03,4,6,7,2
2019-01-02,9,5,3,7
2019-01-01,0,3,3,5
