In [1]:
## 상관관계( correlation )
## 두 대상이 서로 연관성이 있다고 추측되는 관계
## 상관계수( correlation coefficient ) : 일반적으로 피어슨 상관계수를 이용
## 공분산을 각 확률변수의 표준편차의 곱으로 나눠준 값.
## -1 ~ +1 사이의 값으로 표현
## |0 ~ 0.3|  상관관계가 낮다  / |0.3 ~ 0.7|  어느정도 있다 /  |0.7 ~ 1| 상관관계가 높다
## 양수일 경우 양의 상관관계라고 표현
## 음수일 경우 부적 상관관계라고 표현
## 성적 & 자존감
## 온라인 게임 & 폭력성
## 상관계수는 연관성만 판단, 인과관계를 설명해주지 않는다.
## 인과관계는 회귀분석( regression )을 통해서 알수 있다.!

In [13]:
import numpy as np
import pandas as pd
import json

file_KOSPI = open("C:/python_DA/data/KOSPI.json","r")
series_KOSPI = pd.DataFrame(json.load(file_KOSPI))["Close"] 
# 읽어온 파일에서 json데이터를 불러오면 dict형태=> 바로 DF로 변환
series_KOSPI.head()

file_SE = open("C:/python_DA/data/SE.json","r")
series_SE = pd.DataFrame(json.load(file_SE))["Close"]
series_SE.head()

## 상관계수를 구하기 위해서 일단 공분산을 구한 후 각 표준편차의 곱으로 나눠야함
print(np.corrcoef(series_KOSPI,series_SE))

[[1.         0.91317306]
 [0.91317306 1.        ]]


In [18]:
## 구하고자 하는 변수가 여러개일땐?
file_KOSPI = open("C:/python_DA/data/KOSPI.json","r")
series_KOSPI = pd.DataFrame(json.load(file_KOSPI))["Close"] 
# 읽어온 파일에서 json데이터를 불러오면 dict형태=> 바로 DF로 변환
series_KOSPI.head()

file_SE = open("C:/python_DA/data/SE.json","r")
series_SE = pd.DataFrame(json.load(file_SE))["Close"]
series_SE.head()

file_PUSAN = open("C:/python_DA/data/부산산업.json","r")
series_PUSAN = pd.DataFrame(json.load(file_PUSAN))["Close"]

## 3개의 Series를 DF로 만들어보자
data = {
    "KOSPI" : series_KOSPI,
    "SE" : series_SE,
    "PUSAN" : series_PUSAN
}

df = pd.DataFrame(data)
display(df.corr()) ## 여러개 항목에 대한 상관관계를 알려줌

Unnamed: 0,KOSPI,SE,PUSAN
KOSPI,1.0,0.913173,-0.576688
SE,0.913173,1.0,-0.468954
PUSAN,-0.576688,-0.468954,1.0


In [37]:
## DF에서 sum함수와 mean 함수의 사용
import numpy as np
import pandas as pd

## 중첩리스트를 만들어서 DF를 생성해보자
data = [[2, np.nan],
       [7, -3],
       [np.nan, np.nan],
       [1, -2]]
df = pd.DataFrame(data,
                  columns = ["one", "two"],
                  index = ["a","b","c","d"])
display(df)
df.sum()  # DF에서는 sum()함수에 대해 axis를 주지않으면 axis = 0으로 세팅
          # NaN을 0으로 간주해서 계산
df.sum(axis=1)
df["two"].sum()
df.loc["b"].sum()  # 숫자 인덱스를 사용할 땐 iloc사용 
df.mean(axis=0, skipna=False) #NaN은 실수처리, 모든연산결과는 NaN으로 처리
df.mean(axis=0, skipna=True)

# "one" col의 결측값은 "one" col의 평균으로
# "two" col의 결측값은 "two" col의 최솟갑ㅅ으로 대체해보자
var1 = df["one"].mean(skipna=True)
var2 = df["two"].min()

# 결측치를 대체하자
df["one"] = df["one"].fillna(var1) # 원본에다 변경값을 넣어주자
df["two"] = df["two"].fillna(var2)
display(df)

Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0


Unnamed: 0,one,two
a,2.0,-3.0
b,7.0,-3.0
c,3.333333,-3.0
d,1.0,-2.0


In [83]:
## DF의 함수에 대해서 좀더 알아보자
## 분석용함수(sum,mean,cov,corr)
## 정렬에 대해서 알아보자
import numpy as np
import pandas as pd
np.random.seed(11)
# random으로 정수형 난수를 발생시키자
df = pd.DataFrame(np.random.randint(0,10,(6,4)))
df.columns = ["A","B","C","D"]
df.index = pd.date_range("20190101",periods=len(df.index)) # index번호 달아주자
# display(df)

random_index = np.random.permutation(df.index) #입력으로 들어오는 순열데이터를 random하게 섞어라
# print(random_index)

df2 = df.reindex(index = random_index, columns=["B","A","D","C"])
display(df2)

#DF를 섞어봣으니 다시정렬해보자 
df2.sort_index(axis=0, ascending=True) #오름차순 설정 
#display(df2.sort_index(axis=1,ascending=False))#내림차순으로 뽑고 싶을땐 이렇게 

# 행 단위로 오름차순 정렬 
display(df2.sort_values(by="A"))
display(df2.sort_values(by=["A","B"]))



Unnamed: 0,B,A,D,C
2019-01-06,3,1,2,6
2019-01-04,5,1,7,5
2019-01-05,1,4,8,8
2019-01-02,7,1,8,2
2019-01-01,0,9,7,1
2019-01-03,0,0,2,4


Unnamed: 0,B,A,D,C
2019-01-03,0,0,2,4
2019-01-06,3,1,2,6
2019-01-04,5,1,7,5
2019-01-02,7,1,8,2
2019-01-05,1,4,8,8
2019-01-01,0,9,7,1


Unnamed: 0,B,A,D,C
2019-01-03,0,0,2,4
2019-01-06,3,1,2,6
2019-01-04,5,1,7,5
2019-01-02,7,1,8,2
2019-01-05,1,4,8,8
2019-01-01,0,9,7,1


In [None]:
## unique(), value_counts(), isin() 함수

import numpy as np 
import pandas as pd 

np.random.seed(1)
df = pd.DataFrame(np.random.randint(0,10,(6,4))) #1~10 범위로 6행 4열 DF생성
display(df)
#   0	1	2	3
#0	5	8	9	5
#1	0	0	1	7
#2	6	9	2	4
#3	5	2	4	2
#4	4	7	7	9
#5	1	7	0	6
df.columns = ["A","B","C","D"]   #col명 지정
df.index = pd.date_range("20190101", periods=6) #날짜(오름차순)로 인덱스 설정
display(df)
#        	A	B	C	D
#2019-01-01	5	8	9	5
#2019-01-02	0	0	1	7
#2019-01-03	6	9	2	4
#2019-01-04	5	2	4	2
#2019-01-05	4	7	7	9
#2019-01-06	1	7	0	6

##새로운 column을 만들어보아요 
df["E"] = ["AA","BB","CC","AA","BB","AA"] #list형태로 넣어도, series로 읽힌다 
                                          # numpy여도 상관없다
display(df)
#       	A	B	C	D	E
#2019-01-01	5	8	9	5	AA
#2019-01-02	0	0	1	7	BB
#2019-01-03	6	9	2	4	CC
#2019-01-04	5	2	4	2	AA
#2019-01-05	4	7	7	9	BB
#2019-01-06	1	7	0	6	AA

print(df["E"].unique())      # ndarray로 리턴해줘요! 
#['AA' 'BB' 'CC']            # 중복값배제 (n종류 있어)
print(df["E"].value_counts()) #Series로 리턴해요 
#AA    3
#BB    2
#CC    1
#Name: E, dtype: int64
print(df["E"].isin(["AA","CC"]))#Boolean Mask가 리턴되요(이런게포함되어 있니 없니)
#2019-01-01     True
#2019-01-02    False
#2019-01-03     True
#2019-01-04     True
#2019-01-05    False
#2019-01-06     True
#Freq: D, Name: E, dtype: bool

In [55]:
## DF의 함수에 대해서 좀더 알아보자
## unique(), value_counts(), isin() 함수
## apply() 람다식 활용 ! => 이름이 없는 함수를 의미
import numpy as np
import pandas as pd
np.random.seed(1)
df = pd.DataFrame(np.random.randint(0,10,(6,4)))
df.columns = ["A","B","C","D"]
df.index = pd.date_range("20190101",periods=len(df.index)) 
display(df)

## 컬럼을 하나 만들려고 해요!! 각 행의 최대값 - 최소값으로 만들려고해요
func = lambda x: x.max() - x.min()

df["최대 - 최소"] = df.apply(func, axis=1) # apply : 함수적용!
display(df)


Unnamed: 0,A,B,C,D
2019-01-01,5,8,9,5
2019-01-02,0,0,1,7
2019-01-03,6,9,2,4
2019-01-04,5,2,4,2
2019-01-05,4,7,7,9
2019-01-06,1,7,0,6


Unnamed: 0,A,B,C,D,최대 - 최소
2019-01-01,5,8,9,5,4
2019-01-02,0,0,1,7,7
2019-01-03,6,9,2,4,7
2019-01-04,5,2,4,2,3
2019-01-05,4,7,7,9,5
2019-01-06,1,7,0,6,7


In [58]:
## DataFrame Merge 4가지
## inner join, outer join, left join, right join
import numpy as np
import pandas as pd

data1 = {
    "학번" : [1,2,3,4],
    "이름" : ["홍길동", "최길동", "아이유", "김연아"],
    "학년" : [2,3,3,1]
}

data2 = {
    "학번" : [1,2,4,5],
    "학과" : ["컴퓨터", "미술", "철학", "사회"],
    "학점" : [1.3, 3.5, 4.3, 2.3]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
display(df1)
display(df2)

Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,최길동,3
2,3,아이유,3
3,4,김연아,1


Unnamed: 0,학번,학과,학점
0,1,컴퓨터,1.3
1,2,미술,3.5
2,4,철학,4.3
3,5,사회,2.3


In [64]:
## Join방식 4가지 : merge()함수를 활용하자
pd.merge(df1,df2, on = "학번", how = "inner")

Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,컴퓨터,1.3
1,2,최길동,3,미술,3.5
2,4,김연아,1,철학,4.3


In [60]:
pd.merge(df1,df2, on = "학번", how = "outer")  # full join

Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2.0,컴퓨터,1.3
1,2,최길동,3.0,미술,3.5
2,3,아이유,3.0,,
3,4,김연아,1.0,철학,4.3
4,5,,,사회,2.3


In [62]:
pd.merge(df1,df2, on = "학번", how = "left")

Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,컴퓨터,1.3
1,2,최길동,3,미술,3.5
2,3,아이유,3,,
3,4,김연아,1,철학,4.3


In [63]:
pd.merge(df1,df2, on = "학번", how = "right")

Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2.0,컴퓨터,1.3
1,2,최길동,3.0,미술,3.5
2,4,김연아,1.0,철학,4.3
3,5,,,사회,2.3


In [65]:
## join 할때 col의 이름이 다르다면??
import numpy as np
import pandas as pd

data1 = {
    "학번" : [1,2,3,4],
    "이름" : ["홍길동", "최길동", "아이유", "김연아"],
    "학년" : [2,3,3,1]
}

data2 = {
    "학생학번" : [1,2,4,5],
    "학과" : ["컴퓨터", "미술", "철학", "사회"],
    "학점" : [1.3, 3.5, 4.3, 2.3]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
display(df1)
display(df2)
#col명이 다르다면 각가의 col을 명시해주자
pd.merge(df1,df2,
         left_on = "학번",
         right_on = "학생학번",
         how = "inner")

Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,최길동,3
2,3,아이유,3
3,4,김연아,1


Unnamed: 0,학생학번,학과,학점
0,1,컴퓨터,1.3
1,2,미술,3.5
2,4,철학,4.3
3,5,사회,2.3


Unnamed: 0,학번,이름,학년,학생학번,학과,학점
0,1,홍길동,2,1,컴퓨터,1.3
1,2,최길동,3,2,미술,3.5
2,4,김연아,1,4,철학,4.3


In [69]:
## join 할때 col의 이름이 다르다면?? index번화를 활용하자
import numpy as np
import pandas as pd

data1 = {
    "학번" : [1,2,3,4],
    "이름" : ["홍길동", "최길동", "아이유", "김연아"],
    "학년" : [2,3,3,1]
}

data2 = {
    "학과" : ["컴퓨터", "미술", "철학", "사회"],
    "학점" : [1.3, 3.5, 4.3, 2.3]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
df2.index = [1,2,4,5]   # 학번이 index로 들어간다
display(df1)
display(df2)

pd.merge(df1,df2,
         left_on = "학번",
         right_index = True,
         how = "inner")

Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,최길동,3
2,3,아이유,3
3,4,김연아,1


Unnamed: 0,학과,학점
1,컴퓨터,1.3
2,미술,3.5
4,철학,4.3
5,사회,2.3


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,컴퓨터,1.3
1,2,최길동,3,미술,3.5
3,4,김연아,1,철학,4.3


In [70]:
## join 할때 col의 이름이 다르다면?? index번화를 활용하자
import numpy as np
import pandas as pd

data1 = {
    "이름" : ["홍길동", "최길동", "아이유", "김연아"],
    "학년" : [2,3,3,1]
}

data2 = {
    "학과" : ["컴퓨터", "미술", "철학", "사회"],
    "학점" : [1.3, 3.5, 4.3, 2.3]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
df1.index = [1,2,3,4]
df2.index = [1,2,4,5]   # 학번이 index로 들어간다
display(df1)
display(df2)

pd.merge(df1,df2,
         left_index = True,
         right_index = True,
         how = "inner")

Unnamed: 0,이름,학년
1,홍길동,2
2,최길동,3
3,아이유,3
4,김연아,1


Unnamed: 0,학과,학점
1,컴퓨터,1.3
2,미술,3.5
4,철학,4.3
5,사회,2.3


Unnamed: 0,이름,학년,학과,학점
1,홍길동,2,컴퓨터,1.3
2,최길동,3,미술,3.5
4,김연아,1,철학,4.3


In [81]:
## Series 연결해서 DataFrame 생성하는 방법 : concat()함수 사용
import numpy as np
import pandas as pd

s1 = pd.Series([0,1], index=["a","c"]) 
s2 = pd.Series([4,3,2], index=["b","c","e"])
print(s1,'\n',s2)
# Series를 연결하는 방법
# display(pd.concat([s1,s2], axis=0)) 
display(pd.concat([s1,s2], axis=1, sort=True)) 

a    0
c    1
dtype: int64 
 b    4
c    3
e    2
dtype: int64


Unnamed: 0,0,1
a,0.0,
b,,4.0
c,1.0,3.0
e,,2.0
