- DataFrame이 지원하는 함수
1. 기댓값 : 어떤 확률을 가진 사건을 무한이 반복했을때 얻을 수 있는 값의 평균으로 기대할 수 있는 값

In [1]:
import numpy as np
import pandas as pd

result = np.random.randint(1,7, (100000,))
print(result.mean())

3.50331


- 편차 : 확률변수 x와 평균값의 차이
    - 데이터의 흩어짐 정도를 나타낼 수 있는 값
    - 하지만 편차의 합계는 결국 0이기 때문에 데이터의 흩어진 정도를 수치화 하기 힘들다
- 분산 : 편차의 제곱의 평균
- 표준편차 : 분산의 제곱근

In [5]:
arr = np.array([4,6,1,3,8,8], dtype=np.int32)
print(arr)
print(arr.sum())
print(arr.mean())
print(arr.var())
print(arr.std())

[4 6 1 3 8 8]
30
5.0
6.666666666666667
2.581988897471611


- DataFrame을 이용한 공분산 계산
- 공분산(corvariance) : 두개의 확률변수의 관계를 보여주는 값
    - 두 확률변수 편차의 곱에 대한 평균으로 계산

In [15]:
import pandas_datareader as pdr
from datetime import datetime

# 2019-01-01 날짜 객체 생성
start = datetime(2019,1,1)
# 2019-12-31 날짜 객체 생성
end = datetime(2019,12,31)

# Yahoo에서 제공하는 KOSPI 지수
df_KOSPI = pdr.DataReader('^KS11','yahoo',start,end)
display(df_KOSPI['Close'].values)
df_SE = pdr.DataReader('005930.KS','yahoo',start,end)
display(df_SE['Close'].values)


Date
2019-01-02    2010.000000
2019-01-03    1993.699951
2019-01-04    2010.250000
2019-01-07    2037.099976
2019-01-08    2025.270020
                 ...     
2019-12-23    2203.709961
2019-12-24    2190.080078
2019-12-26    2197.929932
2019-12-27    2204.209961
2019-12-30    2197.669922
Name: Close, Length: 245, dtype: float64

Date
2019-01-02    38750.0
2019-01-03    37600.0
2019-01-04    37450.0
2019-01-07    38750.0
2019-01-08    38100.0
               ...   
2019-12-23    55500.0
2019-12-24    55000.0
2019-12-26    55400.0
2019-12-27    56500.0
2019-12-30    55800.0
Name: Close, Length: 245, dtype: float64

In [16]:
# numpy가 제공하는 함수를 이용해서 공분산을 계산
print(np.cov(df_KOSPI['Close'].values, df_SE['Close'].values))
# 1행 1열은 KOSPI의 분산, 2행 2열은 삼성전자의 분산
# 1행 2열, 2행 1열은 KOSPI와 삼성전자의 공분산

[[6.28958682e+03 9.46863621e+04]
 [9.46863621e+04 1.41592089e+07]]


- 상관관계(correlation) : 두 대상이 서로 연관성이 있다고 추측되는 관계
    - ex) 성적과 자존감, 온라인 게임과 폭력성
- 상관계수(correlation coefficient) : -1과 1사이의 실수 (피어슨 상관계수)
    - 하나의 변수가 변할 때 다른 변수가 변화하는 정도
    - 양수값이 나오면 정적상관관계, 음수값이 나오면 부적상관관계
    - 0 과 가까울수록 관련성이 적어진다. 절대값이 1에 가까울수록 관련성이 높다
- 상관관계는 인과관계와 다르다

In [17]:
# 2018-01-01 날짜 객체 생성
start = datetime(2018,1,1)
# 2018-12-31 날짜 객체 생성
end = datetime(2018,12,31)

# Yahoo에서 제공하는 종목 지수
df_KOSPI = pdr.DataReader('^KS11','yahoo',start,end)
df_SE = pdr.DataReader('005930.KS','yahoo',start,end)
df_PUSAN = pdr.DataReader('011390.KS','yahoo',start,end)
df_LIG = pdr.DataReader('079550.KS','yahoo',start,end)

my_dict = {
    'KOSPI' : df_KOSPI['Close'],
    '삼성전자' : df_SE['Close'],
    '부산산업' : df_PUSAN['Close'],
    'LIG넥스원' : df_LIG['Close']
}
df = pd.DataFrame(my_dict)
display(df)

display(df.corr())

Unnamed: 0_level_0,KOSPI,삼성전자,부산산업,LIG넥스원
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2018-01-03,2486.350098,51620.0,31850.0,59200.0
2018-01-04,2466.459961,51080.0,32500.0,57800.0
2018-01-05,2497.520020,52120.0,32300.0,55800.0
2018-01-08,2513.280029,52020.0,32900.0,54500.0
2018-01-09,2510.229980,50400.0,32900.0,54600.0
...,...,...,...,...
2018-12-21,2061.489990,38650.0,170000.0,33550.0
2018-12-24,2055.010010,38800.0,172000.0,33800.0
2018-12-26,2028.010010,38350.0,161000.0,33350.0
2018-12-27,2028.439941,38250.0,162000.0,33700.0


Unnamed: 0,KOSPI,삼성전자,부산산업,LIG넥스원
KOSPI,1.0,0.913574,-0.57498,0.791497
삼성전자,0.913574,1.0,-0.464685,0.649536
부산산업,-0.57498,-0.464685,1.0,-0.708109
LIG넥스원,0.791497,0.649536,-0.708109,1.0


- DataFrame이 가지고 있는 다양한 함수

In [18]:
data = [
    [2, np.nan],
    [7,-3],
    [np.nan, np.nan],
    [1,-2]
       ]
df = pd.DataFrame(data, columns = ['one','two'], index = ['a','b','c','d'])
display(df)

Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0


In [25]:
# axis를 생략하면 기본이 axis = 0
# skipna = True가 기본값, nan은 무시하고 계산
# Series로 리턴
# numpy와 다름
display(df.sum())
display(df.sum(axis=1))
print(df['two'].sum())
print(df.iloc[1].sum())
print(df.loc['b'].sum())
print(df.mean(axis=0, skipna=False))
print(df.mean(axis=0,skipna=True))

one    10.0
two    -5.0
dtype: float64

a    2.0
b    4.0
c    0.0
d   -1.0
dtype: float64

-5.0
4.0
4.0
one   NaN
two   NaN
dtype: float64
one    3.333333
two   -2.500000
dtype: float64


- 결측치 처리

In [27]:
# fillna는 새로운 복사본을 출력 원본을 바꿀려면 원본에 리턴값을 할당해야함
df['one'] = df['one'].fillna(value=df['one'].mean())
display(df)

Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,3.333333,
d,1.0,-2.0


In [33]:
# sort

np.random.seed(1)
df = pd.DataFrame(np.random.randint(0,10,(6,4)))
display(df)
df.columns = ['A','B','C','D']
# pandas의 date_range
df.index = pd.date_range('20200101',periods=6)
display(df)

Unnamed: 0,0,1,2,3
0,5,8,9,5
1,0,0,1,7
2,6,9,2,4
3,5,2,4,2
4,4,7,7,9
5,1,7,0,6


Unnamed: 0,A,B,C,D
2020-01-01,5,8,9,5
2020-01-02,0,0,1,7
2020-01-03,6,9,2,4
2020-01-04,5,2,4,2
2020-01-05,4,7,7,9
2020-01-06,1,7,0,6


In [34]:
# shuffle()의 특징 - 원본을 바꿈
# index는 바뀌면 안되기 때문에 shuffle() 불가능
# 튜플과 같은 특성
np.random.shuffle(df.index)

TypeError: Index does not support mutable operations

In [36]:
# permutation()원본은 변경하지 않고 변경된 복사본을 리턴
new_index = np.random.permutation(df.index)
# reindex를 통해 index와 columns 변경가능
# 원본 변경 안되고 변경된 새로운 DataFrame 리턴
df2 = df.reindex(index=new_index, columns=['B','A','D','C'])
display(df2)

Unnamed: 0,B,A,D,C
2020-01-03,9,6,4,2
2020-01-05,7,4,9,7
2020-01-04,2,5,2,4
2020-01-01,8,5,5,9
2020-01-06,7,1,6,0
2020-01-02,0,0,7,1


In [38]:
# 정렬은 기본적으로 axis를 기준으로 정렬
df3 = df2.sort_index(axis=0, ascending=True)
display(df3.sort_index(axis=1, ascending=True))

Unnamed: 0,A,B,C,D
2020-01-01,5,8,9,5
2020-01-02,0,0,1,7
2020-01-03,6,9,2,4
2020-01-04,5,2,4,2
2020-01-05,4,7,7,9
2020-01-06,1,7,0,6


In [40]:
# columns의 특정 행의 값을 기준으로 정렬
display(df2.sort_values(by=['B','A']))

Unnamed: 0,B,A,D,C
2020-01-02,0,0,7,1
2020-01-04,2,5,2,4
2020-01-06,7,1,6,0
2020-01-05,7,4,9,7
2020-01-01,8,5,5,9
2020-01-03,9,6,4,2


In [51]:
# 기타 다양한 기능의 함수

df = pd.DataFrame(np.random.randint(0,10,(6,4)))
df.columns = ['A','B','C','D']
df.index = pd.date_range('20200101',periods=6)
df['E'] = ['AA','BB','CC','CC','AA','CC']
display(df)

# 열의 유일값을 ndarray로 리턴
print(df['E'].unique())
# 각 value값들의 개수를 series로 리턴
print(df['E'].value_counts())
# 조건을 검색할때 많이 이용하는 방법
print(df['E'].isin(['AA','BB']))

Unnamed: 0,A,B,C,D,E
2020-01-01,5,6,7,5,AA
2020-01-02,1,7,0,2,BB
2020-01-03,8,2,1,4,CC
2020-01-04,0,4,1,7,CC
2020-01-05,3,1,6,6,AA
2020-01-06,9,6,9,6,CC


['AA' 'BB' 'CC']
CC    3
AA    2
BB    1
Name: E, dtype: int64
2020-01-01     True
2020-01-02     True
2020-01-03    False
2020-01-04    False
2020-01-05     True
2020-01-06    False
Freq: D, Name: E, dtype: bool


In [53]:
# merge() - DataBase의 join과 유사하다

data1 = {
    '학번' : [1,2,3,4],
    '이름' : ['홍길동', '신사임당', '아이유', '김연아'],
    '학년' : [2,4,1,3]
    
}

data2 = {
    '학번' : [1,2,4,5],
    '학과' : ['컴퓨터', '철학', '심리', '영어영문'],
    '학점' : [3.5,2.7,4.0,4.3]
}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
display(df1)
display(df2)

Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,신사임당,4
2,3,아이유,1
3,4,김연아,3


Unnamed: 0,학번,학과,학점
0,1,컴퓨터,3.5
1,2,철학,2.7
2,4,심리,4.0
3,5,영어영문,4.3


In [56]:
# DataBase의 Table에서 수행하는 inner join과 같다
display(pd.merge(df1, df2, on='학번', how='inner'))

Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,컴퓨터,3.5
1,2,신사임당,4,철학,2.7
2,4,김연아,3,심리,4.0


In [57]:
# full outer join
display(pd.merge(df1, df2, on='학번', how='outer'))

Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2.0,컴퓨터,3.5
1,2,신사임당,4.0,철학,2.7
2,3,아이유,1.0,,
3,4,김연아,3.0,심리,4.0
4,5,,,영어영문,4.3


In [59]:
# left inner join
display(pd.merge(df1, df2, on='학번', how='left'))

Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,컴퓨터,3.5
1,2,신사임당,4,철학,2.7
2,3,아이유,1,,
3,4,김연아,3,심리,4.0


In [61]:
# right inner join
display(pd.merge(df1, df2, on='학번', how='right'))

Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2.0,컴퓨터,3.5
1,2,신사임당,4.0,철학,2.7
2,4,김연아,3.0,심리,4.0
3,5,,,영어영문,4.3


In [67]:
data1 = {
    '학번' : [1,2,3,4],
    '이름' : ['홍길동', '신사임당', '아이유', '김연아'],
    '학년' : [2,4,1,3]
    
}

data2 = {
    '학생번호' : [1,2,4,5],
    '학과' : ['컴퓨터', '철학', '심리', '영어영문'],
    '학점' : [3.5,2.7,4.0,4.3]
}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

In [69]:
# columns 이름이 다른경우
display(pd.merge(df1, df2, left_on='학번', right_on='학생번호', how='inner'))

Unnamed: 0,학번,이름,학년,학생번호,학과,학점
0,1,홍길동,2,1,컴퓨터,3.5
1,2,신사임당,4,2,철학,2.7
2,4,김연아,3,4,심리,4.0


In [70]:
data1 = {
    '학번' : [1,2,3,4],
    '이름' : ['홍길동', '신사임당', '아이유', '김연아'],
    '학년' : [2,4,1,3]
    
}

data2 = {
    '학과' : ['컴퓨터', '철학', '심리', '영어영문'],
    '학점' : [3.5,2.7,4.0,4.3]
}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2, index = [1,2,4,5])

In [72]:
# index를 이용한 merge()
# right_on의 결과와 다름 left의 index를 그대로 가져옴
display(pd.merge(df1, df2, left_on='학번', right_index=True, how='inner'))

Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,컴퓨터,3.5
1,2,신사임당,4,철학,2.7
3,4,김연아,3,심리,4.0


In [75]:
result = pd.merge(df1, df2, left_on='학번', right_index=True, how='inner')
# 2가 없어서 에러
print(result.loc[2])

KeyError: 2

In [76]:
print(result.iloc[2])

학번      4
이름    김연아
학년      3
학과     심리
학점    4.0
Name: 3, dtype: object


In [77]:
data1 = {
    '이름' : ['홍길동', '신사임당', '아이유', '김연아'],
    '학년' : [2,4,1,3]
    
}

data2 = {
    '학과' : ['컴퓨터', '철학', '심리', '영어영문'],
    '학점' : [3.5,2.7,4.0,4.3]
}
df1 = pd.DataFrame(data1, index = [1,2,3,4])
df2 = pd.DataFrame(data2, index = [1,2,4,5])

In [78]:
# 둘다 index를 이용하여 merge하는 경우
display(pd.merge(df1, df2, left_index=True, right_index=True, how='inner'))

Unnamed: 0,이름,학년,학과,학점
1,홍길동,2,컴퓨터,3.5
2,신사임당,4,철학,2.7
4,김연아,3,심리,4.0


In [None]:
# DataFrame의 연결(concatenation)

In [102]:
df1 = pd.DataFrame(np.arange(6).reshape(3,2),index=['a','b','c'],columns=['one','two'])
display(df1)
df2 = pd.DataFrame(np.arange(4).reshape(2,2),index=['a','b'],columns=['three','four'])
display(df2)

Unnamed: 0,one,two
a,0,1
b,2,3
c,4,5


Unnamed: 0,three,four
a,0,1
b,2,3


In [103]:
result1 = pd.concat([df1,df2],axis=0)
display(result1)

Unnamed: 0,one,two,three,four
a,0.0,1.0,,
b,2.0,3.0,,
c,4.0,5.0,,
a,,,0.0,1.0
b,,,2.0,3.0


In [104]:
result2 = pd.concat([df1,df2],axis=1)
display(result2)

Unnamed: 0,one,two,three,four
a,0,1,0.0,1.0
b,2,3,2.0,3.0
c,4,5,,


In [111]:
df1 = pd.DataFrame(np.arange(6).reshape(3,2),index=['a','b','c'],columns=['one','two'])
display(df1)
df2 = pd.DataFrame(np.arange(4).reshape(2,2),index=['a','c'],columns=['three','four'])
display(df2)

Unnamed: 0,one,two
a,0,1
b,2,3
c,4,5


Unnamed: 0,three,four
a,0,1
c,2,3


In [113]:
result3 = pd.concat([df1,df2],axis=1)
display(result3)

Unnamed: 0,one,two,three,four
a,0,1,0.0,1.0
b,2,3,,
c,4,5,2.0,3.0


In [118]:
result4 = pd.concat([df1,df2],axis=1, sort=True)
display(result4)

Unnamed: 0,one,two,three,four
a,0,1,0.0,1.0
b,2,3,,
c,4,5,2.0,3.0


In [119]:
result5 = pd.concat([df1,df2],axis=0)
display(result5)

Unnamed: 0,one,two,three,four
a,0.0,1.0,,
b,2.0,3.0,,
c,4.0,5.0,,
a,,,0.0,1.0
c,,,2.0,3.0


In [121]:
# 새로운 index를 할당
result6 = pd.concat([df1,df2],axis=0, ignore_index=True)
display(result6)

Unnamed: 0,one,two,three,four
0,0.0,1.0,,
1,2.0,3.0,,
2,4.0,5.0,,
3,,,0.0,1.0
4,,,2.0,3.0
