In [6]:
# Pandas의 Series, DataFrame에 대해서 알아보았어요!
# DataFrame의 생성, indexing(indexing, slicing, boolean indexing,
# fancy indexing)
# column과 row indexing을 구별해서 알아보았어요!

# DataFrame이 지원하는 함수에 대해서 알아보아요!

## 기댓값 : 어떤 확률을 가진 사건을 무한히 반복했을때
##          얻을 수 있는 값의 평균으로 기대할 수 있는 값.
import numpy as np
result = np.random.randint(1,7,(100000,))
print(result.mean())

## 편차 : 확률변수 X와 평균값의 차이
##        데이터의 흩어짐 정도를 나타낼 수 있는 값.
##        편차의 합계는 결국 0이기 때문에 데이터의 흩어진 정도를 수치화
##        하기가 힘들어요!

## 분산(variance) : 편차의 제곱의 평균
## 표준편차 : 분산의 제곱근

arr = np.array([4,6,1,3,8,8], dtype=np.int32)
print(arr)
print(arr.sum())
print(arr.mean())
print(arr.var())
print(arr.std())

3.49796
[4 6 1 3 8 8]
30
5.0
6.666666666666667
2.581988897471611


In [19]:
# 1. DataFrame으로 공분산을 계산할 수 있어요!
#    공분산(covariance) : 두개의 확률변수의 관계를 보여주는 값.
#                         두 확률변수 편차의 곱에 대한 평균으로 계산

import numpy as np
import pandas as pd
import pandas_datareader.data as pdr
from datetime import datetime

start = datetime(2019,1,1)  # 2019-01-01 날짜 객체 생성
end = datetime(2019,12,31)  # 2019-12-31 날짜 객체 생성

# YAHOO에서 제공하는 KOSPI 지수
df_KOSPI = pdr.DataReader('^KS11','yahoo',start,end)
# display(df_KOSPI['Close'].values)
# YAHOO에서 제공하는 삼성전자 지수
df_SE = pdr.DataReader('005930.KS','yahoo',start,end)
# display(df_SE['Close'].values)

# numpy가 제공하는 함수를 이용해서 공분산을 계산
print(np.cov(df_KOSPI['Close'].values,df_SE['Close'].values))
# 0행 0열 : KOSPI의 공분산( KOSPI & KOSPI )
# 0행 1열 : KOSPI와 삼성전자의 공분산
# 1행 0열 : 삼성전자와 KOSPI의 공분산
# 1행 1열 : 삼성전자의 공분산( 삼성전자 & 삼성전자 )
# sum((xi - x평균)(yi-y평균)) / n-1

[[6.28958682e+03 9.46863621e+04]
 [9.46863621e+04 1.41592089e+07]]


In [None]:
# 상관관계(correlation) : 두 대상이 서로 연관성이 있다고 추측되는 관계
# 성적과 자존감
# 온라인 게임과 폭력성

# 상관계수(correlation coefficient) : -1과 1사이의 실수.(피어슨 상관계수)
# 하나의 변수가 변할 때 다른 변수가 변화하는 정도
# 양수값이 나오면 정적상관관계, 음수가 나오면 부적상관관계
# 0에 가까울수록 관련성이 적어져요. 절대값이 1에 가까울수록 관련성이 높다

# 상관관계를 얘기할때 조심해야 할 점 : 인과관계를 설명할 수 없어요!

In [22]:
import numpy as np
import pandas as pd
import pandas_datareader.data as pdr
from datetime import datetime

start = datetime(2018,1,1)  # 2018-01-01 날짜 객체 생성
end = datetime(2018,12,31)  # 2018-12-31 날짜 객체 생성

# YAHOO에서 제공하는 종목 지수
df_KOSPI = pdr.DataReader('^KS11','yahoo',start,end)  # KOSPI
df_SE = pdr.DataReader('005930.KS','yahoo',start,end) # 삼성전자
df_PUSAN = pdr.DataReader('011390.KS','yahoo',start,end) # 부산산업(남북경협)
df_LIG = pdr.DataReader('079550.KS','yahoo',start,end) # LIG넥스원(방위)

my_dict = {
    'KOSPI' : df_KOSPI['Close'],
    '삼성전자' : df_SE['Close'],
    '부산산업' : df_PUSAN['Close'],
    'LIG넥스원' : df_LIG['Close']
}

df = pd.DataFrame(my_dict)
display(df)

display(df.corr())  # DataFrame이 가지고 있는 상관계수를 구하는 함수를 이용


Unnamed: 0_level_0,KOSPI,삼성전자,부산산업,LIG넥스원
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2018-01-03,2486.350098,51620.0,31850.0,59200.0
2018-01-04,2466.459961,51080.0,32500.0,57800.0
2018-01-05,2497.520020,52120.0,32300.0,55800.0
2018-01-08,2513.280029,52020.0,32900.0,54500.0
2018-01-09,2510.229980,50400.0,32900.0,54600.0
...,...,...,...,...
2018-12-21,2061.489990,38650.0,170000.0,33550.0
2018-12-24,2055.010010,38800.0,172000.0,33800.0
2018-12-26,2028.010010,38350.0,161000.0,33350.0
2018-12-27,2028.439941,38250.0,162000.0,33700.0


Unnamed: 0,KOSPI,삼성전자,부산산업,LIG넥스원
KOSPI,1.0,0.913574,-0.57498,0.791497
삼성전자,0.913574,1.0,-0.464685,0.649536
부산산업,-0.57498,-0.464685,1.0,-0.708109
LIG넥스원,0.791497,0.649536,-0.708109,1.0


In [41]:
# DataFrame이 가지고 있는 다양한 함수들(분석용 함수)

import numpy as np
import pandas as pd

data = [[2, np.nan],
        [7, -3],
        [np.nan, np.nan],
        [1, -2]]

df = pd.DataFrame(data,
                  columns=['one', 'two'],
                  index=['a','b','c','d'])
display(df)

# display(df.sum())   # axis를 생략하면 기본이 axis=0
                    # skipna = True(기본값) 
                    # Series로 리턴!
# display(df.sum(axis=1)) 
# print(df['two'].sum())
# print(df.loc['b'].sum())
# print(df.mean(axis=0,skipna=False))
# print(df.mean(axis=0,skipna=True))


# df['two'] = df['two'].fillna(value=df['two'].mean())
df = df.fillna(value=df['two'].mean())
        
display(df)

Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0


Unnamed: 0,one,two
a,2.0,-2.5
b,7.0,-3.0
c,-2.5,-2.5
d,1.0,-2.0


In [67]:
# sort에 대해서 알아보아요!

import numpy as np
import pandas as pd

np.random.seed(1)
df = pd.DataFrame(np.random.randint(0,10,(6,4)))
# display(df)

df.columns = ['A','B','C','D']
df.index = pd.date_range('20200101', periods=6)
# display(df)

new_index = np.random.permutation(df.index) # permutation()의 특징은 원본은 변경하지
                                # 않고 순서가바뀐 복사본을 리턴해요!
# np.random.shuffle(df.index)  # shuffle()의 특징은 원본의 바꿔요!

# print(new_index)
df2 = df.reindex(index=new_index, columns=['B','A','D','C'])

# display(df)
display(df2)

# 정렬은 기본적으로 axis를 기준으로 정렬
# display(df2.sort_index(axis=1, ascending=True))
# 특정 column의 값으로 행을 정렬
display(df2.sort_values(by=['B','A']))


Unnamed: 0,B,A,D,C
2020-01-03,9,6,4,2
2020-01-01,8,5,5,9
2020-01-04,2,5,2,4
2020-01-05,7,4,9,7
2020-01-02,0,0,7,1
2020-01-06,7,1,6,0


Unnamed: 0,B,A,D,C
2020-01-02,0,0,7,1
2020-01-04,2,5,2,4
2020-01-06,7,1,6,0
2020-01-05,7,4,9,7
2020-01-01,8,5,5,9
2020-01-03,9,6,4,2


In [74]:
# 기타등등등 함수에 대해서 알아보아요!
import numpy as np
import pandas as pd

np.random.seed(1)
df = pd.DataFrame(np.random.randint(0,10,(6,4)))
df.columns = ['A','B','C','D']
df.index = pd.date_range('20200101', periods=6)
df['E'] = ['AA','BB','CC','CC','AA','CC']
display(df)

print(df['E'].unique())   # ['AA' 'BB' 'CC']
print(df['E'].value_counts())  # 각 value값들의 개수를 series로 리턴
print(df['E'].isin(['AA','BB']))  # 조건을 검색할때 많이 이용하는 방법 중 하나

Unnamed: 0,A,B,C,D,E
2020-01-01,5,8,9,5,AA
2020-01-02,0,0,1,7,BB
2020-01-03,6,9,2,4,CC
2020-01-04,5,2,4,2,CC
2020-01-05,4,7,7,9,AA
2020-01-06,1,7,0,6,CC


['AA' 'BB' 'CC']
CC    3
AA    2
BB    1
Name: E, dtype: int64
2020-01-01     True
2020-01-02     True
2020-01-03    False
2020-01-04    False
2020-01-05     True
2020-01-06    False
Freq: D, Name: E, dtype: bool


In [None]:
## Pandas
## Series
## DataFrame - 생성(CSV파일, 리스트, dict, OPen API, Database)
##           - indexing(열과 행의 indexing) 
##             => indexing, slicing, fancy indexing, boolean indexing
##             => loc[]
##           - function(수학적 집계함수, 정렬함수, 유틸리티 함수)
##           - merge(DataFrame을 결합하려면 어떻게 해야 하나요?) 

In [79]:
## DataFrame merge에 대해서 알아보아요!
## (Database의 inner join을 생각하시면 되요!)

import numpy as np
import pandas as pd

data1 = {
    '학번' : [1,2,3,4],
    '이름' : ['홍길동','신사임당','아이유','김연아'],
    '학년' : [2,4,1,3]
}

data2 = {
    '학번' : [1,2,4,5],
    '학과' : ['컴퓨터','철학','심리','영어영문'],
    '학점' : [3.5, 2.7, 4.0, 4.3]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

display(df1)
display(df2)

display(pd.merge(df1, df2, on='학번', how='inner'))
# Database의 Table에서 수행하는 operation => inner join


Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,신사임당,4
2,3,아이유,1
3,4,김연아,3


Unnamed: 0,학번,학과,학점
0,1,컴퓨터,3.5
1,2,철학,2.7
2,4,심리,4.0
3,5,영어영문,4.3


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,컴퓨터,3.5
1,2,신사임당,4,철학,2.7
2,4,김연아,3,심리,4.0


In [82]:
import numpy as np
import pandas as pd

data1 = {
    '학번' : [1,2,3,4],
    '이름' : ['홍길동','신사임당','아이유','김연아'],
    '학년' : [2,4,1,3]
}

data2 = {
    '학번' : [1,2,4,5],
    '학과' : ['컴퓨터','철학','심리','영어영문'],
    '학점' : [3.5, 2.7, 4.0, 4.3]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

display(df1)
display(df2)

# display(pd.merge(df1, df2, on='학번', how='outer'))
# display(pd.merge(df1, df2, on='학번', how='left'))
display(pd.merge(df1, df2, on='학번', how='right'))

Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,신사임당,4
2,3,아이유,1
3,4,김연아,3


Unnamed: 0,학번,학과,학점
0,1,컴퓨터,3.5
1,2,철학,2.7
2,4,심리,4.0
3,5,영어영문,4.3


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2.0,컴퓨터,3.5
1,2,신사임당,4.0,철학,2.7
2,4,김연아,3.0,심리,4.0
3,5,,,영어영문,4.3


In [85]:
import numpy as np
import pandas as pd

data1 = {
    '학번' : [1,2,3,4],
    '이름' : ['홍길동','신사임당','아이유','김연아'],
    '학년' : [2,4,1,3]
}

data2 = {
    '학생학번' : [1,2,4,5],
    '학과' : ['컴퓨터','철학','심리','영어영문'],
    '학점' : [3.5, 2.7, 4.0, 4.3]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

# display(df1)
# display(df2)

display(pd.merge(df1, df2, left_on='학번', right_on='학생학번', how='inner'))


Unnamed: 0,학번,이름,학년,학생학번,학과,학점
0,1,홍길동,2,1,컴퓨터,3.5
1,2,신사임당,4,2,철학,2.7
2,4,김연아,3,4,심리,4.0


In [90]:
import numpy as np
import pandas as pd

data1 = {
    '학번' : [1,2,3,4],
    '이름' : ['홍길동','신사임당','아이유','김연아'],
    '학년' : [2,4,1,3]
}

data2 = {
    '학과' : ['컴퓨터','철학','심리','영어영문'],
    '학점' : [3.5, 2.7, 4.0, 4.3]
}

df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2,
                   index=[1,2,4,5])  # 학번이 index로 사용된 경우!

display(df1)
display(df2)

result = pd.merge(df1, df2,
                  left_on='학번',
                  right_index=True,
                  how='inner')
display(result)
# print(result.loc[2])  # Error
# print(result.loc[3])  # OK
print(result.iloc[2])  # OK

Unnamed: 0,학번,이름,학년
0,1,홍길동,2
1,2,신사임당,4
2,3,아이유,1
3,4,김연아,3


Unnamed: 0,학과,학점
1,컴퓨터,3.5
2,철학,2.7
4,심리,4.0
5,영어영문,4.3


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,컴퓨터,3.5
1,2,신사임당,4,철학,2.7
3,4,김연아,3,심리,4.0


학번      4
이름    김연아
학년      3
학과     심리
학점    4.0
Name: 3, dtype: object


In [92]:
import numpy as np
import pandas as pd

data1 = {
    '이름' : ['홍길동','신사임당','아이유','김연아'],
    '학년' : [2,4,1,3]
}

data2 = {
    '학과' : ['컴퓨터','철학','심리','영어영문'],
    '학점' : [3.5, 2.7, 4.0, 4.3]
}

df1 = pd.DataFrame(data1,
                   index=[1,2,3,4],) # 학번이 index로 사용된 경우!
df2 = pd.DataFrame(data2,
                   index=[1,2,4,5])  # 학번이 index로 사용된 경우!

display(df1)
display(df2)

result = pd.merge(df1, df2,
                  left_index=True,
                  right_index=True,
                  how='inner')
display(result)


Unnamed: 0,이름,학년
1,홍길동,2
2,신사임당,4
3,아이유,1
4,김연아,3


Unnamed: 0,학과,학점
1,컴퓨터,3.5
2,철학,2.7
4,심리,4.0
5,영어영문,4.3


Unnamed: 0,이름,학년,학과,학점
1,홍길동,2,컴퓨터,3.5
2,신사임당,4,철학,2.7
4,김연아,3,심리,4.0


In [102]:
# DataFrame의 연결(concatenation)

import numpy as np
import pandas as pd

df1 = pd.DataFrame(np.arange(6).reshape(3,2),
                   index=['a','b','d'],
                   columns=['one','two'])

df2 = pd.DataFrame(np.arange(4).reshape(2,2),
                   index=['a','c'],
                   columns=['three','four'])

display(df1)
display(df2)

result = pd.concat([df1,df2],
                   axis=0,
                   ignore_index=True)  
display(result)

Unnamed: 0,one,two
a,0,1
b,2,3
d,4,5


Unnamed: 0,three,four
a,0,1
c,2,3


Unnamed: 0,one,two,three,four
0,0.0,1.0,,
1,2.0,3.0,,
2,4.0,5.0,,
3,,,0.0,1.0
4,,,2.0,3.0


In [None]:
# 여기까지해서 함수와 DataFrame의 결합, 연결에 대해서 알아봤어요!
# 이제 남은건 DataFrame에 대한 간단한 제어, Grouping

# DataFrame에 대한 학습이 어느 정도 진행됬으면 이제
# 수행평가 문제 3개를 풀어볼꺼예요! (내일~ 모레)

# 데이타프레임이 어떨때 머지하고 어떨때 컨캐트 하나요?  
# 컨캐트는 결치를 감수하고 하는거네요