In [1]:
# Pandas의 Series, DataFrame에 대해서 알아보았어요!
# DataFrame의 생성, indexing(indexing, slicing, boolean indexing,
# fancy indexing)
# column과 row indexing을 구별해서 알아보았어요!


In [2]:
# DataFrame이 지원하는 함수에 대해서 알아보아요!

## 기댓값 : 어떤 확률을 가진 사건을 무한히 반복했을때
##          얻을 수 있는 값의 평균으로 기대할 수 있는 값.
import numpy as np
result = np.random.randint(1,7,(100000,))
print(result.mean())

## 편차 : 확률변수 X와 평균값의 차이
##        데이터의 흩어짐 정도를 나타낼 수 있는 값.
##        편차의 합계는 결국 0이기 때문에 데이터의 흩어진 정도를 수치화
##        하기가 힘들어요!

## 분산(variance) : 편차의 제곱의 평균
## 표준편차 : 분산의 제곱근

arr = np.array([4,6,1,3,8,8], dtype=np.int32)
print(arr)
print(arr.sum())
print(arr.mean())
print(arr.var())
print(arr.std())

3.5013
[4 6 1 3 8 8]
30
5.0
6.666666666666667
2.581988897471611


In [4]:
# 1. DataFrame으로 공분산을 계산할 수 있어요!
#    공분산(covariance) : 두개의 확률변수의 관계를 보여주는 값.
#                         두 확률변수 편차의 곱에 대한 평균으로 계산

import numpy as np
import pandas as pd
import pandas_datareader.data as pdr
from datetime import datetime

start = datetime(2019,1,1)  # 2019-01-01 날짜 객체 생성
end = datetime(2019,12,31)  # 2019-12-31 날짜 객체 생성

# YAHOO에서 제공하는 KOSPI 지수
df_KOSPI = pdr.DataReader('^KS11','yahoo',start,end)
display(df_KOSPI['Close'].values)

# YAHOO에서 제공하는 삼성전자 지수
df_SE = pdr.DataReader('005930.KS','yahoo',start,end)
display(df_SE['Close'].values)


array([2010.        , 1993.69995117, 2010.25      , 2037.09997559,
       2025.27001953, 2064.70996094, 2063.2800293 , 2075.57006836,
       2064.52001953, 2097.17993164, 2106.10009766, 2107.06005859,
       2124.2800293 , 2124.61010742, 2117.77001953, 2127.7800293 ,
       2145.0300293 , 2177.72998047, 2177.30004883, 2183.36010742,
       2206.19995117, 2204.85009766, 2203.45996094, 2203.41992188,
       2177.05004883, 2180.72998047, 2190.4699707 , 2201.47998047,
       2225.85009766, 2196.09008789, 2210.88989258, 2205.62988281,
       2229.76000977, 2228.65991211, 2230.5       , 2232.56005859,
       2226.60009766, 2234.79003906, 2195.43994141, 2190.65991211,
       2179.22998047, 2175.60009766, 2165.79003906, 2137.43994141,
       2138.10009766, 2157.17993164, 2148.40991211, 2155.67993164,
       2176.11010742, 2179.48999023, 2177.62011719, 2177.10009766,
       2184.87988281, 2186.94995117, 2144.86010742, 2148.80004883,
       2145.62011719, 2128.10009766, 2140.66992188, 2168.28002

array([38750., 37600., 37450., 38750., 38100., 39600., 39800., 40500.,
       40050., 41100., 41450., 41950., 42300., 42750., 42150., 42000.,
       43050., 44750., 45050., 45500., 46400., 46150., 46350., 46200.,
       44800., 45000., 46050., 46200., 47500., 46050., 46200., 45950.,
       46900., 46950., 47150., 47350., 46750., 46750., 45100., 44850.,
       44250., 44000., 44450., 43800., 43650., 44650., 43850., 43850.,
       44200., 43700., 43900., 44050., 45850., 46550., 45500., 45250.,
       45350., 44850., 44650., 45050., 45750., 46600., 46950., 46850.,
       46650., 46650., 46700., 46250., 46850., 47050., 47250., 47050.,
       45600., 45300., 45350., 45200., 44750., 44650., 44850., 46150.,
       45850., 45900., 45300., 44850., 44250., 42450., 42900., 42650.,
       42650., 42550., 41550., 41200., 42000., 43150., 43500., 43850.,
       42700., 42650., 42550., 41800., 42550., 42500., 43800., 43450.,
       43900., 44200., 44800., 44850., 44600., 43750., 44000., 43900.,
      

In [5]:

# numpy가 제공하는 함수를 이용해서 공분산을 계산
print(np.cov(df_KOSPI['Close'].values,df_SE['Close'].values))
# 0행 0열 : KOSPI의 공분산( KOSPI & KOSPI )
# 0행 1열 : KOSPI와 삼성전자의 공분산
# 1행 0열 : 삼성전자와 KOSPI의 공분산
# 1행 1열 : 삼성전자의 공분산( 삼성전자 & 삼성전자 )
# sum((xi - x평균)(yi-y평균)) / n-1

[[6.28958682e+03 9.46863621e+04]
 [9.46863621e+04 1.41592089e+07]]


In [6]:
# 상관관계(correlation) : 두 대상이 서로 연관성이 있다고 추측되는 관계
# 성적과 자존감
# 온라인 게임과 폭력성

# 상관계수(correlation coefficient) : -1과 1사이의 실수.(피어슨 상관계수)
# 하나의 변수가 변할 때 다른 변수가 변화하는 정도
# 양수값이 나오면 정적상관관계, 음수가 나오면 부적상관관계
# 0에 가까울수록 관련성이 적어져요. 절대값이 1에 가까울수록 관련성이 높다

# 상관관계를 얘기할때 조심해야 할 점 : 인과관계를 설명할 수 없어요!

In [7]:
import numpy as np
import pandas as pd
import pandas_datareader.data as pdr
from datetime import datetime

start = datetime(2018,1,1)  # 2018-01-01 날짜 객체 생성
end = datetime(2018,12,31)  # 2018-12-31 날짜 객체 생성

# YAHOO에서 제공하는 종목 지수
df_KOSPI = pdr.DataReader('^KS11','yahoo',start,end)  # KOSPI
df_SE = pdr.DataReader('005930.KS','yahoo',start,end) # 삼성전자
df_PUSAN = pdr.DataReader('011390.KS','yahoo',start,end) # 부산산업(남북경협)
df_LIG = pdr.DataReader('079550.KS','yahoo',start,end) # LIG넥스원(방위)

my_dict = {
    'KOSPI' : df_KOSPI['Close'],
    '삼성전자' : df_SE['Close'],
    '부산산업' : df_PUSAN['Close'],
    'LIG넥스원' : df_LIG['Close']
}

df = pd.DataFrame(my_dict)
display(df)

display(df.corr())  # DataFrame이 가지고 있는 상관계수를 구하는 함수를 이용


Unnamed: 0_level_0,KOSPI,삼성전자,부산산업,LIG넥스원
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2018-01-03,2486.350098,51620.0,31850.0,59200.0
2018-01-04,2466.459961,51080.0,32500.0,57800.0
2018-01-05,2497.520020,52120.0,32300.0,55800.0
2018-01-08,2513.280029,52020.0,32900.0,54500.0
2018-01-09,2510.229980,50400.0,32900.0,54600.0
...,...,...,...,...
2018-12-21,2061.489990,38650.0,170000.0,33550.0
2018-12-24,2055.010010,38800.0,172000.0,33800.0
2018-12-26,2028.010010,38350.0,161000.0,33350.0
2018-12-27,2028.439941,38250.0,162000.0,33700.0


Unnamed: 0,KOSPI,삼성전자,부산산업,LIG넥스원
KOSPI,1.0,0.913574,-0.57498,0.791497
삼성전자,0.913574,1.0,-0.464685,0.649536
부산산업,-0.57498,-0.464685,1.0,-0.708109
LIG넥스원,0.791497,0.649536,-0.708109,1.0


In [8]:
# DataFrame이 가지고 있는 다양한 함수들(분석용 함수)

import numpy as np
import pandas as pd

data = [[2, np.nan],
        [7, -3],
        [np.nan, np.nan],
        [1, -2]]

df = pd.DataFrame(data,
                  columns=['one', 'two'],
                  index=['a','b','c','d'])
display(df)

# display(df.sum())   # axis를 생략하면 기본이 axis=0
                    # skipna = True(기본값) 
                    # Series로 리턴!
# display(df.sum(axis=1)) 
# print(df['two'].sum())
# print(df.loc['b'].sum())
# print(df.mean(axis=0,skipna=False))
# print(df.mean(axis=0,skipna=True))


# df['two'] = df['two'].fillna(value=df['two'].mean())
df = df.fillna(value=df['two'].mean())
        
display(df)

Unnamed: 0,one,two
a,2.0,
b,7.0,-3.0
c,,
d,1.0,-2.0


Unnamed: 0,one,two
a,2.0,-2.5
b,7.0,-3.0
c,-2.5,-2.5
d,1.0,-2.0


In [11]:
import numpy as np
import pandas as pd

np.random.seed(1)
df = pd.DataFrame(np.random.randint(0,10,(6,4)))
display(df)

Unnamed: 0,0,1,2,3
0,5,8,9,5
1,0,0,1,7
2,6,9,2,4
3,5,2,4,2
4,4,7,7,9
5,1,7,0,6


In [12]:
df.columns = ['A','B','C','D']
df.index = pd.date_range('20200101',periods=6)
display(df)

Unnamed: 0,A,B,C,D
2020-01-01,5,8,9,5
2020-01-02,0,0,1,7
2020-01-03,6,9,2,4
2020-01-04,5,2,4,2
2020-01-05,4,7,7,9
2020-01-06,1,7,0,6


In [13]:
# np.random.shuffle(df.index)
# shuffle()의 특징 : 원본을 바꾼다
# index 는 immutable이라서 에러 발생

In [14]:
new_index = np.random.permutation(df.index)
# permutaion은 복사본이 생성됨

In [17]:
df2 = df.reindex(index=new_index,columns=['B','A','D','C'])

#df2.sort_index(axis=0,ascending=True)
#df3 = df2.sort_index(axis)

In [19]:
display(df2.sort_values(by=['B','A']))

Unnamed: 0,B,A,D,C
2020-01-02,0,0,7,1
2020-01-04,2,5,2,4
2020-01-06,7,1,6,0
2020-01-05,7,4,9,7
2020-01-01,8,5,5,9
2020-01-03,9,6,4,2


In [24]:
np.random.seed(1)
df= pd.DataFrame(np.random.randint(0,10,(6,4)))
df.columns=['A','B','C','D']
df.index=pd.date_range('20200101',periods=6)
df['E']=['AA','BB','CC','CC','AA','CC']
display(df)

print(df['E'].unique())
print(df['E'].value_counts())

Unnamed: 0,A,B,C,D,E
2020-01-01,5,8,9,5,AA
2020-01-02,0,0,1,7,BB
2020-01-03,6,9,2,4,CC
2020-01-04,5,2,4,2,CC
2020-01-05,4,7,7,9,AA
2020-01-06,1,7,0,6,CC


['AA' 'BB' 'CC']
CC    3
AA    2
BB    1
Name: E, dtype: int64


In [25]:
## Pandas
## Series
## DataFrame - 생성 (CSV파일, 리스트, dict, Open API, Database)
##           - indexing(행과 열의 indexing)
##           - indexing, slicing, fancy indexing, boolean indexing
##           - lox[] / iloc[]
##           - function(수학적 집계함수, 정렬함수, 유틸리티 함수)
##           - merge() 



In [30]:
data1={'학번':[1,2,3,4],
       '이름':['홍길동','신사임당','아이유','김연아'],
       '학년':[2,4,1,3]}

                            
data2={'학번':[1,2,4,5],'학과':['컴퓨터','철학','심리','영어영문'],
       '학점':[3.5,2.7,4.0,4.3]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

pd.merge(df1,df2,on='학번',how = 'inner')

Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,컴퓨터,3.5
1,2,신사임당,4,철학,2.7
2,4,김연아,3,심리,4.0


In [33]:
data1={'학번':[1,2,3,4],
       '이름':['홍길동','신사임당','아이유','김연아'],
       '학년':[2,4,1,3]}

                            
data2={'학번':[1,2,4,5],'학과':['컴퓨터','철학','심리','영어영문'],
       '학점':[3.5,2.7,4.0,4.3]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

display(pd.merge(df1,df2,on='학번',how = 'outer'))
display(pd.merge(df1,df2,on='학번',how = 'left'))
display(pd.merge(df1,df2,on='학번',how = 'right'))



Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2.0,컴퓨터,3.5
1,2,신사임당,4.0,철학,2.7
2,3,아이유,1.0,,
3,4,김연아,3.0,심리,4.0
4,5,,,영어영문,4.3


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,컴퓨터,3.5
1,2,신사임당,4,철학,2.7
2,3,아이유,1,,
3,4,김연아,3,심리,4.0


Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2.0,컴퓨터,3.5
1,2,신사임당,4.0,철학,2.7
2,4,김연아,3.0,심리,4.0
3,5,,,영어영문,4.3


In [36]:
data1={'학번':[1,2,3,4],
       '이름':['홍길동','신사임당','아이유','김연아'],
       '학년':[2,4,1,3]}

                            
data2={'학생번호':[1,2,4,5],'학과':['컴퓨터','철학','심리','영어영문'],
       '학점':[3.5,2.7,4.0,4.3]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

# 같은 내용인데 이름이 다를 때
display(pd.merge(df1,df2,left_on='학번',right_on='학생번호',how = 'inner'))



Unnamed: 0,학번,이름,학년,학생번호,학과,학점
0,1,홍길동,2,1,컴퓨터,3.5
1,2,신사임당,4,2,철학,2.7
2,4,김연아,3,4,심리,4.0


In [40]:
data1={'학번':[1,2,3,4],
       '이름':['홍길동','신사임당','아이유','김연아'],
       '학년':[2,4,1,3]}

                            
data2={'학과':['컴퓨터','철학','심리','영어영문'],
       '학점':[3.5,2.7,4.0,4.3]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2,index=[1,2,4,5])

# 같은 내용인데 이름이 다를 때
display(pd.merge(df1,df2,left_on='학번',right_index=True,how = 'inner'))



Unnamed: 0,학번,이름,학년,학과,학점
0,1,홍길동,2,컴퓨터,3.5
1,2,신사임당,4,철학,2.7
3,4,김연아,3,심리,4.0
