In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import os
print(os.getcwd())

import platform
from matplotlib import font_manager, rc
import seaborn as sns # 데이터셋을 가져오기 위해 import

if platform.system() == 'Darwin':
    rc('font', family = 'AppleGothic')
elif platform.system() == 'Windows':
    font_name = font_manager.FontProperties(fname = 'c:/Windows/Fonts/malgun.ttf').get_name()
    rc('font', family = font_name)
    
# 그래프에서 음수를 사용하기 위한 설정
plt.rcParams['axes.unicode_minus'] = False

C:\Users\USER\lg dx python


In [37]:
# 데이터 가져오기 - stock-data.csv 파일
DF = pd.read_csv('./data/stock-data.csv')
#print(DF.head())
DF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Date    20 non-null     object
 1   Close   20 non-null     int64 
 2   Start   20 non-null     int64 
 3   High    20 non-null     int64 
 4   Low     20 non-null     int64 
 5   Volume  20 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 1.1+ KB


In [6]:
# Date 컬럼을 날짜 자료형으로 변경해서 새로운 필드로 저장하기
# Date 컬럼의 형식이 날짜 형식과 일치하기에 별다른 처리 없이 바로 변환 가능
# pandas 의 to_datetime 함수를 사용
# 자료형은 datetime64
DF['newDate'] = pd.to_datetime(DF['Date'])
DF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype         
---  ------   --------------  -----         
 0   Date     20 non-null     object        
 1   Close    20 non-null     int64         
 2   Start    20 non-null     int64         
 3   High     20 non-null     int64         
 4   Low      20 non-null     int64         
 5   Volume   20 non-null     int64         
 6   newDate  20 non-null     datetime64[ns]
dtypes: datetime64[ns](1), int64(5), object(1)
memory usage: 1.2+ KB


In [10]:
# 새로 생성한 날짜 컬럼을 인덱스로 지정하기
DF.set_index('newDate', inplace = True)
# 기존의 Date 컬럼 삭제
DF.drop('Date', axis = 1, inplace = True)
print(DF.head())
DF.info()

            Close  Start   High    Low  Volume
newDate                                       
2018-07-02  10100  10850  10900  10000  137977
2018-06-29  10700  10550  10900   9990  170253
2018-06-28  10400  10900  10950  10150  155769
2018-06-27  10900  10800  11050  10500  133548
2018-06-26  10800  10900  11000  10700   63039
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 20 entries, 2018-07-02 to 2018-06-01
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Close   20 non-null     int64
 1   Start   20 non-null     int64
 2   High    20 non-null     int64
 3   Low     20 non-null     int64
 4   Volume  20 non-null     int64
dtypes: int64(5)
memory usage: 960.0 bytes


In [50]:
# 날짜 형식의 샘플 데이터 생성
# 첫번째는 변경이 가능하지만 두번째 날짜는 변경 불가능한 데이터
sample_date = np.array(['01-02-2023 12:00 AM', '28-03-2022 11:15 AT'])

# 날짜 포맷을 지정해서 형 변환
# 두번째 날짜의 AT 가 포맷과 일치하지 않아서 에러 발생
# errors 옵션에 ingnore 를 지정하면 예외가 발생하면 문자열 그대로 저장
# list는 2개의 데이터 자료형이 달라도 문제가 생기지 않지만
# array 나 DataFrame으로 변환해서 사용하는 경우 문제가 생길 수 있음
print(np.array([pd.to_datetime(date, format = '%d-%m-%Y %I:%M %p',
                     errors = 'ignore') for date in sample_date]))
# 결과 - [Timestamp('2023-02-01 00:00:00') '28-03-2022 11:15 AT']
# 둘의 자료형이 달라질 수 있기에 ignore 는 권장하지 않는 방식

# DataFrame 의 경우 자료형이 동일해야 하므로 
# 자료형이 서로 다른 datatime과 문자열이 obeject 타입으로 저장됨
# 형 변환을 한 의미가 없어짐
print(pd.DataFrame([pd.to_datetime(date, format = '%d-%m-%Y %I:%M %p',
                     errors = 'ignore') for date in sample_date]).info())


[Timestamp('2023-02-01 00:00:00') '28-03-2022 11:15 AT']
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       2 non-null      object
dtypes: object(1)
memory usage: 144.0+ bytes
None


In [21]:
# errors 옵션에 coerce 를 사용
# 자료형 변환이 되지 않는 경우 NaT 로 설정
# 즉, 자료형이 일치하지 않는 경우 결측치로 처리
# object 자료형이 아니라 의도한대로 datetime 형식으로 저장됨
print(pd.DataFrame([pd.to_datetime(date, format = '%d-%m-%Y %I:%M %p',
                     errors = 'coerce') for date in sample_date]).info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   0       1 non-null      datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 144.0 bytes
None


In [22]:
# errors 옵션에 raise 를 사용
# default 옵션
# 에러(예외)를 발생시킴
print(pd.DataFrame([pd.to_datetime(date, format = '%d-%m-%Y %I:%M %p',
                     errors = 'raise') for date in sample_date]).info())

ValueError: time data '28-03-2022 11:15 AT' does not match format '%d-%m-%Y %I:%M %p' (match)

In [36]:
# 샘플 날짜 데이터 생성
sample_date = np.array(['2023-01-23', '2022-04-29', '2020-04-21'])

# datetime 형식으로 변환
pd_date = pd.to_datetime(sample_date)
# 기간을 월단위로 변경
# 기존 날짜 데이터에서 일을 제외하고 월까지만 출력
pr_month = pd_date.to_period(freq = 'M')
print(pr_month)

# 기간을 연단위로 설정
# 월 단위 이하를 제외하고 연도까지만 출력
pr_year = pd_date.to_period(freq = 'A')
print(pr_year)

# 기간을 분기로 설정
# 날짜의 출력 형식이 달라짐 - 2023Q1 형식
pr_qua = pd_date.to_period(freq = 'Q')
print(pr_qua)


PeriodIndex(['2023-01', '2022-04', '2020-04'], dtype='period[M]')
PeriodIndex(['2023', '2022', '2020'], dtype='period[A-DEC]')
PeriodIndex(['2023Q1', '2022Q2', '2020Q2'], dtype='period[Q-DEC]')


In [43]:
# 2023년 1월 1일부터 월 단위로 데이터를 12개 생성
# 기준 시간대는 seoul
month_period = pd.date_range(start = '2023-01-01', periods = 12,
                            freq = 'MS', tz = 'Asia/Seoul')
print(month_period)

DatetimeIndex(['2023-01-01 00:00:00+09:00', '2023-02-01 00:00:00+09:00',
               '2023-03-01 00:00:00+09:00', '2023-04-01 00:00:00+09:00',
               '2023-05-01 00:00:00+09:00', '2023-06-01 00:00:00+09:00',
               '2023-07-01 00:00:00+09:00', '2023-08-01 00:00:00+09:00',
               '2023-09-01 00:00:00+09:00', '2023-10-01 00:00:00+09:00',
               '2023-11-01 00:00:00+09:00', '2023-12-01 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='MS')


In [47]:
print(month_period[2] - month_period[0]) # 59 days 00:00:00
print(month_period[1] - month_period[0]) # 31
print(month_period[2] - month_period[1]) # 28

59 days 00:00:00
31 days 00:00:00
28 days 00:00:00


In [53]:
# 데이터를 가져와서 문자열을 날짜로 변경
DF = pd.read_csv('./data/stock-data.csv')
DF['newDate'] = pd.to_datetime(DF['Date'])
DF.set_index('newDate', inplace = True)
DF.drop('Date', axis = 1, inplace = True)
print(DF.head())

            Close  Start   High    Low  Volume
newDate                                       
2018-07-02  10100  10850  10900  10000  137977
2018-06-29  10700  10550  10900   9990  170253
2018-06-28  10400  10900  10950  10150  155769
2018-06-27  10900  10800  11050  10500  133548
2018-06-26  10800  10900  11000  10700   63039


In [59]:
# 날짜 인덱스를 사용하기 때문에 
# 날짜의 일부분만 가지고도 인덱싱이 가능
# 문자열은 이런 방식의 인덱싱을 할 수 없음

# 2018년에 해당하는 데이터
# single string을 사용해서 인덱싱하므로 loc 를 사용
DF_year = DF.loc['2018']
print(DF_year.head())

            Close  Start   High    Low  Volume
newDate                                       
2018-07-02  10100  10850  10900  10000  137977
2018-06-29  10700  10550  10900   9990  170253
2018-06-28  10400  10900  10950  10150  155769
2018-06-27  10900  10800  11050  10500  133548
2018-06-26  10800  10900  11000  10700   63039


In [63]:
# 2018년 6월에 해당하는 데이터
DF_mon = DF.loc['2018-06']
print(DF_mon.head())

            Close  Start   High    Low  Volume
newDate                                       
2018-06-29  10700  10550  10900   9990  170253
2018-06-28  10400  10900  10950  10150  155769
2018-06-27  10900  10800  11050  10500  133548
2018-06-26  10800  10900  11000  10700   63039
2018-06-25  11150  11400  11450  11000   55519


In [64]:
# 지정한 기간 사이의 데이터만 가져오기
DF_bet = DF.loc['2018-06-05' : '2018-06-20']
print(DF_bet.head())

# 가져올 컬럼도 지정
DF_bet = DF.loc['2018-06-05' : '2018-06-20', 'Start':'Low']
print(DF_bet.head())


            Close  Start   High    Low  Volume
newDate                                       
2018-06-20  11550  11200  11600  10900  308596
2018-06-19  11300  11850  11950  11300  180656
2018-06-18  12000  13400  13400  12000  309787
2018-06-15  13400  13600  13600  12900  201376
2018-06-14  13450  13200  13700  13150  347451
            Start   High    Low
newDate                        
2018-06-20  11200  11600  10900
2018-06-19  11850  11950  11300
2018-06-18  13400  13400  12000
2018-06-15  13600  13600  12900
2018-06-14  13200  13700  13150


In [75]:
# 날자 데이터 생성
date_index = pd.date_range('2020-01-01', periods = 6, freq = 'MS')
DF = pd.DataFrame(index = date_index)
DF['Sales'] = [1.2, 2.4, 3.6, np.nan, np.nan, 7.2]

# 앞의 데이터로 채워넣기
print(DF.ffill())
# 뒤의 데이터로 채워넣기
print(DF.bfill())

# 선형으로 보간해서 출력
print(DF.interpolate())
# 비선형으로 보간
print(DF.interpolate(method = 'quadratic'))


            Sales
2020-01-01    1.2
2020-02-01    2.4
2020-03-01    3.6
2020-04-01    3.6
2020-05-01    3.6
2020-06-01    7.2
            Sales
2020-01-01    1.2
2020-02-01    2.4
2020-03-01    3.6
2020-04-01    7.2
2020-05-01    7.2
2020-06-01    7.2
            Sales
2020-01-01    1.2
2020-02-01    2.4
2020-03-01    3.6
2020-04-01    4.8
2020-05-01    6.0
2020-06-01    7.2
               Sales
2020-01-01  1.200000
2020-02-01  2.400000
2020-03-01  3.600000
2020-04-01  4.856913
2020-05-01  6.030826
2020-06-01  7.200000


In [80]:
DF['stock_price'] = [2, 4, 6, 8, 10, 12]

# 단순 이동 평균
# 이전 값이 없는 첫번째 데이터는 NaN을 가짐
# window 를 통해 가져올 데이터의 수 지정 가능
# 2개 데이터를 가져와서 평균을 가짐
print(DF.rolling(window = 2).mean())

# 지수 이동 평균
# span 을 통해 alpha 값 지정 가능
print(DF.ewm(span = 2).mean())

            Sales  stock_price
2020-01-01    NaN          NaN
2020-02-01    1.8          3.0
2020-03-01    3.0          5.0
2020-04-01    NaN          7.0
2020-05-01    NaN          9.0
2020-06-01    NaN         11.0
               Sales  stock_price
2020-01-01  1.200000     2.000000
2020-02-01  2.100000     3.500000
2020-03-01  3.138462     5.230769
2020-04-01  3.138462     7.100000
2020-05-01  3.138462     9.041322
2020-06-01  6.993750    11.016484
