# 데이터 사전처리(Preprocessing)
## 데이터 품질
    - 머신러닝, 딥러닝 등 데이터 분석의 정확도를 결정짓는 요소
    - 누락 데이터(NaN), 중복 데이터 등 오류 수정 필요
    - 분석 목적에 맞도록 변형 필요


## 누락 데이터 처리
- 누락 데이터가 NaN으로 표시되지 않는 경우
    - df.replace('?', np.nan, inplace=True)
    - ?는 NaN이 아닌 이상(abnormal)값

In [None]:
# titanic dataset을 사용할 수 있는 seaborn 패키지 불러오기
import seaborn as sns

# titanic 데이터셋을 데이터프레임으로 가져오기
df = sns.load_dataset('titanic')

In [None]:
# 데이터프레임 요약정보 보기
print(df.info())

In [None]:
# 갑판(deck) 열에 대한 NaN 개수 구하기
nan_decks = df['deck'].value_counts() 
print(nan_decks)
print()

# dropna=False로 설정해 NaN의 갯수 확인해 보기 
nan_decks = df['deck'].value_counts(dropna=False) 
print(nan_decks)

In [None]:
# isnull() 메서드로 누락 데이터 찾기
# 누락데이터 항목은 True로 표시됨
print(df.head(10).isnull())

In [None]:
# notnull() 메서드로 누락 데이터 찾기
# NaN이 아닌 데이터 항목은 True로 표시됨
print(df.head(10).notnull())

In [None]:
# isnull() 메서드로 각 열의 누락 데이터 개수 구하기
print(df.head(10).isnull().sum(axis=0))

## 누락 데이터 제거

In [None]:
# titanic dataset을 사용할 수 있는 seaborn 패키지 불러오기
import seaborn as sns

# titanic 데이터셋을 데이터프레임으로 가져오기
df = sns.load_dataset('titanic')

In [None]:
# for 반복문을 사용해 각 열의 NaN 개수 구하기
missing_dfs = df.isnull()
for cols in missing_dfs.columns:
    missing_counts = missing_dfs[cols].value_counts()    # 각 열에 대해 NaN 개수 알아내기

    try: 
        print(cols, ': ', missing_counts[True])   # NaN 값이 있는 경우 개수 출력
    except:
        print(cols, ': ', 0)                     # NaN 값이 없는 경우 0으로 출력

In [None]:
# NaN 개수가 400 이상의 열들 모두 삭제
#  - 갑판(deck) 열(891개 중 688개의 NaN 값이므로 데이터 분석에 사용하기 어려움)
df_threshs = df.dropna(axis=1, thresh=400)  
print(df_threshs.columns)

In [None]:
# age 열에 데이터가 없는 행을 모두 삭제 
#  - 나이(age) 열(891개 중 177개의 NaN 값으로 데이터 분석에 사용하기 어려움)
df_ages = df.dropna(subset=['age'], how='any', axis=0)  
# 삭제 후 나이(age) 열 개수 출력
print(len(df_ages))

## 누락 데이터 치환

In [None]:
# titanic dataset을 사용할 수 있는 seaborn 패키지 불러오기
import seaborn as sns

# titanic 데이터셋을 데이터프레임으로 가져오기
df = sns.load_dataset('titanic')

In [None]:
# 나이(age) 열에 대해 시작부터 20개 데이터를 출력해서 NaN 값 있는 지 확인 (5 행에 NaN 값 있음)
print(df['age'].head(20))
print('\n')

### 전략 1 : 데이터 평균값으로 치환

In [None]:
# 나이(age) 열의 NaN값을 age 열에 대한 평균값으로 변경하기
mean_ages = df['age'].mean(axis=0)   # 나이(age) 열에 대한 평균값 계산 (NaN 값 제외)
df['age'].fillna(mean_ages, inplace=True)

In [None]:
# 나이(age) 열에 대해 시작부터 20개 데이터를 출력 (5 행의 NaN 값을 평균값으로 대체)
print(df['age'].head(20))

In [None]:
# 승선도시(embark_town) 열에서 829행의 NaN 데이터 확인
print(df['embark_town'][825:831])
print('\n')

### 전략 2 : 최빈값으로 치환

In [None]:
# 승선도시(embark_town) 열의 최빈값 찾기
most_freqs = df['embark_town'].value_counts(dropna=True).idxmax()   

# 최빈값 출력
print(most_freqs)
print('\n')

In [None]:
# 승선도시(embark_town) 열의 NaN값을 승선도시 중에서 최빈값으로 변경하기
df['embark_town'].fillna(most_freqs, inplace=True)

# 승선도시(embark_town) 열 829행에 있는 NaN 데이터 출력 (NaN 값을 most_freq 값으로 변경)
print(df['embark_town'][825:830])

### 전략 3 : 다른 행의 값으로 치환

In [None]:
# titanic dataset을 사용할 수 있는 seaborn 패키지 불러오기
import seaborn as sns

# titanic 데이터셋을 데이터프레임으로 가져오기
dfs = sns.load_dataset('titanic')

# 승선도시(embark_town) 열 829행에 있는 NaN 데이터 출력
print(dfs['embark_town'][825:831])
print('\n')

# 승선도시(embark_town) 열에 존재하는 NaN값을 해당 위치 바로 전에 있는 828행의 값으로 치환
dfs['embark_town'].fillna(method='ffill', inplace=True)
print(dfs['embark_town'][825:831])

### 전략 4 : 특정 값으로 치환

In [None]:
# titanic dataset을 사용할 수 있는 seaborn 패키지 불러오기
import seaborn as sns

# titanic 데이터셋을 데이터프레임으로 가져오기
dfs = sns.load_dataset('titanic')

# 승선도시(embark_town) 열 829행에 있는 NaN 데이터 출력
print(df['embark_town'][825:831])
print('\n')

# 승선도시(embark_town) 열의 NaN값을 '인천항'으로 변경하기
df['embark_town'].fillna(value='인천항', inplace=True)
print(df['embark_town'][825:831])

## 중복 데이터 제거

In [None]:
import pandas as pd

# 중복 데이터가 포함된 데이터프레임 만들기
df = pd.DataFrame({'c_1':['a', 'b', 'a', 'a', 'b'],
                  'c_2':[1, 1, 2, 2, 2],
                  'c_3':[1, 1, 1, 2, 2]})
print(df)
print('\n')

In [None]:
# 데이터프레임 전체 행에서 중복된 값 찾기
df_dups = df.duplicated()
print(df_dups)

In [None]:
# 데이터프레임의 특정 열에서 중복된 값 찾기
col_dup = df['c_2'].duplicated()
print(col_dup)

In [None]:
# 데이터프레임에서 중복된 행 제거
df2 = df.drop_duplicates()
print('중복 제거 전\n', df)
print()
print('중복 제거 후\n',df2)

In [None]:
# c_2, c_3열을 기준으로 하여 중복 행 제거
df3 = df.drop_duplicates(subset=['c_2', 'c_3'])
print('중복 제거 전\n', df)
print()
print('중복 제거 후\n',df3)

## 데이터 표준화
    - 여러 곳에서 수집한 동일 데이터 항목의 서로 다른 표현을 통일하는 것
    - 단위, 표기방법, 데이터 타입 등

### 단위 표준화

In [None]:
import pandas as pd

# 자동차_제원_정보.csv 파일의 데이터 읽어들이기
df = pd.read_csv('data/자동차_제원_정보.csv', header=None)

# 열 이름을 지정
df.columns = ['연비(mpg)','실린더 수','배기량','마력','중량',
              '엑셀','년식','제조국','차종']

print(df.head(10))    
print('\n')

In [None]:
# 연비(mile per gallon, mpg)를 연비(kilometer per liter, kpl)로 변환 (mpg_to_kpl = 0.4250)
mpg_to_kpl = 1.609340 / 3.785410

In [None]:
# 연비 열에 0.425를 곱한 결과를 새로운 열(kpl)에 추가
df['연비(kpl)'] = df['연비(mpg)'] * mpg_to_kpl
print('연비(kpl) 추가된 데이터프레임\n', df.head(10))    
print('\n')

In [None]:
# kpl 열을 소수점 아래 셋째 자리에서 반올림 
df['연비(kpl)'] = df['연비(kpl)'].round(3)
print(df.head(10))  

### 데이터 타입 변환

In [None]:
import pandas as pd

# 자동차_제원_정보.csv 파일의 데이터 읽어들이기
df = pd.read_csv('data/자동차_제원_정보.csv', header=None)

# 열 이름을 지정
df.columns = ['연비(mpg)','실린더 수','배기량','마력','중량',
              '엑셀','년식','제조국','차종']

# 각 열의 자료형을 확인
print(df.dtypes)

In [None]:
# 마력 열의 고유값 확인
# unique() : 고유값을 numpy의 ndarray로 반환
print(df['마력'].unique())
print('\n')

#### 문자열 데이터 --> 실수형 데이터

In [None]:
# '?'로 표시된 누락 데이터 삭제 
import numpy as np
df['마력'].replace('?', np.nan, inplace=True)      # '?'로 되어있는 데이터를 np.nan으로 변경
df.dropna(subset=['마력'], axis=0, inplace=True)   # 누락데이터가 있는 행을 삭제
df['마력'] = df['마력'].astype('float')      # 문자열을 실수형으로 형변환

In [None]:
# 마력 열의 자료형 확인
print(df['마력'].dtypes)  
print('\n')

#### 정수형 데이터 --> 문자형 데이터

In [None]:
# 제조국 열의 고유값 확인
print(df['제조국'].unique())

In [None]:
# 정수형 데이터를 문자형 데이터로 변환 
df['제조국'].replace({1:'미국(USA)', 2:'유럽연합(EU)', 3:'일본(JPN)'}, inplace=True)

In [None]:
# 제조국 열의 고유값과 자료형 확인
print(df['제조국'].unique())
print(df['제조국'].dtypes) 
print('\n')

#### 문자열 데이터 --> 범주형 데이터

In [None]:
# 제조국 열의 문자열 자료형을 범주형으로 변환
df['제조국'] = df['제조국'].astype('category')     
print(df['제조국'].dtypes) 

#### 범주형 데이터 --> 문자열 데이터

In [None]:
# 범주형을 문자열로 다시 변환
df['제조국'] = df['제조국'].astype('str')     
print(df['제조국'].dtypes)

#### 정수형 데이터 --> 범주형 데이터

In [None]:
# 년식 열의 정수형을 범주형으로 변환
# sample(n) : 랜덤하게 n개 선택
print(df['년식'].sample(3))
df['년식'] = df['년식'].astype('category') 
print(df['년식'].sample(3)) 

## 데이터 구간 분할(binning)
    - 데이터를 일정한 구간(bin)으로 나누어서 분석하고자 할 때
    - 가격, 비용, 효율 등 연속적 값을 이산적 값으로 변환
    - n개의 구간 = n+1개의 경계값 필요

In [None]:
import pandas as pd # 더미 주석
import numpy as np # 더미 주석

# 자동차_제원_정보.csv 파일의 데이터 읽어들이기
df = pd.read_csv('data/자동차_제원_정보.csv', header=None)

# 열 이름을 새로 지정
df.columns = ['연비(mpg)','실린더 수','배기량','마력','중량',
              '엑셀','년식','제조국','차종']


In [None]:
# '?'로 표시된 마력 열의 데이터를 삭제하고 실수형으로 변환
df['마력'].replace('?', np.nan, inplace=True)      # '?'로 표시된 데이터를 np.nan으로 변경
df.dropna(subset=['마력'], axis=0, inplace=True)   # 누락데이터 행을 삭제
df['마력'] = df['마력'].astype('float')      # 문자열을 실수형으로 변환

In [None]:
# np.histogram() 함수를 사용해 3개 bin으로 구분하는 경계 값 리스트 구하기
# n개의 구간 = n+1개의 경계값
# 각 반환 값은 np.ndarry 타입
count, bin_divs = np.histogram(df['마력'], bins=3)
print('각 bin에 속한 데이터 갯수 : ', count)
print('경계 값 : ',bin_divs)

In [None]:
# 3개의 출력형태를 bin에 대입
bin_names = ['저출력', '보통출력', '고출력']

# pd.cut() 함수로 3개의 bin에 각 데이터를 할당
df['마력_bin'] = pd.cut(x=df['마력'],     # 데이터 배열 지정
                      bins=bin_dividers,      # 경계값에 대한 리스트
                      labels=bin_names,       # bin의 이름 리스트
                      include_lowest=True)    # 맨 처음 경계값(낮은쪽) 포함 

# 마력 열, 마력_bin 열의 첫 15행을 출력
print(df[['마력', '마력_bin']].head(15))

### 더미 변수(Dummy Variable)
    - 어떤 특성이 있는 지 없는 지 여부만을 표시할 때

In [None]:
import pandas as pd # 더미 주석
import numpy as np # 더미 주석

# 자동차_제원_정보.csv 파일의 데이터 읽어들이기
df = pd.read_csv('data/자동차_제원_정보.csv', header=None)

# 열 이름을 지정
df.columns = ['연비(mpg)','실린더 수','배기량','마력','중량',
              '엑셀','년식','제조국','차종']

# '?'로 표시된 마력 열의 데이터를 삭제하고 실수형으로 변환
df['마력'].replace('?', np.nan, inplace=True)      # '?'로 표시된 데이터를 np.nan으로 변경
df.dropna(subset=['마력'], axis=0, inplace=True)   # 누락데이터 행을 삭제
df['마력'] = df['마력'].astype('float')      # 문자열을 실수형으로 변환

In [None]:
# np.histogram() 함수를 사용해 3개 bin으로 구분하는 경계 값 리스트 구하기
count, bin_divs = np.histogram(df['마력'], bins=3)

# 3개의 출력형태로 bin 구성
bin_names = ['저출력', '보통출력', '고출력']

# pd.cut() 함수를 사용해 bin에 각 데이터를 나누어 저장
df['마력_bin'] = pd.cut(x=df['마력'],     # 데이터 배열
                      bins=bin_divs,      # 경계값의 리스트
                      labels=bin_names,       # bin의 이름 리스트
                      include_lowest=True)    # 맨 처음 경계값(낮은쪽) 포함 

# 마력_bin의 범주형 데이터들을 더미 변수로 치환
마력_dummies = pd.get_dummies(df['마력_bin'])
print(마력_dummies.head(15))

### 원핫인코딩(one-hot-encoding)
    - 컴퓨터로 인식할 수 있도록 범주형 데이터를  0 또는 1로만 구성되는 one hot vector로 표현하는 것
    - 희소행렬(sparse matrix)화 함
    - sklearn 라이브러리 활용해 처리할 수 있음

In [None]:
import pandas as pd # 더미 주석
import numpy as np # 더미 주석

# 자동차_제원_정보.csv 파일의 데이터 읽어들이기
df = pd.read_csv('data/자동차_제원_정보.csv', header=None)

# 열 이름을 지정
df.columns = ['연비(mpg)','실린더 수','배기량','마력','중량',
              '엑셀','년식','제조국','차종']

# '?'로 표시된 마력 열의 데이터를 삭제하고 실수형으로 변환
df['마력'].replace('?', np.nan, inplace=True)      # '?'로 표시된 데이터를 np.nan으로 변경
df.dropna(subset=['마력'], axis=0, inplace=True)   # 누락데이터 행을 삭제
df['마력'] = df['마력'].astype('float')      # 문자열을 실수형으로 변환

# np.histogram() 함수를 사용해 3개 bin으로 구분하는 경계 값 리스트 구하기
count, bin_divs = np.histogram(df['마력'], bins=3)

# 3개의 출력형태로 bin 구성
bin_names = ['저출력', '보통출력', '고출력']

# pd.cut() 함수를 사용해 3개의 bin에 각 데이터를 지정
df['마력_bin'] = pd.cut(x=df['마력'],     # 데이터 배열
                      bins=bin_divs,      # 경계값의 리스트
                      labels=bin_names,       # bin의 이름 리스트
                      include_lowest=True)    # 맨 처음 경계값(낮은쪽) 포함 

In [None]:
# sklern 라이브러리 불러오기
from sklearn import preprocessing   

In [None]:
# 전처리를 위한 encoder 객체 만들기
lbl_encoder = preprocessing.LabelEncoder()       # label encoder를 생성
onehot_encoders = preprocessing.OneHotEncoder()   # one hot encoder를 생성

# label encoder를 사용해 문자열 범주를 숫자형 범주로 바꿈
onehot_lbled = lbl_encoder.fit_transform(df['마력_bin'].head(10))  
print(onehot_lbled)
print(type(onehot_lbled))

# 2차원 행렬 형태로 변경
onehot_reshape = onehot_lbled.reshape(len(onehot_lbled), 1) 
print(onehot_reshape)
print(type(onehot_reshape))

# 희소행렬 형태로 변경
onehonehot_fit = onehot_encoders.fit_transform(onehot_reshape)
print(onehonehot_fit)
print(type(onehonehot_fit))

### 정규화(normalization)
    - 각 데이터프레임의 열(변수)에 들어 있는 숫자 데이터들의 상대적 크기차를 줄이기 위한 방법
    - 0 ~ 1 사이의 실수 값을 가지도록 변환

In [None]:
import pandas as pd # 더미 주석
import numpy as np # 더미 주석

# 자동차_제원_정보.csv 파일의 데이터 읽어들이기
df = pd.read_csv('data/자동차_제원_정보.csv', header=None)

# 열 이름을 지정
df.columns = ['연비(mpg)','실린더 수','배기량','마력','중량',
              '엑셀','년식','제조국','차종']

# '?'로 표시된 마력 열의 데이터를 삭제하고 실수형으로 변환
df['마력'].replace('?', np.nan, inplace=True)     # '?'로 표시된 데이터를 np.nan으로 변경
df.dropna(subset=['마력'], axis=0, inplace=True)   # 누락데이터 행을 삭제
df['마력'] = df['마력'].astype('float')      # 문자열을 실수형으로 변환

# 마력 열 통계 요약정보 중 최대값(max)을 확인
print(df.마력.describe())

In [None]:
# 마력 열의 최대값을 절대값으로 해서 모든 데이터를 나눠서 저장
df.마력 = df.마력 / abs(df.마력.max()) 

print(df.마력.head())
print('\n')
print(df.마력.describe())

In [None]:
import pandas as pd # 더미 주석
import numpy as np # 더미 주석

# 자동차_제원_정보.csv 파일의 데이터 읽어들이기
df = pd.read_csv('data/자동차_제원_정보.csv', header=None)

# 열 이름을 지정
df.columns = ['연비(mpg)','실린더 수','배기량','마력','중량',
              'acceleration','년식','제조국','차종']  

# '?'로 표시된 마력 열의 데이터를 삭제하고 실수형으로 변환
df['마력'].replace('?', np.nan, inplace=True)      # '?'로 표시된 데이터를 np.nan으로 변경
df.dropna(subset=['마력'], axis=0, inplace=True)   # 누락데이터 행을 삭제
df['마력'] = df['마력'].astype('float')      # 문자열을 실수형으로 변환

# 마력 열 통계 요약정보 중 최대값(max)과 최소값(min)을 확인
print(df.마력.describe())
print('\n')

In [None]:
# 마력 열의 최대값을 절대값으로 해서 모든 데이터를 나눠서 저장
min_x = df.마력 - df.마력.min()
min_max = df.마력.max() - df.마력.min()
df.마력 = min_x / min_max

print(df.마력.head())
print('\n')
print(df.마력.describe())

## 시계열(Time Series) 데이터
### □ 시계열 데이터란?
    - 특정한 시간에서 측정된 비 연속 데이터
### □ 시계열 분석
    - 과거 누적된 데이터로 부터 의존성 패턴을 알아내는 것
    - 알아낸 패턴을 활용해 미래를 예측하는 것
### □ Pandas에서 시간표시를 위한 자료형
    - Timestamp 자료형 : to_datetime()함수를 사용해 생성 가능, 날짜형태 자료형을 시계열 타입으로 변환
    - Period 자료형 : Timestamp(datetime)객체를 기간을 나타내는 자료형으로 변환하고자 할 때 사용


### 다른 자료형을 시계열 객체로 변환하기
    - 시간 데이터를 표시할 때 문자열 또는 숫자로 표시하는 경우가 많음
    - 시간 데이터에 대한 연산 및 쉬운 처리를 위해 시계열 객체로 변환이 필요

#### 문자열을 timestamp로 변환하기

In [None]:
import pandas as pd # 더미 주석

# 주식데이터.csv 파일의 데이터 읽어들이기
df = pd.read_csv('data/주식데이터.csv')

# data의 내용과 datatype을 출력해 확인
print(df.head())
print('\n')
print(df.info())

In [None]:
# 시리즈 객체 형식의 문자열 데이터를 판다스의 Timestamp로 변환
df['new_Dates'] = pd.to_datetime(df['Date'])   # 새로운 열 new_Dates를 df에 추가

# 데이터의 내용, 자료형 자료형을 출력해 확인
print(df.head(10))
print('\n데이터 정보 : ')
print(df.info())
print('\nnew_Dates의 자료형 :')
print(type(df['new_Dates'][1]))

In [None]:
# 새로운 행 인덱스로 시계열 값으로 변환된 열을 지정하고 기존 날짜 열은 삭제

# 행 인덱스로 시계열 값을 지정하면 판다스에서는 DatetimeIndex로 저장함
df.set_index('new_Dates', inplace=True) # new_Dates를 새로운 인덱스로 설정
df.drop('Date', axis=1, inplace=True)

# data의 내용과 datatype을 출력해 확인
print(df.head(10))
print('\n')
print(df.info())

#### Timestamp를 Period로 변환하기

<table border='1'>
<tr><td>옵션</td><td>설명</td><td>옵션</td><td>설명</td></tr>
<tr><td>D</td><td>day(1일)</td><td>B</td><td>business day(휴일제외)</td></tr>
<tr><td>W</td><td>week(1주)</td><td>H</td><td>hour(1시간)</td></tr>
<tr><td>M</td><td>month end(월말)</td><td>T</td><td>minute(1분)</td></tr>
<tr><td>MS</td><td>month start(월초)</td><td>S</td><td>second(1초)</td></tr>
<tr><td>Q</td><td>quarter end(분기말)</td><td>L</td><td>millisecond(1/1,000ch)</td></tr>
<tr><td>QS</td><td>quarter start(분기초)</td><td>U</td><td>microsecond(1/1,000,000초)</td></tr>
<tr><td>A</td><td>annual end(연말)</td><td>N</td><td>nanosecond(1/1,000,000,000초)</td></tr>
<tr><td>AS</td><td>annual start(연초)</td><td>...</td><td>...</td></tr>
</table>


In [None]:
import pandas as pd # 더미 주석

# 날짜 형식 문자열 형식으로 구성되는 리스트 정의
dates = ['2020-08-21', '2021-03-01', '2022-06-01']

In [None]:
# 시리즈 객체 형식의 문자열 데이터를 Timestamp 형식으로 바꿈
timestamp_dates = pd.to_datetime(dates)   
print(timestamp_dates)
print('\n')

In [None]:
# Timestamp 형식을 Period 형식으로 변환
priod_day = ts_dates.to_period(freq='D') # D = Day
print(priod_day)
priod_month = ts_dates.to_period(freq='M') # M = Month
print(priod_month)
priod_year = ts_dates.to_period(freq='A') # A = Annual
print(priod_year)

### 시계열 데이터 만들기 (1) : Timestamp 배열

In [None]:
import pandas as pd # 더미 주석

# 월 간격, 월의 시작일을 기준으로 Timestamp 배열 만들기
timestamp_ms = pd.date_range(start='2021-01-01',    # 날짜 범위 시작
                   end=None,                 # 날짜 범위 끝을 None으로 설정
                   periods=6,                # 생성할 타임스템프의 개수를 6개로 설정
                   freq='MS',                # 시간 간격 (MS: 간격 월의 시작일)
                   tz='Asia/Seoul')          # 타임존(timezone)을 서울로 설정
print(timestamp_ms)

In [None]:
# 월 간격, 월의 마지막 날 기준
timestamp_me = pd.date_range('2021-01-01', periods=6, 
                   freq='M',              # 시간 간격 (M: 간격 월의 마지막 날)
                   tz='Asia/Seoul')       # 타임존(timezone)을 서울로 설정
print(timestamp_me)
print('\n')

In [None]:
# 3개월 분기의 간격으로, 월 마지막 날을 기준으로
timestamp_3m = pd.date_range('2021-01-01', periods=6, 
                   freq='3M',             # 3개월 간격으로 설정
                   tz='Asia/Seoul')       # 타임존(timezone)
print(timestamp_3m)

### 시계열 데이터 만들기 (2) : Period 배열

In [None]:
import pandas as pd # 더미 주석

# 월 간격과 월의 시작일 기준으로 Timestamp 배열 생성
timestamp_ms = pd.date_range(start='2021-01-01',    # 날짜 시작 범위
                   end=None,                 # 날짜 끝 범위
                   periods=6,                # 타임스템프의 개수를 6개로 설정
                   freq='MS',                # 시간 간격 (MS: 간격 월의 시작일)
                   tz='Asia/Seoul')          # 타임존(timezone)을 서울로 설정
print(timestamp_ms)

In [None]:
# 월 간격과 월의 마지막 날을 기준으로
timestamp = pd.date_range('2021-08-21', periods=6, 
                   freq='M',              # 시간 간격 (M: 간격 월의 마지막 날)
                   tz='Asia/Seoul')       # 타임존(timezone)을 서울로 설정
print(timestamp_me)
print('\n')

In [None]:
# 분기(3개월) 간격으로 월의 마지막 날 기준으로
timestamp_3m = pd.date_range('2021-08-21', periods=6, 
                   freq='3M',             # 시간 간격 (3M: 3개월로 설정)
                   tz='Asia/Seoul')       # 타임존(timezone)을 서울로 설정
print(timestamp_3m)