**출처 : 파이썬 머신러닝 판다스 데이터 분석, 오승환 지음, 정보문화사**

### 데이터 사전 처리

- [**누락 데이터 처리**](#누락-데이터-처리)
    - [**누락 데이터 확인**](#누락-데이터-확인)
    - [**누락 데이터 제거**](#누락-데이터-제거)
    - [**누락 데이터 치환**](#누락-데이터-치환)    

- [**중복 데이터 처리**](#중복-데이터-처리)
    - [**중복 데이터 확인**](#중복-데이터-확인)
    - [**중복 데이터 제거**](#중복-데이터-제거)

- [**데이터 표준화**](#데이터-표준화)
    - [**단위 환산**](#단위-환산)
    - [**자료형 변환**](#자료형-변환)

- [**범주형(카테고리) 데이터 처리**](#범주형(카테고리)-데이터-처리)
    - [**구간 분할**](#구간-분할)
    - [**더미 변수**](#더미-변수)

- [**정규화**](#정규화)

- [**시계열 데이터**](#시계열-데이터)
    - [**다른 자료형을 시계열 객체로 변환**](#다른-자료형을-시계열-객체로-변환)
        - [**문자열을 Timestamp로 변환**](#문자열을-Timestamp로-변환)    
        - [**Timestamp를 Period로 변환**](#Timestamp를-Period로-변환)            
    - [**시계열 데이터 만들기**](#시계열-데이터-만들기)
        - [**Timestamp 배열**](#Timestamp-배열)
        - [**Period 배열**](#Period-배열)
    - [**시계열 데이터 활용**](#시계열-데이터-활용)
        - [**날짜 데이터 분리**](#날짜-데이터-분리)
        - [**날짜 인덱스 활용**](#날짜-인덱스-활용)

----

# 누락 데이터 처리

* 사전 처리(Preprocessing)
    - 머신러닝 등 데이터 분석에서 정확도는 분석 데이터의 품질에 좌우됨.
    - 데이터 품질을 높이기 위해서 누락 데이터, 중복 데이터 등 오류를 수정하고 분석 목적에 맞게 변형이 필요
    - 수집한 데이터를 분석하기 적합하도록 사전 처리가 필요
    
* 유효한 데이터 값이 존재하지 않는 누락 데이터를 NaN(Not a Number)로 표시

* 머신러닝 분석 모형에 데이터를 입력하기 전에 누락 데이터를 제거하거나 다른 적절한 값으로 대체하는 과정 필요
    - 누락 데이터가 많아지면 데이터의 품질이 떨어지고, 머신러닝 분석 알고리즘의 왜곡 현상이 발생

## 누락 데이터 확인

* 누락 데이터 확인 예제
    - Seaborn 라이브러리의 'titanic' 데이터셋 사용
        - 'deck'열에 NaN 값이 존재. 이 승객의 경우 몇 번 데크에 승선했는지 데이터가 없다는 뜻

In [2]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')
df

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


* info() 메소드로 데이터프레임의 요약 정보 출력
    - 각 열에 속하는 데이터 중에서 유효한(non-null, 즉 NaN값이 아닌) 값의 개수를 보여줌.
    - RangeIndex를 보면 각 열에 891개의 데이터가 존재
    - 'deck' 열에는 203개의 유효한 범주형 데이터가 존재
    - 따라서 'deck' 열에는 누락데이터가 688개(=891-203) 존재

In [104]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.6+ KB


* value_counts() 메소드를 이용하여 'deck' 열에 688개의 누락 데이터가 있는 것을 파악할 수도 있음
    - 누락 데이터의 개수를 확인하기 위해서 dropna=False 옵션 지정
    - 그렇지 않으면 NaN 값을 제외하고 유효한 데이터의 개수만을 구함.  

In [105]:
# deck 열의 NaN 개수 계산하기
nan_deck = df['deck'].value_counts(dropna=False) 
nan_deck

NaN    688
C       59
B       47
D       33
E       32
A       15
F       13
G        4
Name: deck, dtype: int64

* 누락 데이터를 직접적으로 찾는 방법 isnull() 메소드와 notnull() 메소드가 있음.
    - isnull() : 누락 데이터면 True 반환, 유효한 데이터가 존재하면 False 반환
    - notnull() : 유효한 데이터가 존재하면 True 반환, 누락 데이터면 False 반환

In [3]:
# isnull() 메서드로 누락 데이터 찾기
df.head().isnull()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False


In [5]:
# notnull() 메서드로 누락 데이터 찾기
df.head().notnull()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True
3,True,True,True,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True,False,True,True,True


In [107]:
# isnull() 메서드로 누락 데이터 개수 구하기
df.isnull().sum(axis=0) # 참의 합을 구함.

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

## 누락 데이터 제거

* 누락 데이터가 들어 있는 열 또는 행을 삭제하는 방법
    - 열을 삭제하면 분석 대상이 갖는 특성(변수)이 제거
    - 행을 삭제하면 분석 대상의 관측값(레코드)가 제거
    
* 예 : 'titanic' 데이터셋의 각 열(변수)에 누락 데이터가 몇 개씩 포함되어 있는지 확인
    - isnull() 메소드와 value_counts() 메소드를 사용
        - 'age'열에 177개, 'embarked'열에 2개, 'deck'열에 688개, 'embark_town'열에 2개      

In [108]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [5]:
missing_df = df.isnull()
missing_df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False


In [6]:
missing_df.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')

In [7]:
type(missing_df['deck'].value_counts())

pandas.core.series.Series

In [115]:
missing_df['survived'].value_counts()

False    891
Name: survived, dtype: int64

In [8]:
missing_df['deck'].value_counts()

True     688
False    203
Name: deck, dtype: int64

In [113]:
missing_df['deck'].value_counts()[True]

688

In [114]:
missing_df['survived'].value_counts()[True]

KeyError: True

In [116]:
# for 반복문으로 각 열의 NaN 개수 계산하기
for col in missing_df.columns:
    missing_count = missing_df[col].value_counts()    # 각 열의 NaN 개수 파악

    try: 
        print(col, ': ', missing_count[True])   # NaN 값이 있으면 개수를 출력
    except:
        print(col, ': ', 0)                     # NaN 값이 없으면 0 출력

survived :  0
pclass :  0
sex :  0
age :  177
sibsp :  0
parch :  0
fare :  0
embarked :  2
class :  0
who :  0
adult_male :  0
deck :  688
embark_town :  2
alive :  0
alone :  0


* 전체 891명의 승객 중에서 688명의 데크('deck' 열) 데이터가 누락
    - 누락 데이터가 차지하는 비율이 높음
    - 'deck' 열의 누락 데이터를 삭제하여 분석에서 제외
    - dropna() 메소드에 thresh=500 옵션을 적용하여, NaN 값을 500개 이상 갖는 모든 열을 삭제
        - 'deck' 열만 이 조건에 해당되어 제거

In [9]:
df.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town',
       'alive', 'alone'],
      dtype='object')

In [10]:
# NaN 값이 500개 이상인 열을 모두 삭제 - deck 열(891개 중 688개의 NaN 값)
df_thresh = df.dropna(axis=1, thresh=500)  
df_thresh.columns

Index(['survived', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare',
       'embarked', 'class', 'who', 'adult_male', 'embark_town', 'alive',
       'alone'],
      dtype='object')

* 전체 891명의 승객 중에서 177명은 나이(age)에 대한 데이터가 없음.
    - 승객의 나이가 데이터 분석의 중요한 변수라면, 나이 데이터가 없는 승객의 레코드(행)을 제거하는 것이 좋음.
    - dropna() 메소드에 subset을 'age'열로 한정하면, 'age'열의 행 중에서 NaN값이 모든 행(axis=0)을 삭제
        - 기본값으로 how='any' 옵션이 적용되는데, NaN 값이 하나라도 존재하면 삭제한다는 뜻.
        - how='all' 옵션으로 입력하면 모든 데이터가 NaN값일 경우에만 삭제가 됨.

In [119]:
len(df)

891

In [11]:
# age 열에 나이 데이터가 없는 모든 행을 삭제 - age 열(891개 중 177개의 NaN 값)
df_age = df.dropna(subset=['age'], how='any', axis=0)  
len(df_age)

714

* 891개의 행 중에서 나이 데이터가 누락된 177개 행을 삭제하고 나머지 714개의 행을 df_age에 저장

## 누락 데이터 치환

* 데이터셋의 품질을 높일 목적으로 누락 데이터를 무작정 삭제하면, 어렵게 수집한 데이터를 활용하지 못할 수도 있음.
    - 데이터 분석의 정확도는 데이터의 품질 외에도 제공되는 데이터의 양에도 상당한 영향을 받음.
    - 데이터 중에서 일부가 누락되어 있더라도 나머지 데이터를 최대한 살려서 데이터 분석에 활용.
    
* 누락 데이터를 평균값, 중간값, 최빈값 등으로 대체
    - fillna() 메소드로 편리하게 처리
        - fillna() 메소드는 새로운 객체를 반환하기에 원본 객체를 변경하려면 inplace=True 옵션을 추가


* 평균(mean)으로 누락 데이터를 대체하는 방법
    - 앞의 예에서 승객의 나이 데이터가 누락된 행을 제거하지 않고,
    - 대신 'age'열의 나머지 승객의 평균나이로 치환
    - 'age'열에 들어 있는 값들의 평균을 계산하여 mean_age에 저장
    - mean() 메소드를 적용하면 NaN을 제외하고 평균을 계산함.(중간값은 median() 사용)
    - fillna() 메소드에 mean_age를 인자로 전달하면 NaN을 찾아서 mean_age 값으로 치환

* 다음 예제에서 'age' 열의 유효 데이터의 평균(29.699118)으로 대체   

In [121]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

# age 열의 첫 10개 데이터 출력 (5 행에 NaN 값)
df['age'].head(10)

0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
5     NaN
6    54.0
7     2.0
8    27.0
9    14.0
Name: age, dtype: float64

In [122]:
# age 열의 NaN값을 다른 나이 데이터의 평균으로 변경하기
mean_age = df['age'].mean(axis=0)   # age 열의 평균 계산 (NaN 값 제외)
df['age'].fillna(mean_age, inplace=True)

# age 열의 첫 10개 데이터 출력 (5 행에 NaN 값이 평균으로 대체)
df['age'].head(10)

0    22.000000
1    38.000000
2    26.000000
3    35.000000
4    35.000000
5    29.699118
6    54.000000
7     2.000000
8    27.000000
9    14.000000
Name: age, dtype: float64

* 가장 많이 나타나는 값으로 NaN을 대체하기
    - 승선도시를 나타내는 'embark_town' 열에 있는 NaN을 
      승객들이 가장 많이 승선한 도시의 이름을 찾아서 NaN을 치환
        - value_counts() 메소드를 사용하여 승선도시별 승객 수를 찾고
        - idxmax() 메소드로 가장 큰 값을 갖는 도시를 찾음.
        - 829행의 NaN값을 포함해서 누락데이터들은 Southampton으로 변경

In [125]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

# embark_town 열의 829행의 NaN 데이터 출력
df['embark_town'][825:830]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
Name: embark_town, dtype: object

In [126]:
missing_df = df['embark_town'].isnull()
missing_df.head()

0    False
1    False
2    False
3    False
4    False
Name: embark_town, dtype: bool

In [23]:
for idx, value in enumerate(missing_df) :
    if value == True :
        print(idx)

61
829


In [127]:
# embark_town 열의 NaN값을 승선도시 중에서 가장 많이 출현한 값으로 치환하기
most_freq = df['embark_town'].value_counts(dropna=True).idxmax()   
most_freq

'Southampton'

In [128]:
df['embark_town'].fillna(most_freq, inplace=True)

# embark_town 열 829행의 NaN 데이터 출력 (NaN 값이 most_freq 값으로 대체)
df['embark_town'][825:830]

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829    Southampton
Name: embark_town, dtype: object

In [129]:
df['embark_town'][55:65]

55    Southampton
56    Southampton
57      Cherbourg
58    Southampton
59    Southampton
60      Cherbourg
61    Southampton
62    Southampton
63    Southampton
64      Cherbourg
Name: embark_town, dtype: object

* 누락 데이터가 NaN으로 표시되지 않은 경우
    - 데이터셋 중에는 누락 데이터가 NaN으로 입력되지 않은 경우도 많음.
        - 예 : 숫자 0이나 문자 '-', '?' 등과 같은 값으로 입력
    - 판다스에서 누락 데이터를 다루려면 replace() 메소드를 활용하여 
      Numpy에서 지원하는 np.nan으로 변경해 주는 것이 좋음.
    - 단, np.nan을 사용하기 위해서는 'import numpy as np'와 같이 Numpy 라이브러리를 먼저 임포트.
    - '?'을 np.nan으로 치환 예 : df.replace('?', np.nan, inplace=True)

* 이웃하고 있는 데이터로 NaN를 대체하기
    - fillna() 메소드
        - method='ffill' 옵션 : NaN이 있는 행의 직전 행에 있는 값으로 대체
        - method='bfill' 옵션 : NaN이 있는 행의 바로 다음 행에 있는 값으로 대체

* 다음 예는 'ffill' 옵션을 사용하여 829행의 NaN 값을 바로 앞에 위치한 828행의 Queenstown으로 변경

In [130]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

# embark_town 열의 829행의 NaN 데이터 출력
print(df['embark_town'][825:830])
print('\n')

# embark_town 열의 NaN값을 바로 앞에 있는 828행의 값으로 변경하기
df['embark_town'].fillna(method='ffill', inplace=True)
print(df['embark_town'][825:830])

825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829            NaN
Name: embark_town, dtype: object


825     Queenstown
826    Southampton
827      Cherbourg
828     Queenstown
829     Queenstown
Name: embark_town, dtype: object


In [27]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import seaborn as sns

# titanic 데이터셋 가져오기
df = sns.load_dataset('titanic')

print(df['embark_town'][60:65])
print('\n')

# embark_town 열의 NaN값을 바로 앞에 있는 828행의 값으로 변경하기
df['embark_town'].fillna(method='bfill', inplace=True)
print(df['embark_town'][60:65])

60      Cherbourg
61            NaN
62    Southampton
63    Southampton
64      Cherbourg
Name: embark_town, dtype: object


60      Cherbourg
61    Southampton
62    Southampton
63    Southampton
64      Cherbourg
Name: embark_town, dtype: object


----

# 중복 데이터 처리

* 데이터프레임에서 각 행은 분석 대상이 갖고 있는 모든 속성(변수)에 대한 관측값(레코드)을 뜻함.

* 하나의 데이터셋에서 동일한 관측값이 2개 이상 중복되는 경우 중복 데이터를 찾아서 삭제해야 함.
    - 동일한 대상이 중복으로 존재하는 것이므로 분석 결과를 왜곡시킴

## 중복 데이터 확인

* 동일한 관측값의 중복 여부 확인은 duplicated() 메소드 이용
    - 전에 나온 행들과 비교하여 중복되는 행이면 True를 반환하고, 처음 나오는 행에 대해서는 False를 반환
    - 데이터프레임에 duplicated() 메소드를 적용하면 각 행의 중복 여부를 나타내는 불린형 시리즈를 반환
    - 0행과 1행이 동일할 경우
        - 0행은 처음 나오는 값이므로 False 판정, 1행은 앞의 0행과 중복되기 때문에 True

In [131]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import pandas as pd

# 중복 데이터를 갖는 데이터프레임 만들기
df = pd.DataFrame({'c1':['a', 'a', 'b', 'a', 'b'],
                  'c2':[1, 1, 1, 2, 2],
                  'c3':[1, 1, 2, 2, 2]})
df

Unnamed: 0,c1,c2,c3
0,a,1,1
1,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


In [133]:
# 데이터프레임 전체 행 데이터 중에서 중복값 찾기
df_dup = df.duplicated()
df_dup

0    False
1     True
2    False
3    False
4    False
dtype: bool

* 데이터프레임의 열은 시리즈 객체이므로, duplicated() 메소드를 적용할 수 있음.

In [134]:
# 데이터프레임의 특정 열 데이터에서 중복값 찾기
col_dup = df['c2'].duplicated()
col_dup

0    False
1     True
2     True
3    False
4     True
Name: c2, dtype: bool

### 중복 데이터 제거

* 중복 데이터 제거하는 drop_duplicates() 메소드
    - 중복되는 행을 제거하고 고유한 관측값을 가진 행들만 남김.
    - 원본 객체를 변경하려면 inplace=True 옵션을 추가

* 다음 예제에서 1행의 데이터는 앞에 이웃하고 있는 0행의 데이터와 중복되므로 제거됨.

In [135]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import pandas as pd

# 중복 데이터를 갖는 데이터프레임 만들기
df = pd.DataFrame({'c1':['a', 'a', 'b', 'a', 'b'],
                  'c2':[1, 1, 1, 2, 2],
                  'c3':[1, 1, 2, 2, 2]})
df

Unnamed: 0,c1,c2,c3
0,a,1,1
1,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


In [136]:
# 데이터프레임에서 중복 행을 제거
df2 = df.drop_duplicates()
df2

Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2
4,b,2,2


* drop_duplicates() 메소드의 subset 옵션에 '열 이름의 리스트'를 전달
    - subset 옵션에 해당하는 열을 기준으로 중복 여부 판별
    - 예 : df의 'c2', 'c3' 열을 기준으로 판별하면 0행과 1행, 3행과 4행의 데이터가 각각 중복됨.

In [137]:
# c2, c3열을 기준으로 중복 행을 제거
df3 = df.drop_duplicates(subset=['c2', 'c3'])
df3

Unnamed: 0,c1,c2,c3
0,a,1,1
2,b,1,2
3,a,2,2


----

# 데이터 표준화

* 다양한 형태의 데이터셋
    - 여러 곳에서 수집한 자료들은 단위 선택, 대소문자 구분, 약칭 활용 등 여러 가지 원인에 의해 다양한 형태로 표현
    - 서로 다른 단위가 섞여 있거나 같은 대상을 다른 형식으로 표현한 경우가 의외로 많음.
    - 동일한 대상을 표현하는 방법에 차이가 있으면, 분석의 정확도는 현저히 낮아짐.

* 데이터 포맷을 일관성 있게 표준화하는 작업이 필요   

## 단위 환산

* 단위 환산 필요성
    - 같은 데이터셋 안에서 서로 다른 측정 단위를 사용하면, 전체 데이터의 일관성 측면(연산 수행 등)에서 문제 발생
    - 외국 데이터의 도량형 단위(영미권의 마일, 야드, 온스 등)를 한국에서 사용하는 미터, 평, 그램 등으로 변환

* 예제 : UCI 자동차 연비 데이터셋
    - 'mpg' 열은 영미권에서 사용하는 '갤런당 마일(mile per gallon)' 단위로 연비를 표시
    - 한국에서 익숙한 표기법인 '리터당 킬로미터(km/L)' 단위로 변환
        - 1마일은 1.60934km이고, 1갤런은 3.78541리터. 따라서 1mpg는 0.425km/L
    - 0행에 들어 있는 차량의 연비는 18mpg
    - 한국식 연비 표현으로 변환한 'kpl' 열의 0행에 해당하는 값은 리터 당 7.65킬로미터.
    - round(2)은 소수점 아래 둘째자리 반올림을 뜻함.
        
    

In [12]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import pandas as pd

# read_csv() 함수로 df 생성
df = pd.read_csv('./auto-mpg.csv', header=None)

# 열 이름을 지정
df.columns = ['mpg','cylinders','displacement','horsepower','weight',
              'acceleration','model year','origin','name'] 
df.head(3)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite


In [139]:
# mpg(mile per gallon)를 kpl(kilometer per liter)로 변환 (mpg_to_kpl = 0.425)
mpg_to_kpl = 1.60934 / 3.78541

# mpg 열에 0.425를 곱한 결과를 새로운 열(kpl)에 추가
df['kpl'] = df['mpg'] * mpg_to_kpl
df.head(3)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name,kpl
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,7.652571
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,6.377143
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,7.652571


In [140]:
# kpl 열을 소수점 아래 둘째 자리에서 반올림 
df['kpl'] = df['kpl'].round(2)
df.head(3)

Unnamed: 0,mpg,cylinders,displacement,horsepower,weight,acceleration,model year,origin,name,kpl
0,18.0,8,307.0,130.0,3504.0,12.0,70,1,chevrolet chevelle malibu,7.65
1,15.0,8,350.0,165.0,3693.0,11.5,70,1,buick skylark 320,6.38
2,18.0,8,318.0,150.0,3436.0,11.0,70,1,plymouth satellite,7.65


## 자료형 변환

* 숫자가 문자열(object)로 저장된 경우에 숫자형(int 또는 float)으로 변환
    - dtypes 속성을 사용하여 데이터프레임을 구성하는 각 열의 자료형 확인
        - dtypes 속성 대신 info() 메소드 사용해도 각 열의 자료형을 확인할 수도 있음.
    - 'horsepower' 열은 숫자형이 적절
    - 출시연도를 나타내는 'model year'열과 출시국가를 뜻하는 'origin'열은 카테고리를 나타내는 범주형이 적절

In [142]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import pandas as pd

# read_csv() 함수로 df 생성
df = pd.read_csv('./auto-mpg.csv', header=None)

# 열 이름을 지정
df.columns = ['mpg','cylinders','displacement','horsepower','weight',
              'acceleration','model year','origin','name'] 

# 각 열의 자료형 확인
df.dtypes

mpg             float64
cylinders         int64
displacement    float64
horsepower       object
weight          float64
acceleration    float64
model year        int64
origin            int64
name             object
dtype: object

In [143]:
# horsepower 열의 고유값 확인
df['horsepower'].unique()

array(['130.0', '165.0', '150.0', '140.0', '198.0', '220.0', '215.0',
       '225.0', '190.0', '170.0', '160.0', '95.00', '97.00', '85.00',
       '88.00', '46.00', '87.00', '90.00', '113.0', '200.0', '210.0',
       '193.0', '?', '100.0', '105.0', '175.0', '153.0', '180.0', '110.0',
       '72.00', '86.00', '70.00', '76.00', '65.00', '69.00', '60.00',
       '80.00', '54.00', '208.0', '155.0', '112.0', '92.00', '145.0',
       '137.0', '158.0', '167.0', '94.00', '107.0', '230.0', '49.00',
       '75.00', '91.00', '122.0', '67.00', '83.00', '78.00', '52.00',
       '61.00', '93.00', '148.0', '129.0', '96.00', '71.00', '98.00',
       '115.0', '53.00', '81.00', '79.00', '120.0', '152.0', '102.0',
       '108.0', '68.00', '58.00', '149.0', '89.00', '63.00', '48.00',
       '66.00', '139.0', '103.0', '125.0', '133.0', '138.0', '135.0',
       '142.0', '77.00', '62.00', '132.0', '84.00', '64.00', '74.00',
       '116.0', '82.00'], dtype=object)

* 'horsepower' 열은 문자열을 뜻하는 object 자료형
    - 엔진 출력의 크기를 나타내는 데이터인 만큼 숫자형으로 변환하는 것이 적절
        - CSV 파일의 '?' 때문에 데이터프레임으로 변환 과정에서 문자열로 인식된 것   

* 'horsepower' 열의 문자열 '?'를 NaN 값으로 변환
    - dropna(axis=0) 메소드로 NaN 값이 들어 있는 모든 행을 삭제
    - 이제 'horsepower' 열에는 숫자형으로 변환 가능한 값들만 남는다.


* astype('float')를 이용하여 문자열을 실수형으로 변환
    - 실수형 대신 정수형으로 변환하려면 'float' 대신 'int'를 입력
    - dtypes 속성을 사용하여 변환된 결과가 맞는지 확인

In [144]:
# 누락 데이터('?') 삭제 
import numpy as np
df['horsepower'].replace('?', np.nan, inplace=True)      # '?'을 np.nan으로 변경
df.dropna(subset=['horsepower'], axis=0, inplace=True)   # 누락데이터 행을 삭제
df['horsepower'] = df['horsepower'].astype('float')      # 문자열을 실수형으로 변환

# horsepower 열의 자료형 확인
df['horsepower'].dtypes

dtype('float64')

In [14]:
# origin 열의 고유값 확인
df['origin'].unique()

array([1, 3, 2], dtype=int64)

* 'origin' 열에는 정수형 데이터 1, 2, 3이 들어 있지만, 실제로는 국가 이름인 'USA', 'EU', 'JPN'을 뜻함.
    - replace() 메소드를 사용하여 각 숫자 데이터를 국가이름으로 바꿔주면 문자열을 나타내는 object 자료형을 자동 변경

In [15]:
# 정수형 데이터를 문자형 데이터로 변환 
df['origin'].replace({1:'USA', 2:'EU', 3:'JAPAN'}, inplace=True)

# origin 열의 고유값 확인
df['origin'].unique()

array(['USA', 'JAPAN', 'EU'], dtype=object)

In [16]:
# origin 열의 자료형 확인
df['origin'].dtypes

dtype('O')

In [17]:
print(df['origin'].dtypes)

object


* 'origin'열의 국가이름은 문자열 데이터(object)임.
    - 값을 확인해 보면 3개의 국가이름이 계속 반복됨.
    - 유한 개의 고유값이 반복적으로 나타나는 경우에는 범주형(category) 데이터로 표현하는 것이 효율적
    - astype('category') 메소드를 이용하면 범주형 데이터로 변환
    - 범주형을 다시 문자열로 변환하려면 astype('str') 메소드를 사용

In [149]:
# origin 열의 문자열 자료형을 범주형으로 변환
df['origin'] = df['origin'].astype('category')     
df['origin'].dtypes

CategoricalDtype(categories=['EU', 'JAPAN', 'USA'], ordered=False)

In [150]:
print(df['origin'].dtypes)

category


In [151]:
# 범주형을 문자열로 다시 변환
df['origin'] = df['origin'].astype('str')     
df['origin'].dtypes

dtype('O')

* 'model year' 열
    - sample() 메소드로 'model year' 열에서 무작위로 3개의 행을 선택해서 출력해보기

In [152]:
# model year 열의 정수형을 범주형으로 변환
df['model year'].sample(3)

37     71
68     72
202    76
Name: model year, dtype: int64

* 모델 출시연도가 숫자로 기록, 자료형은 정수형을 나타내는 int64
    - 연도를 뜻하기 때문에 숫자형도 괜찮지만,
    - 연도는 시간적인 순서가 의미가 있음.
    - 데이터는 숫자 형태를 갖더라도 범주형으로 표현하는 것이 적절

In [153]:
df['model year'] = df['model year'].astype('category') 
df['model year'].sample(3)

355    81
297    79
49     71
Name: model year, dtype: category
Categories (13, int64): [70, 71, 72, 73, ..., 79, 80, 81, 82]

----

# 범주형(카테고리) 데이터 처리

## 구간 분할

* 연속 데이터를 일정한 구간(bin)으로 나누어서 분석
    - 가격, 비용, 효율 등 연속적인 값을 일정한 수준이나 정도를 나타내는 이산적인 값을 나타내어 구간별 차이를 드러냄

* 구간 분할(binning)
    - 연속 변수를 일정한 구간으로 나누고, 각 구간을 범주형 이산 변수로 변환하는 과정
    - 판다스 cut() 함수를 이용하면 연속 데이터를 여러 구간으로 나누고 범주형 데이터로 변환할 수 있음.
    
* 구간 분할 예
    - 엔진 출력을 나타내는 'horsepower에서, 엔진 출력을 숫자로 표시하는 대신,
    - '저출력', '보통출력', '고출력' 등 구간으로 나누어서 표시할 경우
    - 경계값을 구하는 방법 중에서 Numpy 라이브러리의 histogram() 함수를 활용
        - 나누려는 구간(bin) 개수를 bins 옵션에 입력하면 각 구간에 속하는 값의 개수(count)와 경계값 리스트(bin_dividers)를 반환
    - 아래 예제에서는 모두 4개의 경계값을 생성하고 3개의 구간이 만들어진다 (46\~107.3 구간, 107.3\~168.6 구간, 168.6\~230 구간)
    

In [19]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import pandas as pd
import numpy as np

# read_csv() 함수로 df 생성
df = pd.read_csv('./auto-mpg.csv', header=None)

# 열 이름을 지정
df.columns = ['mpg','cylinders','displacement','horsepower','weight',
              'acceleration','model year','origin','name'] 

# horsepower 열의 누락 데이터('?') 삭제하고 실수형으로 변환
df['horsepower'].replace('?', np.nan, inplace=True)      # '?'을 np.nan으로 변경
df.dropna(subset=['horsepower'], axis=0, inplace=True)   # 누락데이터 행을 삭제
df['horsepower'] = df['horsepower'].astype('float')      # 문자열을 실수형으로 변환

# np.histogram 함수로 3개의 bin으로 나누는 경계 값의 리스트 구하기
count, bin_dividers = np.histogram(df['horsepower'], bins=3)
bin_dividers

array([ 46.        , 107.33333333, 168.66666667, 230.        ])

* 판다스 cut() 함수의 옵션을 설정
    - 앞에서 구한 경계값의 리스트(bin_dividers)를 bins 옵션에 할당하고 각 구간의 이름(bin_names)을 labels 옵션에 할당
    
* 각 구간의 낮은경계값을 포함하기 위해 include_lowest=True 옵션 사용
    - 'horsepower' 열의 숫자 데이터를 3개의 구간에 할당하고,
    - 각 구간의 이름을 '저출력', '보통출력', '고출력' 으로 입력하여 'hp_bin'열에 저장

In [20]:
# 3개의 bin에 이름 지정
bin_names = ['저출력', '보통출력', '고출력']

# pd.cut 함수로 각 데이터를 3개의 bin에 할당
df['hp_bin'] = pd.cut(x=df['horsepower'],     # 데이터 배열
                      bins=bin_dividers,      # 경계 값 리스트
                      labels=bin_names,       # bin 이름
                      include_lowest=True)    # 첫 경계값 포함 

# horsepower 열, hp_bin 열의 첫 15행을 출력
df[['horsepower', 'hp_bin']].head(15)

Unnamed: 0,horsepower,hp_bin
0,130.0,보통출력
1,165.0,보통출력
2,150.0,보통출력
3,150.0,보통출력
4,140.0,보통출력
5,198.0,고출력
6,220.0,고출력
7,215.0,고출력
8,225.0,고출력
9,190.0,고출력


## 더미 변수

* 'horsepower' 열의 숫자형 연속 데이터를 'hp_bin' 열의 범주형 데이터로 변환하였다.

* 범주형 데이터를 회귀분석 등 머신러닝 알고리즘에 바로 사용할 수 없는 경우가 있음
    - 컴퓨터가 인식 가능한 입력값으로 변환이 필요
    - 이럴 때 숫자 0 또는 1로 표현되는 더미 변수(dummy variable)을 사용
        - 여기서 0과 1은 수의 크고 작음을 나타내지 않고, 어떤 특성(feature)이 있는지 없는지 여부만을 표시
        - 해당 특성이 존재하면 1로 표현, 존재하지 않으면 0으로 구분하는 개념
        
* 원핫인코딩(one-hot encoding)
    - 범주형 데이터를 컴퓨터가 인식할 수 있도록 숫자 0과 1로 구성된 원핫벡터(one-hot vector)로 변환
    
* 판다스 get_dummies() 함수를 사용하면, 범주형 변수의 모든 고유값을 각각 새로운 더미 변수로 변환
    - 'hp_bin' 열의 고유값 3개가 각각 새로운 더미 변수 열의 이름이 됨.
    - 각 더미 변수가 본래 속해 있던 행에는 1이 입력되고, 속하지 않았던 다른 행에는 0이 입력됨.

In [21]:
# hp_bin 열의 범주형 데이터를 더미 변수로 변환
horsepower_dummies = pd.get_dummies(df['hp_bin'])
horsepower_dummies.head(15)

Unnamed: 0,저출력,보통출력,고출력
0,0,1,0
1,0,1,0
2,0,1,0
3,0,1,0
4,0,1,0
5,0,0,1
6,0,0,1
7,0,0,1
8,0,0,1
9,0,0,1


* sklearn 라이브러리를 이용한 원핫인코딩
    - 데이터프레임 df의 'hp_bin' 열에 들어 있는 범주형 데이터를 0, 1을 원소로 갖는 원핫벡터로 변환
        - 결과는 선형대수학에서 정의하는 희소행렬(sparse matrix)로 정리됨.

* 예제에서는 1차원 벡터를 2차원 행렬로 변환하고 다시 희소행렬로 변환
    - 희소행렬은 (행, 열) 좌표와 값 형태로 정리됨.
    - 앞에서 (0, 1)은 0행의 1열 위치를 말하고, 데이터 값은 숫자 1.0이 입력됨.

In [158]:
# sklern 라이브러리 불러오기
from sklearn import preprocessing    

# 전처리를 위한 encoder 객체 만들기
label_encoder = preprocessing.LabelEncoder()       # label encoder 생성
onehot_encoder = preprocessing.OneHotEncoder()   # one hot encoder 생성

# label encoder로 문자열 범주를 숫자형 범주로 변환
onehot_labeled = label_encoder.fit_transform(df['hp_bin'].head(15))  
onehot_labeled

array([1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 2])

In [159]:
type(onehot_labeled)

numpy.ndarray

In [160]:
# 2차원 행렬로 형태 변경
onehot_reshaped = onehot_labeled.reshape(len(onehot_labeled), 1) 
onehot_reshaped

array([[1],
       [1],
       [1],
       [1],
       [1],
       [0],
       [0],
       [0],
       [0],
       [0],
       [0],
       [1],
       [1],
       [0],
       [2]])

In [161]:
type(onehot_reshaped)

numpy.ndarray

In [162]:
# 희소행렬로 변환
onehot_fitted = onehot_encoder.fit_transform(onehot_reshaped)
onehot_fitted

<15x3 sparse matrix of type '<class 'numpy.float64'>'
	with 15 stored elements in Compressed Sparse Row format>

In [163]:
type(onehot_fitted)

scipy.sparse.csr.csr_matrix

----

# 정규화

* 정규화의 필요성
    - 각 변수(데이터프레임의 열)에 들어 있는 숫자 데이터의 상대적 크기 차이 때문에 머신러닝 분석 결과가 달라질 수 있음.
        - 예: A 변수는 0\~1000 범위의 값을 가지고, B 변수는 0\~1 범위의 값을 가질 경우, 상대적으로 큰 숫자 값을 갖는 A 변수의 영향이 더 커짐.
    - 숫자 데이터의 상대적인 크기 차이를 제거할 필요가 있음.


* 정규화(normalization)
    - 데이터의 상대적 크기에 대한 영향을 줄이기 위해 데이터 범위를 변환
    - 각 열(변수)에 속하는 데이터 값을 동일한 크기 기준으로 나눈 비율로 나타내는 것
    - 정규화를 거친 데이터의 범위는 0\~1 또는 -1\~1이 됨

* 정규화 방법
    - 각 열(변수)의 데이터 중에서 최대값(max)과 최소값(min)을 뺀 값으로 나누는 방법
        - 각 열 데이터에서 해당 열의 최소값을 뺀 값을 분자로 하고, 해당 열의 최대값과 최소값의 차를 분모로 하는 수를 계산
        - 정규화 후 값의 범위 0 \~ 1
        - X값의 정규화 수식 : (X - min) / (max - min)
    - 예 : 'horsepower'열의 최대값은 230이고 최소값은 46, 이들의 차인 184를 이용하여 정규화하면, 최소 0부터 최대 1사이의 범위로 변환


In [165]:
# horsepower 열의 최대값의 절대값으로 모든 데이터를 나눠서 저장
min_x = df.horsepower - df.horsepower.min()
min_max = df.horsepower.max() - df.horsepower.min()
df.horsepower = min_x / min_max

df.horsepower.head()

0    0.456522
1    0.646739
2    0.565217
3    0.565217
4    0.510870
Name: horsepower, dtype: float64

In [166]:
df.horsepower.describe()

count    392.000000
mean       0.317768
std        0.209191
min        0.000000
25%        0.157609
50%        0.258152
75%        0.434783
max        1.000000
Name: horsepower, dtype: float64

----

 # 시계열 데이터

* 시계열 데이터
    - 일정 기간에 대해 시간의 함수로 표현되는 데이터.
    - 예: 과거 5년간의 연도별 매상액, 3시간마다의 태풍 위치 등
    - 주로 예측 업무에 사용

* 판다스의 시간 표시 방식
    - Timestamp : 특정한 시점을 기록
    - Period : 두 시점 사이의 일정한 기간

## 다른 자료형을 시계열 객체로 변환

### 문자열을 Timestamp로 변환

* 판다스 to_datetime() 함수
    - 문자열 등 다른 자료형을 판다스 Timestamp를 나태내는 datetime64 자료형으로 변환
    
* 예
    - 주식 시장에서 거래되는 A 종목의 거래 데이터를 정리한 CSV 파일을 read_csv() 함수를 이용하여 불러옴.
    - head() 메소드로 데이터프레임 살펴보면,
    - 'Date' 열에 날짜 데이터가 들어 있는데, info() 메소드로 확인하면 문자열(object)임  

In [22]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import pandas as pd

# read_csv() 함수로 CSV 파일을 가져와서 df로 변환
df = pd.read_csv('stock-data.csv')

# 데이터 내용 및 자료형 자료형 확인
df.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume
0,2018-07-02,10100,10850,10900,10000,137977
1,2018-06-29,10700,10550,10900,9990,170253
2,2018-06-28,10400,10900,10950,10150,155769
3,2018-06-27,10900,10800,11050,10500,133548
4,2018-06-26,10800,10900,11000,10700,63039


In [23]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Date    20 non-null     object
 1   Close   20 non-null     int64 
 2   Start   20 non-null     int64 
 3   High    20 non-null     int64 
 4   Low     20 non-null     int64 
 5   Volume  20 non-null     int64 
dtypes: int64(5), object(1)
memory usage: 1.1+ KB


* 'Date' 열의 날짜 데이터를 판다스 Timestamp 객체로 변경
    - 'Date' 열을 to_datetime() 함수의 인자로 전달하면 문자열(object) 데이터를 datetime64 자료형으로 변환


* 변환된 데이터를 'new_Date' 열에 담아서 데이터프레임 df에 추가

In [24]:
# 문자열 데이터(시리즈 객체)를 판다스 Timestamp로 변환
df['new_Date'] = pd.to_datetime(df['Date'])   #df에 새로운 열로 추가

# 데이터 내용 확인
df.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume,new_Date
0,2018-07-02,10100,10850,10900,10000,137977,2018-07-02
1,2018-06-29,10700,10550,10900,9990,170253,2018-06-29
2,2018-06-28,10400,10900,10950,10150,155769,2018-06-28
3,2018-06-27,10900,10800,11050,10500,133548,2018-06-27
4,2018-06-26,10800,10900,11000,10700,63039,2018-06-26


* info() 메소드로 'new_Date' 열에 들어 있는 데이터 값들이 datetime64 자료형임을 확인

In [25]:
# 데이터 정보 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Date      20 non-null     object        
 1   Close     20 non-null     int64         
 2   Start     20 non-null     int64         
 3   High      20 non-null     int64         
 4   Low       20 non-null     int64         
 5   Volume    20 non-null     int64         
 6   new_Date  20 non-null     datetime64[ns]
dtypes: datetime64[ns](1), int64(5), object(1)
memory usage: 1.2+ KB


* 'new_date' 열의 개별 원소 데이터를 type() 함수로 확인하면 Timestamp 객체라는 것을 확인

In [26]:
# 데이터 자료형 확인
type(df['new_Date'][0])

pandas._libs.tslibs.timestamps.Timestamp

* 'new_Date' 열을 데이터프레임 df의 행 인덱스로 설정하고, 'Date' 열을 제거
    - 이렇게 시계열 값을 행 인덱스로 지정하면 판다스는 DatetimeIndex로 저장함.
    - 시계열 인덱스 클래스를 지원하기 때문에 시간 순서에 맞춰 인덱싱 또는 슬라이싱 하기가 편리함.

In [27]:
# 시계열 값으로 변환된 열을 새로운 행 인덱스로 지정. 기존 날짜 열은 삭제
df.set_index('new_Date', inplace=True)
df.drop('Date', axis=1, inplace=True)

# 데이터 내용 및 자료형 자료형 확인
df.head()

Unnamed: 0_level_0,Close,Start,High,Low,Volume
new_Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2018-07-02,10100,10850,10900,10000,137977
2018-06-29,10700,10550,10900,9990,170253
2018-06-28,10400,10900,10950,10150,155769
2018-06-27,10900,10800,11050,10500,133548
2018-06-26,10800,10900,11000,10700,63039


In [28]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 20 entries, 2018-07-02 to 2018-06-01
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Close   20 non-null     int64
 1   Start   20 non-null     int64
 2   High    20 non-null     int64
 3   Low     20 non-null     int64
 4   Volume  20 non-null     int64
dtypes: int64(5)
memory usage: 960.0 bytes


### Timestamp를 Period로 변환

* 판다스 to_period() 함수
    - Timestamp 객체를 일정한 기간을 나타내는 Period 객체로 변환


* to_period() 함수 예제
    - 3개의 날짜 데이터를 Timestamp로 변환하고, 기간 옵션을 달리 하여 Period 객체를 지정
    - DatetimeIndex가 PeriodIndex로 변환되고, 자료형은 datetime64에서 period로 변환
    - freq 옵션
        - 'D' : 1일의 기간을 나타냄
        - 'M' : 1개월의 기간을 나타냄
        - 'A' : 1년의 기간을 나타냄 (1년이 끝나는 12월이 기준)

In [30]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import pandas as pd

# 날짜 형식의 문자열로 구성되는 리스트 정의
dates = ['2019-01-01', '2020-03-01', '2021-06-01']

# 문자열 데이터(시리즈 객체)를 판다스 Timestamp로 변환
ts_dates = pd.to_datetime(dates)
ts_dates

DatetimeIndex(['2019-01-01', '2020-03-01', '2021-06-01'], dtype='datetime64[ns]', freq=None)

In [31]:
# Timestamp를 Period로 변환
pr_day = ts_dates.to_period(freq='D')
pr_day

PeriodIndex(['2019-01-01', '2020-03-01', '2021-06-01'], dtype='period[D]', freq='D')

In [32]:
pr_month = ts_dates.to_period(freq='M')
pr_month

PeriodIndex(['2019-01', '2020-03', '2021-06'], dtype='period[M]', freq='M')

In [33]:
pr_year = ts_dates.to_period(freq='A')
pr_year

PeriodIndex(['2019', '2020', '2021'], dtype='period[A-DEC]', freq='A-DEC')

* freq 옵션의 종류
    - https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html

## 시계열 데이터 만들기

### Timestamp 배열

* 판다스 date_range() 함수
    - 여러 개의 날짜(Timestamp)가 들어 있는 배열 형태의 시계열 데이터 생성
    - range() 함수로 숫자 배열을 만드는 것과 비슷
    
* 예제 : '2019-01-01'부터 한 달 간격으로 각 달의 시작 날짜를 6개 생성
    - 날짜 범위의 시작점으로 '2019-01-01'을 설정, 끝을 따로 정하지 않음(end=None)
    - periods=6은 Timestamp를 6개 생성한다는 뜻
    - freq='MS'에서 'M'은 월을 뜻하고 'S'는 월의 시작일(1일)을 나타냄.
    - tz='Asia/Seoul'은 한국 시간대를 설정   

In [34]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import pandas as pd

# Timestamp의 배열 만들기 - 월 간격, 월의 시작일 기준
ts_ms = pd.date_range(start='2019-01-01',    # 날짜 범위의 시작
                   end=None,                 # 날짜 범위의 끝
                   periods=6,                # 생성할 Timestamp의 개수
                   freq='MS',                # 시간 간격 (MS: 월의 시작일)
                   tz='Asia/Seoul')          # 시간대(timezone)
ts_ms

DatetimeIndex(['2019-01-01 00:00:00+09:00', '2019-02-01 00:00:00+09:00',
               '2019-03-01 00:00:00+09:00', '2019-04-01 00:00:00+09:00',
               '2019-05-01 00:00:00+09:00', '2019-06-01 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='MS')

* 시간 간격을 다르게 설정
    - freq='M'으로 입력하면 월의 마지막 날짜를 생성
    - freq='3M' : 3개월 간격의 마지막 날짜

In [35]:
# 월 간격, 월의 마지막 날 기준
ts_me = pd.date_range('2019-01-01', periods=6, 
                   freq='M',              # 시간 간격 (M: 월의 마지막 날)
                   tz='Asia/Seoul')       # 시간대(timezone)
ts_me

DatetimeIndex(['2019-01-31 00:00:00+09:00', '2019-02-28 00:00:00+09:00',
               '2019-03-31 00:00:00+09:00', '2019-04-30 00:00:00+09:00',
               '2019-05-31 00:00:00+09:00', '2019-06-30 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='M')

In [36]:
# 분기(3개월) 간격, 월의 마지막 날 기준
ts_3m = pd.date_range('2019-01-01', periods=6, 
                   freq='3M',             # 시간 간격 (3M: 3개월)
                   tz='Asia/Seoul')       # 시간대(timezone)
ts_3m

DatetimeIndex(['2019-01-31 00:00:00+09:00', '2019-04-30 00:00:00+09:00',
               '2019-07-31 00:00:00+09:00', '2019-10-31 00:00:00+09:00',
               '2020-01-31 00:00:00+09:00', '2020-04-30 00:00:00+09:00'],
              dtype='datetime64[ns, Asia/Seoul]', freq='3M')

### Period 배열

* 판다스 period_range() 함수
    - 여러 개의 기간(Period)이 들어 있는 시계열 데이터를 생성
    
* 예제 : '2019-01', '2019-02', '2019-03'을 원소로 Period 배열
    - 날짜 범위의 시작점으로 '2019-01-01'을 설정, 날짜 범위의 끝을 따로 정하지 않음(end=None)
    - period=3 옵션은 Period를 3개 만든다는 뜻
    - freq='M'에서 'M'은 월을 나타냄  

In [37]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import pandas as pd

# Period 배열 만들기 - 1개월 길이
pr_m = pd.period_range(start='2019-01-01',     # 날짜 범위의 시작
                   end=None,                   # 날짜 범위의 끝
                   periods=3,                  # 생성할 Period 개수
                   freq='M')                   # 기간의 길이 (M: 월)
pr_m

PeriodIndex(['2019-01', '2019-02', '2019-03'], dtype='period[M]', freq='M')

* 기간을 다르게 설정
    - freq='H' : 1시간 간격
    - freq='2H' : 2시간 간격

In [38]:
# Period 배열 만들기 - 1시간 길이
pr_h = pd.period_range(start='2019-01-01',     # 날짜 범위의 시작
                   end=None,                   # 날짜 범위의 끝
                   periods=3,                  # 생성할 Period 개수
                   freq='H')                   # 기간의 길이 (H: 시간)
pr_h

PeriodIndex(['2019-01-01 00:00', '2019-01-01 01:00', '2019-01-01 02:00'], dtype='period[H]', freq='H')

In [39]:
# Period 배열 만들기 - 2시간 길이
pr_2h = pd.period_range(start='2019-01-01',    # 날짜 범위의 시작
                   end=None,                   # 날짜 범위의 끝
                   periods=3,                  # 생성할 Period 개수
                   freq='2H')                  # 기간의 길이 (H: 시간)
pr_2h

PeriodIndex(['2019-01-01 00:00', '2019-01-01 02:00', '2019-01-01 04:00'], dtype='period[2H]', freq='2H')

## 시계열 데이터 활용

### 날짜 데이터 분리

* 연-월-일 날짜 데이터에서 일부를 분리하여 추출

* 연-월-일 정보를 연, 월, 일 각각으로 구분하는 방법
    - 날짜 정보가 있는 'Date' 열을 to_datetime() 함수에 전달하면 Timestamp로 변환됨.
    - 변환된 결과를 'new_Date' 열에 담아서 데이터프레임에 추가
    - dt 속성을 이용하여 'new_Date' 열의 연-월-일 정보에서  연, 월, 일을 개별적으로 추출
    - dt.year로 추출한 연도는 'Year' 열에, dt.month로 추출한 월 데이터는 'Month' 열에, dt.day로 추출한 일 데이터는 'Day' 열에 저장  

In [40]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import pandas as pd

# read_csv() 함수로 파일 읽어와서 df로 변환
df = pd.read_csv('stock-data.csv')

# 문자열인 날짜 데이터를 판다스 Timestamp로 변환
df['new_Date'] = pd.to_datetime(df['Date'])   #df에 새로운 열로 추가
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Date      20 non-null     object        
 1   Close     20 non-null     int64         
 2   Start     20 non-null     int64         
 3   High      20 non-null     int64         
 4   Low       20 non-null     int64         
 5   Volume    20 non-null     int64         
 6   new_Date  20 non-null     datetime64[ns]
dtypes: datetime64[ns](1), int64(5), object(1)
memory usage: 1.2+ KB


In [41]:
df.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume,new_Date
0,2018-07-02,10100,10850,10900,10000,137977,2018-07-02
1,2018-06-29,10700,10550,10900,9990,170253,2018-06-29
2,2018-06-28,10400,10900,10950,10150,155769,2018-06-28
3,2018-06-27,10900,10800,11050,10500,133548,2018-06-27
4,2018-06-26,10800,10900,11000,10700,63039,2018-06-26


In [3]:
# dt 속성을 이용하여 new_Date 열의 년월일 정보를 년, 월, 일로 구분
df['Year'] = df['new_Date'].dt.year
df['Month'] = df['new_Date'].dt.month
df['Day'] = df['new_Date'].dt.day
df.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume,new_Date,Year,Month,Day
0,2018-07-02,10100,10850,10900,10000,137977,2018-07-02,2018,7,2
1,2018-06-29,10700,10550,10900,9990,170253,2018-06-29,2018,6,29
2,2018-06-28,10400,10900,10950,10150,155769,2018-06-28,2018,6,28
3,2018-06-27,10900,10800,11050,10500,133548,2018-06-27,2018,6,27
4,2018-06-26,10800,10900,11000,10700,63039,2018-06-26,2018,6,26


* Timestamp 객체를 Period 객체로 변환하는 to_period() 메소드를 적용하여, 연-월-일 중에서 연-월 또는 연도를 추출
    - 'Date_yr' 열에는 연도를 나타내는 값이 저장
    - 'Date_m' 열에는 연-월을 나타내는 값이 저장

In [217]:
# Timestamp를 Period로 변환하여 년월일 표기 변경하기
df['Date_yr'] = df['new_Date'].dt.to_period(freq='A')
df['Date_m'] = df['new_Date'].dt.to_period(freq='M')
df.head()

Unnamed: 0,Date,Close,Start,High,Low,Volume,new_Date,Date_yr,Date_m
0,2018-07-02,10100,10850,10900,10000,137977,2018-07-02,2018,2018-07
1,2018-06-29,10700,10550,10900,9990,170253,2018-06-29,2018,2018-06
2,2018-06-28,10400,10900,10950,10150,155769,2018-06-28,2018,2018-06
3,2018-06-27,10900,10800,11050,10500,133548,2018-06-27,2018,2018-06
4,2018-06-26,10800,10900,11000,10700,63039,2018-06-26,2018,2018-06


* 추출한 날짜 정보를 데이터프레임의 행 인덱스로 지정할 수도 있음.
    - 예제 : 'Date_m' 열을 데이터프레임의 새로운 행 인덱스로 지정

In [218]:
df.set_index('Date_m', inplace=True)
df.head()

Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume,new_Date,Date_yr
Date_m,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2018-07,2018-07-02,10100,10850,10900,10000,137977,2018-07-02,2018
2018-06,2018-06-29,10700,10550,10900,9990,170253,2018-06-29,2018
2018-06,2018-06-28,10400,10900,10950,10150,155769,2018-06-28,2018
2018-06,2018-06-27,10900,10800,11050,10500,133548,2018-06-27,2018
2018-06,2018-06-26,10800,10900,11000,10700,63039,2018-06-26,2018


### 날짜 인덱스 활용

* Timestamp/Period로 구성된 열을 행 인덱스로 지정
    - Timestamp로 구성된 열을 행 인덱스로 지정하면 DatetimeIndex라는 고유 속성으로 변환
    - Period로 구성된 열을 행 인덱스로 지정하면 PeriodIndex라는 고유 속성으로 변환
    - 날짜 인덱스를 활용하면 시계열 데이터에 대한 인덱싱과 슬라이싱이 편리함
    

* 예제
    - to_datetime() 메소드를 이용하여 'Date' 열 데이터를 Timestamp로 변환하고 'new_Date'열에 저장
    - set_index() 메소드로 'new_Date' 열을 데이터프레임의 행 인덱스로 지정
        - 행 인덱스 값들의 자료형은 datetime64[ns]

In [24]:
# -*- coding: utf-8 -*-

# 라이브러리 불러오기
import pandas as pd
import numpy as np

# read_csv() 함수로 파일 읽어와서 df로 변환
df = pd.read_csv('stock-data.csv')

# 문자열인 날짜 데이터를 판다스 Timestamp로 변환
df['new_Date'] = pd.to_datetime(df['Date'])   # 새로운 열에 추가
df.set_index('new_Date', inplace=True)        # 행 인덱스로 지정

df.head()

Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume
new_Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-07-02,2018-07-02,10100,10850,10900,10000,137977
2018-06-29,2018-06-29,10700,10550,10900,9990,170253
2018-06-28,2018-06-28,10400,10900,10950,10150,155769
2018-06-27,2018-06-27,10900,10800,11050,10500,133548
2018-06-26,2018-06-26,10800,10900,11000,10700,63039


In [25]:
df.index

DatetimeIndex(['2018-07-02', '2018-06-29', '2018-06-28', '2018-06-27',
               '2018-06-26', '2018-06-25', '2018-06-22', '2018-06-21',
               '2018-06-20', '2018-06-19', '2018-06-18', '2018-06-15',
               '2018-06-14', '2018-06-12', '2018-06-11', '2018-06-08',
               '2018-06-07', '2018-06-05', '2018-06-04', '2018-06-01'],
              dtype='datetime64[ns]', name='new_Date', freq=None)

* 날짜 인덱스 사용의 장점
    - 연-월-일 중에서 내가 필요로 하는 레벨을 선택적을 인덱싱할 수 있음.
    - 연도만을 기준으로 하거나 연-월 또는 연-월-일 기준으로 선택 가능
    - 예: df['2018']과 같이 추출하려는 날짜는 입력하면 해당 날짜에 해당하는 모든 행을 선택할 수 있음.

In [26]:
# 날짜 인덱스를 이용하여 데이터 선택하기
df_y = df.loc['2018'] # df_y = df['2018']
df_y.head()

Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume
new_Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-07-02,2018-07-02,10100,10850,10900,10000,137977
2018-06-29,2018-06-29,10700,10550,10900,9990,170253
2018-06-28,2018-06-28,10400,10900,10950,10150,155769
2018-06-27,2018-06-27,10900,10800,11050,10500,133548
2018-06-26,2018-06-26,10800,10900,11000,10700,63039


In [27]:
df_ym = df.loc['2018-07']    # loc 인덱서 활용
df_ym

Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume
new_Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-07-02,2018-07-02,10100,10850,10900,10000,137977


In [28]:
df_ym_cols = df.loc['2018-07', 'Start':'High']    # 열 범위 슬라이싱
df_ym_cols

Unnamed: 0_level_0,Start,High
new_Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2018-07-02,10850,10900


In [29]:
df_ymd = df.loc['2018-07-02']
df_ymd

Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume
new_Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-07-02,2018-07-02,10100,10850,10900,10000,137977


In [30]:
df_ymd_range = df['2018-06-25':'2018-06-20']    # 날짜 범위 지정
df_ymd_range

Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume
new_Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2018-06-25,2018-06-25,11150,11400,11450,11000,55519
2018-06-22,2018-06-22,11300,11250,11450,10750,134805
2018-06-21,2018-06-21,11200,11350,11750,11200,133002
2018-06-20,2018-06-20,11550,11200,11600,10900,308596


* Timestamp 객체로 표시된 두 날짜 사이의 시간 간격을 구할 수 있음
    - 예제 : 어떤 날짜로부터 경과한 날짜를 계산하여 행 인덱스로 지정하고, 데이터를 선택하는 과정을 살펴보자

In [31]:
# 시간 간격 계산. 최근 180일 ~ 189일 사이의 값들만 선택하기
today = pd.to_datetime('2018-12-25')            # 기준일 생성
today

Timestamp('2018-12-25 00:00:00')

In [32]:
df['time_delta'] = today - df.index             # 날짜 차이 계산
df['time_delta']

new_Date
2018-07-02   176 days
2018-06-29   179 days
2018-06-28   180 days
2018-06-27   181 days
2018-06-26   182 days
2018-06-25   183 days
2018-06-22   186 days
2018-06-21   187 days
2018-06-20   188 days
2018-06-19   189 days
2018-06-18   190 days
2018-06-15   193 days
2018-06-14   194 days
2018-06-12   196 days
2018-06-11   197 days
2018-06-08   200 days
2018-06-07   201 days
2018-06-05   203 days
2018-06-04   204 days
2018-06-01   207 days
Name: time_delta, dtype: timedelta64[ns]

In [33]:
df

Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume,time_delta
new_Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2018-07-02,2018-07-02,10100,10850,10900,10000,137977,176 days
2018-06-29,2018-06-29,10700,10550,10900,9990,170253,179 days
2018-06-28,2018-06-28,10400,10900,10950,10150,155769,180 days
2018-06-27,2018-06-27,10900,10800,11050,10500,133548,181 days
2018-06-26,2018-06-26,10800,10900,11000,10700,63039,182 days
2018-06-25,2018-06-25,11150,11400,11450,11000,55519,183 days
2018-06-22,2018-06-22,11300,11250,11450,10750,134805,186 days
2018-06-21,2018-06-21,11200,11350,11750,11200,133002,187 days
2018-06-20,2018-06-20,11550,11200,11600,10900,308596,188 days
2018-06-19,2018-06-19,11300,11850,11950,11300,180656,189 days


In [34]:
df.set_index('time_delta', inplace=True)        # 행 인덱스로 지정
df_180 = df['180 days':'189 days']
df_180

Unnamed: 0_level_0,Date,Close,Start,High,Low,Volume
time_delta,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
180 days,2018-06-28,10400,10900,10950,10150,155769
181 days,2018-06-27,10900,10800,11050,10500,133548
182 days,2018-06-26,10800,10900,11000,10700,63039
183 days,2018-06-25,11150,11400,11450,11000,55519
186 days,2018-06-22,11300,11250,11450,10750,134805
187 days,2018-06-21,11200,11350,11750,11200,133002
188 days,2018-06-20,11550,11200,11600,10900,308596
189 days,2018-06-19,11300,11850,11950,11300,180656
