# 피봇테이블(Pivot Table)
- 데이터 열 중에서 두 개의 열을 각각 행인덱스, 열인덱스로 사용하여 데이터의 조회기능을 높이는 것
- pivot(행인덱스, 열인덱스, 데이터)

In [1]:
import numpy as np
import pandas as pd

In [2]:
data = {
    "도시": ["서울", "서울", "서울", "부산", "부산", "부산", "인천", "인천"],
    "연도": ["2015", "2010", "2005", "2015", "2010", "2005", "2015", "2010"],
    "인구": [9904312, 9631482, 9762546, 3448737, 3393191, 3512547, 2890451, 263203],
    "지역": ["수도권", "수도권", "수도권", "경상권", "경상권", "경상권", "수도권", "수도권"]
}

columns = ['도시','연도','인구','지역']
df1 = pd.DataFrame(data, columns=columns)
df1

Unnamed: 0,도시,연도,인구,지역
0,서울,2015,9904312,수도권
1,서울,2010,9631482,수도권
2,서울,2005,9762546,수도권
3,부산,2015,3448737,경상권
4,부산,2010,3393191,경상권
5,부산,2005,3512547,경상권
6,인천,2015,2890451,수도권
7,인천,2010,263203,수도권


In [3]:
df1.pivot('도시','연도', '인구')

연도,2005,2010,2015
도시,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


**set_index 명령과 unstack명령을 이용해서 피봇테이블 생성 가능**

In [4]:
df1.set_index(['도시','연도'])[['인구']].unstack()

Unnamed: 0_level_0,인구,인구,인구
연도,2005,2010,2015
도시,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
부산,3512547.0,3393191.0,3448737.0
서울,9762546.0,9631482.0,9904312.0
인천,,263203.0,2890451.0


In [5]:
# 다중인덱스 : 행 또는 열의 인덱스가 하나이상인 인덱스
df1.pivot(['지역','도시'],'연도','인구')

Unnamed: 0_level_0,연도,2005,2010,2015
지역,도시,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
경상권,부산,3512547.0,3393191.0,3448737.0
수도권,서울,9762546.0,9631482.0,9904312.0
수도권,인천,,263203.0,2890451.0


# 시계열 데이터 다루기

1. DatetimeIndex 객체
 - pd.to_datetime() : datetime 자료형으로 변환하는 메서드
 - pd.date_range() : 날짜를 수열로 생성하는 메서드

In [7]:
date_str = ["2023.09.27", "2023.10.10", "2023.10.30", "2023.12.25"]
idx = pd.to_datetime(date_str)
idx

DatetimeIndex(['2023-09-27', '2023-10-10', '2023-10-30', '2023-12-25'], dtype='datetime64[ns]', freq=None)

In [8]:
s = pd.Series(np.random.randn(4), index=idx)
s

2023-09-27    0.002296
2023-10-10   -0.948622
2023-10-30    0.903440
2023-12-25    0.296914
dtype: float64

**pd.date_range() 모든 날짜/시간을 일일이 입력할 필요없이 시작일과 종료일 또는 시작일과 기간을 입력하면 범위내에 인덱스를 자동으로 생성해주는 메서드**

In [9]:
pd.date_range('2023-09-27', '2023-10-27')

DatetimeIndex(['2023-09-27', '2023-09-28', '2023-09-29', '2023-09-30',
               '2023-10-01', '2023-10-02', '2023-10-03', '2023-10-04',
               '2023-10-05', '2023-10-06', '2023-10-07', '2023-10-08',
               '2023-10-09', '2023-10-10', '2023-10-11', '2023-10-12',
               '2023-10-13', '2023-10-14', '2023-10-15', '2023-10-16',
               '2023-10-17', '2023-10-18', '2023-10-19', '2023-10-20',
               '2023-10-21', '2023-10-22', '2023-10-23', '2023-10-24',
               '2023-10-25', '2023-10-26', '2023-10-27'],
              dtype='datetime64[ns]', freq='D')

In [10]:
pd.date_range('2023-09-27', periods=30)

DatetimeIndex(['2023-09-27', '2023-09-28', '2023-09-29', '2023-09-30',
               '2023-10-01', '2023-10-02', '2023-10-03', '2023-10-04',
               '2023-10-05', '2023-10-06', '2023-10-07', '2023-10-08',
               '2023-10-09', '2023-10-10', '2023-10-11', '2023-10-12',
               '2023-10-13', '2023-10-14', '2023-10-15', '2023-10-16',
               '2023-10-17', '2023-10-18', '2023-10-19', '2023-10-20',
               '2023-10-21', '2023-10-22', '2023-10-23', '2023-10-24',
               '2023-10-25', '2023-10-26'],
              dtype='datetime64[ns]', freq='D')

**freq**
- D(day) : 일
- s(second) : 초
- T : 분
- H : 시간
- B : 주말이 아닌 평일
- W : weekday, 주(일요일)
- W-MON : 주(월요일)
- M : Month(달), 각 달의 마지막 날
- https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#dateoffset-objects

In [11]:
pd.date_range("2023-09-01", "2023-09-30", freq='B')

DatetimeIndex(['2023-09-01', '2023-09-04', '2023-09-05', '2023-09-06',
               '2023-09-07', '2023-09-08', '2023-09-11', '2023-09-12',
               '2023-09-13', '2023-09-14', '2023-09-15', '2023-09-18',
               '2023-09-19', '2023-09-20', '2023-09-21', '2023-09-22',
               '2023-09-25', '2023-09-26', '2023-09-27', '2023-09-28',
               '2023-09-29'],
              dtype='datetime64[ns]', freq='B')

In [12]:
pd.date_range('2023-01-01', '2023-12-31', freq='W')

DatetimeIndex(['2023-01-01', '2023-01-08', '2023-01-15', '2023-01-22',
               '2023-01-29', '2023-02-05', '2023-02-12', '2023-02-19',
               '2023-02-26', '2023-03-05', '2023-03-12', '2023-03-19',
               '2023-03-26', '2023-04-02', '2023-04-09', '2023-04-16',
               '2023-04-23', '2023-04-30', '2023-05-07', '2023-05-14',
               '2023-05-21', '2023-05-28', '2023-06-04', '2023-06-11',
               '2023-06-18', '2023-06-25', '2023-07-02', '2023-07-09',
               '2023-07-16', '2023-07-23', '2023-07-30', '2023-08-06',
               '2023-08-13', '2023-08-20', '2023-08-27', '2023-09-03',
               '2023-09-10', '2023-09-17', '2023-09-24', '2023-10-01',
               '2023-10-08', '2023-10-15', '2023-10-22', '2023-10-29',
               '2023-11-05', '2023-11-12', '2023-11-19', '2023-11-26',
               '2023-12-03', '2023-12-10', '2023-12-17', '2023-12-24',
               '2023-12-31'],
              dtype='datetime64[ns]', freq='W-S

In [13]:
pd.date_range('2023-01-01', '2023-12-31', freq='W-MON')

DatetimeIndex(['2023-01-02', '2023-01-09', '2023-01-16', '2023-01-23',
               '2023-01-30', '2023-02-06', '2023-02-13', '2023-02-20',
               '2023-02-27', '2023-03-06', '2023-03-13', '2023-03-20',
               '2023-03-27', '2023-04-03', '2023-04-10', '2023-04-17',
               '2023-04-24', '2023-05-01', '2023-05-08', '2023-05-15',
               '2023-05-22', '2023-05-29', '2023-06-05', '2023-06-12',
               '2023-06-19', '2023-06-26', '2023-07-03', '2023-07-10',
               '2023-07-17', '2023-07-24', '2023-07-31', '2023-08-07',
               '2023-08-14', '2023-08-21', '2023-08-28', '2023-09-04',
               '2023-09-11', '2023-09-18', '2023-09-25', '2023-10-02',
               '2023-10-09', '2023-10-16', '2023-10-23', '2023-10-30',
               '2023-11-06', '2023-11-13', '2023-11-20', '2023-11-27',
               '2023-12-04', '2023-12-11', '2023-12-18', '2023-12-25'],
              dtype='datetime64[ns]', freq='W-MON')

**shift 연산**
- 시계열 데이터를 이용하여 연산을 수행하는 것으로 인덱스는 그대로 두고 데이터만 이동하는 연산자

In [14]:
ts = pd.Series(np.random.randn(4), index = pd.date_range('2023-01-01', periods=4, freq='M'))
ts

2023-01-31   -0.608729
2023-02-28    1.553731
2023-03-31   -1.810742
2023-04-30    0.694660
Freq: M, dtype: float64

In [15]:
ts.shift(1)

2023-01-31         NaN
2023-02-28   -0.608729
2023-03-31    1.553731
2023-04-30   -1.810742
Freq: M, dtype: float64

In [16]:
ts.shift(-1)

2023-01-31    1.553731
2023-02-28   -1.810742
2023-03-31    0.694660
2023-04-30         NaN
Freq: M, dtype: float64

In [17]:
ts.shift(1, freq='M')

2023-02-28   -0.608729
2023-03-31    1.553731
2023-04-30   -1.810742
2023-05-31    0.694660
Freq: M, dtype: float64

## dt 접근자
- datetime 자료형 시리즈에 사용되는 접근자
- year, month, day, weekday 속성에 이용된다.

In [18]:
s = pd.Series(pd.date_range('2020-12-25', periods=100, freq='D'))
s

0    2020-12-25
1    2020-12-26
2    2020-12-27
3    2020-12-28
4    2020-12-29
        ...    
95   2021-03-30
96   2021-03-31
97   2021-04-01
98   2021-04-02
99   2021-04-03
Length: 100, dtype: datetime64[ns]

In [19]:
s.dt.year

0     2020
1     2020
2     2020
3     2020
4     2020
      ... 
95    2021
96    2021
97    2021
98    2021
99    2021
Length: 100, dtype: int64

In [20]:
s.dt.weekday

0     4
1     5
2     6
3     0
4     1
     ..
95    1
96    2
97    3
98    4
99    5
Length: 100, dtype: int64

- strftime : 날짜 시간 데이터를 문자열로 변환하는 메서드

In [22]:
s.dt.strftime('%Y년 %m월 %d일')

0     2020년 12월 25일
1     2020년 12월 26일
2     2020년 12월 27일
3     2020년 12월 28일
4     2020년 12월 29일
          ...      
95    2021년 03월 30일
96    2021년 03월 31일
97    2021년 04월 01일
98    2021년 04월 02일
99    2021년 04월 03일
Length: 100, dtype: object