(sec:pandas10min_2)=
# 판다스 10분 완성 2부


**필수 라이브러리**

In [1]:
import numpy as np
import pandas as pd

## 합병과 결합: merge-join-concat

- 참고: [Merging section](https://pandas.pydata.org/docs/user_guide/merging.html#merging)

### 종/횡 결합: `pd.concat()` 함수

`pd.concat()` 함수는 여러 개의 데이터프레임을 하나로 합친다.

- `axis=0`: 종 결합. 즉 데이터프레임 여러 개의 위아래 결합.

In [2]:
df1 = pd.DataFrame(
    {
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    },
    index=[0, 1, 2, 3],
)

df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [3]:
df2 = pd.DataFrame(
    {
        "A": ["A4", "A5", "A6", "A7"],
        "B": ["B4", "B5", "B6", "B7"],
        "C": ["C4", "C5", "C6", "C7"],
        "D": ["D4", "D5", "D6", "D7"],
    },
    index=[4, 5, 6, 7],
)

df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [4]:
df3 = pd.DataFrame(
    {
        "A": ["A8", "A9", "A10", "A11"],
        "B": ["B8", "B9", "B10", "B11"],
        "C": ["C8", "C9", "C10", "C11"],
        "D": ["D8", "D9", "D10", "D11"],
    },
    index=[8, 9, 10, 11],
)

df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [5]:
pd.concat([df1, df2, df3]) # axis=0 이 기본값

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


- `axis=1`: 횡 결합. 즉 데이터프레임 여러 개의 좌우 결합.

In [6]:
df4 = pd.DataFrame(
    {
        "B": ["B2", "B3", "B6", "B7"],
        "D": ["D2", "D3", "D6", "D7"],
        "F": ["F2", "F3", "F6", "F7"],
    },
    index=[2, 3, 6, 7],
)

df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


`df1`과 `df4`가 다음과 같다.

In [7]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [8]:
df4

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


`df1`과 `df4`를 이용하여 아래 데이터프레임을 생성하는 방법은 무엇인가?

In [9]:
# 적절한 표현식 작성


인덱스를 기존의 데이터프레임과 통일시키기 위해 리인덱싱을 활용할 수도 있다.

In [10]:
df1.index

Int64Index([0, 1, 2, 3], dtype='int64')

In [11]:
pd.concat([df1, df4], axis=1).reindex(df1.index)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


In [12]:
pd.concat([df1, df4.reindex(df1.index)], axis=1)

Unnamed: 0,A,B,C,D,B.1,D.1,F
0,A0,B0,C0,D0,,,
1,A1,B1,C1,D1,,,
2,A2,B2,C2,D2,B2,D2,F2
3,A3,B3,C3,D3,B3,D3,F3


### 합병: `pd.merge()` 함수

`pd.merge()` 함수 는 SQL 방식으로 특정 열을 기준으로 두 개의 데이터프레임을 합친다.
다양한 옵션을 지원하는 매우 강력한 도구이다.

- 참고: [Database style joining](https://pandas.pydata.org/docs/user_guide/merging.html#merging-join)

**예제**

실습을 위해 아래 두 데이터프레임을 이용한다.

In [13]:
left = pd.DataFrame({"key": ["foo", "foo"], "lval": [1, 2]})
right = pd.DataFrame({"key": ["foo", "foo"], "rval": [4, 5]})

In [14]:
left

Unnamed: 0,key,lval
0,foo,1
1,foo,2


In [15]:
right

Unnamed: 0,key,rval
0,foo,4
1,foo,5


- `on="key"` 키워드 인자
    - `key` 열에 사용된 항목 각각에 대해 다른 열에서 해당 항목과 연관된 값들을 조합할 수 있는 모든 경우의 수를 다룬다.
    - `foo` 값에 대해 `lval` 열에서 2개의 값이,
        `rval` 열에서 2개의 값이 있기에 `foo`와 관련해서 총 4개의 경우가 생성된다.
    <br><br>
    
    | `key` | `left.lval` | `right.rval` | 경우의 수 |
    | :---: | :---: | :---: | :---: |
    | `foo` | `1, 2` | `4, 5` | 4 |

In [16]:
pd.merge(left, right, on="key")

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


**예제**

In [17]:
left = pd.DataFrame({"key": ["foo", "bar"], "lval": [1, 2]})
right = pd.DataFrame({"key": ["foo", "bar"], "rval": [4, 5]})

In [18]:
left

Unnamed: 0,key,lval
0,foo,1
1,bar,2


In [19]:
right

Unnamed: 0,key,rval
0,foo,4
1,bar,5


- `on="key"` 키워드 인자
    - `key` 열에 사용된 항목별로 모든 경우의 수를 다룬다.
    - `foo` 값에 대해 `lval` 열에서 1개의 값이,
        `rval` 열에서 1개의 값이 있기에 `foo`와 관련해서 총 1개의 경우가 생성된다.
    - `bar` 값에 대해 `lval` 열에서 1개의 값이,
        `rval` 열에서 1개의 값이 있기에 `foo`와 관련해서 총 1개의 경우가 생성된다.
    <br><br>
    
    | `key` | `left.lval` | `right.rval` | 경우의 수 |
    | :---: | :---: | :---: | :---: |
    | `foo` | `1` | `4` | 1 |        
    | `bar` | `2` | `5` | 1 |        

In [20]:
pd.merge(left, right, on="key")

Unnamed: 0,key,lval,rval
0,foo,1,4
1,bar,2,5


**예제**

경우의 수는 지정된 열의 항목이 사용된 횟수를 기준으로 한다. 

In [21]:
left = pd.DataFrame(
    {
        "key": ["K0", "K1", "K2", "K3"],
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
    }
)

In [22]:
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [23]:
right = pd.DataFrame(
    {
        "key": ["K0", "K1", "K2", "K3"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    }
)

In [24]:
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


| `key` | (`left.A`, `left.B`) | (`right.C`, `right.D`) | 경우의 수 |
| :---: | :---: | :---: | :---: |
| `K0` | (`A0`, `B0`) | (`C0`, `D0`) | 1 |
| `K1` | (`A1`, `B1`) | (`C1`, `D1`) | 1 |
| `K2` | (`A2`, `B2`) | (`C2`, `D2`) | 1 |
| `K3` | (`A3`, `B3`) | (`C3`, `D3`) | 1 |

`left`와 `right`가 다음과 같다.

In [25]:
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [26]:
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


`left`와 `right`를 이용해서 다음 결과를 만들어 내는 표현식은 무엇인가?

In [27]:
# 적절한 표현식 작성


**다양한 키 활용**

- 두 개 이상의 키를 하나의 쌍으로 된 키를 사용하는 경우와 유사함. 

In [28]:
left = pd.DataFrame(
    {
        "key1": ["K0", "K0", "K1", "K2"],
        "key2": ["K0", "K1", "K0", "K1"],
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
    }
)

left

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3


In [29]:
right = pd.DataFrame(
    {
        "key1": ["K0", "K1", "K1", "K2"],
        "key2": ["K0", "K0", "K0", "K0"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    }
)

right

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3


- `how='inner'`: 지정된 키의 교집합 대상

In [30]:
result = pd.merge(left, right, on=["key1", "key2"]) # how='inner' 가 기본값
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [31]:
result = pd.merge(left, right, how="inner", on=["key1", "key2"])
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


- `how='outer'`: 지정된 키의 합집합 대상

In [32]:
result = pd.merge(left, right, how="outer", on=["key1", "key2"])
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


`left`와 `right`가 다음과 같다.

In [33]:
left

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3


In [34]:
right

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3


`left`와 `right`를 이용해서 아래 데이터프레임을 생성하는 표현식은 무엇인가?

In [35]:
# 적절한 표현식 작성


- `how='cross'`: 모든 경우의 수 조합

In [36]:
result = pd.merge(left, right, how="cross")
result

Unnamed: 0,key1_x,key2_x,A,B,key1_y,key2_y,C,D
0,K0,K0,A0,B0,K0,K0,C0,D0
1,K0,K0,A0,B0,K1,K0,C1,D1
2,K0,K0,A0,B0,K1,K0,C2,D2
3,K0,K0,A0,B0,K2,K0,C3,D3
4,K0,K1,A1,B1,K0,K0,C0,D0
5,K0,K1,A1,B1,K1,K0,C1,D1
6,K0,K1,A1,B1,K1,K0,C2,D2
7,K0,K1,A1,B1,K2,K0,C3,D3
8,K1,K0,A2,B2,K0,K0,C0,D0
9,K1,K0,A2,B2,K1,K0,C1,D1


### 합병: `DataFrame.join()` 메서드

인덱스를 기준으로 두 개의 데이터프레임을 합병할 때 사용한다.

In [37]:
left = pd.DataFrame(
    {"A": ["A0", "A1", "A2"], "B": ["B0", "B1", "B2"]}, index=["K0", "K1", "K2"]
)

left

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [38]:
right = pd.DataFrame(
    {"C": ["C0", "C2", "C3"], "D": ["D0", "D2", "D3"]}, index=["K0", "K2", "K3"]
)

right

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


`left`와 `right`가 다음과 같다.

In [39]:
left

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [40]:
right

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


`left`와 `right`가 다음과 같다.

`left`와 `right`를 이용해서 아래 데이터프레임을 생성하는 표현식은 무엇인가?

In [41]:
left.join(right)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [42]:
left.join(right, how="left")

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


아래와 같이 `pd.merge()` 함수를 이용한 결과와 동일하다.

In [43]:
pd.merge(left, right, left_index=True, right_index=True, how='left')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


`pd.merge()` 함수의 키워드 인자를 동일하게 사용할 수 있다.

- `how='outer'`

In [44]:
left.join(right, how="outer")

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


아래 코드가 동일한 결과를 낸다.

In [45]:
pd.merge(left, right, left_index=True, right_index=True, how='outer')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


- `how='inner'`

In [46]:
left.join(right, how="inner")

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K2,A2,B2,C2,D2


아래 코드가 동일한 결과를 낸다.

In [47]:
pd.merge(left, right, left_index=True, right_index=True, how='inner')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K2,A2,B2,C2,D2


## 다중 인덱스<font size='2'>MultiIndex</font>

- 참고: [Multiindex / advanced indexing](https://pandas.pydata.org/docs/user_guide/advanced.html)

다중 인덱스를 이용하여 데이터를 보다 체계적으로 다를 수 있다.
또한 이어서 다룰 그룹 분류<font size='2'>Group by</font>, 
모양 변환<font size='2'>reshaping</font>, 
피벗 변환<font size='2'>pivoting</font> 등에서 유용하게 활용된다.

### `MultiIndex` 객체

다중 인덱스 객체는 보통 튜플을 이용한다.
예를 들어 아래 두 개의 리스트를 이용하여 튜플을 생성한 다음 다중 인덱스로 만들어보자.

In [48]:
arrays = [
    ["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
    ["one", "two", "one", "two", "one", "two", "one", "two"],
]

- 튜플 생성: 항목 8개

In [49]:
tuples = list(zip(*arrays))
tuples

[('bar', 'one'),
 ('bar', 'two'),
 ('baz', 'one'),
 ('baz', 'two'),
 ('foo', 'one'),
 ('foo', 'two'),
 ('qux', 'one'),
 ('qux', 'two')]

**다중 인덱스 객체 생성: `from_tupes()` 함수**

튜플 리스트를 이용하여 다중 인덱스 객체를 생성할 수 있다.

In [50]:
index = pd.MultiIndex.from_tuples(tuples)
index

MultiIndex([('bar', 'one'),
            ('bar', 'two'),
            ('baz', 'one'),
            ('baz', 'two'),
            ('foo', 'one'),
            ('foo', 'two'),
            ('qux', 'one'),
            ('qux', 'two')],
           )

- `names` 키워드 인자
    - 다중 인덱스의 각 레벨<font size='2'>level</font>의 이름 지정. 
    - 지정되지 않으면 `None`으로 처리됨.

예를 들어 위 코드에서 사용된 각각의 레벨에 이름은 다음과 같다.

- `"first"`: 0-레벨 이름
- `"second"`: 1-레벨 이름

In [51]:
index = pd.MultiIndex.from_tuples(tuples, names=["first", "second"])
index

MultiIndex([('bar', 'one'),
            ('bar', 'two'),
            ('baz', 'one'),
            ('baz', 'two'),
            ('foo', 'one'),
            ('foo', 'two'),
            ('qux', 'one'),
            ('qux', 'two')],
           names=['first', 'second'])

**다중 인덱스 객체 생성: `from_arrays()` 함수**

길이가 동일한 여러 개의 리스트로 구성된 어레이를 직접 이용할 수도 있다.

In [52]:
index = pd.MultiIndex.from_arrays(arrays, names=["first", "second"])
index

MultiIndex([('bar', 'one'),
            ('bar', 'two'),
            ('baz', 'one'),
            ('baz', 'two'),
            ('foo', 'one'),
            ('foo', 'two'),
            ('qux', 'one'),
            ('qux', 'two')],
           names=['first', 'second'])

### 다중 인덱스 라벨<font size='2'>label</font>을 사용하는 시리즈/데이터프레임 객체

- 시리즈 생성

아래 코드는 길이가 8인 어레이를 이용하여 시리즈를 생성한다.
인덱스의 라벨은 다중 인덱스가 사용된다.
각각의 레벨에서 라벨이 연속적으로 사용되는 경우는 보다 자연스러운 표현을 위해 생략되기도 한다.

In [53]:
s = pd.Series(np.random.randn(8), index=index)
s

first  second
bar    one       1.354802
       two       0.087946
baz    one      -1.549938
       two       0.560356
foo    one       0.712929
       two       0.006497
qux    one       0.814150
       two      -0.087331
dtype: float64

- 데이터프레임 생성

아래 코드는 8개의 행으로 이뤄진 2차원 어레이를 이용하여 데이터프레임을 생성한다.
`index` 또는 `columns`로 여러 개의 리스트로 구성된 어레이를 지정하면
자동으로 다중 인덱스 라벨이 지정된다.

In [54]:
df = pd.DataFrame(np.random.randn(8, 4), index=arrays)
df

Unnamed: 0,Unnamed: 1,0,1,2,3
bar,one,2.730972,0.85854,1.442073,-1.315351
bar,two,-1.394446,0.338618,-1.304758,-0.289437
baz,one,-0.72329,-1.985403,0.338772,1.147973
baz,two,1.455134,0.857843,1.308652,-0.825791
foo,one,-1.781946,-0.896386,-0.564185,-0.6549
foo,two,0.335482,-1.077071,0.68183,-0.211672
qux,one,-0.713897,-0.576169,-0.375765,-0.726874
qux,two,1.942709,-1.454634,0.894071,0.789904


다중 인덱스를 열 라벨로도 활용할 수 있다.
아래 코드는 8개의 열로 이뤄진 2차원 어레이를 이용하여 데이터프레임을 생성한다.

In [55]:
df1 = pd.DataFrame(np.random.randn(3, 8), index=["A", "B", "C"], columns=index)
df1

first,bar,bar,baz,baz,foo,foo,qux,qux
second,one,two,one,two,one,two,one,two
A,0.408647,0.5966,-0.008338,0.873745,-0.331982,0.593828,1.719961,0.156237
B,-0.640758,0.184866,-1.687869,1.307183,-0.596336,-0.211227,0.117225,1.204492
C,-0.375798,0.013704,-0.917551,-0.480002,0.555521,0.450923,-2.082255,0.198054


인덱스 라벨과 열 라벨 모두 다중 인덱스를 이용할 수도 있다.

- 동일한 길이의 리스트로 이루어진 리스트를 인덱스 또는 열의 라벨로 지정하면
    다중 인덱스로 자동 지정된다.

In [56]:
arrays2 = [
    ["toto", "toto", "titi", "titi", "tata", "tata"],
    ["A", "B", "A", "B", "A", "B"],
]

In [57]:
pd.DataFrame(np.random.randn(6, 6), index=index[:6], columns=arrays2)

Unnamed: 0_level_0,Unnamed: 1_level_0,toto,toto,titi,titi,tata,tata
Unnamed: 0_level_1,Unnamed: 1_level_1,A,B,A,B,A,B
first,second,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
bar,one,-0.531269,-1.319315,-0.783237,-0.554112,-1.030345,0.265133
bar,two,-0.732329,1.314933,1.400139,-0.768909,1.409427,0.145696
baz,one,-0.610516,-1.05076,-0.769212,-0.918906,0.519817,2.168766
baz,two,1.256193,0.161924,1.06774,-1.744932,2.062424,-0.073034
foo,one,-0.558618,0.227652,0.20442,-1.969719,0.346345,-1.341311
foo,two,-0.916065,-0.609192,0.984168,0.769209,1.463946,-0.183542


**주의사항**

튜플을 라벨로 사용하는 것은 다중 인덱스와 아무 상관 없다.
단지 라벨이 튜플인 것 뿐이다.

In [58]:
tuples

[('bar', 'one'),
 ('bar', 'two'),
 ('baz', 'one'),
 ('baz', 'two'),
 ('foo', 'one'),
 ('foo', 'two'),
 ('qux', 'one'),
 ('qux', 'two')]

In [59]:
pd.Series(np.random.randn(8), index=tuples)

(bar, one)   -1.578156
(bar, two)    0.796188
(baz, one)   -0.345618
(baz, two)    1.115705
(foo, one)   -0.481126
(foo, two)   -0.129373
(qux, one)   -0.786064
(qux, two)   -1.219939
dtype: float64

### 인덱스의 레벨

다중 인덱스 객체의 `get_level_values()` 메서드를 이용하여 레벨별 인덱스 라벨을 확인할 수 있다.

- 0-레블 라벨

In [60]:
index.get_level_values(0)

Index(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'], dtype='object', name='first')

레벨 이름을 이용할 수도 있다.

In [61]:
index.get_level_values("first")

Index(['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'], dtype='object', name='first')

- 1-레블 라벨

In [62]:
index.get_level_values(1)

Index(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'], dtype='object', name='second')

In [63]:
index.get_level_values("second")

Index(['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two'], dtype='object', name='second')

### 인덱싱

다중 인덱스를 라벨로 사용하는 시리즈와 데이터프레임의 인덱싱은 일반 인덱싱과 크게 다르지 않다.

- 시리즈 인덱싱

In [64]:
s

first  second
bar    one       1.354802
       two       0.087946
baz    one      -1.549938
       two       0.560356
foo    one       0.712929
       two       0.006497
qux    one       0.814150
       two      -0.087331
dtype: float64

In [65]:
s["qux"]

second
one    0.814150
two   -0.087331
dtype: float64

- 데이터프레임 인덱싱

`df`가 다음과 같다.

In [66]:
df

Unnamed: 0,Unnamed: 1,0,1,2,3
bar,one,2.730972,0.85854,1.442073,-1.315351
bar,two,-1.394446,0.338618,-1.304758,-0.289437
baz,one,-0.72329,-1.985403,0.338772,1.147973
baz,two,1.455134,0.857843,1.308652,-0.825791
foo,one,-1.781946,-0.896386,-0.564185,-0.6549
foo,two,0.335482,-1.077071,0.68183,-0.211672
qux,one,-0.713897,-0.576169,-0.375765,-0.726874
qux,two,1.942709,-1.454634,0.894071,0.789904


`df`를 이용하여 아래 결과를 반환하는 표현식은?

In [67]:
# 적절한 표현식 작성


레벨별로 라벨을 지정할 수 있다. 각각의 라벨은 쉼표로 구분한다.

In [68]:
df.loc["bar", ["one", "two"]]

KeyError: "None of [Index(['one', 'two'], dtype='object')] are in the [columns]"

아래와 같이 할 수도 있다.

In [79]:
df.loc["bar"].loc["one"]

0   -1.886262
1    2.493236
2   -0.035464
3    0.500853
Name: one, dtype: float64

- 데이터프레임 인덱싱: 열 라벨이 다중 인덱스인 경우

In [80]:
df1

first,bar,bar,baz,baz,foo,foo,qux,qux
second,one,two,one,two,one,two,one,two
A,-0.378184,0.052817,-0.782128,0.50195,-0.294021,-0.874656,-0.814218,-0.430703
B,-0.968468,-1.445705,-0.174168,0.541767,2.041514,1.436151,-0.208721,-0.938342
C,0.123543,-0.79257,0.68759,1.555869,0.633527,0.560887,0.410211,0.57983


In [81]:
df1["bar"]

second,one,two
A,-0.378184,0.052817
B,-0.968468,-1.445705
C,0.123543,-0.79257


레벨별로 라벨을 지정한다. 각각의 라벨은 쉼표로 구분한다.

In [82]:
df1["bar", "one"]

A   -0.378184
B   -0.968468
C    0.123543
Name: (bar, one), dtype: float64

아래와 같이 할 수도 있다

In [83]:
df1["bar"]["one"]

A   -0.378184
B   -0.968468
C    0.123543
Name: one, dtype: float64

### 슬라이싱

다중 인덱스를 라벨로 사용하는 시리즈와 데이터프레임의 인덱싱은 일반 슬라이싱과 크게 다르지 않다.

In [84]:
df

Unnamed: 0,Unnamed: 1,0,1,2,3
bar,one,-1.886262,2.493236,-0.035464,0.500853
bar,two,-0.383649,1.351271,0.185382,1.843762
baz,one,0.483177,0.407589,0.156433,-1.166961
baz,two,-1.081702,1.732283,0.705837,-1.48714
foo,one,-1.285566,-0.116625,1.155733,0.950067
foo,two,1.088217,0.112346,0.291462,0.826089
qux,one,0.381409,-0.60519,1.252181,-0.521036
qux,two,0.195374,-0.268929,-1.033568,-1.224923


- 0-레벨 인덱싱

In [85]:
df.loc["baz":"foo"]

Unnamed: 0,Unnamed: 1,0,1,2,3
baz,one,0.483177,0.407589,0.156433,-1.166961
baz,two,-1.081702,1.732283,0.705837,-1.48714
foo,one,-1.285566,-0.116625,1.155733,0.950067
foo,two,1.088217,0.112346,0.291462,0.826089


- (0, 1)-레벨 인덱싱

`df`가 다음과 같다.

In [92]:
df

Unnamed: 0,Unnamed: 1,0,1,2,3
bar,one,-1.886262,2.493236,-0.035464,0.500853
bar,two,-0.383649,1.351271,0.185382,1.843762
baz,one,0.483177,0.407589,0.156433,-1.166961
baz,two,-1.081702,1.732283,0.705837,-1.48714
foo,one,-1.285566,-0.116625,1.155733,0.950067
foo,two,1.088217,0.112346,0.291462,0.826089
qux,one,0.381409,-0.60519,1.252181,-0.521036
qux,two,0.195374,-0.268929,-1.033568,-1.224923


`df`를 이용하여 아래 결과를 반환하는 표현식은?

In [93]:
# 적절한 표현식 작성


Unnamed: 0,Unnamed: 1,0,1,2,3
baz,two,-1.081702,1.732283,0.705837,-1.48714
foo,one,-1.285566,-0.116625,1.155733,0.950067
foo,two,1.088217,0.112346,0.291462,0.826089
qux,one,0.381409,-0.60519,1.252181,-0.521036


튜플들의 리스트를 지정하면 리인덱싱처럼 작동한다.

In [87]:
df.loc[[("bar", "two"), ("qux", "one")]]

Unnamed: 0,Unnamed: 1,0,1,2,3
bar,two,-0.383649,1.351271,0.185382,1.843762
qux,one,0.381409,-0.60519,1.252181,-0.521036


이외에 `slice()` 함수와 `pd.IndexSlice` 객체를 사용하는 방법도 있지만 여기서는 다루지 않는다.

## 그룹 분류: `pd.groupby()` 함수

- 참고: [Grouping section](https://pandas.pydata.org/docs/user_guide/groupby.html#groupby)

`pd.groupby()` 함수는 다음 3 기능을 제공한다.

- **쪼개기**<font size='2'>Splitting</font>: 데이터를 조건에 따라 여러 그룹으로 쪼개기
- **적용하기**<font size='2'>Applying</font>: 그룹별로 함수 적용
- **조합하기**<font size='2'>Combining</font>: 그룹별 함수 적용 결과를 조합하여 새로운 데이터프레임/시리즈 생성

In [94]:
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar',
                         'foo', 'bar', 'foo', 'bar'],
                   'B': ['one', 'one', 'two', 'three',
                         'two', 'two', 'one', 'three'],
                   'C': np.random.randn(8),
                   'D': np.random.randn(8)})

df

Unnamed: 0,A,B,C,D
0,foo,one,1.862528,0.140788
1,bar,one,-1.684147,0.133809
2,foo,two,1.536145,0.453376
3,bar,three,-0.593406,0.284531
4,foo,two,-0.097291,0.949028
5,bar,two,0.628354,1.472412
6,foo,one,1.061002,-0.738526
7,bar,three,-0.423798,1.721764


- `A` 열에 사용된 항목 기준으로 그룹으로 분류한 후 그룹별로 `C`와 `D` 열의 모든 항목의 합 계산해서 새로운 데이터프레임 생성
    <br><br>
    
    | `A` | 경우의 수 |
    | :---: | :---: |
    | `bar` | 1 |
    | `foo` | 1 |

In [95]:
df.groupby('A')[["C", "D"]].sum()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,-2.072998,3.612516
foo,4.362384,0.804667


- `A`열의 항목과 `B` 열의 항목의 조합을 기준으로 그룹으로 그룹별로 `C`와 `D` 열의 모든 항목의 합 계산해서 새로운 데이터프레임 생성
    <br><br>
    
    | `A` | `B` | 경우의 수 |
    | :---: | :---: | :---: |
    | `bar` | `one`, `three`, `two` | 3 |
    | `foo` | `one`, `two` | 2 |

`df`가 다음과 같다.

In [98]:
df

Unnamed: 0,A,B,C,D
0,foo,one,1.862528,0.140788
1,bar,one,-1.684147,0.133809
2,foo,two,1.536145,0.453376
3,bar,three,-0.593406,0.284531
4,foo,two,-0.097291,0.949028
5,bar,two,0.628354,1.472412
6,foo,one,1.061002,-0.738526
7,bar,three,-0.423798,1.721764


`df`를 이용하여 아래 데이터프레임을 생성하는 표현식은?

In [97]:
# 적절한 표현식 작성


Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-1.684147,0.133809
bar,three,-0.423798,1.721764
bar,two,0.628354,1.472412
foo,one,1.862528,0.140788
foo,two,1.536145,0.949028


**그룹 확인**

- `for` 반복문 활용 

In [99]:
for name, group in df.groupby(["A", "B"]):
    print(name)
    print(group)

('bar', 'one')
     A    B         C         D
1  bar  one -1.684147  0.133809
('bar', 'three')
     A      B         C         D
3  bar  three -0.593406  0.284531
7  bar  three -0.423798  1.721764
('bar', 'two')
     A    B         C         D
5  bar  two  0.628354  1.472412
('foo', 'one')
     A    B         C         D
0  foo  one  1.862528  0.140788
6  foo  one  1.061002 -0.738526
('foo', 'two')
     A    B         C         D
2  foo  two  1.536145  0.453376
4  foo  two -0.097291  0.949028


- `get_group()` 메서드

In [100]:
df.groupby(["A", "B"]).get_group(('bar', 'one'))

Unnamed: 0,A,B,C,D
1,bar,one,-1.684147,0.133809


In [101]:
df.groupby(["A", "B"]).get_group(('bar', 'three'))

Unnamed: 0,A,B,C,D
3,bar,three,-0.593406,0.284531
7,bar,three,-0.423798,1.721764


- `groups` 속성

In [102]:
df.groupby(["A", "B"]).groups

{('bar', 'one'): [1], ('bar', 'three'): [3, 7], ('bar', 'two'): [5], ('foo', 'one'): [0, 6], ('foo', 'two'): [2, 4]}

- `value_counts` 속성

In [103]:
df.groupby(["A", "B"]).value_counts()

A    B      C          D        
bar  one    -1.684147   0.133809    1
     three  -0.593406   0.284531    1
            -0.423798   1.721764    1
     two     0.628354   1.472412    1
foo  one     1.061002  -0.738526    1
             1.862528   0.140788    1
     two    -0.097291   0.949028    1
             1.536145   0.453376    1
dtype: int64

- `nunique` 속성

In [104]:
df.groupby(["A", "B"]).nunique()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,1,1
bar,three,2,2
bar,two,1,1
foo,one,2,2
foo,two,2,2


- `sort=True` 키워드 인자

In [105]:
df.groupby(["A", "B"], sort=True).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-1.684147,0.133809
bar,three,-1.017205,2.006295
bar,two,0.628354,1.472412
foo,one,2.92353,-0.597737
foo,two,1.438854,1.402404


In [106]:
df.groupby(["A", "B"], sort=False).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
foo,one,2.92353,-0.597737
bar,one,-1.684147,0.133809
foo,two,1.438854,1.402404
bar,three,-1.017205,2.006295
bar,two,0.628354,1.472412


In [107]:
df.groupby(["A", "B"], sort=False).nunique()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
foo,one,2,2
bar,one,1,1
foo,two,2,2
bar,three,2,2
bar,two,1,1


**그룹 연산 예제**

- `max()` 메서드

In [84]:
df.groupby('A')[["C", "D"]].max()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,2.69287,1.578997
foo,2.817105,0.778729


In [85]:
df.groupby(["A", "B"]).max()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-0.197821,-0.119866
bar,three,2.69287,1.125497
bar,two,0.068631,1.578997
foo,one,1.587711,0.778729
foo,two,2.817105,0.544011


- `mean()` 메서드

In [86]:
df.groupby('A')[["C", "D"]].mean()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,0.735415,0.441304
foo,0.9431,0.004195


In [108]:
df.groupby(["A", "B"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-1.684147,0.133809
bar,three,-0.508602,1.003148
bar,two,0.628354,1.472412
foo,one,1.461765,-0.298869
foo,two,0.719427,0.701202


- `size()` 메서드

In [109]:
df.groupby('A')[["C", "D"]].size()

A
bar    4
foo    4
dtype: int64

`df`가 다음과 같다.

In [111]:
df

Unnamed: 0,A,B,C,D
0,foo,one,1.862528,0.140788
1,bar,one,-1.684147,0.133809
2,foo,two,1.536145,0.453376
3,bar,three,-0.593406,0.284531
4,foo,two,-0.097291,0.949028
5,bar,two,0.628354,1.472412
6,foo,one,1.061002,-0.738526
7,bar,three,-0.423798,1.721764


`df`를 이용하여 아래 데이터프레임을 생성하는 표현식은?

In [112]:
df.groupby(["A", "B"]).size()

A    B    
bar  one      1
     three    2
     two      1
foo  one      2
     two      2
dtype: int64

- `describe()` 메서드

In [90]:
df.groupby('A')[["C", "D"]].describe()

Unnamed: 0_level_0,C,C,C,C,C,C,C,C,D,D,D,D,D,D,D,D
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
A,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
bar,4.0,0.735415,1.326011,-0.197821,0.002018,0.223305,0.956702,2.69287,4.0,0.441304,1.10556,-0.819414,-0.294753,0.502815,1.238872,1.578997
foo,4.0,0.9431,1.638103,-1.005778,0.028578,0.980537,1.895059,2.817105,4.0,0.004195,0.915357,-1.268842,-0.345049,0.253447,0.602691,0.778729


In [91]:
df.groupby(["A", "B"]).describe()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,C,C,C,C,C,C,C,D,D,D,D,D,D,D,D
Unnamed: 0_level_1,Unnamed: 1_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
A,B,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2
bar,one,1.0,-0.197821,,-0.197821,-0.197821,-0.197821,-0.197821,-0.197821,1.0,-0.119866,,-0.119866,-0.119866,-0.119866,-0.119866,-0.119866
bar,three,2.0,1.535425,1.636875,0.377979,0.956702,1.535425,2.114147,2.69287,2.0,0.153041,1.375259,-0.819414,-0.333186,0.153041,0.639269,1.125497
bar,two,1.0,0.068631,,0.068631,0.068631,0.068631,0.068631,0.068631,1.0,1.578997,,1.578997,1.578997,1.578997,1.578997,1.578997
foo,one,2.0,0.980537,0.858673,0.373363,0.67695,0.980537,1.284124,1.587711,2.0,0.370805,0.576891,-0.037118,0.166844,0.370805,0.574767,0.778729
foo,two,2.0,0.905664,2.703187,-1.005778,-0.050057,0.905664,1.861384,2.817105,2.0,-0.362415,1.281881,-1.268842,-0.815629,-0.362415,0.090798,0.544011


## 모양 변환<font size='2'>Reshaping</font>

### 항목 재배열

- 참고: [Reshaping](https://pandas.pydata.org/docs/user_guide/reshaping.html#reshaping-stacking)

**스택**

열 인덱스의 레벨을 하나 줄일 때 사용한다.
없어진 레벨은 행 인덱스의 마지막 레벨로 추가된다.

In [113]:
index

MultiIndex([('bar', 'one'),
            ('bar', 'two'),
            ('baz', 'one'),
            ('baz', 'two'),
            ('foo', 'one'),
            ('foo', 'two'),
            ('qux', 'one'),
            ('qux', 'two')],
           names=['first', 'second'])

In [114]:
df = pd.DataFrame(np.random.randn(8, 2), index=index, columns=["A", "B"])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-3.339658,0.638483
bar,two,-0.446766,0.699936
baz,one,-1.351415,0.228252
baz,two,1.534718,0.533772
foo,one,0.15637,-1.60971
foo,two,-0.73043,0.928883
qux,one,-0.048481,1.443387
qux,two,-0.850309,-0.29975


In [115]:
df2 = df[:4]
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-3.339658,0.638483
bar,two,-0.446766,0.699936
baz,one,-1.351415,0.228252
baz,two,1.534718,0.533772


- `stack()` 메서드: 
    열이 한 개의 레벨로 구성되어 있기에 `stack()` 메서드를 적용하면
    결국 모든 열이 없어지고, 열의 라벨은
    인덱스의 마지막 레벨의 라벨로 변환된다.
    여기서는 결국 3중 인덱스를 사용하는 시리즈를 생성한다.

`df2`가 다음과 같다.

In [121]:
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,A,B
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,-3.339658,0.638483
bar,two,-0.446766,0.699936
baz,one,-1.351415,0.228252
baz,two,1.534718,0.533772


`df2`를 이용하여 아래 데이터프레임을 생성하는 표현식은?

In [122]:
# 적절한 표현식 작성


first  second   
bar    one     A   -3.339658
               B    0.638483
       two     A   -0.446766
               B    0.699936
baz    one     A   -1.351415
               B    0.228252
       two     A    1.534718
               B    0.533772
dtype: float64

**언스택**

행 인덱스의 지정된 레벨을 열의 마지막 레벨로 변환한다.
인자를 지정하지 않으면 마지막 레벨을 변환한다.

- `unstack()` 메서드

`stacked`가 다음과 같다.

In [127]:
df3 = stacked

`df3`가 다음과 같다.

In [129]:
df3

first  second   
bar    one     A   -3.339658
               B    0.638483
       two     A   -0.446766
               B    0.699936
baz    one     A   -1.351415
               B    0.228252
       two     A    1.534718
               B    0.533772
dtype: float64

`df3`를 이용하여 아래 데이터프레임을 생성하는 표현식은?

In [131]:
# 적절한 표현식 작성


Unnamed: 0_level_0,second,one,two
first,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,A,-3.339658,-0.446766
bar,B,0.638483,0.699936
baz,A,-1.351415,1.534718
baz,B,0.228252,0.533772


인자를 지정하면 해당 레벨을 열의 마지막 레벨로 변환한다.

In [132]:
stacked.unstack(0)

Unnamed: 0_level_0,first,bar,baz
second,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,-3.339658,-1.351415
one,B,0.638483,0.228252
two,A,-0.446766,1.534718
two,B,0.699936,0.533772


### 피버팅

- 참고: [Pivot Tables](https://pandas.pydata.org/docs/user_guide/reshaping.html#reshaping-pivot)

**`pd.pivot_table()` 함수**

**예제**

In [133]:
import datetime

df = pd.DataFrame(
    {
        "A": ["one", "one", "two", "three"] * 6,
        "B": ["A", "B", "C"] * 8,
        "C": ["foo", "foo", "foo", "bar", "bar", "bar"] * 4,
        "D": np.random.randn(24),
        "E": np.random.randn(24),
    }
)

df

Unnamed: 0,A,B,C,D,E
0,one,A,foo,-0.807445,1.571477
1,one,B,foo,0.566058,0.360575
2,two,C,foo,-1.3592,-0.416175
3,three,A,bar,0.234013,0.307681
4,one,B,bar,-0.043083,0.356286
5,one,C,bar,-0.256746,1.50422
6,two,A,foo,-0.661517,0.693881
7,three,B,foo,-0.190959,0.266937
8,one,C,foo,-0.790224,-2.576235
9,one,A,bar,-0.654992,0.263814


In [134]:
pd.pivot_table(df, values="D", index=["A", "B"], columns=["C"]) # aggfunc=np.mean 이 기본값

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,-0.595686,-0.500844
one,B,0.595371,-0.125095
one,C,-0.22554,-0.235274
three,A,0.230381,
three,B,,0.331567
three,C,-0.584019,
two,A,,-0.452055
two,B,-0.686052,
two,C,,-0.249749


In [135]:
pd.pivot_table(df, values="D", index=["A", "B"], columns=["C"], aggfunc=np.sum)

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,-1.191372,-1.001689
one,B,1.190743,-0.250191
one,C,-0.45108,-0.470548
three,A,0.460763,
three,B,,0.663134
three,C,-1.168039,
two,A,,-0.904111
two,B,-1.372104,
two,C,,-0.499498


**`DataFrame.pivot()` 메서드**

In [144]:
df = df[:6]

`df`가 다음과 같다.

In [145]:
df

Unnamed: 0,A,B,C,D,E
0,one,A,foo,-0.807445,1.571477
1,one,B,foo,0.566058,0.360575
2,two,C,foo,-1.3592,-0.416175
3,three,A,bar,0.234013,0.307681
4,one,B,bar,-0.043083,0.356286
5,one,C,bar,-0.256746,1.50422


`df`를 이용해서 아래 데이터프레임을 생성하는 표현식은?

In [146]:
# 적절한 표현식 작성


Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,,-0.807445
one,B,-0.043083,0.566058
one,C,-0.256746,
three,A,0.234013,
two,C,,-1.3592


In [137]:
df1 = df.groupby(['A', 'B', 'C']).sum().reset_index()
df1

Unnamed: 0,A,B,C,D,E
0,one,A,bar,-1.191372,0.465204
1,one,A,foo,-1.001689,0.857886
2,one,B,bar,1.190743,-0.538427
3,one,B,foo,-0.250191,-1.240406
4,one,C,bar,-0.45108,1.414438
5,one,C,foo,-0.470548,-1.621726
6,three,A,bar,0.460763,-0.314566
7,three,B,foo,0.663134,-1.384352
8,three,C,bar,-1.168039,-1.553952
9,two,A,foo,-0.904111,2.347018


In [138]:
df1.pivot(index=['A', 'B'], columns='C', values="D")

Unnamed: 0_level_0,C,bar,foo
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
one,A,-1.191372,-1.001689
one,B,1.190743,-0.250191
one,C,-0.45108,-0.470548
three,A,0.460763,
three,B,,0.663134
three,C,-1.168039,
two,A,,-0.904111
two,B,-1.372104,
two,C,,-0.499498


## 시계열

시계열<font size='2'>time series</font> 데이터는 시간의 흐름을 다루는 데이터다. 증시, 날씨 데이터 등에서 많이 사용된다.
판다스 라이브러리는 시계열 데이터를 다루는 많은 기능을 제공한다.

- 참고: [Time Series](https://pandas.pydata.org/docs/user_guide/timeseries.html#timeseries)

**`pd.date_range()` 함수**

시간을 기준으로 시간 인덱스 자료형을 생성한다.
아래 코드에 사용된 키워드 인자의 의미는 다음과 같다.

- `periods=100`: 첫째 인자로 지정된 시간부터 100개의 시간 데이터 샘플 생성
- `freq="S"`: 100개의 시간 데이터 샘플을 초 단위로 생성

In [147]:
rng = pd.date_range("1/1/2023", periods=100, freq="S")
rng

DatetimeIndex(['2023-01-01 00:00:00', '2023-01-01 00:00:01',
               '2023-01-01 00:00:02', '2023-01-01 00:00:03',
               '2023-01-01 00:00:04', '2023-01-01 00:00:05',
               '2023-01-01 00:00:06', '2023-01-01 00:00:07',
               '2023-01-01 00:00:08', '2023-01-01 00:00:09',
               '2023-01-01 00:00:10', '2023-01-01 00:00:11',
               '2023-01-01 00:00:12', '2023-01-01 00:00:13',
               '2023-01-01 00:00:14', '2023-01-01 00:00:15',
               '2023-01-01 00:00:16', '2023-01-01 00:00:17',
               '2023-01-01 00:00:18', '2023-01-01 00:00:19',
               '2023-01-01 00:00:20', '2023-01-01 00:00:21',
               '2023-01-01 00:00:22', '2023-01-01 00:00:23',
               '2023-01-01 00:00:24', '2023-01-01 00:00:25',
               '2023-01-01 00:00:26', '2023-01-01 00:00:27',
               '2023-01-01 00:00:28', '2023-01-01 00:00:29',
               '2023-01-01 00:00:30', '2023-01-01 00:00:31',
               '2023-01-

아래 코드는 0부터 500 사이에서 100개의 정수를 임의로 생성한 다음에 
위 시간 인덱스를 이용하여 시리즈를 생성한다.

In [148]:
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
ts

2023-01-01 00:00:00    240
2023-01-01 00:00:01    458
2023-01-01 00:00:02    163
2023-01-01 00:00:03    271
2023-01-01 00:00:04    300
                      ... 
2023-01-01 00:01:35    362
2023-01-01 00:01:36    102
2023-01-01 00:01:37    156
2023-01-01 00:01:38    114
2023-01-01 00:01:39    395
Freq: S, Length: 100, dtype: int32

**`resample()` 메서드**

 인자로 지정된 기준으로 구룹 생성 후 집계<font size='2'>aggregation</font> 실행한다.

아래 코드의 의미는 다음과 같다.
- `"10S"`: 10초 단위로 데이터를 그룹으로 묶기
- `sum()` 메서도: 그룹별로 속한 데이터 샘플 모두 더하기

In [149]:
ts.resample("10S").sum()

2023-01-01 00:00:00    2980
2023-01-01 00:00:10    2441
2023-01-01 00:00:20    1680
2023-01-01 00:00:30    2490
2023-01-01 00:00:40    2495
2023-01-01 00:00:50    2141
2023-01-01 00:01:00    3154
2023-01-01 00:01:10    3104
2023-01-01 00:01:20    2312
2023-01-01 00:01:30    2620
Freq: 10S, dtype: int32

아래 코드의 의미는 다음과 같다.
- `"1Min"`: 1분 단위로 데이터를 그룹으로 묶기
- `sum()` 메서도: 그룹별로 속한 데이터 샘플 모두 더하기

In [150]:
ts.resample("1Min").sum()

2023-01-01 00:00:00    14227
2023-01-01 00:01:00    11190
Freq: T, dtype: int32

**시간 대 기간**

시간<font size='2'>time stamp</font>과 기간<font size='2'>period</font>의 차이점과
상호 변환 방식을 살펴본다.

- 2023년 1월 1일부터 월 단위로 12개의 항목을 갖는 시간 인덱스 생성

In [151]:
rng = pd.date_range("1/1/2023", periods=12, freq="M")
rng

DatetimeIndex(['2023-01-31', '2023-02-28', '2023-03-31', '2023-04-30',
               '2023-05-31', '2023-06-30', '2023-07-31', '2023-08-31',
               '2023-09-30', '2023-10-31', '2023-11-30', '2023-12-31'],
              dtype='datetime64[ns]', freq='M')

- 앞서 생성된 시간 인덱스를 라벨로 사용하는 시리즈 생성

In [152]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2023-01-31    0.399498
2023-02-28    0.835630
2023-03-31   -0.350634
2023-04-30    0.541861
2023-05-31    0.193726
2023-06-30    0.038754
2023-07-31    1.291831
2023-08-31   -1.045115
2023-09-30   -1.527701
2023-10-31   -0.274279
2023-11-30    0.092871
2023-12-31   -1.090811
Freq: M, dtype: float64

**`to_period() 메서드`**

- 시간 인덱스를 월 단위의 기간 인덱스로 변환

In [153]:
ps = ts.to_period()
ps

2023-01    0.399498
2023-02    0.835630
2023-03   -0.350634
2023-04    0.541861
2023-05    0.193726
2023-06    0.038754
2023-07    1.291831
2023-08   -1.045115
2023-09   -1.527701
2023-10   -0.274279
2023-11    0.092871
2023-12   -1.090811
Freq: M, dtype: float64

**`to_timestamp() 메서드`**

- 기간 인덱스를 월 단위의 시간 인덱스로 변환

In [154]:
ps.to_timestamp()

2023-01-01    0.399498
2023-02-01    0.835630
2023-03-01   -0.350634
2023-04-01    0.541861
2023-05-01    0.193726
2023-06-01    0.038754
2023-07-01    1.291831
2023-08-01   -1.045115
2023-09-01   -1.527701
2023-10-01   -0.274279
2023-11-01    0.092871
2023-12-01   -1.090811
Freq: MS, dtype: float64

## 데이터셋 불러오기와 저장하기

**csv 파일 불러오기**

- 참고: [`DataFrame.to_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html#pandas.DataFrame.to_csv)

In [114]:
df.to_csv("foo.csv")

**csv 파일로 저장하기**

- 참고: [`read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html#pandas.read_csv)

In [115]:
pd.read_csv("foo.csv")

Unnamed: 0.1,Unnamed: 0,A,B,C,D,E
0,0,one,A,foo,-2.878726,-2.06446
1,1,one,B,foo,1.450555,0.130506
2,2,two,C,foo,-1.023284,-0.070181
3,3,three,A,bar,0.360537,1.091334
4,4,one,B,bar,2.076769,-0.76659
5,5,one,C,bar,-0.226304,0.575288
6,6,two,A,foo,0.875535,-2.104198
7,7,three,B,foo,-0.981223,0.452921
8,8,one,C,foo,-0.254173,-0.573222
9,9,one,A,bar,1.322995,0.695488


**엑셀 파일 불러오기**

- 참고: [`DataFrame.to_excel()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html#pandas.DataFrame.to_excel)

In [116]:
df.to_excel("foo.xlsx", sheet_name="Sheet1")

**엑셀 파일로 저장하기**

- 참고: [`read_excel()`](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html#pandas.read_excel)

In [117]:
pd.read_excel("foo.xlsx", "Sheet1", index_col=None, na_values=["NA"])

Unnamed: 0.1,Unnamed: 0,A,B,C,D,E
0,0,one,A,foo,-2.878726,-2.06446
1,1,one,B,foo,1.450555,0.130506
2,2,two,C,foo,-1.023284,-0.070181
3,3,three,A,bar,0.360537,1.091334
4,4,one,B,bar,2.076769,-0.76659
5,5,one,C,bar,-0.226304,0.575288
6,6,two,A,foo,0.875535,-2.104198
7,7,three,B,foo,-0.981223,0.452921
8,8,one,C,foo,-0.254173,-0.573222
9,9,one,A,bar,1.322995,0.695488
