In [1]:
import numpy as np
import pandas as pd
pd.__version__

'0.23.0'

# Pandas 객체 소개

Pandas의 세가지 기본 자료구조 `Series`, `DataFrame` 그리고  `Index` 입니다.

## Series

`Series`는 인덱싱된 1차원 배열이며, 리스트나 배열을 사용해서 만들 수 있습니다.

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0]) # 배열
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [3]:
data.index # 배열 인덱스

RangeIndex(start=0, stop=4, step=1)

In [4]:
data[1] # 인덱스 접근

0.5

In [5]:
data[1:3] # 슬라이싱

1    0.50
2    0.75
dtype: float64

### 일반화된 NumPy 배열

`NumPy` 배열에는 값에 접근하는데 사용되는 암묵적으로 정의된 정수형 인텍스가 있고, Pandas Series에는 값에 연결된 명시적으로 정의된 인텍스가 있다.

In [6]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], 
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [7]:
data['b']

0.5

In [8]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [9]:
data[5]

0.5

### 특수한 딕셔너리

Pandas의 Series를 파이썬 딕셔너리의 특수한 버전 정도로 여길 수도 있습니다. 그러나 Pandas Series의 경우 타입이 지정된다는 것이 더 특별한 의미를 가집니다.

In [10]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [11]:
population['California']

38332521

In [12]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

### Series 객체 구성하기


In [13]:
pd.Series([2, 4, 6]) # index는 정수가 기본으로 사용

0    2
1    4
2    6
dtype: int64

In [14]:
pd.Series(5, index=[100, 200, 300]) # 인덱스를 채우기 위해 반복된 스칼라 값을 사용

100    5
200    5
300    5
dtype: int64

In [15]:
pd.Series({2:'a', 1:'b', 3:'c'}) # 딕셔너리를 사용

2    a
1    b
3    c
dtype: object

In [16]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2]) # 인덱스를 지정

3    c
2    a
dtype: object

## DataFrame

`Series` 객체와 마찬가지로 `DataFrame` 또한 `NumPy` 배열의 일반화된 버전 혹은 파이썬 딕셔너리의 특수한 버전으로  생각할 수 있지만, Pandas의 독특한 용법에 대해서 알아보도록 하겠습니다.

### 일반화된 NumPy 배열

`DataFrame`은 행과 열 모두 데이터 접근을 위한 일반화된 인덱스를 가지고 있는 2차원 NumPy 배열의 일반화된 버전으로 볼 수 있습니다.

In [17]:
# Pandas Series 구성
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [18]:
# Pandas Series 구성
area_dict = {'California': 423967, 
             'Texas': 695662, 
             'New York': 141297,
             'Florida': 170312, 
             'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [19]:
# DataFrame을 구성
states = pd.DataFrame({'population': population,
                       'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [20]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [21]:
states.columns

Index(['population', 'area'], dtype='object')

### 특수한 딕셔너리

딕셔너리는 키를 값에 매핑한다면 `DataFrame`은 열 이름을 열 데이터로 이뤄진 `Series`에 매핑합니다. 예를 들어, 'area` 속성을 질의하면 앞에서 본 면적을 담고 있는 `Series` 객체를 반환합니다.

In [22]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

### DataFrame 객체 구성하기

`DataFrame`은 `Series` 객체의 집합체로서 열 하나짜리 `DataFrame`은 단일 `Series`로부터 구성할 수 있습니다. 딕셔너리를 사용해서 구성 가능하며, 만약 일부의 키가 누락되더라도 Pandas는 누락된 자리를 `NaN` 값으로 채웁니다.

In [23]:
pd.DataFrame(population, columns=['population']) # 단일 `Series`

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [24]:
data = [{'a': i, 'b': 2 * i} for i in range(3)] # list를 사용
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [25]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}]) # 딕셔너리 사용

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


In [26]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c']) # 인덱스 지정

Unnamed: 0,foo,bar
a,0.227154,0.53919
b,0.924699,0.636513
c,0.97168,0.57971


In [27]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')]) # 열의 데이터 타입 지정
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

## Index 객체

`Index` 객체는 불변의 배열이자 정렬된 집합으로 볼 수 있습니다.

In [28]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### 불변의 배열

In [29]:
ind[1]

3

In [30]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

In [31]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [32]:
ind[1] = 0

TypeError: Index does not support mutable operations

### 정렬된 집합

In [None]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [None]:
indA & indB # 교집합

In [None]:
indA | indB # 합집합

In [None]:
indA ^ indB # 차집합

# 데이터 인덱싱과 선택

## Series에서 딕셔너리 형태를 사용한 데이터 선택

In [33]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [34]:
data['b'] # 키를 사용해서 접근

0.5

In [35]:
'a' in data

True

In [36]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [37]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

In [38]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

## Series에서 1차열 배열 행태를 사용

In [39]:
data['a':'c'] # 슬라이싱

a    0.25
b    0.50
c    0.75
dtype: float64

In [40]:
data[0:2] # 암묵적인 인덱스를 사용

a    0.25
b    0.50
dtype: float64

In [41]:
data[(data > 0.3) & (data < 0.8)] # 마스킹 사용

b    0.50
c    0.75
dtype: float64

In [42]:
data[['a', 'e']] # 팬시 인덱싱


a    0.25
e    1.25
dtype: float64

## 인덱서(indexer) - loc, iloc, ix
암묵적인 인덱스를 사용할 경우 혼선이 발생할 우려가 있기 때문에 Pandas는 특정 인덱싱 방식을 명시적으로 드러내는 몇 가지 특별한 인덱서 속성을 제공합니다.

In [43]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
data

1    a
3    b
5    c
dtype: object

In [44]:
data[1] # 명시적 인덱스 사용

'a'

In [45]:
data[1:3] # 암묵적 인덱스 사용

3    b
5    c
dtype: object

In [46]:
data.loc[1] # loc는 언제나 명시적인 인덱스를 참조

'a'

In [47]:
data.loc[1:3]

1    a
3    b
dtype: object

In [48]:
data.iloc[1] # iloc는 언제나 암묵적인 파이썬 스타일의 인덱스를 참조

'b'

In [49]:
data.iloc[1:3]

3    b
5    c
dtype: object

## DataFrame에서 딕셔너리로 데이터 선택

In [50]:
area = pd.Series({'California': 423967, 
                  'Texas': 695662,
                  'New York': 141297, 
                  'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521,
                 'Texas': 26448193,
                 'New York': 19651127,
                 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [51]:
data['area'] # 딕셔너리 스타일

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [52]:
data.area # 열 이름을 이용

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [53]:
data.area is data['area'] # 모든 경우에 동작하지 않음 아래 에를 참고할 것

True

In [54]:
data.pop is data['pop'] # pop은 메서드를 가리킴..?!

False

In [55]:
data['density'] = data['pop'] / data['area'] # 객체 변경 가능
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


## DataFrame에서 2차원 배열로 데이터 선택

In [56]:
area = pd.Series({'California': 423967, 
                  'Texas': 695662,
                  'New York': 141297, 
                  'Florida': 170312,
                  'Illinois': 149995})
pop = pd.Series({'California': 38332521,
                 'Texas': 26448193,
                 'New York': 19651127,
                 'Florida': 19552860,
                 'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [57]:
data['density'] = data['pop'] / data['area'] # 객체 변경 가능
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [58]:
data.values # 데이터 확인

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [59]:
data.T # 행과 열을 변경

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [60]:
data.values[0] # 행 선택

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [61]:
data['area'] # 열 선택

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [62]:
data.iloc[:3, :2] # 파이썬의 암묵적인 인덱스

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [63]:
data.loc[:'Illinois', :'pop'] # 명시적 인덱스

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [64]:
data.ix[:3, :'pop'] # loc와 iloc를 사용할 것

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [65]:
data.loc[data.density > 100, ['pop', 'density']] # 마스킹과 팬시 인덱스

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [66]:
data.iloc[0, 2] = 90 # 설정 가능
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


## 추가적인 인덱싱 규칙

In [67]:
data['Florida':'Illinois'] # 인덱싱은 열을 참조, 슬라이싱은 행을 참조

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [68]:
data[1:3] # 인덱스 대신 숫자로 행을 참조할 수 있음

Unnamed: 0,area,pop,density
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746


In [69]:
data[data.density > 100] # 마스킹 연산은 행 단위로 해석

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


# Pandas 에서 데이터 연산하기

`NumPy`의 기본 중 하나는 기본 산술 연산과 복잡한 연산 모두에서 요소 단위의 연산을 빠르게 수행할 수 있다는 점 입니다(? 이게 뭔 말인가?!). `Pandas`는 `NumPy`로부터 이 기능의 대부분을 상속받았으며(?! 객체지향?) `NumPy`의 유니버셜 함수가 그 핵심입니다.

In [70]:
import pandas as pd
import numpy as np

In [71]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0, 10, 4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [72]:
df = pd.DataFrame(rng.randint(0, 10, (3, 4)), columns=['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


`NumPy` 유니버셜 함수를 이 객체 중 하나에 적용하면 그 결과는 인덱스가 그대로 보존된 다른 Pandas 객체가 됩니다.

In [73]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

In [74]:
np.sin(df * np.pi / 4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


두 개의 `Series` 또는 `DataFrame` 객채에 이항 연산을 적용하는 경우, `Pandas`는 연산을 수행하는 과정에서 인덱스를 정렬합니다 불완전한 데이터로 작업할 때 매우 편리합니다.

In [84]:
A = pd.DataFrame(rng.randint(0, 20, (2, 2)), columns=list('AB'))
A

Unnamed: 0,A,B
0,8,1
1,19,14


In [85]:
B = pd.DataFrame(rng.randint(0, 10, (3, 3)), columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,6,7,2
1,0,3,1
2,7,3,1


둘 중 하나라도 값이 없는 항목은 `Pandas`가 누락된 데이터를 표시하는 방식(`NaN`)으로 표기합니다. 다른 값을 원할 경우 적절한 값을 설정하면 됩니다.

In [86]:
A + B

Unnamed: 0,A,B,C
0,15.0,7.0,
1,22.0,14.0,
2,,,


In [87]:
A.add(B, fill_value=0)

Unnamed: 0,A,B,C
0,15.0,7.0,2.0
1,22.0,14.0,1.0
2,3.0,7.0,1.0


`DataFrame`과 `Series`사이에서 연산할 때 인섹드와 열의 순서는 비슷하게 유지됩니다.

In [88]:
A = rng.randint(10, size=(3, 4))
A

array([[5, 5, 9, 3],
       [5, 1, 9, 1],
       [9, 3, 7, 6]])

In [91]:
A - A[0] # 행 하나를 기준으로 연산이 진행

array([[ 0,  0,  0,  0],
       [ 0, -4,  0, -2],
       [ 4, -2, -2,  3]])

In [92]:
df = pd.DataFrame(A, columns=list('QRST'))
df - df.iloc[0] # 행 방향으로 연산이 진행됨

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,0,-4,0,-2
2,4,-2,-2,3


In [93]:
df.subtract(df['R'], axis=0) # 열방향으로 진행

Unnamed: 0,Q,R,S,T
0,0,0,4,-2
1,4,0,8,0
2,6,0,4,3


In [94]:
halfrow = df.iloc[0, ::2]
halfrow 

Q    5
S    9
Name: 0, dtype: int32

In [95]:
df - halfrow # 두 요소간의 인덱스를 자동으로 맞춰줌

Unnamed: 0,Q,R,S,T
0,0.0,,0.0,
1,0.0,,0.0,
2,4.0,,-2.0,


# 누락된 데이터 처리하기

대부분의 데이터는 누락된 형태로 제공됩니다. 누락된 데이터를 `Pandas`에서 처리하는 방법을 소개합니다.

In [96]:
import numpy as np
import pandas as pd

In [97]:
vals1 = np.array([1, None, 3, 4])
vals1

array([1, None, 3, 4], dtype=object)

In [98]:
for dtype in ['object', 'int']:
    print("dtype =", dtype)
    %timeit np.arange(1E6, dtype=dtype).sum()
    print()

dtype = object
64.6 ms ± 3.32 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

dtype = int
2.45 ms ± 209 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)



In [101]:
vals1.sum() # 배열에서 파이썬 객체를 사용하면 `sum()`이나 `min()` 같은 집계 연산을 하면 오류가 발생!

TypeError: unsupported operand type(s) for +: 'int' and 'NoneType'

In [102]:
vals2 = np.array([1, np.nan, 3, 4]) 
vals2.dtype

dtype('float64')

In [104]:
1 + np.nan # 오류가 발생하진 않지만 그렇다고 해서 유용한 것은 아님

nan

In [106]:
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2) # NaN을 처리하는 함수를 제공, NaN은 부동솟수점 연산

(8.0, 1.0, 4.0)

## Null 값 연산

* isnull(): 누락값인지 확인
* notnull(): 누락값이 아닌지 확인
* dropna(): 필터를 적용
* fillna(): 특정값으로 채움(데이터 사본을 반환)

In [107]:
data = pd.Series([1, np.nan, 'hello', None])

In [108]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [109]:
data[data.notnull()]


0        1
2    hello
dtype: object

In [117]:
data.dropna() # 널값을 제거

0        1
2    hello
dtype: object

In [111]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [118]:
df.dropna() # 널 값이 존재하는 모든 행을 삭제

Unnamed: 0,0,1,2,3


In [119]:
df.dropna(axis='columns') # 컬럼을 기준으로 삭제

Unnamed: 0,2
0,2
1,5
2,6


In [114]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [120]:
df.dropna(axis='columns', how='all') # 모든 값이  null인 행이나 열만 삭제

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [121]:
df.dropna(axis='rows', thresh=3) # 최소한의 널이 아닌 값의 갯수

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


In [122]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [124]:
data.fillna(0) # 널 채우기

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

In [127]:
data.fillna(method='ffill') # 이전 값으로 채우기

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [128]:
data.fillna(method='bfill') # 다음에 오는 값으로 채우기

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

In [129]:
df.fillna(method='ffill', axis=1) # 컬럼을 기준으로 채우기

Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0


## 계층적 인덱싱

3차원과 4차원 데이터를 처리할 수 있는 `Panel`과 `Panel4D` 객체를 제공하지만, 실제로 사용되는 패턴은 단일 인덱스 내에 여러 인덱스 레벌을 포함하는 계층적 인덱싱(`Hierarchical Indexing` 혹은 `multi-indexing`)을 사용하는 것 입니다.

In [4]:
import pandas as pd
import numpy as np

In [8]:
index = [('California', 2000), 
         ('California', 2010),
         ('New York', 2000), 
         ('New York', 2010),
         ('Texas', 2000), 
         ('Texas', 2010)]

populations = [33871648, 
               37253956,
               18976457, 
               19378102,
               20851820, 
               25145561]
pop = pd.Series(populations, index=index)
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

튜플을 사용해서 키를 설정했지만, 2010년과 관련된 모든 값을 선택하려면 데이터 먼징(`munging`)을 먼저해야 하고, 처리도 복잡합니다. 즉, 파이썬 코드가 '파이썬' 답지 못하게 됩니다.

In [10]:
pop[[i for i in pop.index if i[1] == 2010]]

(California, 2010)    37253956
(New York, 2010)      19378102
(Texas, 2010)         25145561
dtype: int64

`Pandas`에서 제공하는 더 나은 방법은 `MultiIndex` 타입을 사용하는 것 입니다.

In [11]:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex(levels=[['California', 'New York', 'Texas'], [2000, 2010]],
           labels=[[0, 0, 1, 1, 2, 2], [0, 1, 0, 1, 0, 1]])

`MultiIndex`를 `Series`로 다시 인덱싱하면 데이터를 계층적으로 볼 수 있습니다.

In [14]:
pop = pop.reindex(index)
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

두 번째 인덱스가 2010인 모든 데이터에 접근하려면 `Pandas`의 슬라이싱 표기법을 사용하면 됩니다.

In [16]:
pop[:, 2010]


California    37253956
New York      19378102
Texas         25145561
dtype: int64

### MultiIndex : 추가 지원

`unstack()` 메서드는 다중 인덱스를 가진 `Series`를 전형적인 인덱스를 가진 `DataFrame`으로 빠르게 변환해줍니다.

In [17]:
pop_df = pop.unstack()
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [20]:
pop_df.stack()

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [21]:
pop_df = pd.DataFrame({'total': pop,
                       'under18': [9267089, 9284094,
                                   4687374, 4318033,
                                   5906301, 6879014]})
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


데이터를 추가하고 연산하는 것은 기존의 DataFrame을 사용하는 것과 동일합니다.

In [25]:
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


### MultiIndex 생성 메서드

다중 인덱스를 가진 `Series`나 `DataFrame`을 생성하는 가장 간단한 방식은 생성자에 2개 이상의 인덱스 배열 리스트를 전달하는 것 입니다. MultiIndex를 생성하는 작업은 백그라운드에서 일어난다.

In [26]:
df = pd.DataFrame(np.random.rand(4, 2),
                  index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
                  columns=['data1', 'data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.978378,0.694079
a,2,0.485959,0.29896
b,1,0.798922,0.061501
b,2,0.181553,0.629901


이와 비슷하게 적당한 튜플을 키로 갖는 딕셔너리를 전달하면 `Pandas`는 자동으로 이것을 인식해 기본으로 `MultiIndex`를 사용합니다.

In [27]:
data = {('California', 2000): 33871648,
        ('California', 2010): 37253956,
        ('Texas', 2000): 20851820,
        ('Texas', 2010): 25145561,
        ('New York', 2000): 18976457,
        ('New York', 2010): 19378102}
pd.Series(data)

California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
New York    2000    18976457
            2010    19378102
dtype: int64

In [30]:
pd.MultiIndex.from_arrays([['a', 'a', 'b', 'b'], [1, 2, 1, 2]]) # 클래스 생성자를 사용

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [31]:
pd.MultiIndex.from_tuples([('a', 1), ('a', 2), ('b', 1), ('b', 2)]) # 클래스 생성자를 사용

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [33]:
pd.MultiIndex.from_product([['a', 'b'], [1, 2]]) # 클래스 생성자를 사용

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [35]:
pd.MultiIndex(levels=[['a', 'b'], [1, 2]], labels=[[0, 0, 1, 1], [0, 1, 0, 1]]) # 클래스 생성자를 사용

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [36]:
pop.index.names = ['state', 'year'] # 인덱스에 이름을 정의
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

열(Column)도 다층 구조를 형성할 수 있습니다.

In [39]:
# 계층적 인덱스와 열
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]], names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']], names=['subject', 'type'])

# 일부 데이터 모형 만들기
data = np.round(np.random.randn(4, 6), 1)
data[:, ::2] *= 10
data += 37

# DataFrame 생성하기
health_data = pd.DataFrame(data, index=index, columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,36.0,37.4,31.0,37.2,32.0,37.1
2013,2,48.0,36.9,49.0,37.4,38.0,37.8
2014,1,40.0,37.9,46.0,37.3,49.0,36.2
2014,2,32.0,36.7,35.0,37.1,35.0,37.6


In [46]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,31.0,37.2
2013,2,49.0,37.4
2014,1,46.0,37.3
2014,2,35.0,37.1


### MultiIndex 인덱싱 및 슬라이싱

### 다중 인덱스를 가진 Series

In [53]:
pop # 예제

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [54]:
pop['California', 2000] # 단일 요소로 접근

33871648

In [55]:
pop.loc['California':'New York'] # 부분 슬라이싱

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
dtype: int64

In [56]:
pop[:, 2000] # 슬라이싱

state
California    33871648
New York      18976457
Texas         20851820
dtype: int64

In [57]:
pop[pop > 22000000] # 마스크

state       year
California  2000    33871648
            2010    37253956
Texas       2010    25145561
dtype: int64

In [58]:
pop[['California', 'Texas']] # fancy indexing

state       year
California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
dtype: int64

### 다중 인덱스를 가진 DataFrame

In [60]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,36.0,37.4,31.0,37.2,32.0,37.1
2013,2,48.0,36.9,49.0,37.4,38.0,37.8
2014,1,40.0,37.9,46.0,37.3,49.0,36.2
2014,2,32.0,36.7,35.0,37.1,35.0,37.6


In [61]:
health_data['Guido', 'HR']

year  visit
2013  1        31.0
      2        49.0
2014  1        46.0
      2        35.0
Name: (Guido, HR), dtype: float64

In [66]:
health_data.iloc[:2, :2] # `loc, `iloc` 사용 가능

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,36.0,37.4
2013,2,48.0,36.9


In [67]:
health_data.loc[:, ('Bob', 'HR')] # `loc, `iloc` 사용 가능

year  visit
2013  1        36.0
      2        48.0
2014  1        40.0
      2        32.0
Name: (Bob, HR), dtype: float64

In [68]:
health_data.loc[(:, 1), (:, 'HR')] # 튜플 내부에서 슬라이스로 작업하는 것은 편리하지 않으며, 구문 에러가 발생

SyntaxError: invalid syntax (<ipython-input-68-8da87e5cbfc3>, line 1)

In [69]:
idx = pd.IndexSlice # 슬라이스를 사용할 수 있도록 명시적인 `IndexSlice` 객체를 사용
health_data.loc[idx[:, 1], idx[:, 'HR']]

Unnamed: 0_level_0,subject,Bob,Guido,Sue
Unnamed: 0_level_1,type,HR,HR,HR
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2013,1,36.0,31.0,32.0
2014,1,40.0,46.0,49.0


### MultiIndex 재정렬

대부분의 MultiIndex 슬라이싱 연산은 인덱스가 정렬되지 않으면 대부분이 실패합니다. 아래 예는 정렬되지 않은 인덱스의 실패를 보여줍니다.

In [70]:
index = pd.MultiIndex.from_product([['a', 'c', 'b'], [1, 2]])
data = pd.Series(np.random.rand(6), index=index)
data.index.names = ['char', 'int']
data

char  int
a     1      0.680905
      2      0.525216
c     1      0.474727
      2      0.523254
b     1      0.276377
      2      0.143007
dtype: float64

In [71]:
try:
    data['a':'b']
except KeyError as e:
    print(type(e))
    print(e)

<class 'pandas.errors.UnsortedIndexError'>
'Key length (1) was greater than MultiIndex lexsort depth (0)'


In [77]:
data = data.sort_index() # 인덱스를 정렬
data

char  int
a     1      0.680905
      2      0.525216
b     1      0.276377
      2      0.143007
c     1      0.474727
      2      0.523254
dtype: float64

In [78]:
data['a':'b'] # 정상적으로 작동

char  int
a     1      0.680905
      2      0.525216
b     1      0.276377
      2      0.143007
dtype: float64

In [79]:
pop.unstack(level=0) # 정렬된 다중 인덱스에서 간단한 2차원 표현으로 변경

state,California,New York,Texas
year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2000,33871648,18976457,20851820
2010,37253956,19378102,25145561


In [80]:
pop.unstack(level=1)

year,2000,2010
state,Unnamed: 1_level_1,Unnamed: 2_level_1
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


In [81]:
pop.unstack().stack() # 원래의 Series로 되돌림

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [87]:
pop_flat = pop.reset_index(name='population') # 인덱스 레이블을 열로 바꾸는 것
pop_flat

Unnamed: 0,state,year,population
0,California,2000,33871648
1,California,2010,37253956
2,New York,2000,18976457
3,New York,2010,19378102
4,Texas,2000,20851820
5,Texas,2010,25145561


In [88]:
pop_flat.set_index(['state', 'year']) # 인덱스를 설정 가능

Unnamed: 0_level_0,Unnamed: 1_level_0,population
state,year,Unnamed: 2_level_1
California,2000,33871648
California,2010,37253956
New York,2000,18976457
New York,2010,19378102
Texas,2000,20851820
Texas,2010,25145561


### 다중 인덱스에서 데이터 집계

In [89]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,36.0,37.4,31.0,37.2,32.0,37.1
2013,2,48.0,36.9,49.0,37.4,38.0,37.8
2014,1,40.0,37.9,46.0,37.3,49.0,36.2
2014,2,32.0,36.7,35.0,37.1,35.0,37.6


In [91]:
data_mean = health_data.mean(level='year') # 평균
data_mean

subject,Bob,Bob,Guido,Guido,Sue,Sue
type,HR,Temp,HR,Temp,HR,Temp
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2013,42.0,37.15,40.0,37.3,35.0,37.45
2014,36.0,37.3,40.5,37.2,42.0,36.9


In [95]:
data_mean.mean(axis=1, level='type') # 열의 평균

type,HR,Temp
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,39.0,37.3
2014,39.5,37.133333
