# Pandas 고급 인덱싱

pandas는 numpy 행렬과 같이 comma를 사용한 복수 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서 속성을 제공한다.

- ix : 라벨과 숫자를 동시에 지원하는 복수 인덱싱
- loc : 라벨 기반의 복수 인덱싱
- iloc : 숫자 기반의 복수 인덱싱

## ix 인덱서

- 행(Row)/열(Column) 양쪽에서 라벨 인덱싱, 숫자 인덱싱, 불리언 인덱싱(행만) 동시 가능
    - ,(comma)를 사용한 복수 인덱싱
    - 열(column)도 라벨이 아닌 숫자 인덱싱 가능
    - 열(column)도 라벨 슬라이싱(label slicing) 가능
    - ,(comma)를 사용하지 않고 단일 인덱싱을 하는 경우에는 행(row) 인덱싱으로 인식
    - 인덱싱으로 행이나 열을 업데이트하거나 새로 생성 가능

In [1]:
import numpy as np
import pandas as pd

In [2]:
data = {
    'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
    'year': [2000, 2001, 2002, 2001, 2002],
    'pop': [1.5, 1.7, 3.6, 2.4, 2.9]
}

In [3]:
df = pd.DataFrame(data)
df

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [4]:
# 순차적 indexing 과 동일
df.ix[1:3, ["state", "pop"]]

Unnamed: 0,state,pop
1,Ohio,1.7
2,Ohio,3.6
3,Nevada,2.4


In [5]:
df2 = pd.DataFrame(data, 
                   columns=['year', 'state', 'pop'],
                   index=['one', 'two', 'three', 'four', 'five'])
df2

Unnamed: 0,year,state,pop
one,2000,Ohio,1.5
two,2001,Ohio,1.7
three,2002,Ohio,3.6
four,2001,Nevada,2.4
five,2002,Nevada,2.9


In [6]:
# , 이용
df2.ix[["two", "three"], ["state", "pop"]]

Unnamed: 0,state,pop
two,Ohio,1.7
three,Ohio,3.6


In [7]:
# column에도 integer 기반 indexing 가능
df2.ix[["two", "three"], :2]

Unnamed: 0,year,state
two,2001,Ohio
three,2002,Ohio


In [8]:
# column에도 Label Slicing 가능
df2.ix[["two", "three"], "state":"pop"]

Unnamed: 0,state,pop
two,Ohio,1.7
three,Ohio,3.6


In [9]:
# `:` 사용
df2.ix[:, ["state", "pop"]]


Unnamed: 0,state,pop
one,Ohio,1.5
two,Ohio,1.7
three,Ohio,3.6
four,Nevada,2.4
five,Nevada,2.9


In [10]:
# `:` 사용
df2.ix[["two", "three"], :]

Unnamed: 0,year,state,pop
two,2001,Ohio,1.7
three,2002,Ohio,3.6


In [11]:
# ,(comma)를 사용하지 않는 경우에는 행(row) 인덱싱
df2.ix["two"]

year     2001
state    Ohio
pop       1.7
Name: two, dtype: object

In [12]:
# df2.ix["year"] 는 사용 불가
df2.ix[:, "year"]

one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

### Index Label이 없는 경우의 주의점

- Label이 지정되지 않는 경우에는 integer slicing을 label slicing으로 간주하여 마지막 값을 포함한다

In [13]:
df = pd.DataFrame(np.random.randn(5, 3))
df

Unnamed: 0,0,1,2
0,-1.360931,-0.102719,-0.051619
1,0.176688,0.707985,0.307946
2,-1.302624,0.3144,0.821004
3,-0.407315,-0.099117,1.17365
4,0.092591,-1.024102,-1.077123


In [14]:
df.columns = ["c1", "c2", "c3"]
df.ix[0:2, 1:2]

Unnamed: 0,c2
0,-0.102719
1,0.707985
2,0.3144


### loc 인덱서

- 라벨 기준 인덱싱
    - 숫자가 오더라도 라벨로 인식한다.
    - 라벨 리스트 가능
    - 라벨 슬라이싱 가능
    - 불리언 배열 가능

### iloc 인덱서

- 숫자 기준 인덱싱
    - 문자열 라벨은 불가
    - 숫자 리스트 가능
    - 숫자 슬라이싱 가능
    - 불리언 배열 가능

In [15]:
np.random.seed(1)
df = pd.DataFrame(np.random.randint(1, 11, size=(4,3)), 
                  columns=["A", "B", "C"], index=["a", "b", "c", "d"])
df

Unnamed: 0,A,B,C
a,6,9,10
b,6,1,1
c,2,8,7
d,10,3,5


In [16]:
df.ix[["a", "c"], "B":"C"]

Unnamed: 0,B,C
a,9,10
c,8,7


In [17]:
df.ix[[0, 2], 1:3]

Unnamed: 0,B,C
a,9,10
c,8,7


In [18]:
df.loc[["a", "c"], "B":"C"]

Unnamed: 0,B,C
a,9,10
c,8,7


In [19]:
# ,(comma)를 사용하지 않는 경우에는 행(row) 인덱싱
df.ix["a"]

A     6
B     9
C    10
Name: a, dtype: int64

In [20]:
# df.ix["B"] 는 사용 불가
df.ix[:, "B"]

a    9
b    1
c    8
d    3
Name: B, dtype: int64

In [21]:
df.iloc[2:4, 1:3]

Unnamed: 0,B,C
c,8,7
d,3,5


In [22]:
df.ix[2:4, 1:3]

Unnamed: 0,B,C
c,8,7
d,3,5


## 데이터 프레임의 행/열 합계

### 열 합계

In [23]:
np.random.seed(1)
df = pd.DataFrame(np.random.randint(10, size=(4, 8)))
df

Unnamed: 0,0,1,2,3,4,5,6,7
0,5,8,9,5,0,0,1,7
1,6,9,2,4,5,2,4,2
2,4,7,7,9,1,7,0,6
3,9,9,7,6,9,1,0,1


In [24]:
df.sum(axis=1)

0    35
1    34
2    41
3    42
dtype: int64

In [25]:
df["Sum"] = df.sum(axis=1)
df

Unnamed: 0,0,1,2,3,4,5,6,7,Sum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42


### 행 합계

In [26]:
df.sum()

0       24
1       33
2       25
3       24
4       15
5       10
6        5
7       16
Sum    152
dtype: int64

In [27]:
df.ix['Total'] = df.sum()
df

Unnamed: 0,0,1,2,3,4,5,6,7,Sum
0,5,8,9,5,0,0,1,7,35
1,6,9,2,4,5,2,4,2,34
2,4,7,7,9,1,7,0,6,41
3,9,9,7,6,9,1,0,1,42
Total,24,33,25,24,15,10,5,16,152
