## 데이터프레임 고급 인덱싱

인덱싱 (indexing) : 데이터프레임에서 특정 데이터만 추출하는 것

Pandas에서 제공하는 특별한 인덱서 (indexer)
- numpy 행렬과 같이 쉼표를 사용한 [행 인덱스, 열 인덱스] 형식의 2차원 인덱싱을 지원하기 위해 특별한 인덱서 속성 제공
- [행, 열]

특별한 인덱서
- loc : 라벨값 기반의 2차원 인덱싱 (열 이름이 문자인 경우)
- iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱
- at : 라벨값 기반의 2차원 인덱싱 (한 개의 스칼라 값만 찾음)
- iat : 순서를 나타내는 정수 기반의 2차원 인덱싱 (한 개의 스칼라 값만 찾음)
    (at와 iat는 빠른 인덱싱 속도가 요구되는 경우에 사용)

### loc 인덱서 (라벨값(문자) 기반)
loc 인덱서 사용법
(1) df.loc[행 인덱싱 값] : 값을 하나만 넣으면 행 선택
(2) df.loc[행 인덱싱 값, 열 인덱싱 값] : [행, 열] 형식

In [1]:
import pandas as pd
import numpy as np

In [11]:
# 데이터프레임 생성
# 10~21 (12개)
# 3행 4열
# 열 방향 인덱스 : A, B, C, D
# 행 방향 인덱스 : a, b, c

df = pd.DataFrame(np.arange(10,22).reshape(3,4),
                  index=['a','b','c'],columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


### loc 인덱스에서 문자 인덱스인 경우의 행 추출

### 인덱싱 값이 하나인 경우 : 행 선택

In [12]:
# df의 a행 추출
df.loc['a'] # 시리즈 반환

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [14]:
# 열 이름 넣을 경우 에러
# df.loc['A'] # KeyError

In [15]:
# 여러 개의 행 이름 사용
df.loc[['a','c']] # a행와 c행 추출 : 데이터프레임 반환

Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21


In [16]:
# 슬라이싱도 가능
# a행에서 c행까지 추출
df.loc['a':'c']

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [17]:
# loc 사용하지 않은 일반 슬라이싱과 동일
df['a':'c'] # == df.loc['a':'c']

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [18]:
# 인덱싱 값으로 불리언 시리즈 사용 가능
df.loc[df.A > 15] # 결과 : 데이터프레임
# A열의 값이 15보다 큰 행 반환 : c행

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [19]:
# 불리언 시리즈 : 결과값이 True 또는 False인 시리즈
df.A > 15 # 시리즈 반환

a    False
b    False
c     True
Name: A, dtype: bool

In [20]:
# 열 이름이 영문자로 이루어진 경우 속성처럼 사용 가능 (앞에서 했음)
df.A # A열 값 추출 : 리스트 반환

a    10
b    14
c    18
Name: A, dtype: int32

In [21]:
# 인덱스 대신 인덱스 값을 반환하는 함수를 사용할 수도 있음
# 함수 생성 : A열의 값이 15보다 큰 행을 반환하는 함수
def select_rows(df) :
    return df.A > 15

In [23]:
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [None]:
### loc 인덱스에서 정수 인덱스인 경우 슬라이싱
- 라벨 슬라이싱 방식을 따름
- 즉, 슬라이스의 마지막 값 포함
- 다시 말해  start에서 end까지의 행 추출 (정수인 경우 : start에서 end-1까지)

In [24]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [25]:
# loc 인덱서를 사용하지 않는 슬라이싱
# 정수 인덱스인 경우
# start에서 end-1까지
df[0:3] # 0에서 2(3-1)행까지 

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [26]:
# 문자 인덱스인 경우
# start에서 end까지
df['a':'c'] # a행에서 c행까지

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [27]:
# loc 인덱스에서 문자 인덱싱
df.loc['a':'c'] # == df['a':'c']

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [31]:
# 정수 인덱스로 되어 있는 데이터프레임 생성
df2 = pd.DataFrame(np.arange(10,26).reshape(4,4),columns=['A','B','C','D'])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [33]:
# loc 인덱스에서 정수 인덱스를 할 때
# 문자 인덱스인 경우와 동일
df2.loc[0:2] # 0~2행 추출 (문자 인덱싱과 동일한 범위로 선택)

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21


### 인덱싱 값을 행과 열 모두 받는 경우
df.loc[행 인덱스, 열 인덱스]
- ~행 ~열에 위치한 값 추출

In [35]:
df.loc['a','A'] # a행 A열의 값

10

In [36]:
# 인덱싱 값으로 라벨 데이터의 슬라이싱 또는 리스트를 사용할 수도 있음
df.loc['b':,'A'] # 행 : b행에서 끝까지, 열 : A열 

b    14
c    18
Name: A, dtype: int32

In [37]:
df.loc['a',:] # a행 모든 열의 값

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [39]:
# 행 : a~c
# 열 : B~D
df.loc['a':'c','B':'D']

Unnamed: 0,B,C,D
a,11,12,13
b,15,16,17
c,19,20,21


In [44]:
# 행 또는 열의 값이 여러 개인 경우 [] 사용 (비 연속 가능)
# 행 : a, b
# 열 : A, C, D
df.loc[['a','b'],['A','C','D']]
# df.loc['a':'b',('A','C','D')]

Unnamed: 0,A,C,D
a,10,12,13
b,14,16,17


불리언 시리즈나 이러한 불리언 시리즈를 반납하는 함수도 행의 인덱싱 값이 될 수 있음
df.A > 10 

In [45]:
df.loc[df.A > 10,['C','D']]

Unnamed: 0,C,D
b,16,17
c,20,21


### iloc 인덱서 (정수 기반)
iloc 인덱스 : 순서를 나타내는 정수 인덱스만 받음
    - 문자, 순자 인덱스로 된 데이터프레임에 다 사용 가능
    - 다른 사항은 loc 인덱서와 동일

In [46]:
df # 행 인덱스가 문자로 되어 있음

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [47]:
# 인덱스 하나만 있으면 행 선택
df.iloc[1] # b행 선택

A    14
B    15
C    16
D    17
Name: b, dtype: int32

In [48]:
# 슬라이싱
df.iloc[0:2] # start에서 end-1까지 

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


In [49]:
# 개별 데이터 인덱싱
df.iloc[0,1] # 0행 1열의 값

11

In [51]:
# 행 : 0~1
# 열 : 2열
df.iloc[0:2,2] # == df.iloc[:2,2]

a    12
b    16
Name: C, dtype: int32

In [52]:
# 마지막 행
df.iloc[-1] # c헹(마지막 행)

A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [59]:
# 행 : 2
# 열 : 1~2열
# 데이터프레임으로 추출
df.iloc[2:3,1:3] # 데이터프레임 반환

Unnamed: 0,B,C
c,19,20


In [60]:
df.iloc[2,1:3] # 시리즈로 반환

B    19
C    20
Name: c, dtype: int32

In [61]:
# 마지막 행의 값에 곱하기 2
df.iloc[-1]*2

A    36
B    38
C    40
D    42
Name: c, dtype: int32

In [None]:
df.ilocp[-1]=df.iloc[-1]*2

In [None]:
### 연습문제
(1) 모든 행과 열에 라벨(문자)을 가지는 5 x 5 이상의 크기의 데이터프레임 생성
(2) 10가지 이상의 방법으로 특정한 행과 열 선택 (인덱싱/슬라이싱)
- 일반 인덱싱 / 슬라이싱
- loc / iloc 인덱서를 사용한 인덱싱 / 슬라이싱

In [69]:
#(1) 모든 행과 열에 라벨(문자)을 가지는 5 x 5 이상의 크기의 데이터프레임 생성
df_ex = pd.DataFrame(np.arange(1,26).reshape(5,5),columns=['A','B','C','D','E'], index=['a','b','c','d','e'])
df_ex

Unnamed: 0,A,B,C,D,E
a,1,2,3,4,5
b,6,7,8,9,10
c,11,12,13,14,15
d,16,17,18,19,20
e,21,22,23,24,25


In [73]:
#(2) 10가지 이상의 방법으로 특정한 행과 열 선택 (인덱싱/슬라이싱)
# 일반 인덱싱 / 슬라이싱
# A열
df_ex['A'] # 시리즈

a     1
b     6
c    11
d    16
e    21
Name: A, dtype: int32

In [74]:
# A열
df_ex[['A']] # 데이터프레임

Unnamed: 0,A
a,1
b,6
c,11
d,16
e,21


In [85]:
# a행
df_ex[0:1] # == df_ex[:1] # 데이터프레임

Unnamed: 0,A,B,C,D,E
a,1,2,3,4,5
b,6,7,8,9,10


In [145]:
# a~c행
df_ex['a':'c'] # 데이터프레임

Unnamed: 0,A,B,C,D,E
a,1,2,3,4,5
b,6,7,8,9,10
c,11,12,13,14,15


In [106]:
# a~c행
df_ex[0:3] # 데이터프레임

Unnamed: 0,A,B,C,D,E
a,1,2,3,4,5
b,6,7,8,9,10
c,11,12,13,14,15


In [109]:
# d~e행
df_ex['c':'e'] # 데이터프레임

Unnamed: 0,A,B,C,D,E
c,11,12,13,14,15
d,16,17,18,19,20
e,21,22,23,24,25


In [103]:
# a행의 A열의 값(개별 인덱싱)
df_ex['A']['a']

1

In [None]:
# loc / iloc 인덱서를 사용한 인덱싱 / 슬라이싱

In [155]:
# 행 : d, e
# 열 : A, B, C, D
df_ex.loc[['d','e'],['A','B','C','D']]

Unnamed: 0,A,B,C,D
d,16,17,18,19
e,21,22,23,24


In [140]:
# 행 : c
# 열 : B, D, E
df_ex.loc[['c'],['B','D','E']]

Unnamed: 0,B,D,E
c,12,14,15


In [150]:
# D열 9보다 같거나 큰 행 반환(불리언)
df_ex.loc[df_ex.D >= 9]

Unnamed: 0,A,B,C,D,E
b,6,7,8,9,10
c,11,12,13,14,15
d,16,17,18,19,20
e,21,22,23,24,25


In [142]:
# 마지막 행
df_ex.iloc[-1]

A    21
B    22
C    23
D    24
E    25
Name: e, dtype: int32

In [148]:
# 첫 번째 행에 곱하기 5
df_ex.iloc[0]*5

A     5
B    10
C    15
D    20
E    25
Name: a, dtype: int32

### at. iat 인덱서
- loc, iloc 인덱서와 비슷하지만
- 하나의 스칼라 값(개별 값)을 추출할 때만 사용
- 빠른 인덱싱 속도가 요구되는 경우에 사용
- at 인덱서 : 문자(라벨) 기반
- iat 인덱서 : 정수 기반

In [156]:
df.at['a','A']

10

In [157]:
df.iat[0,0]

10

In [None]:
loc, iloc 인덱서와 at, iat 인덱서의 수행 시간 비교
%timeit 명령 사용
- 주피터 노트북용으로 특별히 제작된 '매직' 명령
- 함수를 여러 번 식행하고 얻은 실행 시간 평균과 표준 편차 출력
  (물론 %timeit 명령으로 얻은 실행 시간은 함수를 실행시키는 시스템마다 동일하지 않지만,
   그래도 동일한 시스템, 동일한 데이터셋에 대해 여러 다른 함수의 실행 시간을 비교하는데 유용한 벤치마크 도구로 제공)

In [160]:
%timeit df.loc['a','A'] # 6.8 마이크로 초

6.81 µs ± 620 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [161]:
%timeit df.at['a','A'] # 4.3 마이크로 초

4.3 µs ± 144 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [162]:
%timeit df.iloc[0,0] # 6.19 마이크로 초

6.19 µs ± 148 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [163]:
%timeit df.iat[0,0] # 4.07 마이크로 초

4.07 µs ± 96.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
