# Pandas_DataFrame_loc_iloc 인덱서 사용 _ 인덱싱_슬라이싱

In [45]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

### 데이터 프레임 인덱서 : loc, iloc
- Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원
    - 특별한 인덱서(indexer) 속성을 제공
    
* loc : 라벨값(문자) 기반의 2차원 인덱싱
* iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱 (0-base 위치 인덱스 사용)


### 인덱서 사용하지 않은 경우
- df[열] : 열 추출  (열 우선)
- df[:행] : 행 추출하려면 슬라이싱
- df[열][행]

In [2]:
import pandas as pd
import numpy as np

In [3]:
# 10~29 범위의 숫자를 value로 갖는 5행 4열의 df
df = pd.DataFrame(np.arange(10, 30).reshape(5, 4),
                  index=['a','b','c','d','e'],
                  columns = ['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25
e,26,27,28,29


#### 열 인덱싱

In [4]:
df['A'] # 하나만 적으면 열 값 추출 (열 우선)
# 시리즈 반환
type(df['A'])

pandas.core.series.Series

In [6]:
# 한 개의 열 추출 : 데이터 프레임으로 반환
df[['A']]

Unnamed: 0,A
a,10
b,14
c,18
d,22
e,26


In [8]:
# 여러 개의 열 추출 : 데이터프레임으로 반환
# 리스트 사용
df[['A','C']]
# df['A','C'] 리스트로 묶지 않으면 오류

Unnamed: 0,A,C
a,10,12
b,14,16
c,18,20
d,22,24
e,26,28


In [11]:
# 열 슬라이싱 안됨
# df['A':'C']
# df[['A':'C']]

In [16]:
# 현재 인덱스 : 문자 인덱스
# df[0] : df['A':'C']
# 한 개를 적으면 열 값 : 현재 열 이름이 A 문자
# 0-base 인덱스값 사용할 수 없음

In [18]:
# 열 이름을 지정하지 않으면 0-base 인덱스로 설정됨
df2 = pd.DataFrame(np.arange(10, 30).reshape(5, 4))
df2

Unnamed: 0,0,1,2,3
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25
4,26,27,28,29


In [19]:
df2[0]

0    10
1    14
2    18
3    22
4    26
Name: 0, dtype: int32

In [20]:
df3 = pd.DataFrame(np.arange(10, 30).reshape(5, 4),
                  index=[1, 2, 3, 4, 5],
                  columns = [1, 2, 3, 4])
df3

Unnamed: 0,1,2,3,4
1,10,11,12,13
2,14,15,16,17
3,18,19,20,21
4,22,23,24,25
5,26,27,28,29


In [23]:
# df3[0] 오류 : 0-base 인덱스 사용 불가
df3[1] # 열 인덱스 1열의 값 추출
# 정수로 인덱스를 지정한 경우
# 지정한 정수값만 사용 가능하고
# 0-base 인덱스 사용 불가

1    10
2    14
3    18
4    22
5    26
Name: 1, dtype: int32

In [24]:
### 결론
# 열이름을 문자 또는 숫자로 지정한 경우에는
# 지정된 인덱스로만 추출 가능
# 0-base 인덱스 사용 못함

# 열이름을 지정하지 않으면 0-base 인덱스로 자동 생성됨
# 이 경우에만 0-base 인덱스 사용 가능

#### 행 값 추출 : 행 슬라이싱

In [12]:
# 행 인덱싱 안 됨
# df['a'] # 오류 : 하나만 적으면 열 인덱싱

In [13]:
# 행 추출 : 슬라이싱으로 추출
df['a':'c']

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [14]:
df['a':'a'] # 1행 추출

Unnamed: 0,A,B,C,D
a,10,11,12,13


In [26]:
# 행 인덱스 이름이 문자인 경우
# 0-base 인덱스 사용해서 슬라이싱 가능
df[0:3]
# start ~ end-1 까지

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [27]:
df[1:2] # 두 번째 행 1개 추출
# start ~ end-1까지

Unnamed: 0,A,B,C,D
b,14,15,16,17


In [28]:
df3 # 정수 인덱스 지정한 경우

Unnamed: 0,1,2,3,4
1,10,11,12,13
2,14,15,16,17
3,18,19,20,21
4,22,23,24,25
5,26,27,28,29


In [29]:
# 정수 인덱스 지정한 경우
# 인덱스 숫자는 0-base 인덱스 의미
df3[1:3]

Unnamed: 0,1,2,3,4
2,14,15,16,17
3,18,19,20,21


### [start : end]
- end 생략 가능 (이 경우 마지막 행까지 추출)
- end 값으로 잘못된 값을 지정해도 마지막 행까지 추출 (오류 없음)

- start 값을 생략하면 처음 행부터 추출
- start 값을 잘못 지정하면 오류는 없는데 추출은 안 됨

In [30]:
# end 생략 가능 (이 경우 마지막 행까지 추출)
df['c':]

Unnamed: 0,A,B,C,D
c,18,19,20,21
d,22,23,24,25
e,26,27,28,29


In [31]:
# end 값으로 잘못된 값을 지정해도 마지막 행까지 추출 (오류 없음)
df['b':'f']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25
e,26,27,28,29


In [33]:
# start 값을 생략하면 처음 행부터 추출
df[:'e']

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25
e,26,27,28,29


In [34]:
# start 값을 잘못 지정하면 오류는 없는데 추출은 안 됨
df['k':'b']

Unnamed: 0,A,B,C,D


In [86]:
# 마이너스(-) : 마지막 값부터 거꾸로 계산된 위치
df[:-1]
df[:-2]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25


Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


#### 특정 값 추출

In [38]:
# df[열][행]
df['A']['c'] # A열 c행

18

In [46]:
# 특정 값 추출 : 행 슬라이싱 가능
# A열의 c~e 행 추출
df['A']['c':'e'] # 시리즈로 출력

df[['A']]['c':'e'] # 데이터프레임으로 출력

c    18
d    22
e    26
Name: A, dtype: int32

Unnamed: 0,A
c,18
d,22
e,26


In [47]:
# A, C열의 c~e행 추출
df[['A','C']]['c':'e']

Unnamed: 0,A,C
c,18,20
d,22,24
e,26,28


In [49]:
# A, C열의 C행 추출
df[['A','C']]['c':'c']

Unnamed: 0,A,C
c,18,20


In [None]:
########################################################################

### 데이터 프레임 인덱서 : loc, iloc
- Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원
    - 특별한 인덱서(indexer) 속성을 제공
    
* loc : 라벨값(문자) 기반의 2차원 인덱싱
* iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱 (0-base 위치 인덱스 사용)

### loc 인덱서
- df.loc[행] : 행 우선
- df.loc[행:행] : 슬라이싱
- df.loc[행, 열] : 행과 열 슬라이싱 가능

In [52]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25
e,26,27,28,29


In [53]:
# loc 인덱서
# 값을 하나만 적으면 : 행 우선
df.loc['a']

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [55]:
#df.loc['A'] # 열 이름 사용하면 오류

In [56]:
# 행 슬라이싱
df.loc['b':'d']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25


In [57]:
df.loc['b':] # b 부터 끝까지

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25
e,26,27,28,29


In [60]:
# 비 연속적인 행 추출 : 리스트 사용
df.loc[['a', 'c', 'e']]

Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21
e,26,27,28,29


In [61]:
# 특정값 추출 : loc[행][열]
df.loc['b', 'C'] # b행 C열

16

In [62]:
# b행 값 추출
df.loc[['b']] # 1개 행 데이터프레임으로 반환

Unnamed: 0,A,B,C,D
b,14,15,16,17


In [73]:
# a행의 B, C열 값 추출
df.loc[['a']][['B','C']]
df.loc[['a'], 'B':'C'] # 열 슬라이싱 가능

# b,c 행의 A열 값 추출
df.loc[['b','c'],['A']]
df.loc['b':'c', ['A']]

# a,b행의 B, D열 값 추출
df.loc[['a','b']][['B','D']]

Unnamed: 0,B,C
a,11,12


Unnamed: 0,B,C
a,11,12


Unnamed: 0,A
b,14
c,18


Unnamed: 0,A
b,14
c,18


Unnamed: 0,B,D
a,11,13
b,15,17


In [74]:
df.loc['a':'c']

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [None]:
# df.loc[0:3] # 오류
# 문자 인덱스인 경우 0-base 인덱스 사용 못함

In [75]:
df2 # 0-base 인덱스로 지정되어 있음

Unnamed: 0,0,1,2,3
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25
4,26,27,28,29


In [76]:
df2.loc[0:2] # start~end까지

Unnamed: 0,0,1,2,3
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21


In [77]:
df3 # 정수 인덱스로 지정

Unnamed: 0,1,2,3,4
1,10,11,12,13
2,14,15,16,17
3,18,19,20,21
4,22,23,24,25
5,26,27,28,29


In [80]:
df3.loc[1:3]
# 지정된 인덱스 값 사용 : start~end까지
# 0-base 인덱스값 아님

Unnamed: 0,1,2,3,4
1,10,11,12,13
2,14,15,16,17
3,18,19,20,21


In [81]:
# 시작 값을 잘못 지정해도 오류 없이 첫 행부터 시작
df3.loc[0:2] # 첫 행(인덱스 1)부터 시작 (0-base 인덱스값 아님)
df3.loc[-10:2]

Unnamed: 0,1,2,3,4
1,10,11,12,13
2,14,15,16,17


Unnamed: 0,1,2,3,4
1,10,11,12,13
2,14,15,16,17


In [82]:
# 결론 : loc 인덱서
# 문자로 지정된 인덱스에서 0-base 인덱스값 사용 못함
# 0-base로 지정된 인덱스에서 사용 가능
# 숫자로 지정된 인덱스 사용 가능 (이때 0-base 인덱스 값 아님)

#### **boolean selection으로 행 선택하기**

In [83]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25
e,26,27,28,29


In [85]:
# A 열 값 시리즈로 추출
df.A
df['A']

a    10
b    14
c    18
d    22
e    26
Name: A, dtype: int32

a    10
b    14
c    18
d    22
e    26
Name: A, dtype: int32

In [88]:
# A열 값 중 15보다 큰 값들만 추출
df[df['A']>15]

# loc 인덱서 사용 : 결과 동일
df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21
d,22,23,24,25
e,26,27,28,29


Unnamed: 0,A,B,C,D
c,18,19,20,21
d,22,23,24,25
e,26,27,28,29


In [91]:
# A열 값 중 15보다 큰 값들만 추출 : A열만 출력
df[df['A'] > 15][['A']]

# A, C열만 출력
df[df['A'] > 15][['A','C']]


# loc 인덱서 사용 :[행, 열]
# A열만 출력
df.loc[df['A'] > 15, ['A']]

# A, C열만 출력
df.loc[df['A'] > 15, ['A','C']]

Unnamed: 0,A
c,18
d,22
e,26


Unnamed: 0,A,C
c,18,20
d,22,24
e,26,28


Unnamed: 0,A
c,18
d,22
e,26


Unnamed: 0,A,C
c,18,20
d,22,24
e,26,28


In [None]:
########################################################################

### iloc 인덱서(위치 인덱스)
- 라벨(문자)이 아닌 위치를 나타내는 **정수** 인덱스만 사용
- 위치 정수값은 0부터 시작 : 0-base 위치 인덱스 사용
- 데이터프레임.iloc[행,열]

In [92]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25
e,26,27,28,29


In [93]:
# df.iloc['a':'c'] # 오류
# iloc 인덱서에서 문자 인덱스 사용 불가

In [94]:
# 행 슬라이싱 : 0-base 인덱스 값 사용
df.iloc[0:3] # start~end-1까지

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [107]:
# 특정 값 출력
# 0행 1열의 값 추출
df.iloc[0, 1]

# a~b행, A~C열 추출
df.iloc[0:2, 0:3]

# c행의 모든 열 값 추출
df.iloc[2:3] # df로 출력
df.iloc[2] # 시리즈로 출력

# 마지막 행 추출
df.iloc[-1:]

# b.d.e 행의 B,C열 추출
df.iloc[[1,3,4],1:3]

11

Unnamed: 0,A,B,C
a,10,11,12
b,14,15,16


Unnamed: 0,A,B,C,D
c,18,19,20,21


A    18
B    19
C    20
D    21
Name: c, dtype: int32

Unnamed: 0,A,B,C,D
e,26,27,28,29


Unnamed: 0,A,B,C,D
d,22,23,24,25


In [108]:
df3 # 정수 인덱스로 지정한 경우

Unnamed: 0,1,2,3,4
1,10,11,12,13
2,14,15,16,17
3,18,19,20,21
4,22,23,24,25
5,26,27,28,29


In [109]:
df3.iloc[[0,2,4], [1,3]] # 0-base 인덱스 값 사용됨

Unnamed: 0,2,4
1,11,13
3,19,21
5,27,29


In [None]:
# iloc 정리
# df : 문자 인덱스로 지정된 경우 : 0-base 인덱스 값 사용
# df2 : 0-base 인덱스로 지정된 경우 : 0-base 인덱스 값 사용
# df3 : 정수 인덱스로 지정한 경우 : 0-base 인덱스 값 사용

# 결론
# iloc 인덱서 : 0-base 인덱스 값 사용