# Pandas_DataFrame_loc_iloc 인덱서 사용 _ 인덱싱_슬라이싱

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

### 데이터 프레임 인덱서 : loc, iloc
- Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원
    - 특별한 인덱서(indexer) 속성을 제공
    
* loc : 라벨값(문자) 기반의 2차원 인덱싱
* iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱 (0-base 위치 인덱스 사용)


In [2]:
import pandas as pd
import numpy as np

In [3]:
# 10 ~ 29까지의 20개의 숫자를 5x4 행렬로 변환
data = np.arange(10, 30).reshape(5, 4)
data

array([[10, 11, 12, 13],
       [14, 15, 16, 17],
       [18, 19, 20, 21],
       [22, 23, 24, 25],
       [26, 27, 28, 29]])

In [4]:
df = pd.DataFrame(data,
                  columns=['A', 'B', 'C', 'D'],
                  index=['a', 'b', 'c', 'd', 'e'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25
e,26,27,28,29


In [5]:
df2 = pd.DataFrame(data)
# 참고로 행, 열에 값 지정을 안하면 0-base로 알아서 인덱싱 된다
df2

Unnamed: 0,0,1,2,3
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25
4,26,27,28,29


### 인덱서 사용하지 않은 경우
- df[열] : 열 추출  (열 우선)
- df[행:행] : 행 추출하려면 슬라이싱
- ??? 이뭔씹 무슨 기준으로 저딴 추출이냐
- df[열][행]

### df[start : end]
- 여러 '행'을 추출하는 기능 (열이 아니다!!!)

- end 생략 가능 (이 경우 마지막 행까지 추출)
- end 값으로 잘못된 값을 지정해도 마지막 행까지 추출 (오류 없음)

- start 값을 생략하면 처음 행부터 추출
- start 값을 잘못 지정하면 오류는 없는데 추출은 안 됨

In [6]:
# 인덱싱이 이미 된 경우 start ~ end 모두 추출
df['b':'d']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25


In [7]:
# 0-base로 자동 인덱싱 된 경우 start ~ end - 1로 추출하게 된다
df2[1:4]

Unnamed: 0,0,1,2,3
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [8]:
df[:'d']
df2[:4]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25


Unnamed: 0,0,1,2,3
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [9]:
df['c':]
df2[2:]

Unnamed: 0,A,B,C,D
c,18,19,20,21
d,22,23,24,25
e,26,27,28,29


Unnamed: 0,0,1,2,3
2,18,19,20,21
3,22,23,24,25
4,26,27,28,29


In [10]:
# 근데 열 인덱스 하나를 적으면 해당 열을 추출한다 (열 우선 추출)
# 심지어 행 인덱스는 오류가 나버린다
df['A']
df2[0]

try: df['b']
except Exception as e: print(e, '안되쥬?')

a    10
b    14
c    18
d    22
e    26
Name: A, dtype: int64

0    10
1    14
2    18
3    22
4    26
Name: 0, dtype: int64

'b' 안되쥬?


In [11]:
# 리스트 삽입은 열들을 추출한다 (네??)
df[['A', 'C']]
df[['B']]

Unnamed: 0,A,C
a,10,12
b,14,16
c,18,20
d,22,24
e,26,28


Unnamed: 0,B
a,11
b,15
c,19
d,23
e,27


In [12]:
# 행 하나를 추출하려면 이딴 식으로 해야 한다
df['b':'b']
df2[3:4]

Unnamed: 0,A,B,C,D
b,14,15,16,17


Unnamed: 0,0,1,2,3
3,22,23,24,25


In [13]:
df['A':'C']

Unnamed: 0,A,B,C,D


In [14]:
########################################################################

### loc 인덱서
- df.loc[행] : 행 우선 추출
- df.loc[행:행] : 슬라이싱 되어서 추출
- df.loc[행, 열] : 행, 열에 맞는 부분을 추출

In [15]:
# 여긴 반대로 행 인덱스 하나를 넣어도 정상적으로 추출한다
# 그래서 열 인덱스를 넣으면 오류가 난다
df.loc['b']
try: df.loc['C']
except Exception as e: print(e, '안되쥬?')

A    14
B    15
C    16
D    17
Name: b, dtype: int64

'C' 안되쥬?


In [16]:
# 리스트 삽입은 행들을 추출한다
df.loc[['a', 'c', 'e']]

Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21
e,26,27,28,29


In [17]:
# 위와 기능이 동일
df.loc['b':'d']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25


In [18]:
# 근데 위와 다르게 열 슬라이싱또한 가능해진다
df.loc[:, 'A':'B']

Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19
d,22,23
e,26,27


In [19]:
df.loc['b':'d', 'B':'C']

Unnamed: 0,B,C
b,15,16
c,19,20
d,23,24


In [20]:
# 주의! 이건 0-base 인덱싱도 start ~ end 모두 출력한다!
df2.loc[0:2]
df2.loc[:, 1:2]

Unnamed: 0,0,1,2,3
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21


Unnamed: 0,1,2
0,11,12
1,15,16
2,19,20
3,23,24
4,27,28


In [21]:
# 1
df.loc[['a']][['B','C']]
df.loc[['a'], 'B':'C']
df['a':'a'][['B', 'C']]

Unnamed: 0,B,C
a,11,12


Unnamed: 0,B,C
a,11,12


Unnamed: 0,B,C
a,11,12


In [22]:
# 2
df.loc[['b', 'c']][['A']]
df.loc[['b', 'c'], ['A']]
df.loc['b':'c', ['A']]
df['b':'c'][['A']]

Unnamed: 0,A
b,14
c,18


Unnamed: 0,A
b,14
c,18


Unnamed: 0,A
b,14
c,18


Unnamed: 0,A
b,14
c,18


In [23]:
# 3
df.loc[['a', 'b']][['B', 'D']]
df.loc['a':'b', ['B', 'D']]
df['a':'b'][['B', 'D']]

Unnamed: 0,B,D
a,11,13
b,15,17


Unnamed: 0,B,D
a,11,13
b,15,17


Unnamed: 0,B,D
a,11,13
b,15,17


### 특정 값 추출

In [24]:
df['B']['c']
df2[3][2]

19

21

In [25]:
df['A']['c':'e']

c    18
d    22
e    26
Name: A, dtype: int64

In [26]:
for i in df:
    df[i]

a    10
b    14
c    18
d    22
e    26
Name: A, dtype: int64

a    11
b    15
c    19
d    23
e    27
Name: B, dtype: int64

a    12
b    16
c    20
d    24
e    28
Name: C, dtype: int64

a    13
b    17
c    21
d    25
e    29
Name: D, dtype: int64

### **boolean selection으로 행 선택하기**

In [27]:
df[df.A>15]
df.loc[df.A>15]
df[['A', 'C']]

Unnamed: 0,A,B,C,D
c,18,19,20,21
d,22,23,24,25
e,26,27,28,29


Unnamed: 0,A,B,C,D
c,18,19,20,21
d,22,23,24,25
e,26,27,28,29


Unnamed: 0,A,C
a,10,12
b,14,16
c,18,20
d,22,24
e,26,28


In [28]:
########################################################################

### iloc 인덱서(위치 인덱스)
- 라벨(문자)이 아닌 위치를 나타내는 **정수** 인덱스만 사용
- 위치 정수값은 0부터 시작 : 0-base 위치 인덱스 사용
- 데이터프레임.iloc[행,열]
- 가장 편하다

In [29]:
# 그대로 start ~ end - 1 원리를 따른다
df.iloc[1:3]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [30]:
df.iloc[1:3, 1:3]

Unnamed: 0,B,C
b,15,16
c,19,20


In [31]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25
e,26,27,28,29


In [32]:
df.iloc[0, 1]
df.iloc[0:2, 0:3]
df.iloc[[2]]
df.iloc[[-1]]
df.iloc[[1,3,4],[1,2]]

11

Unnamed: 0,A,B,C
a,10,11,12
b,14,15,16


Unnamed: 0,A,B,C,D
c,18,19,20,21


Unnamed: 0,A,B,C,D
e,26,27,28,29


Unnamed: 0,B,C
b,15,16
d,23,24
e,27,28
