# 4.3 데이터프레임 고급 인덱싱

In [1]:
import numpy as np
import pandas as pd

# loc 인덱서

In [2]:
df = pd.DataFrame(np.arange(10, 26).reshape(4, 4),
                  index=["a", "b", "c", "d"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25


### 인덱싱 값이 하나인 경우

In [3]:
# .loc[행 인덱스]
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [4]:
# 슬라이싱 - : 뒤에 안적어도 출력
df.loc["b":]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25


In [5]:
# 리스트로 출력
df.loc[["b", "d"]]

Unnamed: 0,A,B,C,D
b,14,15,16,17
d,22,23,24,25


In [6]:
# df["A"] > 15 와 같음
df.A > 15

a    False
b    False
c     True
d     True
Name: A, dtype: bool

In [7]:
# 불린을 이용해서 행 출력 - 불린 시리즈와 데이터 프레임의 행 인덱스가 같아야함
df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21
d,22,23,24,25


In [8]:
# 인덱스 값을 반환하는 함수
def select_rows(df):
    return df.A > 15

select_rows(df)

a    False
b    False
c     True
d     True
Name: A, dtype: bool

In [9]:
# 인덱스 값을 반환하는 함수를 넣어도 출력이 가능
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21
d,22,23,24,25


In [10]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns=["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [11]:
# loc를 사용하면 라벨 슬라이싱과 같이 마지막을 포함
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


### 인덱싱 값이 행과 열 모두인 경우

In [12]:
# .loc[행 인덱스, 열 인덱스]
df.loc["c", "A"]

18

In [13]:
# 슬라이싱, 리스트
df.loc["b":"c", ["A","D"]]

Unnamed: 0,A,D
b,14,17
c,18,21


In [14]:
# 행 인덱스 불린 시리즈
df.loc[df.A > 10, ["C", "A"]]

Unnamed: 0,C,A
b,16,14
c,20,18
d,24,22


# iloc 인덱서

In [15]:
# loc는 라벨을 사용한 반면 iloc는 정수 인덱스를 사용
# 정수로 슬라이싱이므로 끝은 포함되지 않음 - 다만 : 뒤에 생략해도 됨
df.iloc[1:2]

Unnamed: 0,A,B,C,D
b,14,15,16,17


In [16]:
# 자료(행) 갱신
df.iloc[0] = df.iloc[0] * -1
df

Unnamed: 0,A,B,C,D
a,-10,-11,-12,-13
b,14,15,16,17
c,18,19,20,21
d,22,23,24,25


# 연습 문제 4.3.1

1. 모든 행과 열에 라벨을 가지는 5 x 5 이상의 크기를 가지는 데이터프레임을 만든다. 
2. 10가지 이상의 방법으로 특정한 행과 열을 선택한다.

In [17]:
# 1. 데이터 프레임 생성
data = pd.DataFrame(np.arange(30).reshape(5,6),
                    index = ["a", "b", "c", "d", "e"],
                    columns = ["c1", "c2", "c3", "c4", "c5", "c6"])
data

Unnamed: 0,c1,c2,c3,c4,c5,c6
a,0,1,2,3,4,5
b,6,7,8,9,10,11
c,12,13,14,15,16,17
d,18,19,20,21,22,23
e,24,25,26,27,28,29


In [18]:
# 2. 특정 행과 열 선택 (1) - 특정 행 선택
data.loc["a"]

c1    0
c2    1
c3    2
c4    3
c5    4
c6    5
Name: a, dtype: int32

In [19]:
# 2. 특정 행과 열 선택 (2) - 특정 열 선택
data.loc[ :, "c1"]

a     0
b     6
c    12
d    18
e    24
Name: c1, dtype: int32

In [20]:
# 2. 특정 행과 열 선택 (3) - 일부 행 선택
data.loc["c":"e"]

Unnamed: 0,c1,c2,c3,c4,c5,c6
c,12,13,14,15,16,17
d,18,19,20,21,22,23
e,24,25,26,27,28,29


In [21]:
# 2. 특정 행과 열 선택 (4) - 일부 열 선택
data.loc[:,"c3":"c6"]

Unnamed: 0,c3,c4,c5,c6
a,2,3,4,5
b,8,9,10,11
c,14,15,16,17
d,20,21,22,23
e,26,27,28,29


In [22]:
# 2. 특정 행과 열 선택 (5) - 리스트 이용 행 선택
data.loc[["a","d"]]

Unnamed: 0,c1,c2,c3,c4,c5,c6
a,0,1,2,3,4,5
d,18,19,20,21,22,23


In [23]:
# 2. 특정 행과 열 선택 (6) - 리스트 이용 열 선택
data.loc[:, ["c2","c4"]]

Unnamed: 0,c2,c4
a,1,3
b,7,9
c,13,15
d,19,21
e,25,27


In [24]:
# 2. 특정 행과 열 선택 (7) - 불린 시리즈 이용 행 선택
data.loc[(data["c1"] > 11) & (data.c4 > 20)]

Unnamed: 0,c1,c2,c3,c4,c5,c6
d,18,19,20,21,22,23
e,24,25,26,27,28,29


In [25]:
# 2. 특정 행과 열 선택 (8) - 함수 이용 행 선택
def c1(df):
    return df.c1 > 11

def c4(df):
    return df.c4 > 20
    
data.loc[c1(data) & c4(data)]

Unnamed: 0,c1,c2,c3,c4,c5,c6
d,18,19,20,21,22,23
e,24,25,26,27,28,29


In [26]:
# 2. 특정 행과 열 선택 (9) - 홀수 행 선택
odd = list(range(0,len(data),2))

data.iloc[odd]

Unnamed: 0,c1,c2,c3,c4,c5,c6
a,0,1,2,3,4,5
c,12,13,14,15,16,17
e,24,25,26,27,28,29


In [27]:
# 2. 특정 행과 열 선택 (9) - 짝수 행 선택
add = list(range(1,len(data),2))

data.iloc[add]

Unnamed: 0,c1,c2,c3,c4,c5,c6
b,6,7,8,9,10,11
d,18,19,20,21,22,23
