In [1]:
import pandas as pd
import numpy as np

# DataFrame 고급 인덱싱

In [2]:
# loc : label 기반의 2차원 인덱싱
# df.loc[row 인덱싱 값]
# df.loc[row 인덱싱 값, column 인덱싱 값]

# iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱
# df.iloc[0]
# df.iloc[0,1], df.iloc[:2. -1], ...

## loc 인덱서 

In [3]:
# row 인덱싱 값은 정수 또는 정수 index데이터이고,
# column 인덱싱 값은 label 문자열

In [4]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index = ['a', 'b', 'c'],
                  columns = ['A', 'B', 'C', 'D'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [5]:
# 인덱스를 하나만 넣으면 row 선택
# 선택된 row를 Series로 반환
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [6]:
# 슬라이싱도 가능하지만 loc을 안 쓰는 것과 결과는 동일
df.loc["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [7]:
df["b":"c"]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


### 인덱스 데이터의 리스트 인덱싱

In [8]:
df.loc[["b","c"]]
#  loc을 안 쓰면 KeyError 발생

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [9]:
df.A > 15 # 영어 문자열을 속성처럼 접근 가능

a    False
b    False
c     True
Name: A, dtype: bool

In [10]:
df.loc[df.A>15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


### callable한 함수의 인덱싱

In [11]:
def select_rows(df, num):
    return df.A > num

In [12]:
select_rows(df, 10)

a    False
b     True
c     True
Name: A, dtype: bool

In [13]:
df.loc[select_rows(df, 10)]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


## loc 인덱서의 주의사항

In [14]:
# loc 인덱서는 column label 인덱싱이나
# column label 리스트 인덱싱은 불가능

# df.loc["A"] # KeyError 발생

# df.loc[["A", "B"]] # KeyError 발셍

In [15]:
# 원래 row index 값이 정수인 경우 마지막 값이 포함됨
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4),
                   columns = ["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [16]:
df2.loc[1:2] # 끝값 2가 포함됨
# 원래 정수형 index이므로 끝값 포함

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [17]:
# loc과 iloc의 차이
# iloc은 label 인덱스가 아닌 숫자로된 인덱스로 접근하기
# 때문에 끝값 포함이 안 됨

In [18]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [19]:
df2.iloc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17


In [20]:
loc = {
    "가능" : ["O", "O", "O", "O", "O", "X", "X"],
    "결과" : ["행", "행", "행", "행", "행", "", ""],
    "자료형" : ["Series", "DataFrame", 
             "DataFrame", "DataFrame", 
             "DataFrame", "", ""],
    "추가사항" : ["",
             "loc가 없는 경우와 같음",
             "",
             "Series의 인덱스가 DataFrame의 행 인덱스와 같아야 한다.",
             "",
             "loc가 없는 경우에만 쓸 수 있다.",
             "loc가 없는 경우에만 쓸 수 있다."]
}

index = ["row 인덱스값(정수)",
         "row 인덱스값(정수) 슬라이스",
         "row 인덱스값(정수) 리스트",
         "Boolean Series",
         "Boolean Series를 반환하는 함수",
         "column label",
         "column label 리스트"]

loc_index = pd.DataFrame(loc, index = index)
loc_index.index.name = "인덱싱 값"
loc_index

Unnamed: 0_level_0,가능,결과,자료형,추가사항
인덱싱 값,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
row 인덱스값(정수),O,행,Series,
row 인덱스값(정수) 슬라이스,O,행,DataFrame,loc가 없는 경우와 같음
row 인덱스값(정수) 리스트,O,행,DataFrame,
Boolean Series,O,행,DataFrame,Series의 인덱스가 DataFrame의 행 인덱스와 같아야 한다.
Boolean Series를 반환하는 함수,O,행,DataFrame,
column label,X,,,loc가 없는 경우에만 쓸 수 있다.
column label 리스트,X,,,loc가 없는 경우에만 쓸 수 있다.


## row와 column의 loc 인덱서

In [22]:
df.loc["a", "A"]
# row index 값이 a, label 값이 A인 위치의 결과

10

In [23]:
# 슬라이싱
df.loc["b":,"A"]

b    14
c    18
Name: A, dtype: int32

In [24]:
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [26]:
df.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


### Boolean indexing

In [27]:
df.loc[df.A > 10, ["C", "D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


## iloc 인덱서

In [None]:
# iloc 인덱서는 loc 인덱서와 달리 label이 아닌 정수 인덱스만 받는다.
# 다른 부분은 loc 인덱서와 동일

In [28]:
df.iloc[0, 1]

11

In [29]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int32

In [30]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int32

In [31]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


In [32]:
# 인덱스가 하나만 들어가면 loc과 마찬가지로 행을 선택
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [33]:
df.iloc[-1] = df.iloc[-1] * 2 # 마지막 행 값 * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


# Series 데이터 개수 세기

In [34]:
# 개수를 셀 때 count() 메서드 사용
# NaN 값은 세지 않음

s = pd.Series(range(10))
s[3] = np.nan
s

0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    5.0
6    6.0
7    7.0
8    8.0
9    9.0
dtype: float64

In [35]:
s.count() # NaN 하나를 제외한 9개를 셈

9

In [36]:
len(s) # NaN 값을 포함하여 10개 셈

10

# DataFrame 데이터 개수 세기

In [None]:
# DataFrame 객체에 count() 메서드를 사용하면 각 열마다의 데이터 개수를 센다.
# count()가 끝나면 Series로 반환한다.