In [1]:
# DataFrame 고급 인덱싱

# loc : label 기반의 2차원 인덱싱
# df.loc[row 인덱싱 값]
# df.loc[row 인덱싱 값, column 인덱싱 값]

# iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱
# df.iloc[0]
# df.iloc[0,1], df.iloc[:2. -1], ...

In [2]:
import numpy as np
import pandas as pd
import seaborn as sns 

In [3]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  columns = ['A', 'B', 'C', 'D'],
                  index = ['a', 'b', 'c']) 
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [4]:
# 인덱스 데이터가 “a”인 행을 고르면 해당하는 row가 Series로 반환
# Series라서 상하로 길게 표현되기는 했지만 row를 가져옴

df.loc['a']

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [5]:
df.loc['b':'c']    # df['b':'c]와 결과가 같음

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [6]:
df.loc[['b','c']]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [7]:
# Boolean Series로 row를 기준으로 인덱싱
# 영어 문자열은 속성처럼 접근 가능

df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [8]:
#  Boolean Series를 활용해 인덱싱

df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [9]:
def select_rows(df, num):
    return df.A > num

In [10]:
a = select_rows(df, 10)

In [11]:
df.loc[a]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [12]:
# loc 인덱서는 column label 인덱싱이나 column label 리스트 인덱싱은 불가능

In [13]:
# row 인덱스 값이 default로 주어지는 정수로 생성된 DataFrame의 경우
# 슬라이싱 마지막 숫자가 포함된 결과를 가져옴
# loc은 label index에 접근한다고 했기 때문

df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns = ['A', 'B', 'C', 'D'])
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [14]:
# iloc은 loc과 다르게 label 인덱스가 아닌 숫자로 접근

df2.iloc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17


In [15]:
# loc 인덱서

loc = {
    "가능" : ["O", "O", "O", "O", "O", "X", "X"],
    "결과" : ["행", "행", "행", "행", "행", "", ""],
    "자료형" : ["Series", "DataFrame", 
             "DataFrame", "DataFrame", 
             "DataFrame", "", ""],
    "추가사항" : ["",
             "loc가 없는 경우와 같음",
             "",
             "Series의 인덱스가 DataFrame의 행 인덱스와 같아야 한다.",
             "",
             "loc가 없는 경우에만 쓸 수 있다.",
             "loc가 없는 경우에만 쓸 수 있다."]
}

index = ["row 인덱스값(정수)",
         "row 인덱스값(정수) 슬라이스",
         "row 인덱스값(정수) 리스트",
         "Boolean Series",
         "Boolean Series를 반환하는 함수",
         "column label",
         "column label 리스트"]

loc_index = pd.DataFrame(loc, index = index)
loc_index.index.name = "인덱싱 값"
loc_index

Unnamed: 0_level_0,가능,결과,자료형,추가사항
인덱싱 값,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
row 인덱스값(정수),O,행,Series,
row 인덱스값(정수) 슬라이스,O,행,DataFrame,loc가 없는 경우와 같음
row 인덱스값(정수) 리스트,O,행,DataFrame,
Boolean Series,O,행,DataFrame,Series의 인덱스가 DataFrame의 행 인덱스와 같아야 한다.
Boolean Series를 반환하는 함수,O,행,DataFrame,
column label,X,,,loc가 없는 경우에만 쓸 수 있다.
column label 리스트,X,,,loc가 없는 경우에만 쓸 수 있다.


In [16]:
# 인덱싱 값을 row와 column 모두 받기
# df.loc[row 인덱스, column 인덱스]

df.loc['a', 'A']    # 범위

10

In [17]:
df.at['a','A']    # 값, loc보다 동작 속도가 빠름

10

In [18]:
df.loc['b':, 'A']

b    14
c    18
Name: A, dtype: int32

In [19]:
df.loc['a', :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [20]:
df.loc[['a', 'b'], ['B', 'D']]

Unnamed: 0,B,D
a,11,13
b,15,17


In [21]:
df.loc[df.A > 10, ['C', 'D']]

Unnamed: 0,C,D
b,16,17
c,20,21


In [22]:
# iloc 인덱서는 loc 인덱서와 반대로 label이 아니라 
# 순서를 나타내는 정수(integer) 인덱스만 받음

df.iloc[0, 1]

11

In [23]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int32

In [24]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int32

In [25]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


In [26]:
# 인덱스가 하나만 들어가면 행을 선택\

df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [27]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


In [28]:
titanic = sns.load_dataset("titanic")
titanic

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [72]:
# 연습문제
# 타이타닉호 승객의 평균 나이

round(titanic['age'].mean(), 1)

29.7

In [80]:
# 여성 승객의 평균 나이

female = titanic.loc[titanic['sex']=='female']
round(female['age'].mean(), 1)

# 또다른 풀이
# round(titanic[titanic['sex'] == 'female']['age'].mean(), 1)

27.9

In [81]:
# 1등실(pclass==1) 선실의 여성 승객의 평균 나이

female_pclass = female.loc[female['pclass'] == 1]
round(female_pclass['age'].mean(), 1)

# 또다른풀이
# round(titanic[(titanic['pclass'] == 1) & (titanic['sex'] == 'female')]['age'].mean(), 1)

34.6