In [1]:
# 모듈 import
import numpy as np
import pandas as pd

In [2]:
pd.__version__

'2.1.4'

In [3]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

In [78]:
import warnings
warnings.filterwarnings(action='ignore')

# pandas 데이터프레임 인덱서 loc, iloc

### 데이터프레임의 기본 인덱싱

1. 열인덱싱 
    - 하나의 열만 선택 : **` df['열이름'] `**
    - 여러 개 열 선택  : **` df[['열이름1', '열이름2',...]] `**


2. 행인덱싱 : 연속된 구간의 행데이터 선택(슬라이싱)
    - **`df['행_시작위치':'행_끝위치']`** 


3. 개별요소 접근 : 선택한 열에서 지정된 구간의 행데이터 선택
    - **`df['열이름']['행_시작위치':'행_끝위치']`**
    - **`df['열이름']['시작_행이름':'끝_행이름']`**

### 데이터프레임의 특별한 인덱서(indexer) : loc, iloc

- numpy와 같이 쉼표(,)를 사용하여 행과 열을 동시에 인덱싱하는 2차원 인덱싱
- [행 인덱스, 열 인덱스] 형식

- **loc** : 라벨값 기반의 2차원 인덱싱(명칭기반 인덱싱)
- **iloc** : 순서를 나타내는 정수 기반의 2차원 인덱싱(위치기반 인덱싱)

## 1. loc 인덱서

**명칭기반 인덱서**

1) **df.loc[행인덱싱 값]**   # 행우선 인덱서

2) **df.loc[행인덱싱 값,열인덱싱 값]**

**인덱싱 값 유형**

- 인덱스 데이터 : [index name] 또는 [index_name, column name]
- 인덱스 데이터 슬라이스 
- 같은 행 인덱스를 갖는 불리언 시리즈(행 인덱싱인 경우)
     - 조건으로 추출 가능(불린 인덱싱)
- 위 값을 반환하는 함수    

In [37]:
# 예제 데이터프레임 생성
df = pd.DataFrame(np.arange(10,22).reshape(3,4), index=['a', 'b', 'c'], columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [38]:
df.index

Index(['a', 'b', 'c'], dtype='object')

In [6]:
# 기본인덱싱
df['A']
df[['A', 'C']]
df[['A']]
df['a':'a']
df['a':'b']

Unnamed: 0,A
a,10
b,14
c,18


Unnamed: 0,A,C
a,10,12
b,14,16
c,18,20


Unnamed: 0,A
a,10
b,14
c,18


Unnamed: 0,A,B,C,D
a,10,11,12,13


Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


### 1) 데이터프레임의 행 선택

**형식 : dataframe.loc['행인덱스값']**

In [7]:
df.loc['a']
#출력 결과는 시리즈 형태가 됨

Unnamed: 0,A,B,C,D
a,10,11,12,13


#### 주의. loc 인덱서에서는 열 단독 인덱싱은 불가능

In [8]:
# df.loc['A'] -> keyerror

=> A행이 없으므로 key error 가 발생

### 2) 데이터프레임의 여러 행 선택

#### ① 행인덱스 슬라이싱

**형식: dataFrame.loc['처음 행인덱스값' : '끝행인덱스값']**

- b행부터 c행의 모든 열 반환

In [9]:
df.loc['a':'c']

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [10]:
df['a':'c']

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [11]:
df.loc[['a','c']]

Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21


In [12]:
df.loc['b']

Unnamed: 0,A,B,C,D
b,14,15,16,17


#### 행인덱스가 정수위치인덱스인 경우

In [13]:
df2 = pd.DataFrame(np.arange(10,26).reshape(4,4), columns='a b c d'.split())
df2

Unnamed: 0,a,b,c,d
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [39]:
df2.columns

Index(['a', 'b', 'c', 'd'], dtype='object')

In [40]:
df2.index

RangeIndex(start=0, stop=4, step=1)

값인덱싱 - 슬라이싱 초기값:끝값

In [41]:
df2.loc[:2]

Unnamed: 0,a,b,c,d
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21


In [42]:
df2.loc[1]

a    14
b    15
c    16
d    17
Name: 1, dtype: int64

위치 인덱싱 - 슬라이싱 초기위치:끝위치 + 1

In [43]:
df2.loc[1:3]

Unnamed: 0,a,b,c,d
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [44]:
df2.loc[1:2]

Unnamed: 0,a,b,c,d
1,14,15,16,17
2,18,19,20,21


#### ② 행인덱스 데이터를 리스트로 지정

**형식: dataFrame.loc[[행이름1, 행이름2,... ]]**

- 여러 행 선택시 인덱서 데이터를 리스트로 사용
- 반환값이 데이터프레임이 됨

In [45]:
df2.loc[[0,2]]

Unnamed: 0,a,b,c,d
0,10,11,12,13
2,18,19,20,21


In [46]:
df.loc[['b','a']]

Unnamed: 0,A,B,C,D
b,14,15,16,17
a,10,11,12,13


※ 참고. 데이터프레임 기본 인덱싱은 **열기준**

In [47]:
df[['B', 'C']]

Unnamed: 0,B,C
a,11,12
b,15,16
c,19,20


=> b와 c를 컬럼명에서 찾고 있음, 인덱서 사용해야 함

In [22]:
# df.loc[['B','C']]

#### ③ boolean indexing으로 행 선택

**조건 식 수행**

In [48]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


- 예. df의 A열의 값이 15보다 큰 행만 추출

In [49]:
df[df['A']>15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [50]:
df.loc[:,'A']

a    10
b    14
c    18
Name: A, dtype: int64

In [51]:
df[df.loc[:,'A']>15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


=> df의 A열의 행값이 15보다 큰지 확인 후 T/F로 반환

#### ④ 인덱스 대신 인덱스 값을 반환하는 함수 사용

In [52]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


- 예. df의 A열의 값이 15보다 작은 행 추출

In [53]:
df[df['A'] < 15]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


In [54]:
def sel_row(df):
    return df.A < 15
#결과는 True/False를 갖는 시리즈를 반환

In [55]:
sel_row(df)

a     True
b     True
c    False
Name: A, dtype: bool

In [56]:
df[sel_row(df)]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


### 3) loc 인덱서로 개별 요소 선택

- 인덱싱으로 행과 열을 모두 받는 경우
- 형식 : **df.loc[행인덱스, 열인덱스]**
    - 라벨(문자열)인덱스 사용

In [57]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


- a행의 A열 값 선택

In [58]:
# 기본인덱싱 방식
df['A']['a':'a'] #반환값이 시리즈

# loc인덱서 사용
df.loc['a','A'] #반환값이 개별 값

a    10
Name: A, dtype: int64

10

- a행의 A열 값 수정

In [59]:
# 기본인덱싱 방식
#df['A']['a'] = 2000
df['A']['a':'a'] = 2000
df
# loc인덱서 사용
df.loc['a','A'] = 100
df

Unnamed: 0,A,B,C,D
a,2000,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,B,C,D
a,100,11,12,13
b,14,15,16,17
c,18,19,20,21


In [65]:
# "B"열 선택 : loc인덱서를 사용
#기본 인덱서 사용
df['B']

#Loc 인덱서를 사용
df.loc[:, 'B']
df.T.loc['B']
df.loc[:]['B']
df.loc[:,['B']] #DataFrame 형태로 나옴

a    11
b    15
c    19
Name: B, dtype: int64

a    11
b    15
c    19
Name: B, dtype: int64

In [80]:
# loc인덱서를 이용하여 'A','C'열 선택
df[['A', 'C']]
df.loc[:,['A','C']]

Unnamed: 0,A,C
a,100,12
b,14,16
c,18,20


Unnamed: 0,A,C
a,100,12
b,14,16
c,18,20


In [81]:
df.loc[['a','b'],['A','B']]
df.loc[['a','c']]

Unnamed: 0,A,B
a,100,11
b,14,15


Unnamed: 0,A,B,C,D
a,100,11,12,13
c,18,19,20,21


In [83]:
# 멀티인덱스인 경우
df3 = pd.DataFrame(np.arange(10,22).reshape(3,4), index=['a b c'.split()], columns='A B C D'.split())
df3

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [85]:
df3.index #MultiIndex
df3.columns

MultiIndex([('a',),
            ('b',),
            ('c',)],
           )

Index(['A', 'B', 'C', 'D'], dtype='object')

In [87]:
df3.loc['a']

Unnamed: 0,A,B,C,D
a,10,11,12,13


In [92]:
df3.loc[['a', 'c']]

Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21


In [89]:
df4 = pd.DataFrame(np.arange(10,22).reshape(4,3), index= [['a','a','b','b'],[1,2,1,2]],
                  columns = 'A B C'.split())
df4

Unnamed: 0,Unnamed: 1,A,B,C
a,1,10,11,12
a,2,13,14,15
b,1,16,17,18
b,2,19,20,21


In [90]:
df4.loc['a']

Unnamed: 0,A,B,C
1,10,11,12
2,13,14,15


In [91]:
#df4.loc[1] - keyerror
df4.loc[('a',1)]

A    10
B    11
C    12
Name: (a, 1), dtype: int64

In [93]:
df4.loc[['a','b']]

Unnamed: 0,Unnamed: 1,A,B,C
a,1,10,11,12
a,2,13,14,15
b,1,16,17,18
b,2,19,20,21


In [96]:
df4.loc[[('a',1),('b',2)]]

Unnamed: 0,Unnamed: 1,A,B,C
a,1,10,11,12
b,2,19,20,21


-------------------------------------------------

## 2. iloc 인덱서

- **위치기반 인덱스**
- 라벨(name)이 아닌 위치를 나타내는 정수 인덱스만 사용
- 위치 정수값은 0부터 시작
- **형식 : 데이터프레임.iloc[행, 열]**

- **데이터프레임의 기본 인덱싱은 [행번호,열번호] 인덱싱 불가**

- **iloc[] 사용하면 가능**
    - iloc[행번호,열번호]
    - loc[행이름,열이름]

In [97]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


### 1) iloc을 이용하여 개별요소 선택

형식 : 데이터프레임.iloc[행번호,열번호]

결과값 : **스칼라값 반환됨**

- 0행 1열 선택

In [98]:
df.iloc[0,1] #0행 1열

11

### 2) iloc에 슬라이싱 적용

#### 형식:  df.iloc[시작인덱스:끝인덱스:슬라이싱간격]

- 1열의 0행,1행 선택 : 시리즈 형태로 반환

In [99]:
df.iloc[[0,1],1] #행우선 0행, 1행 / 1열

a    11
b    15
Name: B, dtype: int64

- 1열의 0행과 1행 선택 : 데이터프레임 형태로 반환

In [102]:
df.iloc[[0,1],[1]] #DataFrame으로 가져옴 열도 리스트로 주기
df.iloc[[0,1],1:2] #슬라이싱으로 적용

Unnamed: 0,B
a,11
b,15


Unnamed: 0,B
a,11
b,15


- 0행의 2번째 열부터 끝열까지 반환

In [110]:
# 기본인덱싱의 경우
df[['B','C','D']][0:1]
df[['B','C','D']]['a':'a']

Unnamed: 0,B,C,D
a,11,12,13


Unnamed: 0,B,C,D
a,11,12,13


In [112]:
# loc인덱서 사용하는 경우
df.loc['a',['B','C','D']]
df.loc['a','B':'D']

Unnamed: 0,B,C,D
a,11,12,13


Unnamed: 0,B,C,D
a,11,12,13


In [116]:
# iloc인덱서 사용하는 경우
df.iloc[0,1:]
df.iloc[[0],1:]

B    11
C    12
D    13
Name: (a,), dtype: int64

Unnamed: 0,B,C,D
a,11,12,13


- 0행의 끝에서 두번째 열 이후 까지 반환

In [123]:
df

# 기본인덱싱의 경우
df[['B','C','D']][0:1]
df[['B','C','D']]['a':'a']

# loc인덱서 사용하는 경우
df.loc['a', 'B':'D']

# iloc인덱서 사용하는 경우
df.iloc[0, 1:] #시리즈
df.iloc[0:1, 1:] #데이터 프레임

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,B,C,D
a,11,12,13


Unnamed: 0,B,C,D
a,11,12,13


Unnamed: 0,B,C,D
a,11,12,13


B    11
C    12
D    13
Name: (a,), dtype: int64

Unnamed: 0,B,C,D
a,11,12,13


#### iloc인덱서 정리

- iloc[행위치,열위치] -> 원소값 반환
- iloc[행위치1:행위치2,열위치1:열위치2] -> 원소 반환: df 반환
- iloc[행위치,열위치1:열위치2] -> 원소반환 :시리즈 반환
- iloc[행위치1:행위치2,열위치] ->원소반환 : 시리즈 반환

-------------------------------------------------