In [4]:
# 모듈 import
import pandas as pd
import numpy as np


In [5]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

# pandas 데이터프레임 인덱서 loc, iloc

### 데이터프레임의 기본 인덱싱

1. 열인덱싱 
    - 하나의 열만 선택 : **` df['열이름'] `**
    - 여러 개 열 선택  : **` df[['열이름1', '열이름2',...]] `**


2. 행인덱싱 : 연속된 구간의 행데이터 선택(슬라이싱)
    - **`df['행_시작위치':'행_끝위치']`** 


3. 개별요소 접근 : 선택한 열에서 지정된 구간의 행데이터 선택
    - **`df['열이름']['행_시작위치':'행_끝위치']`**
    - **`df['열이름']['시작_행이름':'끝_행이름']`**

### 데이터프레임의 특별한 인덱서(indexer) : loc, iloc

- numpy와 같이 쉼표(,)를 사용하여 행과 열을 동시에 인덱싱하는 2차원 인덱싱
- [행 인덱스, 열 인덱스] 형식

- **loc** : 라벨값 기반의 2차원 인덱싱(명칭기반 인덱싱)
- **iloc** : 순서를 나타내는 정수 기반의 2차원 인덱싱(위치기반 인덱싱)

## 1. loc 인덱서

**명칭기반 인덱서**

1) **df.loc[행인덱싱 값]**   # 행우선 인덱서

2) **df.loc[행인덱싱 값,열인덱싱 값]**

**인덱싱 값 유형**

- 인덱스 데이터 : [index name] 또는 [index_name, column name]
- 인덱스 데이터 슬라이스 
- 같은 행 인덱스를 갖는 불리언 시리즈(행 인덱싱인 경우)
     - 조건으로 추출 가능(불린 인덱싱)
- 위 값을 반환하는 함수    

In [3]:
# 예제 데이터프레임 생성
df=pd.DataFrame(np.arange(10,22).reshape(3,4),
               index=['a','b','c'],
               columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [4]:
df[0:1]

Unnamed: 0,A,B,C,D
a,10,11,12,13


### 1) 데이터프레임의 행 선택

**형식 : dataframe.loc['행인덱스값']**

In [5]:
df
df.loc['a']

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


A    10
B    11
C    12
D    13
Name: a, dtype: int32

#### 주의. loc 인덱서에서는 열 단독 인덱싱은 불가능

In [6]:
df.loc['A']

KeyError: 'A'

### 2) 데이터프레임의 여러 행 선택

#### ① 행인덱스 슬라이싱

**형식: dataFrame.loc['처음 행인덱스값' : '끝행인덱스값']**

- b행부터 c행의 모든 열 반환

In [7]:
df.loc['b':'c']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [8]:
# a와 b행을 선택
df.loc['a':'b']

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


In [9]:
df.loc['a']

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [10]:
df.loc[['a']]

Unnamed: 0,A,B,C,D
a,10,11,12,13


In [11]:
#정수 인덱스가 아니므로 사용 불가 
df.loc[1:2]

TypeError: cannot do slice indexing on Index with these indexers [1] of type int

In [12]:
#행인덱스가 정수인덱스인 경우
df2=pd.DataFrame(np.arange(10,26).reshape(4,4),
                columns=['A','B','C','D'])
df2
#위치 인덱스 사용
df2.loc[0:2]

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21


In [13]:
df2.loc[:1]

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17


In [14]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [15]:
df2.loc[0:2]
df2[0:2]

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21


Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17


#### ② 행인덱스 데이터를 리스트로 지정

**형식: dataFrame[[행이름1, 행이름2,... ]]**

- 여러 행 선택시 인덱서 데이터를 리스트로 사용
- 반환값이 데이터프레임이 됨

In [16]:
df
#'a'와 'c'행을 선택
df.loc[['a','c']]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21


In [17]:
#위치인덱스를 갖는 데이터 프레임에서
df2
df2.loc[[0,3]] #기본인덱싱:열기준

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


Unnamed: 0,A,B,C,D
0,10,11,12,13
3,22,23,24,25


※ 참고. 데이터프레임 기본 인덱싱은 **열기준**

In [18]:
#df2[[0,3]]

In [19]:
df2[['A','C']]

Unnamed: 0,A,C
0,10,12
1,14,16
2,18,20
3,22,24


#### ③ boolean indexing으로 행 선택

**조건 식 수행**

- 예. df의 A열의 값이 15보다 큰 행만 추출

In [20]:
df.A>15
df[df.A>15]

a    False
b    False
c     True
Name: A, dtype: bool

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [21]:
df.loc[df.A>15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


#### ④ 인덱스 대신 인덱스 값을 반환하는 함수 사용

In [22]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


- 예. df의 A열의 값이 15보다 작은 행 추출

In [23]:
def sel_row(df):
    return df.A<15

In [24]:
#함수 호출 
sel_row(df)

a     True
b     True
c    False
Name: A, dtype: bool

In [25]:
df.loc[sel_row(df)]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


In [26]:
df.loc[df.A<15]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


### 3) loc 인덱서로 개별 요소 선택

- 인덱싱으로 행과 열을 모두 받는 경우
- 형식 : **df.loc[행인덱스, 열인덱스]**
    - 라벨(문자열)인덱스 사용

In [27]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


- a행의 A열 값 선택

In [28]:
#기본 인덱싱
df['A']['a']

10

In [29]:
#loc 인덱서 사용
df.loc['a','A']

10

- a행의 A열 값 수정

In [30]:
df.loc['a','A']=24
df
df['A']['a']=100
df

Unnamed: 0,A,B,C,D
a,24,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,B,C,D
a,100,11,12,13
b,14,15,16,17
c,18,19,20,21


In [31]:
df.loc[:,['A','C']]

Unnamed: 0,A,C
a,100,12
b,14,16
c,18,20


In [32]:
df
df['a':'a']
df.loc['a']

Unnamed: 0,A,B,C,D
a,100,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,B,C,D
a,100,11,12,13


A    100
B     11
C     12
D     13
Name: a, dtype: int32

-------------------------------------------------

## 2. iloc 인덱서

- **위치기반 인덱스**
- 라벨(name)이 아닌 위치를 나타내는 정수 인덱스만 사용
- 위치 정수값은 0부터 시작
- **형식 : 데이터프레임.iloc[행, 열]**

- **데이터프레임의 기본 인덱싱은 [행번호,열번호] 인덱싱 불가**

- **iloc[] 사용하면 가능**
    - iloc[행번호,열번호]
    - loc[행이름,열이름]

### 1) iloc을 이용하여 개별요소 선택

형식 : 데이터프레임.iloc[행번호,열번호]

결과값 : 스칼라값 반환됨**

- 0행 1열 선택

In [33]:
df.iloc[1,3]

17

### 2) iloc에 슬라이싱 적용

- 1열의 0행과 1행 선택 : 데이터프레임 형태로 반환

In [34]:
df
df.iloc[0:2,0:1]

Unnamed: 0,A,B,C,D
a,100,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A
a,100
b,14


- 1열의 0행,1행 선택 : 시리즈 형태로 반환

In [35]:
df.iloc[[0,1],1]

a    11
b    15
Name: B, dtype: int32

- 0행의 2번째 열부터 끝열까지 반환

In [63]:
df[['C','D']]['a':'a']

Unnamed: 0,C,D
a,27,28


In [64]:
df.loc['a','C':'D']

C    27
D    28
Name: a, dtype: int32

In [65]:
df.loc['a',['C','D']]

C    27
D    28
Name: a, dtype: int32

In [66]:
df.iloc[0:1,2:]

Unnamed: 0,C,D,E
a,27,28,29


In [67]:
df.iloc[0,2:]

C    27
D    28
E    29
Name: a, dtype: int32

**iloc 정리**

- iloc[행위치,열위치] -> 원소값 반환
- iloc[행위치1:행위치2,열위치1:열위치2] -> 원소 반환: df 반환
- iloc[행위치,열위치1:열위치2] -> 원소반환 :시리즈 반환
- iloc[행위치1:행위치2,열위치] ->원소반환 : 시리즈 반환

-------------------------------------------------

### 연습문제 #1. loc을 이용한 인덱싱

In [6]:
df = pd.DataFrame(np.arange(10,22).reshape(3,4),
                 index='a b c'.split(),
                 columns = 'A B C D'.split())
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


#### 문제1. a행의 모든 열 가져오기

**1) a행의 모든 열을 시리즈로 가져오기**

In [7]:
df.loc['a']

A    10
B    11
C    12
D    13
Name: a, dtype: int32

**2) a행의 모든 열을 데이터프레임으로 가져오기**

In [8]:
df.loc[['a']]

Unnamed: 0,A,B,C,D
a,10,11,12,13


**3) loc[]을 사용하지 않고 데이터프레임 기본 인덱싱방법을 사용하여 a행의 모든 열 가져오기**

In [9]:
df['a':'a']

Unnamed: 0,A,B,C,D
a,10,11,12,13


#### 문제2. a행의 B,C 열 가져오기

In [10]:
df.loc[['a'],['B','C']]

Unnamed: 0,B,C
a,11,12


In [11]:
df.loc['a':'a','B':'C']

Unnamed: 0,B,C
a,11,12


#### 문제3. b행부터 그 이후 모든 행의 A열 가져오기

In [12]:
df.loc['b': ,'A']

b    14
c    18
Name: A, dtype: int32

In [45]:
df.loc['b': ,'A':'A']

Unnamed: 0,A
b,14
c,18


#### 문제4. a,b행의 B,C,D열 가져오기

**1) 시리즈 형식으로 가져오기**

In [46]:
df.loc['a','B':'D']

B    11
C    12
D    13
Name: a, dtype: int32

In [47]:
df.loc['b','B':'D']

B    15
C    16
D    17
Name: b, dtype: int32

**2) 데이터프레임으로 가져오기**

: 두 가지 이상의 방식을 사용할 것

In [48]:
df.loc['a':'b','B':'D']

Unnamed: 0,B,C,D
a,11,12,13
b,15,16,17


In [106]:
df.loc[['a','b'],['B','C','D']]

Unnamed: 0,B,C,D
a,26,27,28
b,31,32,33


#### 문제5. a,c 행의 B,D열 가져오기

In [50]:
df.loc['a':'c':2,'B':'D':2]

Unnamed: 0,B,D
a,11,13
c,19,21


In [107]:
df.loc[['a','c'],['B','D']]

Unnamed: 0,B,D
a,26,28
c,36,38


----------------------------------------------

### 연습문제 #2

#### 문제1. 모든 행과 열에 라벨을 가지는 5행 5열 이상 크기의 데이터프레임을 생성하기

- 최대한 간단한 코드로 작성할 것
- 예. numpy의 난수발생함수나 arange() 등 정수배열 생성함수 이용

In [13]:
# 5행 5열 크기의 데이터 프레임 생성
df = pd.DataFrame(np.arange(25,50).reshape(5,5),
                index='a b c d e'.split(),
                columns = 'A B C D E'.split())

#### 문제 2 각문제에 맞는 값 추출하기
#### loc iloc 기본인덱싱 사용 할것 

In [14]:
df

Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29
b,30,31,32,33,34
c,35,36,37,38,39
d,40,41,42,43,44
e,45,46,47,48,49


**1) A열 추출**

In [15]:
df.A
df.loc[:,'A']
df.iloc[:,0]

a    25
b    30
c    35
d    40
e    45
Name: A, dtype: int32

a    25
b    30
c    35
d    40
e    45
Name: A, dtype: int32

a    25
b    30
c    35
d    40
e    45
Name: A, dtype: int32

**2) 0행부터 2행까지 추출**

In [25]:
df['a':'c']
df.loc['a':'c']
df.iloc[0:3]

Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29
b,30,31,32,33,34
c,35,36,37,38,39


Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29
b,30,31,32,33,34
c,35,36,37,38,39


Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29
b,30,31,32,33,34
c,35,36,37,38,39


**3) 1행의 3,4열 추출**

In [26]:
df[['D','E']]['a':'a']
df.loc['a':'a','D':'E']
df.iloc[0:1,3:5]

Unnamed: 0,D,E
a,28,29


Unnamed: 0,D,E
a,28,29


Unnamed: 0,D,E
a,28,29


**4) a행에서 c행까지 중 B열과 D열 추출**

In [27]:
df[['B','D']]['a':'c']
df.loc['a':'c','B':'D':2]
df.iloc[0:4,1:4:2]

Unnamed: 0,B,D
a,26,28
b,31,33
c,36,38


Unnamed: 0,B,D
a,26,28
b,31,33
c,36,38


Unnamed: 0,B,D
a,26,28
b,31,33
c,36,38
d,41,43


**5) 끝에서 두번째 행부터 마지막행까지 추출**

In [28]:
df[:]['c':'e']
df.loc['c':'e']
df.iloc[-3:5]

Unnamed: 0,A,B,C,D,E
c,35,36,37,38,39
d,40,41,42,43,44
e,45,46,47,48,49


Unnamed: 0,A,B,C,D,E
c,35,36,37,38,39
d,40,41,42,43,44
e,45,46,47,48,49


Unnamed: 0,A,B,C,D,E
c,35,36,37,38,39
d,40,41,42,43,44
e,45,46,47,48,49


**6) a행의 A열부터 B열을 시리즈로 추출**

In [20]:
df[['A','B']]['a':'a']
df.loc['a':'a','A':'B']
df.iloc[0:1,0:2]

Unnamed: 0,A,B
a,25,26


Unnamed: 0,A,B
a,25,26


Unnamed: 0,A,B
a,25,26


**7) a행의 A열부터 B열까지 데이터프레임으로 추출**

In [21]:
df[['A','B']]['a':'a']
df.loc['a':'a','A':'B']
df.iloc[0:1,0:2]

Unnamed: 0,A,B
a,25,26


Unnamed: 0,A,B
a,25,26


Unnamed: 0,A,B
a,25,26


**8) 끝에서 두번째 행부터 마지막 행까지에서 끝에서 두번째 열부터 마지막 열까지 요소 추출**

In [22]:
df[['C','D','E']]['c':'e']
df.loc['c':'e','C':'E']
df.iloc[-3:5,-3:5]

Unnamed: 0,C,D,E
c,37,38,39
d,42,43,44
e,47,48,49


Unnamed: 0,C,D,E
c,37,38,39
d,42,43,44
e,47,48,49


Unnamed: 0,C,D,E
c,37,38,39
d,42,43,44
e,47,48,49


-------------------------------------------