In [2]:
# 모듈 import
import numpy as np
import pandas as pd

In [3]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

# pandas 데이터프레임 인덱서 loc, iloc

### 데이터프레임의 기본 인덱싱

1. 열인덱싱 
    - 하나의 열만 선택 : **` df['열이름'] `**
    - 여러 개 열 선택  : **` df[['열이름1', '열이름2',...]] `**


2. 행인덱싱 : 연속된 구간의 행데이터 선택(슬라이싱)
    - **`df['행_시작위치':'행_끝위치']`** 


3. 개별요소 접근 : 선택한 열에서 지정된 구간의 행데이터 선택
    - **`df['열이름']['행_시작위치':'행_끝위치']`**
    - **`df['열이름']['시작_행이름':'끝_행이름']`**

### 데이터프레임의 특별한 인덱서(indexer) : loc, iloc

- numpy와 같이 쉼표(,)를 사용하여 행과 열을 동시에 인덱싱하는 2차원 인덱싱
- [행 인덱스, 열 인덱스] 형식

- **loc** : 라벨값 기반의 2차원 인덱싱(명칭기반 인덱싱)
- **iloc** : 순서를 나타내는 정수 기반의 2차원 인덱싱(위치기반 인덱싱)

## 1. loc 인덱서

**명칭기반 인덱서**

1) **df.loc[행인덱싱 값]**   # 행우선 인덱서

2) **df.loc[행인덱싱 값,열인덱싱 값]**

**인덱싱 값 유형**

- 인덱스 데이터 : [index name] 또는 [index_name, column name]
- 인덱스 데이터 슬라이스 
- 같은 행 인덱스를 갖는 불리언 시리즈(행 인덱싱인 경우)
     - 조건으로 추출 가능(불린 인덱싱)
- 위 값을 반환하는 함수    

In [4]:
# 예제 데이터프레임 생성
df = pd.DataFrame(np.arange(10,22).reshape(3,4),
                 index = ['a','b','c'],
                 columns = 'A B C D'.split())
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [8]:
# 기본인덱싱

df['B']
df.B
type(df['A'][0:1])

a    11
b    15
c    19
Name: B, dtype: int32

a    11
b    15
c    19
Name: B, dtype: int32

pandas.core.series.Series

### 1) 데이터프레임의 행 선택

**형식 : dataframe.loc['행인덱스값']**

In [10]:
df
df.loc['a']

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


A    10
B    11
C    12
D    13
Name: a, dtype: int32

#### 주의. loc 인덱서에서는 열 단독 인덱싱은 불가능

In [11]:
# loc인덱서는 열이름을 먼저 사용불가능 : 행 우선 인덱싱

# df.loc['A']
# df.A   # df['A']

### 2) 데이터프레임의 여러 행 선택

#### ① 행인덱스 슬라이싱

**형식: dataFrame.loc['처음 행인덱스값' : '끝행인덱스값']**

- b행부터 c행의 모든 열 반환

In [12]:
df.loc['b':'c']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [14]:
# a와 b행을 선택
df.loc['a':'b']

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


In [15]:
# 행 이름 하나만 지정시 시리즈 반환
df.loc['a']

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [16]:
# 리스트에서 행이름 하나 지정시 데이터프레임으로 반환
df.loc[['a']]

Unnamed: 0,A,B,C,D
a,10,11,12,13


In [17]:
# 행인덱스가 정수인덱스인 경우
df2 = pd.DataFrame(np.arange(10,26).reshape(4,4),
                  columns = 'A B C D'.split())
df2
# 위치인덱스 사용
df2.loc[0:2]

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21


In [18]:
df2.loc[:1]

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17


In [19]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [20]:
df2.index

RangeIndex(start=0, stop=4, step=1)

In [21]:
df2.loc[0:2]
df2[0:2]

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21


Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17


#### ② 행인덱스 데이터를 리스트로 지정

**형식: dataFrame[[행이름1, 행이름2,... ]]**

- 여러 행 선택시 인덱서 데이터를 리스트로 사용
- 반환값이 데이터프레임이 됨

In [22]:
df
# 'a'와 'c'행을 선택 : 데이터프레임으로 반환
df.loc[['a','c']]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21


In [24]:
# 위치인덱스를 갖는 데이터프레임에서
df
df2.loc[[0,3]]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,B,C,D
0,10,11,12,13
3,22,23,24,25


※ 참고. 데이터프레임 기본 인덱싱은 **열기준**

In [None]:
# df2[[0, 3]]  # 기본인덱싱 : 열기준 => KeyError

In [25]:
df2[['A',"C"]]

Unnamed: 0,A,C
0,10,12
1,14,16
2,18,20
3,22,24


#### ③ boolean indexing으로 행 선택

**조건 식 수행**

In [26]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


- 예. df의 A열의 값이 15보다 큰 행만 추출

In [30]:
# 기본인덱싱을 사용
df['A'] >15
df[df['A'] > 15]

a    False
b    False
c     True
Name: A, dtype: bool

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [29]:
df.A >15
df[df.A > 15]

a    False
b    False
c     True
Name: A, dtype: bool

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [31]:
df.loc[df.A>15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


#### ④ 인덱스 대신 인덱스 값을 반환하는 함수 사용

In [32]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


- 예. df의 A열의 값이 15보다 작은 행 추출

In [34]:
# 인덱싱을 위한 함수 정의
def sel_row(df):
    return df.A <15

In [35]:
# 함수 호출
sel_row(df)

a     True
b     True
c    False
Name: A, dtype: bool

In [36]:
df.loc[sel_row(df)]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17


### 3) loc 인덱서로 개별 요소 선택

- 인덱싱으로 행과 열을 모두 받는 경우
- 형식 : **df.loc[행인덱스, 열인덱스]**
    - 라벨(문자열)인덱스 사용

In [37]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


- a행의 A열 값 선택

In [39]:
# 기본인덱싱
df['A']['a']

# loc 인덱서
df.loc['a','A']

10

10

- a행의 A열 값 수정

In [40]:
# 기본인덱싱
df['A']['a'] =100
df
# loc 인덱서
df.loc['a','A'] = 200
df

Unnamed: 0,A,B,C,D
a,100,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


In [42]:
# "B"열 선택 : loc인덱서를 사용
df
df.loc[:,'B']

Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


a    11
b    15
c    19
Name: B, dtype: int32

In [43]:
# loc 인덱서를 사용하여 'A', 'C'열 선택
df.loc[:, ['A','C']]

Unnamed: 0,A,C
a,200,12
b,14,16
c,18,20


In [44]:
df.loc[['a','c'],['A','C']]

Unnamed: 0,A,C
a,200,12
c,18,20


In [45]:
df
df['a':'a']
df.loc['a']

Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,B,C,D
a,200,11,12,13


A    200
B     11
C     12
D     13
Name: a, dtype: int32

In [47]:
df3 = pd.DataFrame(np.arange(10,22).reshape(3,4),
                 index = ['a b c'.split()],
                 columns = 'A B C D'.split())
df3

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [48]:
df3.index

MultiIndex([('a',),
            ('b',),
            ('c',)],
           )

In [49]:
df3.loc['a']

Unnamed: 0,A,B,C,D
a,10,11,12,13


-------------------------------------------------

## 2. iloc 인덱서

- **위치기반 인덱스**
- 라벨(name)이 아닌 위치를 나타내는 정수 인덱스만 사용
- 위치 정수값은 0부터 시작
- **형식 : 데이터프레임.iloc[행, 열]**

- **데이터프레임의 기본 인덱싱은 [행번호,열번호] 인덱싱 불가**

- **iloc[] 사용하면 가능**
    - iloc[행번호,열번호]
    - loc[행이름,열이름]

In [50]:
df

Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


### 1) iloc을 이용하여 개별요소 선택

형식 : 데이터프레임.iloc[행번호,열번호]

결과값 : 스칼라값 반환됨**

- 0행 1열 선택

In [51]:
df.iloc[0,1]

11

### 2) iloc에 슬라이싱 적용

- 1열의 0행,1행 선택 : 시리즈 형태로 반환

In [110]:
df
df.iloc[[0,1],1]
df.iloc[0:1, 1]  # 0행만 선택
df.iloc[0:2, 1]

# 참고
df2
df2.loc[0:1,'A']

Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29
b,30,31,32,33,34
c,35,36,37,38,39
d,40,41,42,43,44
e,45,46,47,48,49


a    26
b    31
Name: B, dtype: int32

a    26
Name: B, dtype: int32

a    26
b    31
Name: B, dtype: int32

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


0    10
1    14
Name: A, dtype: int32

- 1열의 0행과 1행 선택 : 데이터프레임 형태로 반환

In [55]:
df
df.iloc[[0,1],1:2]
df.iloc[0:2, 1:2]

Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,B
a,11
b,15


Unnamed: 0,B
a,11
b,15


- 0행의 2번째 열부터 끝열까지 반환

In [71]:
# 기본인덱싱의 경우
df
df[['B','C','D']]['a':'a']

# loc인덱서 사용하는 경우
df.loc['a', 'B':'D']

# iloc 인덱서 사용하는 경우
df.iloc[0, 1:]   # 시리즈로 반환
df.iloc[0:1, 1:]   # 데이터프레임으로 반환


Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,B,C,D
a,11,12,13


B    11
C    12
D    13
Name: a, dtype: int32

Unnamed: 0,B,C,D
a,11,12,13


B    11
C    12
D    13
Name: a, dtype: int32

- 0행의 끝에서 두번째 열 이후까지 반환

In [75]:
df
# 기본인덱싱의 경우
df[['C','D']]['a':'a']

# loc인덱서 사용하는 경우
df.loc['a', 'C':'D']
df.loc['a', ['C','D']]

# iloc 인덱서 사용하는 경우
df.iloc[0, -2:]


# 따로 떨어진 건 리스트, 붙어있는 건 슬라이싱
# 기본인덱싱에서 하나만 리스트라도 데이터프레임으로 반환
# loc, iloc에서는 둘 다 리스트여야지 데이터프레임으로 반환

Unnamed: 0,A,B,C,D
a,200,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,C,D
a,12,13


C    12
D    13
Name: a, dtype: int32

C    12
D    13
Name: a, dtype: int32

C    12
D    13
Name: a, dtype: int32

**iloc 정리**

- iloc[행위치,열위치] -> 원소값 반환
- iloc[행위치1:행위치2,열위치1:열위치2] -> 원소 반환: df 반환
- iloc[행위치,열위치1:열위치2] -> 원소반환 :시리즈 반환
- iloc[행위치1:행위치2,열위치] ->원소반환 : 시리즈 반환

-------------------------------------------------

### 연습문제 #1. loc을 이용한 인덱싱

In [158]:
df = pd.DataFrame(np.arange(10,22).reshape(3,4),
                 index='a b c'.split(),
                 columns = 'A B C D'.split())
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


#### 문제1. a행의 모든 열 가져오기

**1) a행의 모든 열을 시리즈로 가져오기**

In [77]:
df.loc['a']

A    10
B    11
C    12
D    13
Name: a, dtype: int32

**2) a행의 모든 열을 데이터프레임으로 가져오기**

In [78]:
df.loc['a':'a']

Unnamed: 0,A,B,C,D
a,10,11,12,13


**3) loc[]을 사용하지 않고 데이터프레임 기본 인덱싱방법을 사용하여 a행의 모든 열 가져오기**

In [80]:
df[:]['a':'a']

Unnamed: 0,A,B,C,D
a,10,11,12,13


#### 문제2. a행의 B,C 열 가져오기

In [83]:
df.loc['a',['B','C']]

B    11
C    12
Name: a, dtype: int32

#### 문제3. b행부터 그 이후 모든 행의 A열 가져오기

In [84]:
df.loc['b':,'A']

b    14
c    18
Name: A, dtype: int32

#### 문제4. a,b행의 B,C,D열 가져오기

**데이터프레임으로 가져오기**

: 두 가지 이상의 방식을 사용할 것

In [147]:
df.loc['a':'b','B':'D']

Unnamed: 0,B,C,D
a,11,12,13
b,15,16,17


In [100]:
df.loc[['a','b'],['B','C','D']]

Unnamed: 0,B,C,D
a,11,12,13
b,15,16,17


In [160]:
df.loc['a', ::-1]

D    13
C    12
B    11
A    10
Name: a, dtype: int32

#### 문제5. a,c 행의 B,D열 가져오기

In [102]:
df.loc[['a','c'],['B','D']]

Unnamed: 0,B,D
a,11,13
c,19,21


In [161]:
df.loc[::2, 'B'::2]

Unnamed: 0,B,D
a,11,13
c,19,21


----------------------------------------------

### 연습문제 #2

#### 문제1. 모든 행과 열에 라벨을 가지는 5행 5열 이상 크기의 데이터프레임을 생성하기

- 최대한 간단한 코드로 작성할 것
- 예. numpy의 난수발생함수나 arange() 등 정수배열 생성함수 이용

In [105]:
df = pd.DataFrame(np.arange(1,26).reshape(5,5), index='a b c d e'.split(), columns='A B C D E'.split())
df

Unnamed: 0,A,B,C,D,E
a,1,2,3,4,5
b,6,7,8,9,10
c,11,12,13,14,15
d,16,17,18,19,20
e,21,22,23,24,25


#### 문제2. 다음의 데이터프레임에 대하여 조건에 맞는 요소 가져오기

- 요소 추출을 위해 가능하면 2가지 이상의 방법(loc, iloc, 기본인덱싱)을 사용하고, 
- 어떤 방식을 사용하였고, 반환형식이 무엇인지 코드에 주석달기

In [167]:
# 5행 5열 크기의 데이터 프레임 생성
df = pd.DataFrame(np.arange(25,50).reshape(5,5),
                index='a b c d e'.split(),
                columns = 'A B C D E'.split())

In [153]:
df

Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29
b,30,31,32,33,34
c,35,36,37,38,39
d,40,41,42,43,44
e,45,46,47,48,49


**1) A열 추출**

In [108]:
df['A']   # 기본인덱싱, 시리즈

a    25
b    30
c    35
d    40
e    45
Name: A, dtype: int32

In [109]:
df.loc[:,'A']   # loc, 시리즈

a    25
b    30
c    35
d    40
e    45
Name: A, dtype: int32

**2) 0행부터 2행까지 추출**

In [111]:
df.loc['a':'c']  # loc, 데이터프레임

Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29
b,30,31,32,33,34
c,35,36,37,38,39


In [113]:
df.iloc[0:3]   # iloc, 데이터프레임

Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29
b,30,31,32,33,34
c,35,36,37,38,39


In [171]:
df['a':'c']

Unnamed: 0,A,B,C,D,E
a,25,26,27,28,29
b,30,31,32,33,34
c,35,36,37,38,39


**3) 1행의 3,4열 추출**

In [127]:
df.iloc[1,3:5]  # iloc, 시리즈

D    33
E    34
Name: b, dtype: int32

In [137]:
df.loc['b','D':'E']  # loc, 시리즈

D    33
E    34
Name: b, dtype: int32

**4) a행에서 c행까지 중 B열과 D열 추출**

In [118]:
df.loc['a':'c',['B','D']]  # loc, 데이터프레임

Unnamed: 0,B,D
a,26,28
b,31,33
c,36,38


In [141]:
df[['B','D']]['a':'c'] # 기본인덱싱, 데이터프레임

Unnamed: 0,B,D
a,26,28
b,31,33
c,36,38


In [170]:
df.iloc[:3, 1::2]    # 스텝 사용

Unnamed: 0,B,D
a,26,28
b,31,33
c,36,38


**5) 끝에서 두번째 행부터 마지막행까지 추출**

In [119]:
df.iloc[-2:]  # iloc, 데이터프레임

Unnamed: 0,A,B,C,D,E
d,40,41,42,43,44
e,45,46,47,48,49


In [142]:
df[:][-2:]  # 기본인덱싱, 데이터프레임

Unnamed: 0,A,B,C,D,E
d,40,41,42,43,44
e,45,46,47,48,49


**6) a행의 A열부터 B열을 시리즈로 추출**

In [120]:
df.loc['a','A':'B']  # loc, 시리즈

A    25
B    26
Name: a, dtype: int32

In [144]:
 df[['A','B']]['a':'a']   # 기본인덱싱, 데이터프레임

Unnamed: 0,A,B
a,25,26


**7) a행의 A열부터 B열까지 데이터프레임으로 추출**

In [122]:
df.loc['a':'a',['A','B']]   # loc, 데이터프레임

Unnamed: 0,A,B
a,25,26


In [157]:
df[['A','B']]['a':'a']   # 기본인덱싱, 데이터프레임

Unnamed: 0,A,B
a,25,26


**8) 끝에서 두번째 행부터 마지막 행까지에서 끝에서 두번째 열부터 마지막 열까지 요소 추출**

In [169]:
df.iloc[-2:,-2:]  # iloc, 데이터프레임
df[['D','E']]['d':'e']

Unnamed: 0,D,E
d,43,44
e,48,49


Unnamed: 0,D,E
d,43,44
e,48,49


-------------------------------------------