In [2]:
# ##### 설정변경코드
# * 변수 명이 두번 이상 출력되어도 모두 콘솔에서 보여줄 것

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

### 데이터 프레임 인덱서 : loc, iloc
 - 행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원
     - 특별한 인덱서(indexer) 속성을 제공
     
- loc : 라벨값 기반의 2차원 인덱싱
- iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱


In [4]:
import numpy as np
import pandas as pd


#### 행과 열을 동시에 인덱싱 하는 구조는 기본 자료구조 인덱스와 차이가 있음
 - df['열']
 - df[:'행'] 슬라이싱이 반드시 필요
 - df['열'][:'행']


#### 데이터 프레임에서 인덱서 사용
- loc, iloc 속성을 사용하는 인덱싱
- pandas 패키지는 [행번호,열번호] 인덱싱 불가
     - iloc 속성 사용하면 가능
         - iloc[행번호,열번호] - 가능
     - loc[행제목,열제목] -가능

### 1. loc 인덱서 : 행 우선 인덱서
- df.loc[행 인덱스 값] : 행우선 인덱싱
 - df.loc[행 인덱스 값, 열 인덱스 값]
 
    
#### 인덱스 값
    1. 인덱스 데이터(index name, column name)
    2. 인덱스 슬라이스
    3. 같은 행 인덱스를 갖는 불리언 시리즈(행 인덱싱인 경우)
            - 조건식을 인덱스로 사용 가능
    4. 1,2,3번 값을 반환하는 함수
 

In [7]:
#예제 df 생성
#10-21 범위의 숫자를 생성 후 3행 4열로 배치
df=pd.DataFrame(np.arange(10,22).reshape(3,4),
               index = ['a','b','c'],
               columns = ["A","B","C","D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [8]:
# loc 인덱서 사용
# 인덱싱 값을 하나만 받는 경우 df.loc[행인덱스값]
print(type(df.loc['a']))
df.loc['a'] # a 행의 모든 열 반환 - 시리즈로 반환


<class 'pandas.core.series.Series'>


A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [9]:
# loc 인덱서 사용
# 인덱싱 값을 하나만 받는 경우 df.loc[행인덱스값]
print(type(df.loc['a']))
df.loc['a'] # a 행의 모든 열 반환 - 시리즈로 반환


<class 'pandas.core.series.Series'>


A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [10]:
# 인덱스 값으로 슬라이싱 사용
df.loc['b':'c']
df["b":"c"] #  위 결과와 동일한 결과 출력



Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [11]:
# 인덱스 데이터를 리스트로 사용 가능 - 여러행 추출
# 데이터프레임 형태로 반환
df.loc[['a']]
df.loc[['a','c']]
df.loc[['c','b','a']]


Unnamed: 0,A,B,C,D
a,10,11,12,13


Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21


Unnamed: 0,A,B,C,D
c,18,19,20,21
b,14,15,16,17
a,10,11,12,13


In [12]:
#### **boolean selection으로 row 선택하기**

In [13]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [14]:
# 인덱서의 인덱스 값으로 조건식을 줄 수 있음
df.A > 15
df.loc[df.A > 15]



a    False
b    False
c     True
Name: A, dtype: bool

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [15]:
# 인덱스 값을 반환 하는 함수의 결과값을 사용
# 테스트 함수 작성
def sel_row(df1) :
    return df1.A > 15



In [16]:

sel_row(df)
df.loc[sel_row(df)]


a    False
b    False
c     True
Name: A, dtype: bool

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [18]:
# ##### loc 인덱서 슬라이싱

In [19]:
#예제 df 생성
df2 = pd.DataFrame(np.arange(10,26).reshape(4,4),
                  columns=['a','b','c','d'])
df2 #행 인덱스 지정하지 않아서 0부터 1씩 증가되는 정수 인덱스 자동 생성


Unnamed: 0,a,b,c,d
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [20]:
df2.loc[1:2] # 라벨 인덱스를 이용한 슬라이싱이기때문에 초기값 : 끝값 적용 - 1번인덱스부터 2번인덱스까지


Unnamed: 0,a,b,c,d
1,14,15,16,17
2,18,19,20,21


#### 주의!!! 기본 인덱스를 사용할 경우
df2[1:2] - 위치 인덱싱이기 때문에 초기위치:끝위치+1


In [22]:
# #### loc 인덱서 사용해서 요소 값 접근
# - 인덱스 값으로 행과 열을 모두 받는 경우
# - 문법 : df.loc[행 인덱스, 열 인덱스]
# - 값(라벨) 인덱스 사용


In [23]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [24]:
# df의 원소값 접근
# a행의 A열 원소를 출력
df.loc["a","A"]
df["A"]["a"]

10

10

- loc 인덱서를 사용한 원소값 변경


In [26]:
# a행의 A열 원소값을 50으로 변경하시오
df.loc['a','A']=50 #df['A']['a'] = 50
df



Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17
c,18,19,20,21


In [27]:
# #### loc를 이용한 indexing 정리


In [28]:
# a 행의 모든 열
df.loc['a'] # 시리즈 반환
df.loc[['a']] # df 반환
df.loc['a',:] # 시리즈 반환


A    50
B    11
C    12
D    13
Name: a, dtype: int32

Unnamed: 0,A,B,C,D
a,50,11,12,13


A    50
B    11
C    12
D    13
Name: a, dtype: int32

In [43]:
# a행의 B,C열
df.loc['a','B':'C'] # 행 접근이 시리즈 -> 최종 반환 시리즈
df.loc[['a'],'B':'C'] # 행 접근이 df -> 최종 반환  df


B    11
C    12
Name: a, dtype: int32

Unnamed: 0,B,C
a,11,12


In [44]:
#a,b행의 B,C열
df.loc[['a','b'],'B':'C']
df.loc[['a','b'],['B','D']]

Unnamed: 0,B,C
a,11,12
b,15,16


Unnamed: 0,B,D
a,11,13
b,15,17


In [30]:
# df의 a, b 행의  B, D열을 데이터프레임으로 추출
df
df.loc['a':'b'] # a,b행의 모든 열 df 형태로 반환
df.loc[['a','b']] # a,b행의 모든 열 df 형태로 반환
df.loc[['a','b'],'B'] # a,b 행의 B열 시리즈로 반환
df.loc[['a','b'],['B']] # a,b 행의 B열 df로 반환
df.loc[['a','b'],['B','D']] # a,b 행의 B,D열 df로 반환

df.loc[['a','b'],'B':'D'] # a,b 행의 B,C,D열 df로 반환

Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17


Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17


a    11
b    15
Name: B, dtype: int32

Unnamed: 0,B
a,11
b,15


Unnamed: 0,B,D
a,11,13
b,15,17


Unnamed: 0,B,C,D
a,11,12,13
b,15,16,17


### 2.iloc 인덱서(위치 인덱스)
 - 라벨(name)이 아닌 위치를 나타내는 정수 인덱스만 받는다.
 - 위치 정수값은 0부터 시작
 - 데이터프레임.iloc[행,열]


In [32]:
df

Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17
c,18,19,20,21


In [33]:
# 원소값 접근
df.iloc[0,1] # 0행 1열 => 위치값은 0부터 시작



11

In [34]:
# 슬라이싱
df.iloc[0:2] #0 행부터 1행
df.iloc[0:1] # 0 행 추출 - df 로 추출
df.iloc[0] # 0행 추출 - 시리즈로 추출
df.iloc[[0]] # 0행 추출 - df로 추출

Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17


Unnamed: 0,A,B,C,D
a,50,11,12,13


A    50
B    11
C    12
D    13
Name: a, dtype: int32

Unnamed: 0,A,B,C,D
a,50,11,12,13


In [35]:

df.iloc[0:2,0] # 시리즈 반환
df.iloc[0:2,0:1] # df 반환 => 행/열 값 모두 슬라이싱을 사용하면 df 반환



a    50
b    14
Name: A, dtype: int32

Unnamed: 0,A
a,50
b,14


In [36]:
# 위치 인덱싱이기 때문에 -위치를 사용 가능하다 df[0:1, -2:]
df
df.iloc[0,-2] # 첫번째 행 원소의 뒤에서 두번째 원소


Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17
c,18,19,20,21


12

In [37]:
df.iloc[0:1,-2:] 
# 0행의 뒤에서 두번째 열부터 끝열까지=>df.iloc[슬라이싱,슬라이싱] => df 반환


# - iloc[위치,위치] -> 원소값 반환
# - iloc[위치:위치,위치:위치]->원소 반환: df 반환
# - iloc[위치,위치:위치]->원소반환 :시리즈 반환
# - iloc[위치:위치,위치]->원소반환 : 시리즈 반환

Unnamed: 0,C,D
a,12,13
