## 데이터 프레임 인덱서 : loc, iloc
- Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원
    - 특별한 인덱서(indexer) 속성을 제공
    
* loc : 라벨값 기반의 2차원 인덱싱
* iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱


In [2]:
# 모듈 import
import numpy as np
import pandas as pd

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

## 행과 열을 동시에 인덱싱 하는 구조는 기본 자료구조 인덱스와 차이가 있음
- df['열']
- df[:'행'] 슬라이싱이 반드시 필요
- df['열'][:'행']


## loc, iloc 인덱싱
- pandas 패키지는 [행번호][열번호] 인덱싱 불가
    - iloc 속성 사용하면 가능
    - iloc[행번호,열번호] - 가능
    - loc[행제목,열제목] -가능


## loc 인텍서 : 행 우선 인덱서
- df.loc[행_인덱스_값] :행 우선 인덱싱
- df.loc[god_인덱스_값, 열_인덱스_값]

## 인덱스 값
1. 인덱스 데이터(index name, column name)
2. 인덱스 슬라이스
3. 같은 행 인덱스를 갖는 불리언 시리즈(행 인덱싱인 경우)
    - 조건식을 인덱스로 사용 가능
4. 1,2,3번 값을 반환하는 함수

In [3]:
#예제 df 생성
#10-21 범위의 숫자를 생성 후 3행 4열로 배치
df=pd.DataFrame(np.arange(10,22).reshape(3,4),
               index = ['a','b','c'],
               columns = ["A","B","C","D"])
df


Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [4]:
#loc 인덱서  사용
#인덱싱 값을 하나만 받는 경우 df.loc[인덱스값]

df.loc['a'] #a행의 모든 열 반환
type(df.loc['a']) #하나만 이용할 경우 시리즈 형태란 것을 알고 있어야 함

A    10
B    11
C    12
D    13
Name: a, dtype: int32

pandas.core.series.Series

In [5]:
## 주의! loc 사용시 인덱서에서는 열 단독 인덱싱 불가능함
df.loc['A'] #loc의 기준은 행 (열입력시 오류 발생)

KeyError: 'A'

In [6]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [10]:
#인덱스 값으로 슬라이싱 사용
df.loc['b':'c']

## 동일한 결과
df['b':'c']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [14]:
#인덱스 데이터를 리스토로 사용 가능 - 여러 행 추출
#데이터프레임 형태로 반환

df.loc[['a']]
df.loc[['a','c']]
df.loc[['c','b','a']] ##리스트 안에 순서대로 반환

Unnamed: 0,A,B,C,D
a,10,11,12,13


Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21


Unnamed: 0,A,B,C,D
c,18,19,20,21
b,14,15,16,17
a,10,11,12,13


## **boolean selection으로 row 선택하기**


In [7]:
#예제 df
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [8]:
# 인덱서의 엔덱스 값으로 조건식을 줄 수 있음
df.A>15 #모든 행이 해당 조건을 만족해야함
df.loc[df.A>15]

a    False
b    False
c     True
Name: A, dtype: bool

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [9]:
#인덱스 값을 반환하는 함수의 결과값을 사용
#테스트 함수 작성

def sel_row(df1):
    return df1.A>15

In [10]:
sel_row(df)
df.loc[sel_row(df)]

a    False
b    False
c     True
Name: A, dtype: bool

Unnamed: 0,A,B,C,D
c,18,19,20,21


## loc 인덱서 슬라이싱

In [13]:
#예제 df 생성
df2 = pd.DataFrame(np.arange(10,26).reshape(4,4),
                  columns=['a','b','c','d'])
df2 #행 인덱스 지정하지 않아서 0부터 1씩 증가되는 정수 인덱스 자동 생성


Unnamed: 0,a,b,c,d
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [28]:
df2.loc[1:2] #기존에 알고 있던 것과 다르게 나옴
#라벨 인덱스를 이용한 슬랑이싱기 때문에

Unnamed: 0,a,b,c,d
1,14,15,16,17
2,18,19,20,21


In [29]:
## 주의!!! 기본 인덱스를 사용할 경우
df2[1:2] #위치값으로 처리됨 

Unnamed: 0,a,b,c,d
1,14,15,16,17


## loc 인덱서 사용해서 요소 값 접근
- 인덱스 값으로 행과 열을 모두 받는 경우
- 문법 : df.loc[행 인덱스, 열 인덱스]
- 값(라벨) 인덱스

In [14]:
#사용 예제 df
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [15]:
#df의 원소값 접근
#a행의 A열 원소를 출력
df.loc['a','A'] #행 열
df['A']['a']    #열 행

10

10

## loc 인덱서를 사용한 원소값 변경

In [16]:
# a행의 Ad열 원소값을 50
df.loc['a','A'] = 50 ## 동일 표현 df['A']['a']= 50 (연산을 2번함)
df

Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17
c,18,19,20,21


## loc를 이용한 indexing 정리

In [17]:
# a해의 모든 열
df.loc['a']
type(df.loc['a']) #시리즈
df.loc[['a']]
type(df.loc[['a']])#df


df.loc['a',:] #a행의 모든열을 반환

A    50
B    11
C    12
D    13
Name: a, dtype: int32

pandas.core.series.Series

Unnamed: 0,A,B,C,D
a,50,11,12,13


pandas.core.frame.DataFrame

A    50
B    11
C    12
D    13
Name: a, dtype: int32

In [18]:
# a해의 B,C열

df.loc['a','B':'C'] ### 행접근이 시리즈 -> 최종 반환 시리즈
df.loc[['a'],'B':'C'] # 행접근이 df -> 최종 반환 df

B    11
C    12
Name: a, dtype: int32

Unnamed: 0,B,C
a,11,12


In [19]:
#a, b 행의 B, D열을 데이터프레임으로 추출
df

Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17
c,18,19,20,21


In [20]:
df.loc['a':'b'] # a:b행의 모든 열 df 형태로 반환
df.loc[['a','b']] #df

Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17


Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17


In [21]:
df.loc[['a','b'],'B'] #시리즈 형태로 출력 B 하나를 가져오니까 시리즈 형태가 됨
df.loc[['a','b'],['B']] #a,b행의 B열을 df로 반환

a    11
b    15
Name: B, dtype: int32

Unnamed: 0,B
a,11
b,15


In [22]:
df.loc[['a','b'],['B','D']] #a,b행의 B,D열을 df로 반환
df.loc[['a','b'],'B':'D']

Unnamed: 0,B,D
a,11,13
b,15,17


Unnamed: 0,B,C,D
a,11,12,13
b,15,16,17


## iloc 인덱서(위치 인덱스)
- 라벨(name)이 아닌 위치를 나타내는 정수 인덱스만 받는다.
- 위치 정수값은 0부터 시작
- 데이터프레임.iloc[행,열]


In [23]:
# 사용 예제 df
df

Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17
c,18,19,20,21


In [24]:
#원소값 접근
df.iloc[0,1] # 0행 1열 => 위치값은 0부터 시작


11

In [25]:
#슬라이싱
#슬라이싱으로 추출하면 df로 추출 가능

df.iloc[0:2] # 0행부터 1행


Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17


In [32]:
df.iloc[0:1] #0행 추출 ->df
df.iloc[0] #0행 추출 -> 시리즈 (하나만 출력하면 시리즈로 반환)
df.iloc[[0]]
df.iloc[[0]] #0행 추출 ->df

Unnamed: 0,A,B,C,D
a,50,11,12,13


A    50
B    11
C    12
D    13
Name: a, dtype: int32

Unnamed: 0,A,B,C,D
a,50,11,12,13


Unnamed: 0,A,B,C,D
a,50,11,12,13


In [33]:
df.iloc[0:2,0] #0부터 1행에 대한 0열에 대한 출력이므로 시리즈 반환
df.iloc[0:2,0:1] #0부터 1행에 슬라이싱 추출 후 행 0열 추출 ->df

a    50
b    14
Name: A, dtype: int32

Unnamed: 0,A
a,50
b,14


In [34]:
# 위치 인덱싱이기 때문에 (-)_마이너스 위치를 사용 가능
#df[0:1,-2:]
df

Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17
c,18,19,20,21


In [35]:
df.iloc[0,-2] # 첫번째 a행에서 -2번째 있는 열을 출력하니까 12

12

In [36]:
df.iloc[0:1, -2:] # 0행의 뒤에서 두번째 열부터 끝열까지 -> df.ioc[슬라이싱,슬라이싱] -> df 반환

Unnamed: 0,C,D
a,12,13


## iloc 정리
- iloc[위치,위치] -> 원소값 반환
- iloc[위치:위치,위치:위치]->원소 반환: df 반환
- iloc[위치,위치:위치]->원소반환 :시리즈 반환
- iloc[위치:위치,위치]->원소반환 : 시리즈 반환


## 시리즈 데이타프레임 차이
- 시리즈는 동일한 데이타만 저장 가능
- 데이타 프레임 다양한 테이터를 동시에 적용 가능