##### 설정변경코드
* 변수 명이 두번 이상 출력되어도 모두 콘솔에서 보여줄 것
* 
from IPython.core.interactiveshell import InteractiveShell <br> 
InteractiveShell.ast_node_interactivity="all"
* InteractiveShell.ast_node_interactivity : 'all' | 'last' | 'last_expr' | 'none' (기본값은 'last_expr')

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

#### 데이터 프레임 인덱서 : loc, iloc
- Pandas는 numpy행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 2차원 인덱싱을 지원
    - 특별한 인덱서(indexer) 속성을 제공
    
* loc : 라벨값 기반의 2차원 인덱싱
* iloc : 순서를 나타내는 정수 기반의 2차원 인덱싱

In [2]:
import pandas as pd
import numpy as np

#### 행과 열을 동시에 인덱싱 하는 구조는 기본 자료구조 인덱스와 차이가 있음
- df['열']
- df[:'행'] 슬라이싱이 반드시 필요
- df['열'][:'행']

### 데이터 프레임에서 인덱서 사용
#### loc, iloc 속성을 사용하는 인덱싱
#### pandas 패키지는 [행번호,열번호] 인덱싱 불가
    - iloc 속성 사용하면 가능
        - iloc[행번호,열번호] - 가능
        - loc[행제목,열제목] -가능

##### loc 인덱서 : 행 우선 인덱서

- df.loc[행인덱싱 값] #행우선 인덱서
- df.loc[행인덱싱 값,열인덱싱 값]

    #### 인덱싱 값
    1. 인덱스 데이터(index name, column name)
    2. 인덱스 데이터 슬라이스
    3. 같은 행 인덱스를 갖는 불리언 시리즈(행 인덱싱인 경우)
        - 조건으로 추출 가능
    4. 위 값을 반환하는 함수    

In [3]:
# 예제 DF  생성
# 10-21 범위의 숫자를 value로 갖는 3행 4열의 df 
df = pd.DataFrame(np.arange(10,22).reshape(3,4),
                  index=['a','b','c'],
                  columns = ["A","B","C","D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [4]:
# loc 인덱서 사용
# df.loc['키값']
df.loc['a']  # 시리즈로 반환
# 인덱서의 키값을 하나만 받는 경우 행기준 인덱싱이므로 행 인덱스에서 a를 찾는다

A    10
B    11
C    12
D    13
Name: a, dtype: int32

##### loc 인덱서에서는 열 단독 인덱싱은 불가능 함

In [5]:
# df.loc['A']  # A열을 추출하고자 해도 loc는 행 우선 이므로 "A" 행을 찾는다
# A행은 없으므로 에러 발생

In [6]:
# 슬라이싱을 이용한 인덱싱(행 우선) - 여러 행 추출 df 반환
df.loc['b':'c']
df['b':'c']

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [7]:
# 비연속적인 행을 추출 - loc 사용, 집합자료형으로 전달
df.loc[['a','c']]

Unnamed: 0,A,B,C,D
a,10,11,12,13
c,18,19,20,21


In [8]:
# df.loc['a','c']  # a행의 c열의 원소값 추출 - 'c'열이 없음 에러 발생

In [9]:
df.loc['b']  # 시리즈로 추출
df.loc[['b']]  # df로 추출

A    14
B    15
C    16
D    17
Name: b, dtype: int32

Unnamed: 0,A,B,C,D
b,14,15,16,17


In [10]:
# b행과 c행을 반환받기 위해 아래코드 작성
# 아래 인덱싱의 출력결과 및 이유를 쓰시오 - 에러 발생
# df[]는 column 반환 인덱싱(열 우선 인덱싱)으로 열을 찾게 되지만 column에 b, c가 없어 keyerror 발생
# df[['b','c']]

df.loc[['b','c']]  # 밖 [] : 인덱스, 안 [] : 리스트 / 리스트 안에 : 는 문법적으로 맞지 않아 에러 발생
df['b':'c']
df[['B','C']]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


Unnamed: 0,B,C
a,11,12
b,15,16
c,19,20


#### **boolean selection으로 row 선택하기**

In [11]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [12]:
df.A  # 시리즈 반환
df.A > 15  # boolean series 반환
df[df.A > 15]
df.loc[df.A > 15]

a    10
b    14
c    18
Name: A, dtype: int32

a    False
b    False
c     True
Name: A, dtype: bool

Unnamed: 0,A,B,C,D
c,18,19,20,21


Unnamed: 0,A,B,C,D
c,18,19,20,21


##### 불리언시리즈를 반환하는 함수를 인덱스값으로 사용

In [13]:
# 함수 생성 : df 를 인수로 받아서 해당 df로 연산 후 결과값으로 불리언시리즈를 반환
def sel_row(df):
    return df.A > 15

In [14]:
df
sel_row(df)
df.loc[sel_row(df)]
df[sel_row(df)]

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


a    False
b    False
c     True
Name: A, dtype: bool

Unnamed: 0,A,B,C,D
c,18,19,20,21


Unnamed: 0,A,B,C,D
c,18,19,20,21


##### loc 인덱서 슬라이싱

In [15]:
# 예제 df 생성
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4),
                  columns=['a','b','c','d'])
df2  # 행 idx는 지정하지 않아서 0부터 1씩 증가되는 정수 idx 자동 생성

Unnamed: 0,a,b,c,d
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [16]:
# 주의! loc 인덱서는 행 idx 값이 수치 idx여도 [초기 idx 값 : 마지막 idx 값]
df2.loc[1:3]  # idx 값으로 슬라이싱, 위치값이 아님
df2[1:3]  # 일반 슬라이싱의 위치개념을 차출 

Unnamed: 0,a,b,c,d
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


Unnamed: 0,a,b,c,d
1,14,15,16,17
2,18,19,20,21


##### loc 인덱서 사용 요소 값 접근
- 인덱싱으로 행과 열을 모두 받는 경우
- 문법 : df.loc[행인덱스,열인덱스] - 라벨(문자열)인덱스 사용

In [17]:
df2
df2.loc[0,'a']  # 0번 행의 a열

Unnamed: 0,a,b,c,d
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


10

In [18]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [19]:
df.loc['a','A']

10

In [20]:
# df의 요소값을 변경
# df.loc['행','열'] = 변경할 값
df.loc['a','A'] = 50
df

Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17
c,18,19,20,21


In [21]:
df.loc[['a','b']]['A']  # 시리즈
df.loc[['a','b'],'A']  # 시리즈
df.loc[['a','b'],['A']]  # df 반환

a    50
b    14
Name: A, dtype: int32

a    50
b    14
Name: A, dtype: int32

Unnamed: 0,A
a,50
b,14


#### loc를 이용한 indexing 정리

In [22]:
# df의 a행의 모든 열 추출
df.loc['a']  # a행의 모든 열 추출, 시리즈
df.loc[['a']]  # a행의 모든 열 추출, df
df.loc['a',:]  # a행의 모든 열 추출, 시리즈
df.loc[['a'],:]  # a행의 모든 열 추출, df

A    50
B    11
C    12
D    13
Name: a, dtype: int32

Unnamed: 0,A,B,C,D
a,50,11,12,13


A    50
B    11
C    12
D    13
Name: a, dtype: int32

Unnamed: 0,A,B,C,D
a,50,11,12,13


In [23]:
# a행의 B,C열을 추출하시오
df.loc['a','B':'C']  # 시리즈 반환
df.loc[['a'], 'B':'C']  # df 반환
df.loc[['a'], ['B','C']]  # df 반환
df.loc['a', ['B','C']]  # 시리즈 반환

B    11
C    12
Name: a, dtype: int32

Unnamed: 0,B,C
a,11,12


Unnamed: 0,B,C
a,11,12


B    11
C    12
Name: a, dtype: int32

In [24]:
# b행부터 모든 행의 A열을 추출
df.loc['b':, 'A']  # 시리즈 반환
df.loc['b':]['A']   # 시리즈 반환
df.loc['b':][['A']]  # df 반환 (A열 데이터프레임으로 반환)
df.loc['b':, ['A']]  # df 반환
df.loc['b':, 'A':'A']  # df 반환

b    14
c    18
Name: A, dtype: int32

b    14
c    18
Name: A, dtype: int32

Unnamed: 0,A
b,14
c,18


Unnamed: 0,A
b,14
c,18


Unnamed: 0,A
b,14
c,18


### iloc 인덱서(위치 인덱스)
- 라벨(name)이 아닌 위치를 나타내는 정수 인덱스만 받는다.
- 위치 정수값은 0부터 시작
- 데이터프레임.iloc[행,열]

In [25]:
df
df.iloc[0, 1]

Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17
c,18,19,20,21


11

In [26]:
df.iloc[0:2, 1:2]  # 0행과 1행의 1열 df로 반환

Unnamed: 0,B
a,11
b,15


In [27]:
df.iloc[0:2]  # df 반환
df.iloc[0:2, 1]  # 시리즈 반환

Unnamed: 0,A,B,C,D
a,50,11,12,13
b,14,15,16,17


a    11
b    15
Name: B, dtype: int32

In [28]:
df.iloc[2]  # 시리즈
df.iloc[2, 1:2]  # 시리즈
df.iloc[2:3, 1:2]  # df

A    18
B    19
C    20
D    21
Name: c, dtype: int32

B    19
Name: c, dtype: int32

Unnamed: 0,B
c,19


In [29]:
df.iloc[0:1, -2:]  # 끝에서 2번째열부터 마지막열까지 반환
df.iloc[0, -2:]

Unnamed: 0,C,D
a,12,13


C    12
D    13
Name: a, dtype: int32

- 원소들을 분류하여 갯수를 세는 함수 :  value_counts()

In [30]:
df = pd.DataFrame({'num_legs': [2, 4, 4, 6],
                   'num_wings': [2, 0, 0, 0]},
                  index=['falcon', 'dog', 'cat', 'ant'])
df

Unnamed: 0,num_legs,num_wings
falcon,2,2
dog,4,0
cat,4,0
ant,6,0


In [31]:
df.num_legs.value_counts()  # 다리 4개 2마리, 2개 1마리, 6개 1마리

num_legs
4    2
2    1
6    1
Name: count, dtype: int64

In [32]:
# df에 value_counts() 적용 : 동일한 값을 갖는 행의 수를 반환
df.value_counts()  # 다리4/날개0 2마리, 다리2/날개2 1마리, 다리6/날개0 1마리
type(df.value_counts())
df.value_counts().index

num_legs  num_wings
4         0            2
2         2            1
6         0            1
Name: count, dtype: int64

pandas.core.series.Series

MultiIndex([(4, 0),
            (2, 2),
            (6, 0)],
           names=['num_legs', 'num_wings'])