# 데이터 사이언스스쿨 

In [1]:
import pandas as pd
import numpy as np

## 데이터프레임 고급 인덱싱
* loc - 라벨값 기반의 2차원 인덱싱
* iloc - 순서를 나타내는 정수 기반의 2차원 인덱싱

### loc인덱싱
* `df.loc[인덱싱값]`
* `df.loc[행 인덱싱값, 열인덱싱값]`

In [2]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                 index = ['a', 'b', 'c'],
                 columns = ["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


### 인덱싱값을 하나만 받는 경우

In [3]:
df.loc['a'], type(df.loc['a'])

(A    10
 B    11
 C    12
 D    13
 Name: a, dtype: int32,
 pandas.core.series.Series)

In [4]:
df.loc["b":"c"], type(df.loc["b":"c"])

(    A   B   C   D
 b  14  15  16  17
 c  18  19  20  21,
 pandas.core.frame.DataFrame)

In [5]:
df["b": "c"] # 위의 슬라이싱과 동일

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [6]:
df.loc[['b', 'c']]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


In [None]:
# KeyError: "None of [Index(['b', 'c'], dtype='object')] are in the [columns]"
df[['b', 'c']]  # loc를 쓰기 않으면 key error발생

In [7]:
df.A > 15

a    False
b    False
c     True
Name: A, dtype: bool

In [8]:
df.loc[df.A > 15]

Unnamed: 0,A,B,C,D
c,18,19,20,21


In [9]:
def select_rows(df):
    return df.A > 15

In [10]:
select_rows(df)

a    False
b    False
c     True
Name: A, dtype: bool

In [11]:
df.loc[select_rows(df)]

Unnamed: 0,A,B,C,D
c,18,19,20,21


* 원래 (행) 인덱스값이 정수인 경우에는 슬라이싱도 라벨 슬라이싱 방식을 따르게 된다. 즉, 슬라이스의 마지막 값이 포함된다.

In [12]:
df2 = pd.DataFrame(np.arange(10, 26).reshape(4, 4), columns = ["A", "B", "C", "D"])
df2

Unnamed: 0,A,B,C,D
0,10,11,12,13
1,14,15,16,17
2,18,19,20,21
3,22,23,24,25


In [13]:
df2.loc[1:2]

Unnamed: 0,A,B,C,D
1,14,15,16,17
2,18,19,20,21


In [14]:
df2.loc[1:2, "A":"C"]

Unnamed: 0,A,B,C
1,14,15,16
2,18,19,20


In [15]:
df2.loc[1:2, ["B", "D"]]

Unnamed: 0,B,D
1,15,17
2,19,21


### 인덱싱값을 행과 열 모두 받는 경우

In [16]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [17]:
df.loc["a", "A"]

10

In [18]:
df.loc["b":, "A"]

b    14
c    18
Name: A, dtype: int32

In [19]:
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [20]:
df.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


행 인덱스가 같은 불리언 시리즈나 이러한 불리언 시리즈를 반환하는 함수도 행의 인덱싱값이 될 수 있다.

In [21]:
df.loc[df.A > 10, ["C", "D"]]

Unnamed: 0,C,D
b,16,17
c,20,21


## iloc인덱서
* 위치 기반 인덱싱 방법

In [22]:
df.iloc[0, 1]

11

In [23]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int32

In [24]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int32

In [25]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


loc 인덱서와 마찬가지로 인덱스가 하나만 들어가면 행을 선택한다.

In [26]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [27]:
df.iloc[-1]

A    18
B    19
C    20
D    21
Name: c, dtype: int32

In [28]:
df.iloc[-1]= df.iloc[-1] *2

In [29]:
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,36,38,40,42


### 연습 문제 4.3.1

모든 행과 열에 라벨을 가지는 5 x 5 이상의 크기를 가지는 데이터프레임을 만든다.

10가지 이상의 방법으로 특정한 행과 열을 선택한다

In [30]:
quiz = pd.DataFrame(np.arange(10,35).reshape(5, 5), columns = ['A', 'B', 'C', 'D', 'E'], index = ['a', 'b', 'c', 'd', 'e'] )
quiz

Unnamed: 0,A,B,C,D,E
a,10,11,12,13,14
b,15,16,17,18,19
c,20,21,22,23,24
d,25,26,27,28,29
e,30,31,32,33,34


1) 방법

In [31]:
quiz.loc[:,:]

Unnamed: 0,A,B,C,D,E
a,10,11,12,13,14
b,15,16,17,18,19
c,20,21,22,23,24
d,25,26,27,28,29
e,30,31,32,33,34


2)방법

In [32]:
quiz.loc["a",["C", "D"]]

C    12
D    13
Name: a, dtype: int32

3)방법

In [33]:
quiz.loc["a": "d", ["C","E"]]

Unnamed: 0,C,E
a,12,14
b,17,19
c,22,24
d,27,29


4)방법

In [34]:
quiz.loc["a": "d", "C": "E"]

Unnamed: 0,C,D,E
a,12,13,14
b,17,18,19
c,22,23,24
d,27,28,29


5) 방법

In [35]:
quiz.loc["a", ["C", "E"]]

C    12
E    14
Name: a, dtype: int32

6)방법

In [36]:
quiz.iloc[:2, :]

Unnamed: 0,A,B,C,D,E
a,10,11,12,13,14
b,15,16,17,18,19


7)방법

In [37]:
quiz.iloc[:, 2:5]

Unnamed: 0,C,D,E
a,12,13,14
b,17,18,19
c,22,23,24
d,27,28,29
e,32,33,34


8)방법

In [38]:
quiz.iloc[:3,:]

Unnamed: 0,A,B,C,D,E
a,10,11,12,13,14
b,15,16,17,18,19
c,20,21,22,23,24


9)방법

In [39]:
quiz.iloc[-1,:]

A    30
B    31
C    32
D    33
E    34
Name: e, dtype: int32

10)방법

In [40]:
quiz.iloc[:1, [1, 2]]

Unnamed: 0,B,C
a,11,12
