# 데이터프레임 인덱서

Pandas는 numpy 행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서를 제공한다.

* `loc` : 라벨 기반의 복수 인덱싱
* `iloc` : 숫자 기반의 복수 인덱싱


## `loc` 인덱서

`loc` 인덱서는  (행 인덱스, 열 인덱스) 형식의 인덱싱을 할 수 있지만 행/열 인덱서들이 모두 다음 중 하나이어야 한다.

* 정수 인덱스가 아닌 **라벨 값(원래가 정수 인덱스인 경우는 예외)**
* 라벨 값의 리스트
* 라벨 값의 슬라이싱
* 불리언 리스트, 1차원 배열, 시리즈 (**데이터프레임은 안된다.**)
* 또는 데이터프레임을 입력으로 받고 위의 값을 반환하는 함수


In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [3]:
df.loc["a", "A"]

10

In [4]:
df.loc["b":, "A"]

b    14
c    18
Name: A, dtype: int32

In [5]:
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [6]:
df.loc[["a", "b"], ["B", "D"]]

Unnamed: 0,B,D
a,11,13
b,15,17


In [7]:
df.loc[df.A > 10, :]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


`loc` 인덱서를 사용하면 하나의 행을 시리즈 자료형으로 뽑아낼 수 있다. 만약  `loc` 인덱서를 사용하지 않으면 슬라이싱을 해야 하는데 이 경우에는 데이터프레임 자료형을 반환한다.

In [19]:
df.loc["a", :] #df.loc['a']

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [20]:
df[:1]  # loc 인덱서를 사용하지 않는 경우 데이터 프레임으로 출력

Unnamed: 0,A,B,C,D
a,10,11,12,13


In [12]:
# df.loc[:, df[:1] <= 11]  # 데이터프레임은 loc 인덱서에 넣을 수 없으므로 에러!
df.loc[:, df.loc["a", :] <= 11] # 이렇게 해야 한다.

Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


In [24]:
def find_rows(df):
    return df.A > 12

In [11]:
find_rows(df)

a    False
b     True
c     True
Name: A, dtype: bool

In [26]:
df.loc[find_rows(df), ["C"]]

Unnamed: 0,C
b,16
c,20


만약 `loc` 인덱서를 사용하면서 인덱스를 하나만 넣을 경우에는 행(row)을 선택한다.

In [30]:
df.loc["a"]

A    10
B    11
C    12
D    13
Name: a, dtype: int64

In [29]:
df.loc["e"] = [90, 91, 92, 93]
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
e,90,91,92,93


In [10]:
df[:1]   #데이터프레임 자체로 뽑아진다

Unnamed: 0,A,B,C,D
a,10,11,12,13


In [None]:
df.loc['e']=[10,20,30,40]   #추가

## `iloc` 인덱서

`iloc` 인덱서는 `loc` 인덱서와 반대로 라벨이 아닌 정수 인덱스만 받는다.

In [32]:
df.iloc[0, 1]

11

In [16]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int64

In [17]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int64

In [36]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


`loc` 인덱서와 마찬가지로 인덱스가 하나만 들어가면 행을 선택한다.

In [37]:
df.iloc[-1]

A    90
B    91
C    92
D    93
Name: e, dtype: int64

In [20]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
e,180,182,184,186


#### 연습 문제 1

1. 모든 행과 열에 라벨을 가지는 5 x 5 이상의 크기를 가지는 데이터프레임을 만든다. 
2. 10가지 이상의 방법으로 특정한 행과 열을 선택한다.


In [18]:
data=pd.read_csv("./crime_in_Seoul.csv",engine='python')

In [16]:
df = pd.DataFrame(np.arange(10, 35).reshape(5, 5),
                  index=["a", "b", "c","d","e"],
                  columns=["A", "B", "C", "D","E"])
df

Unnamed: 0,A,B,C,D,E
a,10,11,12,13,14
b,15,16,17,18,19
c,20,21,22,23,24
d,25,26,27,28,29
e,30,31,32,33,34


In [19]:
data.head()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거
0,중부서,2,2,3,2,105,65,1395,477,1355,1170
1,종로서,3,3,6,5,115,98,1070,413,1278,1070
2,남대문서,1,0,6,4,65,46,1153,382,869,794
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711
4,혜화서,3,2,5,4,96,63,1114,424,1015,861


In [20]:
data.iloc[-1]

관서명        수서서
살인 발생       10
살인 검거        7
강도 발생        6
강도 검거        6
강간 발생      149
강간 검거      124
절도 발생    1,439
절도 검거      666
폭력 발생    1,819
폭력 검거    1,559
Name: 30, dtype: object

In [21]:
data.iloc[:2, 2]

0    2
1    3
Name: 살인 검거, dtype: int64

In [22]:
data['관서명']

0      중부서
1      종로서
2     남대문서
3     서대문서
4      혜화서
5      용산서
6      성북서
7     동대문서
8      마포서
9     영등포서
10     성동서
11     동작서
12     광진서
13     서부서
14     강북서
15     금천서
16     중랑서
17     강남서
18     관악서
19     강서서
20     강동서
21     종암서
22     구로서
23     서초서
24     양천서
25     송파서
26     노원서
27     방배서
28     은평서
29     도봉서
30     수서서
Name: 관서명, dtype: object

In [25]:
data.loc[:,'관서명']

0      중부서
1      종로서
2     남대문서
3     서대문서
4      혜화서
5      용산서
6      성북서
7     동대문서
8      마포서
9     영등포서
10     성동서
11     동작서
12     광진서
13     서부서
14     강북서
15     금천서
16     중랑서
17     강남서
18     관악서
19     강서서
20     강동서
21     종암서
22     구로서
23     서초서
24     양천서
25     송파서
26     노원서
27     방배서
28     은평서
29     도봉서
30     수서서
Name: 관서명, dtype: object

In [27]:
data.iloc[:,0]

0      중부서
1      종로서
2     남대문서
3     서대문서
4      혜화서
5      용산서
6      성북서
7     동대문서
8      마포서
9     영등포서
10     성동서
11     동작서
12     광진서
13     서부서
14     강북서
15     금천서
16     중랑서
17     강남서
18     관악서
19     강서서
20     강동서
21     종암서
22     구로서
23     서초서
24     양천서
25     송파서
26     노원서
27     방배서
28     은평서
29     도봉서
30     수서서
Name: 관서명, dtype: object

In [28]:
data.iloc[0:3,0]

0     중부서
1     종로서
2    남대문서
Name: 관서명, dtype: object

In [33]:
data['살인검거율']= (data['살인 검거']/data['살인 발생'])*100
data['살인검거율']

0     100.000000
1     100.000000
2       0.000000
3     100.000000
4      66.666667
5     100.000000
6     100.000000
7     100.000000
8     100.000000
9      85.714286
10    100.000000
11    100.000000
12    100.000000
13    100.000000
14    114.285714
15    133.333333
16     92.307692
17    100.000000
18     88.888889
19    114.285714
20     75.000000
21    100.000000
22     75.000000
23     57.142857
24    166.666667
25     90.909091
26    100.000000
27    200.000000
28    100.000000
29    100.000000
30     70.000000
Name: 살인검거율, dtype: float64

In [34]:
data['강도검거율']= (data['강도 검거']/data['강도 발생'])*100
data['강도검거율']

0      66.666667
1      83.333333
2      66.666667
3      80.000000
4      80.000000
5     100.000000
6      50.000000
7     100.000000
8      71.428571
9      90.909091
10     88.888889
11     55.555556
12    185.714286
13     50.000000
14     92.857143
15    100.000000
16     81.818182
17     80.000000
18    116.666667
19    100.000000
20    133.333333
21    100.000000
22     73.333333
23     62.500000
24     50.000000
25     76.923077
26    100.000000
27    100.000000
28     71.428571
29    111.111111
30    100.000000
Name: 강도검거율, dtype: float64