# 데이터프레임 인덱서

Pandas는 numpy 행렬과 같이 쉼표를 사용한 (행 인덱스, 열 인덱스) 형식의 인덱싱을 지원하기 위해 다음과 같은 특별한 인덱서를 제공한다.

* `loc` : 라벨 기반의 복수 인덱싱
* `iloc` : 숫자 기반의 복수 인덱싱


## `loc` 인덱서

`loc` 인덱서는  (행 인덱스, 열 인덱스) 형식의 인덱싱을 할 수 있지만 행/열 인덱서들이 모두 다음 중 하나이어야 한다.

* 정수 인덱스가 아닌 **라벨 값(원래가 정수 인덱스인 경우는 예외)**
* 라벨 값의 리스트
* 라벨 값의 슬라이싱
* 불리언 리스트, 1차원 배열, 시리즈 (**데이터프레임은 안된다.**)
* 또는 데이터프레임을 입력으로 받고 위의 값을 반환하는 함수


In [1]:
import numpy as np
import pandas as pd

In [2]:
df = pd.DataFrame(np.arange(10, 22).reshape(3, 4),
                  index=["a", "b", "c"],
                  columns=["A", "B", "C", "D"])
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21


In [3]:
df.loc["a", "A"]

10

In [4]:
df.loc["b":, "A"]

b    14
c    18
Name: A, dtype: int32

In [5]:
df.loc["a", :]

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [6]:
df.loc[["a", "b"], ["B", "D"]] #행, 열 => dataframe으로

Unnamed: 0,B,D
a,11,13
b,15,17


In [7]:
df.loc[df.A > 10, :]

Unnamed: 0,A,B,C,D
b,14,15,16,17
c,18,19,20,21


`loc` 인덱서를 사용하면 하나의 행을 시리즈 자료형으로 뽑아낼 수 있다. 만약  `loc` 인덱서를 사용하지 않으면 슬라이싱을 해야 하는데 이 경우에는 데이터프레임 자료형을 반환한다.

In [8]:
df.loc["a", :] #df.loc['a']

A    10
B    11
C    12
D    13
Name: a, dtype: int32

In [10]:
df[:1]  # df[0:1] loc 인덱서를 사용하지 않는 경우 데이터 프레임으로 출력

Unnamed: 0,A,B,C,D
a,10,11,12,13


In [11]:
# df.loc[:, df[:1] <= 11]  # 데이터프레임은 loc 인덱서에 넣을 수 없으므로 에러!
df.loc[:, df.loc["a", :] <= 11] # 이렇게 해야 한다.

Unnamed: 0,A,B
a,10,11
b,14,15
c,18,19


In [12]:
def find_rows(df):
    return df.A > 12

In [13]:
find_rows(df)

a    False
b     True
c     True
Name: A, dtype: bool

In [14]:
df.loc[find_rows(df), ["C"]]

Unnamed: 0,C
b,16
c,20


만약 `loc` 인덱서를 사용하면서 인덱스를 하나만 넣을 경우에는 행(row)을 선택한다.

In [None]:
df.loc["a"]

In [15]:
df.loc["e"] = [90, 91, 92, 93]
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
e,90,91,92,93


## `iloc` 인덱서

`iloc` 인덱서는 `loc` 인덱서와 반대로 라벨이 아닌 정수 인덱스만 받는다.

In [16]:
df.iloc[0, 1]

11

In [17]:
df.iloc[:2, 2]

a    12
b    16
Name: C, dtype: int64

In [18]:
df.iloc[0, -2:]

C    12
D    13
Name: a, dtype: int64

In [19]:
df.iloc[2:3, 1:3]

Unnamed: 0,B,C
c,19,20


`loc` 인덱서와 마찬가지로 인덱스가 하나만 들어가면 행을 선택한다.

In [20]:
df.iloc[-1]

A    90
B    91
C    92
D    93
Name: e, dtype: int64

In [21]:
df.iloc[-1] = df.iloc[-1] * 2
df

Unnamed: 0,A,B,C,D
a,10,11,12,13
b,14,15,16,17
c,18,19,20,21
e,180,182,184,186


In [22]:
data = pd.read_csv('./crime_in_Seoul.csv',encoding = 'euc-kr')

In [24]:
data.describe()

Unnamed: 0,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거
count,31.0,31.0,31.0,31.0,31.0,31.0
mean,5.258065,4.935484,8.903226,8.16129,175.774194,131.967742
std,3.605253,3.203493,4.93528,5.710206,85.580259,56.590037
min,1.0,0.0,1.0,1.0,59.0,46.0
25%,3.0,2.5,6.0,4.0,103.5,90.0
50%,4.0,4.0,8.0,7.0,154.0,124.0
75%,7.5,7.5,13.0,11.5,251.0,175.5
max,14.0,12.0,22.0,26.0,334.0,247.0


In [26]:
data['살인 발생']

0      2
1      3
2      1
3      2
4      3
5      5
6      2
7      5
8      8
9     14
10     4
11     5
12     4
13     2
14     7
15     3
16    13
17     3
18     9
19     7
20     4
21     3
22     8
23     7
24     3
25    11
26    10
27     1
28     1
29     3
30    10
Name: 살인 발생, dtype: int64

In [28]:
data.loc[2,'관서명']

'남대문서'

In [29]:
data.iloc[:,0]

0      중부서
1      종로서
2     남대문서
3     서대문서
4      혜화서
5      용산서
6      성북서
7     동대문서
8      마포서
9     영등포서
10     성동서
11     동작서
12     광진서
13     서부서
14     강북서
15     금천서
16     중랑서
17     강남서
18     관악서
19     강서서
20     강동서
21     종암서
22     구로서
23     서초서
24     양천서
25     송파서
26     노원서
27     방배서
28     은평서
29     도봉서
30     수서서
Name: 관서명, dtype: object

In [30]:
data.iloc[[0,5,10],0]

0     중부서
5     용산서
10    성동서
Name: 관서명, dtype: object

In [31]:
data['살인검거율'] = data['살인 발생']/ data['살인 검거']*100

In [33]:
data.head()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,살인검거율
0,중부서,2,2,3,2,105,65,1395,477,1355,1170,100.0
1,종로서,3,3,6,5,115,98,1070,413,1278,1070,100.0
2,남대문서,1,0,6,4,65,46,1153,382,869,794,inf
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711,100.0
4,혜화서,3,2,5,4,96,63,1114,424,1015,861,150.0


In [34]:
data['강도 검거율'] = data.loc[:,'강도 발생'] / data.loc[:,'강도 검거'] * 100

In [36]:
data.head()

Unnamed: 0,관서명,살인 발생,살인 검거,강도 발생,강도 검거,강간 발생,강간 검거,절도 발생,절도 검거,폭력 발생,폭력 검거,살인검거율,강도 검거율
0,중부서,2,2,3,2,105,65,1395,477,1355,1170,100.0,150.0
1,종로서,3,3,6,5,115,98,1070,413,1278,1070,100.0,120.0
2,남대문서,1,0,6,4,65,46,1153,382,869,794,inf,150.0
3,서대문서,2,2,5,4,154,124,1812,738,2056,1711,100.0,125.0
4,혜화서,3,2,5,4,96,63,1114,424,1015,861,150.0,125.0


In [38]:
data.loc[0:5,'관서명']

0     중부서
1     종로서
2    남대문서
3    서대문서
4     혜화서
5     용산서
Name: 관서명, dtype: object

In [40]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31 entries, 0 to 30
Data columns (total 13 columns):
관서명       31 non-null object
살인 발생     31 non-null int64
살인 검거     31 non-null int64
강도 발생     31 non-null int64
강도 검거     31 non-null int64
강간 발생     31 non-null int64
강간 검거     31 non-null int64
절도 발생     31 non-null object
절도 검거     31 non-null object
폭력 발생     31 non-null object
폭력 검거     31 non-null object
살인검거율     31 non-null float64
강도 검거율    31 non-null float64
dtypes: float64(2), int64(6), object(5)
memory usage: 3.2+ KB


#### 연습 문제 1

1. 모든 행과 열에 라벨을 가지는 5 x 5 이상의 크기를 가지는 데이터프레임을 만든다. 
2. 10가지 이상의 방법으로 특정한 행과 열을 선택한다.
