# loc과 iloc을 이용한 원하는 위치의 데이터 추출

데이터 생성

In [5]:
import pandas as pd

In [8]:
df = pd.DataFrame({'a': [i for i in range(1, 11)], 'b': [i for i in range(11, 21)], 'c': [i for i in range(21, 31)]})
df

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


### a, b열을 추출하기

In [15]:
# df['a', 'b']은 오류 발생

df_a_b = df[['a', 'b']]
df_a_b

Unnamed: 0,a,b
0,1,11
1,2,12
2,3,13
3,4,14
4,5,15
5,6,16
6,7,17
7,8,18
8,9,19
9,10,20


In [12]:
type(df_a_b)

pandas.core.frame.DataFrame

### 첫 번째 행 추출

In [19]:
# df[0]은 오류 발생
# loc을 사용해야 함

df_0 = df.loc[0]
df_0

a     1
b    11
c    21
Name: 0, dtype: int64

In [20]:
type(df_0)

pandas.core.series.Series

In [27]:
# 리스트 슬라이스와 달리 df.loc[a:b]이면 b행을 포함해서 가져옴

df_2_to_4 = df.loc[2:4]
df_2_to_4

Unnamed: 0,a,b,c
2,3,13,23
3,4,14,24
4,5,15,25


In [23]:
type(df_2_to_4)

pandas.core.frame.DataFrame

### 인덱스가 문자인 데이터 프레임 생성

In [80]:
index = ['a', 'b', 'd', 'c', 'e', 'f', 'g', 'g', 'h', 'i']

In [81]:
df = pd.DataFrame({'a': [i for i in range(1, 11)], 'b': [i for i in range(11, 21)], 'c': [i for i in range(21, 31)]}, index=index)
df

Unnamed: 0,a,b,c
a,1,11,21
b,2,12,22
d,3,13,23
c,4,14,24
e,5,15,25
f,6,16,26
g,7,17,27
g,8,18,28
h,9,19,29
i,10,20,30


In [86]:
df_a = df.loc['a']
df_a

a     1
b    11
c    21
Name: a, dtype: int64

In [44]:
type(df_a)

pandas.core.series.Series

In [45]:
df_a_b = df.loc[['a', 'b']]
df_a_b

Unnamed: 0,a,b,c
a,1,11,21
b,2,12,22


In [46]:
type(df_a_b)

pandas.core.frame.DataFrame

In [49]:
# 문자열 슬라이싱 시에 문자열 기준으로 대소비교 하지 않고, 데이터가 쌓여진 순서대로 비교해서 출력됨

df_from_c = df['c':]
df_from_c

Unnamed: 0,a,b,c
c,4,14,24
e,5,15,25
f,6,16,26
g,7,17,27
g,8,18,28
h,9,19,29
i,10,20,30


### 열이 a, c이고 인덱스가 g, i인 데이터 출력

In [50]:
df

Unnamed: 0,a,b,c
a,1,11,21
b,2,12,22
d,3,13,23
c,4,14,24
e,5,15,25
f,6,16,26
g,7,17,27
g,8,18,28
h,9,19,29
i,10,20,30


In [66]:
df.loc[['g', 'i'], ['a', 'c']]

Unnamed: 0,a,c
g,7,27
g,8,28
i,10,30


### 처음부터 5번째까지의 데이터와 첫번째 열과 세번째 열의 데이터 추출

In [68]:
df = pd.DataFrame({'a': [i for i in range(1, 11)], 'b': [i for i in range(11, 21)], 'c': [i for i in range(21, 31)]})
df

Unnamed: 0,a,b,c
0,1,11,21
1,2,12,22
2,3,13,23
3,4,14,24
4,5,15,25
5,6,16,26
6,7,17,27
7,8,18,28
8,9,19,29
9,10,20,30


iloc 이용

In [71]:
extracted_df = df.iloc[:5, [0, 2]]   # 리스트 슬라이싱과 유사하게 작동
extracted_df

Unnamed: 0,a,c
0,1,21
1,2,22
2,3,23
3,4,24
4,5,25


In [73]:
index = ['a', 'b', 'd', 'c', 'e', 'f', 'g', 'g', 'h', 'i']
df = pd.DataFrame({'a': [i for i in range(1, 11)], 'b': [i for i in range(11, 21)], 'c': [i for i in range(21, 31)]}, index=index)
df

Unnamed: 0,a,b,c
a,1,11,21
b,2,12,22
d,3,13,23
c,4,14,24
e,5,15,25
f,6,16,26
g,7,17,27
g,8,18,28
h,9,19,29
i,10,20,30


위와 동일하게 처음부터 5번째까지의 데이터와 첫번째 열과 세번째 열의 데이터 추출

In [79]:
df.iloc[:5, [0, 2]]

Unnamed: 0,a,c
a,1,21
b,2,22
d,3,23
c,4,24
e,5,25


# 정리
- loc: 인덱스(행) 기준으로 데이터프레임의 데이터 가져올 때 사용
- iloc: 행렬처럼 데이터프레임의 데이터 가져올 때 사용

### 행 기준 (인덱스 기준)
- loc 사용
- loc 은 인덱스가 숫자면 숫자를 통한 인덱싱이 가능하고, 인덱스가 문자이면 문자를 통한 인덱싱이 가능함  

```py
df.loc['a'] # 'a' 인덱스 데이터를 Series로 반환 (행 기준으로 반환)
```

```py
df.loc[['a', 'b']] # 'a', 'b' 인덱스 데이터를 DataFrame으로 반환 (행 기준으로 반환)
df.loc['a': 'e'] # 슬라이싱도 가능 (단, 이 경우 e 인덱스까지 포함해서 반환)
```

### 열 기준
```py
df['a'] # 'a' 열 데이터를 Series로 반환 (열 기준으로 반환)
```

```py
df[['a', 'b']] # 'a', 'b' 열 데이터를 DataFrame으로 반환 (열 기준으로 반환)
df['a':'e'] # 슬라이싱도 가능 (단, 이 경우 e 칼럼까지 포함해서 반환)
```

### 행, 열 모두 사용
```py
df[['a', 'b'], ['c', 'd']] # 'a', 'b' 인덱스 행의 'c', 'd' 칼럼 가져옴
```

### iloc
- iloc은 무조건 숫자를 통한 인덱싱, 슬라이싱 진행

```py
df.iloc[:5, [0, 2]] # df의 0~4행까지 데이터 중 0열, 2열의 데이터를 가져옴
df.iloc[[0, 1], 1:3] # df의 0행, 1행 데이터 중 1열~2열의 데이터를 가져옴
```