# Chapter 16 : 데이터를 추출하는 다양한 방법
## 1. [] 이용하기
### 조건을 충족하는 행 추출하기

In [1]:
import pandas as pd
df_raw = pd.read_csv('exam.csv')
df = df_raw.head(10)
df

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [2]:
# nclass 추출
df['nclass']

0    1
1    1
2    1
3    1
4    2
5    2
6    2
7    2
8    3
9    3
Name: nclass, dtype: int64

In [3]:
# nclass가 1인지 확인
df['nclass'] == 1

0     True
1     True
2     True
3     True
4    False
5    False
6    False
7    False
8    False
9    False
Name: nclass, dtype: bool

In [4]:
# nclass가 1이면 추출
df[df['nclass'] == 1]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [5]:
# 수학 점수가 80점 이상이면 추출
df[df['math'] >= 80]

Unnamed: 0,id,nclass,math,english,science
6,7,2,80,90,45
7,8,2,90,78,25


In [6]:
# nclass가 1이면서 수학 점수가 50점 이상
df[(df['nclass'] == 1) & (df['math'] >= 50)]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60


In [7]:
# 수학 점수가 50점 미만이거나 영어 점수가 50점 미만
df[(df['math'] < 50) | (df['english'] < 50)]

Unnamed: 0,id,nclass,math,english,science
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
8,9,3,20,98,15


### 열 추출하기

In [8]:
df['id']

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: id, dtype: int64

In [9]:
df['nclass']

0    1
1    1
2    1
3    1
4    2
5    2
6    2
7    2
8    3
9    3
Name: nclass, dtype: int64

In [10]:
# 여러 변수 동시에 추출
df[['id', 'nclass']]

Unnamed: 0,id,nclass
0,1,1
1,2,1
2,3,1
3,4,1
4,5,2
5,6,2
6,7,2
7,8,2
8,9,3
9,10,3


In [11]:
# 시리즈로 추출
df['id']

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: id, dtype: int64

In [12]:
# 데이터 프레임으로 추출
df[['id']]

Unnamed: 0,id
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9
9,10


### 점(.)을 이용해 변수를 간단하게 추출하기

In [13]:
# []를 이용해 변수 추출
df['math']

0    50
1    60
2    45
3    30
4    25
5    50
6    80
7    90
8    20
9    50
Name: math, dtype: int64

In [14]:
# .을 이용해 변수 추출
df.math

0    50
1    60
2    45
3    30
4    25
5    50
6    80
7    90
8    20
9    50
Name: math, dtype: int64

In [15]:
df['math'].mean()

50.0

In [16]:
df.math.mean()

50.0

#### 점(.)을 사용할 때 제한
- 여러 변수를 함께 추출할 수 없음
- 변수명에 띄어쓰기나 특수 문자가 있으면 사용할 수 없음
- 변수명이 mean, max처럼 데이터 프레임의 메서드와 같으면 사용할 수 없음
- 변수를 새로 만들 때 df.var = 1처럼 작성할 수 없음
- 시리즈 자료 구조로만 추출됨, 데이터 프레임 자료 구조로 추출할 수 없음
- 변수를 추출하는 코드인지 메서드를 사용하는 코드인지 한눈에 알아보기 어려움

### 조건을 충족하는 행에서 열 추출하기

In [17]:
# nclass가 1인 행의 math 열
df[df['nclass'] == 1]['math']

0    50
1    60
2    45
3    30
Name: math, dtype: int64

In [18]:
# nclass가 1인 행의 math, english 열
df[df['nclass'] == 1][['math', 'english']]

Unnamed: 0,math,english
0,50,98
1,60,97
2,45,86
3,30,98


### []를 pandas 함수와 함께 사용하기

In [20]:
# pandas 함수만 사용
df.groupby('nclass')\
  .agg(math = ('math', 'mean'),
       english = ('english', 'mean'))

Unnamed: 0_level_0,math,english
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,46.25,94.75
2,61.25,84.25
3,35.0,98.0


In [21]:
# pandas 함수와 [] 함께 사용
df.groupby('nclass')[['math', 'english']].mean()

Unnamed: 0_level_0,math,english
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,46.25,94.75
2,61.25,84.25
3,35.0,98.0


## 2. df.loc[] 이용하기
### 인덱스 활용하기
#### 인덱스(index) : 값의 위치를 나타낸 값

In [23]:
df = pd.DataFrame({'var1' : [1, 2, 3],
                   'var2' : [4, 5, 6]})
df

Unnamed: 0,var1,var2
0,1,4
1,2,5
2,3,6


In [24]:
# 인덱스 문자열 지정하기
df = pd.DataFrame({'var1' : [1, 2, 3],
                   'var2' : [4, 5, 6]},
                  index = ['kim', 'lee', 'park'])
df

Unnamed: 0,var1,var2
kim,1,4
lee,2,5
park,3,6


### 인덱스 문자열을 지정해 행 추출하기

In [25]:
# kim행 추출
df.loc['kim']

var1    1
var2    4
Name: kim, dtype: int64

In [26]:
# kim, park행 추출
df.loc[['kim', 'lee']]

Unnamed: 0,var1,var2
kim,1,4
lee,2,5


### 인덱스 문자열을 지정해 열 추출하기
#### df.loc[행, 열]

In [27]:
# lee행의 var1열 추출
df.loc['lee', 'var1']

2

In [28]:
# kim, lee행의 var2열 추출
df.loc[['kim', 'lee'], 'var2']

kim    4
lee    5
Name: var2, dtype: int64

In [29]:
df.loc[, 'var1']

SyntaxError: invalid syntax (1293487197.py, line 1)

In [30]:
df.loc[:, 'var1']

kim     1
lee     2
park    3
Name: var1, dtype: int64

### 인덱스 번호를 지정해 행 추출하기

In [31]:
# 인덱스 번호가 있는 데이터 프레임
df = df_raw.copy()
df

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [32]:
# 0행 추출
df.loc[0]

id          1
nclass      1
math       50
english    98
science    50
Name: 0, dtype: int64

In [33]:
# 2행 추출
df.loc[2]

id          3
nclass      1
math       45
english    86
science    78
Name: 2, dtype: int64

In [34]:
# 시리즈로 추출
df.loc[0]

id          1
nclass      1
math       50
english    98
science    50
Name: 0, dtype: int64

In [35]:
# 데이터 프레임으로 추출
df.loc[[0]]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50


In [36]:
# 1, 3, 5행 추출
df.loc[[0, 3, 5]]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
3,4,1,30,98,58
5,6,2,50,89,98


In [37]:
# 0~3행 추출
df.loc[0:3]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [38]:
# 7~9행 추출
df.loc[7:9]

Unnamed: 0,id,nclass,math,english,science
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [39]:
# 0~2행 추출
df.loc[0:2]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78


In [40]:
# 첫 번째 행 ~ 2행 추출
df.loc[:2]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78


In [41]:
# 5~9행 추출
df.loc[5:9]

Unnamed: 0,id,nclass,math,english,science
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [42]:
# 5행 ~ 마지막 행 추출
df.loc[5:]

Unnamed: 0,id,nclass,math,english,science
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
14,15,4,75,56,78


In [43]:
# 첫 번째 행 ~ 마지막 행 추출
df.loc[:]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [44]:
# 인덱스 문자열이 있는 데이터 프레임
df_label = pd.DataFrame({'var1' : [1, 2, 3],
                         'var2' : [4, 5, 6]},
                        index = ['kim', 'lee', 'park'])
df_label

Unnamed: 0,var1,var2
kim,1,4
lee,2,5
park,3,6


In [45]:
# 인덱스 번호로 행 추출하기 (불가)
df_label.loc[0]

KeyError: 0

In [46]:
# 인덱스 번호로 행 추출하기
df.loc[2, :]

id          3
nclass      1
math       45
english    86
science    78
Name: 2, dtype: int64

In [47]:
# 인덱스 번호로 열 출력하기 (불가)
df.loc[:, 2]

KeyError: 2

### 조건을 충족하는 행 추출하기

In [48]:
# nclass가 1이면 추출
df.loc[df['nclass'] == 1]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [49]:
# 수학 점수가 60점 이상이면 추출
df.loc[df['math'] >= 60]

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


In [50]:
# nclass가 1인 행의 math, english 열 추출
df.loc[df['nclass'] == 1, ['math', 'english']]

Unnamed: 0,math,english
0,50,98
1,60,97
2,45,86
3,30,98


In [51]:
# 0~3행의 math 열 추출
df.loc[0:3, 'math']

0    50
1    60
2    45
3    30
Name: math, dtype: int64

In [52]:
# 수학 점수가 50점을 초과하는 행 추출하기
df.query('math > 50')    # df.query()
df[df['math'] > 50]      # df[]
df.loc[df['math'] > 50]  # df.loc[]

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
15,16,4,58,98,65
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


## 3. df.iloc[] 이용하기
### 인덱스 번호를 지정해 행 추출하기

In [53]:
# 0행 추출
df.iloc[0]

id          1
nclass      1
math       50
english    98
science    50
Name: 0, dtype: int64

In [54]:
# 2행 추출
df.iloc[2]

id          3
nclass      1
math       45
english    86
science    78
Name: 2, dtype: int64

In [55]:
# 시리즈로 추출
df.iloc[0]

id          1
nclass      1
math       50
english    98
science    50
Name: 0, dtype: int64

In [56]:
# 데이터 프레임으로 추출
df.iloc[[0]]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50


In [57]:
# 1, 3, 5행 추출
df.iloc[[1, 3, 5]]

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
3,4,1,30,98,58
5,6,2,50,89,98


In [58]:
# 1~5행 추출
df.loc[1:5]   # df.loc[~이상 : ~이하]

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98


In [60]:
# 1~5행 추출
df.iloc[1:6]   # df.iloc[~이상 : ~미만]

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98


In [61]:
# 인덱스 문자열이 있는 데이터 프레임
df_label

Unnamed: 0,var1,var2
kim,1,4
lee,2,5
park,3,6


In [64]:
df_label.loc[0]

KeyError: 0

In [65]:
df_label.iloc[0]

var1    1
var2    4
Name: kim, dtype: int64

### 인덱스 번호를 지정해 열 추출하기

In [66]:
# 모든 행의 1열 추출
df.iloc[:, 1]

0     1
1     1
2     1
3     1
4     2
5     2
6     2
7     2
8     3
9     3
10    3
11    3
12    4
13    4
14    4
15    4
16    5
17    5
18    5
19    5
Name: nclass, dtype: int64

In [67]:
# 모든 행의 1, 3열 추출
df.iloc[:, [1, 3]]

Unnamed: 0,nclass,english
0,1,98
1,1,97
2,1,86
3,1,98
4,2,80
5,2,89
6,2,90
7,2,78
8,3,98
9,3,98


In [68]:
# 2행의 3열 추출
df.iloc[2, 3]

86

In [69]:
# 0, 1행의 2, 3열 추출
df.iloc[[0, 1], [2, 3]]

Unnamed: 0,math,english
0,50,98
1,60,97


In [70]:
# nclass가 1이면 추출
df.iloc[df['nclass'] == 1]

NotImplementedError: iLocation based boolean indexing on an integer type is not available

### df.loc[]와 df.iloc[]의 차이점
#### 행 추출 인덱스
- df.loc[] : 문자열, 번호
- df.iloc[] : 번호
#### 열 추출 인덱스
- df.loc[] : 문자열
- df.iloc[] : 번호
#### 조건 지정해서 행 추출
- df.loc[] : O
- df.iloc[] : X
#### 연속된 행 추출
- df.loc[] : [이상:이하]
- df.iloc[] : [이상:미만]