In [1]:
%%html
<!--마크다운 표 정렬 설정-->
<style> table {float:left} </style>

---

# **여섯째마당. 한발 더 들어가기**

---
---


# 16 데이터를 추출하는 다양한 방법

## 16-1 `[]` 이용하기

### 조건을 충족하는 행 추출하기

In [2]:
import pandas as pd
df_raw = pd.read_csv('exam.csv')
df = df_raw.head(10)
df

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [3]:
# nclass 추출
df['nclass'] 

0    1
1    1
2    1
3    1
4    2
5    2
6    2
7    2
8    3
9    3
Name: nclass, dtype: int64

In [4]:
# nclass가 1인지 확인
df['nclass'] == 1  

0     True
1     True
2     True
3     True
4    False
5    False
6    False
7    False
8    False
9    False
Name: nclass, dtype: bool

In [5]:
# nclass가 1이면 추출
df[df['nclass'] == 1]  

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [6]:
# 수학 점수가 80점 이상이면 추출
df[df['math'] >= 80]   

Unnamed: 0,id,nclass,math,english,science
6,7,2,80,90,45
7,8,2,90,78,25


In [7]:
# nclass가 1이면서 수학 점수가 50점 이상
df[(df['nclass'] == 1) & (df['math'] >= 50)]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60


In [8]:
# 수학 점수가 50점 미만이거나 영어 점수가 50점 미만
df[(df['math'] < 50) | (df['english'] < 50)]

Unnamed: 0,id,nclass,math,english,science
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
8,9,3,20,98,15


### 열 추출하기

In [9]:
df['id']

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: id, dtype: int64

In [10]:
df['nclass']

0    1
1    1
2    1
3    1
4    2
5    2
6    2
7    2
8    3
9    3
Name: nclass, dtype: int64

In [11]:
df[['id', 'nclass']]

Unnamed: 0,id,nclass
0,1,1
1,2,1
2,3,1
3,4,1
4,5,2
5,6,2
6,7,2
7,8,2
8,9,3
9,10,3


#### 열이 1개일 때 데이터 프레임 자료 구조 유지하기

In [12]:
# 시리즈로 추출
df['id']

0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: id, dtype: int64

In [13]:
# 데이터 프레임으로 추출
df[['id']]

Unnamed: 0,id
0,1
1,2
2,3
3,4
4,5
5,6
6,7
7,8
8,9
9,10


------------------------------------------------------------------------

#### (알아 두면 좋아요) `.`을 이용해 변수를 간단하게 추출하기

In [14]:
# []를 이용해 변수 추출
df['math']  

0    50
1    60
2    45
3    30
4    25
5    50
6    80
7    90
8    20
9    50
Name: math, dtype: int64

In [15]:
# .을 이용해 변수 추출
df.math

0    50
1    60
2    45
3    30
4    25
5    50
6    80
7    90
8    20
9    50
Name: math, dtype: int64

In [16]:
df['math'].mean()

50.0

In [17]:
df.math.mean()

50.0

------------------------------------------------------------------------

### 조건을 충족하는 행에서 열 추출하기

In [18]:
# nclass가 1인 행의 math 열
df[df['nclass'] == 1]['math']

0    50
1    60
2    45
3    30
Name: math, dtype: int64

In [19]:
# nclass가 1인 행의 math, english 열
df[df['nclass'] == 1][['math', 'english']]

Unnamed: 0,math,english
0,50,98
1,60,97
2,45,86
3,30,98


------------------------------------------------------------------------

#### (알아 두면 좋아요) `[]`를 `pandas` 함수와 함께 사용하기

In [20]:
# pandas 함수만 사용
df.groupby('nclass') \
  .agg(math    = ('math', 'mean'), 
       english = ('english', 'mean'))

Unnamed: 0_level_0,math,english
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,46.25,94.75
2,61.25,84.25
3,35.0,98.0


In [21]:
# pandas 함수와 [] 함께 사용
df.groupby('nclass')[['math', 'english']].mean()

Unnamed: 0_level_0,math,english
nclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,46.25,94.75
2,61.25,84.25
3,35.0,98.0


------------------------------------------------------------------------

## 16-2 `df.loc[]` 이용하기

### 인덱스 활용하기

In [22]:
df = pd.DataFrame({'var1' : [1, 2, 3], 
                   'var2' : [4, 5, 6]})
df

Unnamed: 0,var1,var2
0,1,4
1,2,5
2,3,6


In [23]:
# 인덱스 문자열 지정하기
df = pd.DataFrame({'var1' : [1, 2, 3], 
                   'var2' : [4, 5, 6]},
                   index = ['kim', 'lee', 'park'])
df

Unnamed: 0,var1,var2
kim,1,4
lee,2,5
park,3,6


### 인덱스 문자열을 지정해 행 추출하기

In [24]:
# kim 행 추출
df.loc['kim']

var1    1
var2    4
Name: kim, dtype: int64

#### 여러 행 추출하기

In [25]:
# kim, park 행 추출
df.loc[['kim', 'park']]  

Unnamed: 0,var1,var2
kim,1,4
park,3,6


### 인덱스 문자열을 지정해 열 추출하기

In [26]:
# lee 행의 var1 열 추출
df.loc['lee', 'var1'] 

2

In [27]:
# kim, lee 행의 var2 열 추출
df.loc[['kim', 'lee'], 'var2'] 

kim    4
lee    5
Name: var2, dtype: int64

In [28]:
df.loc[, 'var1']

SyntaxError: invalid syntax (1293487197.py, line 1)

In [29]:
df.loc[:, 'var1']

kim     1
lee     2
park    3
Name: var1, dtype: int64

### 인덱스 번호를 지정해 행 추출하기

In [30]:
# 인덱스 번호가 있는 데이터 프레임
df = df_raw.copy()
df

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [31]:
# 0행 추출
df.loc[0]

id          1
nclass      1
math       50
english    98
science    50
Name: 0, dtype: int64

In [32]:
# 2행 추출
df.loc[2]  

id          3
nclass      1
math       45
english    86
science    78
Name: 2, dtype: int64

#### 행이 1개일 때 데이터 프레임 자료 구조 유지하기

In [33]:
# 시리즈로 추출
df.loc[0]

id          1
nclass      1
math       50
english    98
science    50
Name: 0, dtype: int64

In [34]:
# 데이터 프레임으로 추출
df.loc[[0]]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50


#### 여러 행 추출하기

In [35]:
# 1, 3, 5행 추출
df.loc[[0, 3, 5]] 

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
3,4,1,30,98,58
5,6,2,50,89,98


#### 연속된 행 추출하기

In [36]:
# 0~3행 추출
df.loc[0:3]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [37]:
# 7~9행 추출
df.loc[7:9]

Unnamed: 0,id,nclass,math,english,science
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [38]:
# 0~2행 추출
df.loc[0:2]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78


In [39]:
# 첫 번째 행 ~ 2행 추출
df.loc[:2]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78


In [40]:
# 5~9행 추출
df.loc[5:9]

Unnamed: 0,id,nclass,math,english,science
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [41]:
# 5행 ~ 마지막 행 추출
df.loc[5:]

Unnamed: 0,id,nclass,math,english,science
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45
10,11,3,65,65,65
11,12,3,45,85,32
12,13,4,46,98,65
13,14,4,48,87,12
14,15,4,75,56,78


In [42]:
# 첫 번째 행 ~ 마지막 행 추출
df.loc[:]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


In [43]:
df

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98
6,7,2,80,90,45
7,8,2,90,78,25
8,9,3,20,98,15
9,10,3,50,98,45


#### 인덱스 문자열만 있으면 인덱스 번호로 행을 추출할 수 없다

In [44]:
# 인덱스 문자열이 있는 데이터 프레임
df_label = pd.DataFrame({'var1' : [1, 2, 3], 
                         'var2' : [4, 5, 6]},
                         index = ['kim', 'lee', 'park'])
df_label

Unnamed: 0,var1,var2
kim,1,4
lee,2,5
park,3,6


In [45]:
# 인덱스 번호로 행 추출하기
df_label.loc[0]

KeyError: 0

#### 인덱스 번호로 열을 추출할 수 없다

In [46]:
# 인덱스 번호로 행 추출하기
df.loc[2, :]

id          3
nclass      1
math       45
english    86
science    78
Name: 2, dtype: int64

In [47]:
# 인덱스 번호로 열 추출하기
df.loc[:, 2]

KeyError: 2

### 조건을 충족하는 행 추출하기

In [48]:
# nclass가 1이면 추출
df.loc[df['nclass'] == 1]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58


In [49]:
# 수학 점수가 60점 이상이면 추출
df.loc[df['math'] >= 60]

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
6,7,2,80,90,45
7,8,2,90,78,25
10,11,3,65,65,65
14,15,4,75,56,78
16,17,5,65,68,98
17,18,5,80,78,90
18,19,5,89,68,87
19,20,5,78,83,58


#### 조건을 충족하는 행에서 열 추출하기

In [50]:
# nclass가 1인 행의 math, english 열 추출
df.loc[df['nclass'] == 1, ['math', 'english']]

Unnamed: 0,math,english
0,50,98
1,60,97
2,45,86
3,30,98


In [51]:
# 0~3행의 math 열 추출
df.loc[0:3, 'math'] 

0    50
1    60
2    45
3    30
Name: math, dtype: int64

#### 조건을 충족하는 행 추출 방법 비교하기

In [52]:
# 수학 점수가 50을 초과하는 행 추출하기
# df.query('math > 50')    # df.query()
# df[df['math'] > 50]      # df[]
# df.loc[df['math'] > 50]  # df.loc[]

## 16-3 `df.iloc[]` 이용하기

### 인덱스 번호를 지정해 행 추출하기

In [53]:
# 0행 추출
df.iloc[0]

id          1
nclass      1
math       50
english    98
science    50
Name: 0, dtype: int64

In [54]:
# 2행 추출
df.iloc[2]

id          3
nclass      1
math       45
english    86
science    78
Name: 2, dtype: int64

#### 행이 1개일 때 데이터 프레임 자료 구조 유지하기

In [55]:
# 시리즈로 추출
df.iloc[0]

id          1
nclass      1
math       50
english    98
science    50
Name: 0, dtype: int64

In [56]:
# 데이터 프레임으로 추출
df.iloc[[0]]

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50


#### 여러 행 추출하기

In [57]:
# 1, 3, 5행 추출
df.iloc[[0, 3, 5]] 

Unnamed: 0,id,nclass,math,english,science
0,1,1,50,98,50
3,4,1,30,98,58
5,6,2,50,89,98


#### 연속된 행 추출하기

**`df.loc[x:y]` = x행 이상 y행 이하 추출**

In [58]:
df.loc[1:5]  # 1~5행 출력

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65
5,6,2,50,89,98


**`df.iloc[x:y]` = x행 이상 y행 미만 추출**

In [59]:
df.iloc[1:5]  # 1~4행 출력

Unnamed: 0,id,nclass,math,english,science
1,2,1,60,97,60
2,3,1,45,86,78
3,4,1,30,98,58
4,5,2,25,80,65


#### 인덱스 문자열만 있어도 인덱스 번호로 행을 추출할 수 있다

In [60]:
# 인덱스 문자열이 있는 데이터 프레임
df_label

Unnamed: 0,var1,var2
kim,1,4
lee,2,5
park,3,6


In [61]:
df_label.loc[0]

KeyError: 0

In [62]:
df_label.iloc[0]

var1    1
var2    4
Name: kim, dtype: int64

### 인덱스 번호를 지정해 열 추출하기

In [63]:
# 모든 행의 1열 추출
df.iloc[:, 1]

0     1
1     1
2     1
3     1
4     2
5     2
6     2
7     2
8     3
9     3
10    3
11    3
12    4
13    4
14    4
15    4
16    5
17    5
18    5
19    5
Name: nclass, dtype: int64

In [64]:
# 모든 행의 1, 3열 추출
df.iloc[:, [1, 3]]

Unnamed: 0,nclass,english
0,1,98
1,1,97
2,1,86
3,1,98
4,2,80
5,2,89
6,2,90
7,2,78
8,3,98
9,3,98


#### 인덱스 번호를 지정해 행, 열 추출하기

In [65]:
# 2행의 3열 추출
df.iloc[2, 3] 

86

In [66]:
# 0, 1행의 2, 3열 추출
df.iloc[[0, 1], [2, 3]]   

Unnamed: 0,math,english
0,50,98
1,60,97


#### 조건을 충족하는 행을 추출할 수 없다

In [67]:
# nclass가 1이면 추출
df.iloc[df['nclass'] == 1]

NotImplementedError: iLocation based boolean indexing on an integer type is not available

#### `df.loc[]`와 `df.iloc[]`의 차이점

| 기능                    | df.loc()     | df.iloc()    |
|-------------------------|--------------|--------------|
| 행 추출 인덱스          | 문자열, 번호 | 번호         |
| 열 추출 인덱스          | 문자열       | 번호         |
| 조건 지정해서 행 추출   | O            | X            |
| 연속된 행 추출 x:y      | 이상:이하    | 이상:미만    |
  

--- 

### 정리하기

In [None]:
## 1. [] 이용하기

df[df['math'] >= 80]                          # 조건을 충족하는 행 추출
df[(df['nclass'] == 1) & (df['math'] >= 50)]  # 여러 조건을 충족하는 행 추출

df[['id', 'nclass']]                          # 열 추출
df[df['nclass'] == 1]['math']                 # 조건을 충족하는 행에서 열 추출
df[df['nclass'] == 1][['math', 'english']]    # 조건을 충족하는 행에서 여러 열 추출


## 2. df.loc[] 이용하기

df.loc['kim']            # 인덱스 문자열로 행 추출
df.loc[['kim', 'park']]  # 인덱스 문자열로 여러 행 추출  

df.loc[:, 'var1']        # 문자열로 열 추출
df.loc['lee', 'var1']    # 행, 열 모두 문자열로 추출

df.loc[0]                # 인덱스 번호로 행 추출
df.loc[[1, 3, 5]]        # 인덱스 번호로 여러 행 추출

df.loc[7:9]              # 연속된 행 추출: x행 이상 y행 이하
df.loc[:2]               # 첫 행부터 추출
df.loc[5:]               # 끝 행까지 추출
df.loc[:]                # 모든 행 추출

df.loc[df['math'] >= 60]                        # 조건을 충족하는 행 추출
df.loc[0:3, 'math']                             # 조건을 충족하는 행에서 열 추출
df.loc[df['nclass'] == 1, ['math', 'english']]  # 조건을 충족하는 행에서 여러 열 추출


## 3. df.iloc[] 이용하기

df.iloc[0]               # 인덱스 번호로 행 추출
df.iloc[1:5]             # 연속된 행 추출: x행 이상 y행 미만

df.iloc[:, 1]            # 인덱스 번호로 열 추출
df.iloc[2, 3]            # 행과 열을 모두 인덱스 번호로 추출
df.iloc[[0, 1], [2, 3]]  # 여러 행과 여러 열을 모두 인덱스 번호로 추출