In [1]:
import pandas as pd

In [2]:
sat = pd.read_csv('data/2014_korea_sat_scores.csv',encoding='cp949')
sat.head()

Unnamed: 0,등급,과목,구분점수,도수(명),비율(%)
0,1,국어 A형,128,13866,4.3
1,2,국어 A형,123,23599,7.32
2,3,국어 A형,116,42470,13.17
3,4,국어 A형,108,52640,16.32
4,5,국어 A형,97,63896,19.81


In [3]:
sat.shape

(342, 5)

In [5]:
sat.tail()

Unnamed: 0,등급,과목,구분점수,도수(명),비율(%)
337,5,한문Ⅰ,45,1324,20.92
338,6,한문Ⅰ,42,1075,16.99
339,7,한문Ⅰ,39,873,13.79
340,8,한문Ⅰ,37,233,3.68
341,9,한문Ⅰ,37미만,216,3.41


In [6]:
sat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 342 entries, 0 to 341
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   등급      342 non-null    int64  
 1   과목      342 non-null    object 
 2   구분점수    342 non-null    object 
 3   도수(명)   342 non-null    int64  
 4   비율(%)   342 non-null    float64
dtypes: float64(1), int64(2), object(2)
memory usage: 13.5+ KB


# 논리식 검색을 통한 데이터 필터링

## 블리언 마스크 기법

* 필터링 조건: '도수(명)' 열에 20000보다 작은 행을 필터링 할 것

In [8]:
sat.columns

Index(['등급', '과목', '구분점수', '도수(명)', '비율(%)'], dtype='object')

In [10]:
sat['도수(명)'].head(5)

0    13866
1    23599
2    42470
3    52640
4    63896
Name: 도수(명), dtype: int64

In [11]:
(sat['도수(명)']<20_000).head()

0     True
1    False
2    False
3    False
4    False
Name: 도수(명), dtype: bool

* 논리식 검색 조건을 행의 필터링 조건으로 활용  
  데이터프레임[블리언마스크 조건] 블리언마스크 조건이 True인 행으로만 필터링이 된다.

In [12]:
sat[ sat['도수(명)']<20_000 ]

Unnamed: 0,등급,과목,구분점수,도수(명),비율(%)
0,1,국어 A형,128,13866,4.30
8,9,국어 A형,60미만,12554,3.89
9,1,국어 B형,127,12615,4.45
16,8,국어 B형,59,19943,7.03
17,9,국어 B형,59미만,10868,3.83
...,...,...,...,...,...
337,5,한문Ⅰ,45,1324,20.92
338,6,한문Ⅰ,42,1075,16.99
339,7,한문Ⅰ,39,873,13.79
340,8,한문Ⅰ,37,233,3.68


* 필터링 조건: '비율(%)' 열에 10보다 큰 행을 필터링 할 것

In [14]:
sat[ sat['비율(%)']> 10]

Unnamed: 0,등급,과목,구분점수,도수(명),비율(%)
2,3,국어 A형,116,42470,13.17
3,4,국어 A형,108,52640,16.32
4,5,국어 A형,97,63896,19.81
5,6,국어 A형,85,52538,16.29
6,7,국어 A형,72,38209,11.85
...,...,...,...,...,...
335,3,한문Ⅰ,58,729,11.52
336,4,한문Ⅰ,50,1080,17.06
337,5,한문Ⅰ,45,1324,20.92
338,6,한문Ⅰ,42,1075,16.99


* 다중 논리식(조건식) 검색
    * ( 조건식1) & (조건식2) .... (조건식N)  
      A & B & C  
    * ( 조건식1) (& 또는 |) (조건식2) ... (조건식 N)  
      A & B | C

* &: 파이썬에서 and 조건
* |: 파이썬에서 or 조건

* 문제 한 번 풀어 봅시다!  
'도수(명)' 열의 값이 20000 보다 작고 '비율(%)' 열의 값이 5.0 보다 작은 모든 행을 필터링 하세요.  
sat[sat['도수(명)'] < 20000 ]  <- 이것을 확장해 보세요

In [16]:
sat[ (  sat['도수(명)']< 20_000 ) & ( sat['비율(%)'] < 5.0) ]

Unnamed: 0,등급,과목,구분점수,도수(명),비율(%)
0,1,국어 A형,128,13866,4.30
8,9,국어 A형,60미만,12554,3.89
9,1,국어 B형,127,12615,4.45
17,9,국어 B형,59미만,10868,3.83
18,1,수학 A형,137,19675,4.77
...,...,...,...,...,...
323,9,아랍어Ⅰ,41미만,322,3.23
324,1,기초 베트남어,81,953,4.17
332,9,기초 베트남어,40미만,630,2.76
340,8,한문Ⅰ,37,233,3.68


* 문제 한 번 풀어 봅시다!  
'도수(명)' 열의 값이 20000 보다 작거나 '비율(%)' 열의 값이 10.0 보다 작은 모든 행을 필터링 하세요.  
sat[sat['도수(명)'] < 20000 ]  <- 이것을 확장해 보세요

In [20]:
sat[ ( sat['도수(명)']< 20_000 ) | ( sat['비율(%)'] < 10.0) ]

Unnamed: 0,등급,과목,구분점수,도수(명),비율(%)
0,1,국어 A형,128,13866,4.30
1,2,국어 A형,123,23599,7.32
7,8,국어 A형,60,22717,7.04
8,9,국어 A형,60미만,12554,3.89
9,1,국어 B형,127,12615,4.45
...,...,...,...,...,...
337,5,한문Ⅰ,45,1324,20.92
338,6,한문Ⅰ,42,1075,16.99
339,7,한문Ⅰ,39,873,13.79
340,8,한문Ⅰ,37,233,3.68
