### [ 데이터 필터링 ]
- 원하는 데이터를 추출하기 위해서 사용하는 방법
- 원하는 데이터 걸러내겠다는 의미
- 다양한 조건 검사 진행 => 비교 검사 : 같다 ==, 같지 않다 !=, 크다 >, 크거다 같다 >=, 작다 <, 작거나 같다 <=

(1) 모듈 로딩

In [25]:
import pandas as pd
import numpy as np

(2) 데이터 준비

In [26]:
file = '../DATA/employees.csv'

(3) 데이터 저장

In [27]:
empDF = pd.read_csv(file, parse_dates=['Start Date'])

(4) 데이터 확인

In [28]:
empDF

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
0,Douglas,Male,1993-08-06,,True,Marketing
1,Thomas,Male,1996-03-31,61933.0,True,
2,Maria,Female,NaT,130590.0,False,Finance
3,Jerry,,2005-03-04,138705.0,True,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
...,...,...,...,...,...,...
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev
999,Albert,Male,2012-05-15,129949.0,True,Sales


(5) 데이터 필터링

- [문제] 데이터에서 이름이 Maria인 데이터만 추출

In [29]:
print( empDF.columns, empDF.index, sep='\n\n' )

Index(['First Name', 'Gender', 'Start Date', 'Salary', 'Mgmt', 'Team'], dtype='object')

RangeIndex(start=0, stop=1001, step=1)


- bool값으로 구성된 데이터 ==> 불린인덱싱(Boolean Indexing)

In [30]:
mariaMask = (empDF['First Name'] == 'Maria')
mariaMask

0       False
1       False
2        True
3       False
4       False
        ...  
996     False
997     False
998     False
999     False
1000    False
Name: First Name, Length: 1001, dtype: bool

In [31]:
empDF[empDF['First Name'] == 'Maria']

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
2,Maria,Female,NaT,130590.0,False,Finance
198,Maria,Female,1990-12-27,36067.0,True,Product
815,Maria,,1986-01-18,106562.0,False,HR
844,Maria,,1985-06-19,148857.0,False,Legal
936,Maria,Female,2003-03-14,96250.0,False,Business Dev
984,Maria,Female,2011-10-15,43455.0,False,Engineering


- [문제] employees 데이터에서 이름이 연봉이 50000이상인 데이터 추출

In [32]:
empDF[empDF['Salary'] >= 100000]

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
2,Maria,Female,NaT,130590.0,False,Finance
3,Jerry,,2005-03-04,138705.0,True,Finance
4,Larry,Male,1998-01-24,101004.0,True,IT
5,Dennis,Male,1987-04-18,115163.0,False,Legal
9,Frances,Female,2002-08-08,139852.0,True,Business Dev
...,...,...,...,...,...,...
990,Robin,Female,1987-07-24,100765.0,True,IT
991,Rose,Female,2002-08-25,134505.0,True,Marketing
992,Anthony,Male,2011-10-16,112769.0,True,Finance
995,Henry,,2014-11-23,132483.0,False,Distribution


- [문제] employees 데이터에서 성별이 남자이며 연봉이 1000000이상인 데이터 추출

- 여러 개의 조건이 모두 True 여야만 하는 조건 ==> AND 조건
    * 문법 : 조건1 & 주건2 & 조건3 & ... & 조건N
    * 연산자: & 엠퍼센트
    * 결과 : True / False

In [33]:
empDF[((empDF['Gender'] == 'Male') & (empDF['Salary'] >= 14800))]

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
1,Thomas,Male,1996-03-31,61933.0,True,
4,Larry,Male,1998-01-24,101004.0,True,IT
5,Dennis,Male,1987-04-18,115163.0,False,Legal
12,Brandon,Male,1980-12-01,112807.0,True,HR
13,Gary,Male,2008-01-27,109831.0,False,Sales
...,...,...,...,...,...,...
994,George,Male,2013-06-21,98874.0,True,Marketing
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product
998,Larry,Male,2013-04-20,60500.0,False,Business Dev


- 여러 개의 조건 중 1개 이상이 True 여야만 하는 조건 ==> OR 조건
    * 문법 : 조건1 | 주건2 | 조건3 | ... | 조건N
    * 연산자: | 파이프
    * 결과 : True / False

- [문제] employees 데이터에서 입사일이 1993년 1월 1일 이전 이거나 또는 매니지먼트가 없는 사람 데이터 조회

In [34]:
empDF[(empDF['Start Date'] < '1993-01-01') | (empDF['Mgmt'] == False) ]

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
2,Maria,Female,NaT,130590.0,False,Finance
5,Dennis,Male,1987-04-18,115163.0,False,Legal
6,Ruby,Female,1987-08-17,65476.0,True,Product
10,Louise,Female,1980-08-12,63241.0,True,
12,Brandon,Male,1980-12-01,112807.0,True,HR
...,...,...,...,...,...,...
990,Robin,Female,1987-07-24,100765.0,True,IT
995,Henry,,2014-11-23,132483.0,False,Distribution
996,Phillip,Male,1984-01-31,42392.0,False,Finance
997,Russell,Male,2013-05-20,96914.0,False,Product


In [37]:
empDF2 = pd.read_csv(file)
pd.to_datetime(empDF2['Start Date'])

0      1993-08-06
1      1996-03-31
2             NaT
3      2005-03-04
4      1998-01-24
          ...    
996    1984-01-31
997    2013-05-20
998    2013-04-20
999    2012-05-15
1000          NaT
Name: Start Date, Length: 1001, dtype: datetime64[ns]

In [38]:
empDF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   First Name  933 non-null    object        
 1   Gender      854 non-null    object        
 2   Start Date  999 non-null    datetime64[ns]
 3   Salary      999 non-null    float64       
 4   Mgmt        933 non-null    object        
 5   Team        957 non-null    object        
dtypes: datetime64[ns](1), float64(1), object(4)
memory usage: 47.0+ KB


In [39]:
empDF['Team'].isin(['Sales', 'Legal', 'Marketing'])

0        True
1       False
2       False
3       False
4       False
        ...  
996     False
997     False
998     False
999      True
1000    False
Name: Team, Length: 1001, dtype: bool

- 구간 지정 검사 불린 메소드 => DF.between(low, high)

In [40]:
(empDF['Salary'] >= 80000) & (empDF['Salary'] < 90000)

0       False
1       False
2       False
3       False
4       False
        ...  
996     False
997     False
998     False
999     False
1000    False
Name: Salary, Length: 1001, dtype: bool

In [41]:
empDF['Salary'].between(80000, 90000)

0       False
1       False
2       False
3       False
4       False
        ...  
996     False
997     False
998     False
999     False
1000    False
Name: Salary, Length: 1001, dtype: bool