# [ 데이터 필터링 ]
- 원하는 데이터를 추출하기 위해서 사용하는 방법
- 원하는 데이터를 걸러내겠다!
- 다양한 조건 검사 => 비교 검사 : 같다== 같지않다!= 크다> 크거나 같다>=

In [56]:
# 1. 모듈 준비
import pandas as pd
import numpy as np
# 2. 데이터 준비
file='../DATA/employees.csv'
# 3. 데이터 저장
empDF = pd.read_csv(file)
# 4. 데이터 확인
empDF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   First Name  933 non-null    object 
 1   Gender      854 non-null    object 
 2   Start Date  999 non-null    object 
 3   Salary      999 non-null    float64
 4   Mgmt        933 non-null    object 
 5   Team        957 non-null    object 
dtypes: float64(1), object(5)
memory usage: 47.0+ KB


In [57]:
# [ 문제 ] 데이터에서 Maria만 추출
# 비교연산자 활용!

mariaMask = empDF['First Name'] == 'Maria'
mariaMask, type(mariaMask)

(0       False
 1       False
 2        True
 3       False
 4       False
         ...  
 996     False
 997     False
 998     False
 999     False
 1000    False
 Name: First Name, Length: 1001, dtype: bool,
 pandas.core.series.Series)

In [58]:
# True인 값만 추출하기:
# - DF의 인덱스에 불린 시리즈를 넣으면 True인 값만 입력/반환된다
# - DF [ 비교조건문 ] => True만 반환
# - 같은 열 내에서 비교 (행끼리 비교 가능?)

empDF[empDF['First Name'] == 'Maria']
empDF[ mariaMask ]

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
2,Maria,Female,,130590.0,False,Finance
198,Maria,Female,12/27/90,36067.0,True,Product
815,Maria,,1/18/86,106562.0,False,HR
844,Maria,,6/19/85,148857.0,False,Legal
936,Maria,Female,3/14/03,96250.0,False,Business Dev
984,Maria,Female,10/15/11,43455.0,False,Engineering


In [59]:
# 개수 확인은 .sum()
(empDF['First Name'] == 'Maria').sum()
mariaMask.sum()

6

In [60]:
# [문제] 데이터에서 연봉이 50,000 이상인 데이터의 이름을 추출

# empDF[ 'Salary' >= 50000 ]
# 그냥 'Salary' 하면 int 요구하는데, 컬럼으로 넣으면 작동

empDF[ empDF['Salary'] >= 50000 ].head()

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
1,Thomas,Male,3/31/96,61933.0,True,
2,Maria,Female,,130590.0,False,Finance
3,Jerry,,3/4/05,138705.0,True,Finance
4,Larry,Male,1/24/98,101004.0,True,IT
5,Dennis,Male,4/18/87,115163.0,False,Legal


In [61]:
# [문제] 성별이 남자이며 연봉이 100,000 이상인 데이터 추출
# and 대신 & 연산자

# mask = empDF[(empDF['Salary'] >=100000) & (empDF['Gender'] == 'Male')]
# 이 mask는 empDF[ mask ] 를 못한다: ( ) 가 없어 조건문으로 바로 작용
# mask = ( ( )&( ) ) 이면 시리즈로 작용, empDF[ ] 에 넣어야 DF!

mask = ( (empDF['Salary'] >=100000) & (empDF['Gender'] == 'Male') )
mask, type(mask) # Series 타입

(0       False
 1       False
 2       False
 3       False
 4        True
         ...  
 996     False
 997     False
 998     False
 999      True
 1000    False
 Length: 1001, dtype: bool,
 pandas.core.series.Series)

In [62]:
empDF[ mask ]

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
4,Larry,Male,1/24/98,101004.0,True,IT
5,Dennis,Male,4/18/87,115163.0,False,Legal
12,Brandon,Male,12/1/80,112807.0,True,HR
13,Gary,Male,1/27/08,109831.0,False,Sales
17,Shawn,Male,12/7/86,111737.0,False,Product
...,...,...,...,...,...,...
979,Ernest,Male,7/20/13,142935.0,True,Product
981,James,Male,1/15/93,148985.0,False,Legal
983,John,Male,12/23/82,146907.0,False,Engineering
992,Anthony,Male,10/16/11,112769.0,True,Finance


In [64]:
# [ OR ] : 1개 이상이 True이면 True가 되는 조건
#   - 문법 : 조건1 | 조건2 | 조건3 | ...
#   - 연산자 : | 파이프
#   - 결과 : True or False

# [문제] 입사일이 1993년 1월 1일 이전이거나 메니지먼트가 없는 사람 데이터 조회
# 날짜 문법은 '1993-01-01' (not 01/01/93 -> format을 정해야함)
# &, | 연산자에선 ( ) 설정이 중요함

empDF[ (empDF['Start Date'] < '1993-01-01') | (empDF['Mgmt'] == False) ]

Unnamed: 0,First Name,Gender,Start Date,Salary,Mgmt,Team
2,Maria,Female,,130590.0,False,Finance
4,Larry,Male,1/24/98,101004.0,True,IT
5,Dennis,Male,4/18/87,115163.0,False,Legal
8,Angela,Female,11/22/05,95570.0,True,Engineering
11,Julie,Female,10/26/97,102508.0,True,Legal
...,...,...,...,...,...,...
992,Anthony,Male,10/16/11,112769.0,True,Finance
995,Henry,,11/23/14,132483.0,False,Distribution
996,Phillip,Male,1/31/84,42392.0,False,Finance
997,Russell,Male,5/20/13,96914.0,False,Product


In [65]:
# [ .to_csv( ) ] 
# : csv로 파일을 변환
# csv 외에도 dict, excel 등이 있음 (구체적인건 나중에)

# [ to_datetime ] 
# to_datetime : 1970년부터의 초를 기준으로 날짜 반환
# 날짜 배열이 다를 때 : (dayfitrst=, yearfirst= ) 를 T/F 설정하면 됨

pd.to_datetime( empDF['Start Date'] )  # .astype(datetime) => X

  pd.to_datetime( empDF['Start Date'] )  # .astype(datetime) => X


0      1993-08-06
1      1996-03-31
2             NaT
3      2005-03-04
4      1998-01-24
          ...    
996    1984-01-31
997    2013-05-20
998    2013-04-20
999    2012-05-15
1000          NaT
Name: Start Date, Length: 1001, dtype: datetime64[ns]

- datetime 명령문  

https://docs.python.org/ko/3/library/datetime.html#:~:text=%EB%AA%A8%EB%93%A0%20%ED%94%8C%EB%9E%AB%ED%8F%BC%EC%97%90%EC%84%9C%20%EC%9E%91%EB%8F%99%ED%95%A9%EB%8B%88%EB%8B%A4.-,%EC%A7%80%EC%8B%9C%EC%9E%90,-%EC%9D%98%EB%AF%B8

In [69]:
# 원본에 저장: 데이터타입 변환
empDF['Start Date'] = pd.to_datetime( empDF['Start Date'] )
empDF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1001 entries, 0 to 1000
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   First Name  933 non-null    object        
 1   Gender      854 non-null    object        
 2   Start Date  999 non-null    datetime64[ns]
 3   Salary      999 non-null    float64       
 4   Mgmt        933 non-null    object        
 5   Team        957 non-null    object        
dtypes: datetime64[ns](1), float64(1), object(4)
memory usage: 47.0+ KB


In [None]:
# [ .lt .le .gt .ge ] : < <= > >=


In [71]:
# [ ~SR or DF ] : 불리언 값을 반전

print(mask, ~mask, sep='\n\n')

0       False
1       False
2       False
3       False
4        True
        ...  
996     False
997     False
998     False
999      True
1000    False
Length: 1001, dtype: bool

0        True
1        True
2        True
3        True
4       False
        ...  
996      True
997      True
998      True
999     False
1000     True
Length: 1001, dtype: bool


In [67]:
# [ .isin() ] : OR 연산자
# [ col ] 중에 [ 조건1 or 조건2 or 조건3 ] 이면 (여기에 속하면) True

empDF['Team'].isin( ['Sales', 'Legal', 'Marketing'])

0        True
1       False
2       False
3       False
4       False
        ...  
996     False
997     False
998     False
999      True
1000    False
Name: Team, Length: 1001, dtype: bool

In [68]:
# [ .between( low , high , [inclusive=] ) ] : 숫자나 날짜의 범위 지정
# inclusive : 'both' 'neither' 'left' 'right' 뭔 느낌인지 알겠쥐?

empDF['Salary'].between(80000, 90000)

0       False
1       False
2       False
3       False
4       False
        ...  
996     False
997     False
998     False
999     False
1000    False
Name: Salary, Length: 1001, dtype: bool