# 데이터 전처리
- 처리가 필요한 데이터
   - 누락 데이터(NA) -> 누락 데이터 처리
   - 타입이 올바르지 않은 데이터 -> 데이터 타입 변경
   - 콤마, 공백, 모호한 대/소문자 사용 -> 콤마, 공백 제거, 대/소문자 변경
   - 의미 없는 데이터 -> 의미 없는 데이터 선별 및 제거

In [1]:
import numpy as np
import pandas as pd

In [2]:
emp = pd.read_csv('./files/data/employees.csv', index_col='사번')
emp['생년월일'] = pd.to_datetime(emp['생년월일'])
emp['초과근무'] = pd.to_timedelta(emp['초과근무'])
emp = emp.replace(' ', 0, regex=True)
emp = emp.replace(np.nan, 0)
emp['영어등급'] = emp['영어등급'].astype(np.int32)
emp['일본어등급'] = emp['일본어등급'].astype(np.int32)
emp['중국어등급'] = emp['중국어등급'].astype(np.int32)
emp['급여'] = emp['급여'].replace('\,', '', regex=True).astype(np.int64)

display(emp)

Unnamed: 0_level_0,이름,생년월일,부서,영어등급,일본어등급,중국어등급,급여,초과근무
사번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
18030201,임꺽정,1990-01-23,연구부,1,1,0,3456,0 days 23:10:10
18030202,손오공,1992-10-11,마케팅,0,2,0,4320,0 days 10:15:17
19030401,전우치,1995-07-02,연구부,1,0,0,5600,0 days 16:21:10
19070101,홍길동,1990-11-23,연구부,0,0,3,4500,0 days 15:00:20
19070102,사오정,1993-02-01,마케팅,0,0,0,3150,0 days 21:19:50
19070103,저팔계,1992-07-16,연구부,0,0,1,4200,0 days 14:10:40
19080101,김유신,1993-04-11,총무부,2,0,0,4800,0 days 09:50:30
19080102,강감찬,1991-12-07,영업부,1,1,1,10100,0 days 08:40:40
19090201,이순신,1992-06-16,영업부,3,1,2,6840,0 days 17:30:20
19090202,권율,1993-05-05,연구부,0,3,1,4750,0 days 19:50:20


## NA정보 확인
- df.info()
   - index, columns, dtypes, memory usage 정보 출력
   - 출력 정보의 정도를 조절할 수 있는 parameters가 있음
   - memory_usage='deep', deep memory introspection 설정
   - [DataFrame.info()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html)
- df.isna()
   - Boolean 데이터로 작성된 DataFrame 객체 반환 (NA value => True)
   - isna, isnull은 동일 동작 (isnull 는 isna 의 alias)
   - any(), all() 등으로 정보를 요약 할 수 있음
   - df.isna().any()
   - df.isna().all()
   - df.isna().any().any()
   - [DataFrame.isna()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isna.html)
- df.any(axis=0) 
   - column 별로 값이 하나라도 True인 경우 True, 아니면 False
   - axis = 1로 하면, row 별로 확인
- df.all(axis=0)
   - column 별로 모든 값이 True인 경우 True, 아니면 False
   - axis = 1로 하면, row 별로 확인   

In [3]:
df = pd.read_csv('./files/data/sample1.csv')
df

Unnamed: 0,ID,pname,birth,dept,영어,일본어,중국어
0,18030201,홍길동,1990-01-23,연구소,1.0,1.0,
1,18030202,전우치,1992-10-11,마케팅,,2.0,
2,19030401,사오정,1995-07-02,연구소,1.0,,
3,19070101,손오공,1990-11-23,연구소,,,3.0
4,19070102,임꺽정,1993-02-01,마케팅,,,
5,19070103,저팔계,1992-07-16,연구소,,,1.0


In [7]:
names = ['사번', '이름', '생년월일', '부서', '영어', '일본어', '중국어']

df.columns = names
df

Unnamed: 0,사번,이름,생년월일,부서,영어,일본어,중국어
0,18030201,홍길동,1990-01-23,연구소,1.0,1.0,
1,18030202,전우치,1992-10-11,마케팅,,2.0,
2,19030401,사오정,1995-07-02,연구소,1.0,,
3,19070101,손오공,1990-11-23,연구소,,,3.0
4,19070102,임꺽정,1993-02-01,마케팅,,,
5,19070103,저팔계,1992-07-16,연구소,,,1.0


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   사번      6 non-null      int64  
 1   이름      6 non-null      object 
 2   생년월일    6 non-null      object 
 3   부서      6 non-null      object 
 4   영어      2 non-null      float64
 5   일본어     2 non-null      float64
 6   중국어     2 non-null      float64
dtypes: float64(3), int64(1), object(3)
memory usage: 464.0+ bytes


In [11]:
df1 = df[['영어', '일본어', '중국어']]
df1.isna()
df1.isna().sum() # sum 으로 조건 만족하는지 안 하는지 볼 수 있다고 ?

영어     4
일본어    4
중국어    4
dtype: int64

## NA 제거
- df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
- axis
   - axis=0 이거나 'index' : NA value 포함 행(row) 제거
   - axis=1 이거나 'columns' : NA value 포함 열(column) 제거
- how
   - how='any' : NA value 가 하나라도 포함된 경우 True
   - how='all' : 모든 값이 NA value 인 경우 True
- thresh
   - int, non-NA value 개수가 설정 값 이상 일 때 제거 안함
- subset 
   - array-like, NA value를 살펴 볼 label 목록
   - axis=0 : columns에 대한 label 을 목록으로 작성함
- inplace
   - bool, True인 경우 대상에 직접 반영 하고, None을 반환

## NA 채우기
- df.fillna(value=None, method=None, axis=None, inplace=False, limit=None, ... )
- NA value 를 value 또는 method를 사용하여 변경한 DataFrame 객체 반환
- value 
   - scalar, dict, Series, or DataFrame
   - NA values를 대신 할 값을 지정함
   - dict, Series, DataFrame 을 사용해 행/열 별 채우기 값 별도 지정 가능
- method
   - {'backfill', 'bfill', 'pad', 'ffill', None}
   - value=None 일 때, NA values를 대신 할 값 선정 방법을 지정함
   - 'backfill', 'bfill' : (아래->위)다음 발견되는 valid observation으로 채움
   - 'pad', 'ffill' : (위->아래) 이전에 발견된 valid observation으로 채움
- axis
   - axis=0 이거나 'index' : 행 방향으로 채우기 진행
   - axis=1 이거나 'columns' : 열 방향으로 채우기 진행
- inplace
   - bool, True인 경우 대상에 직접 반영 하고, None을 반환
- limit
   - NA values를 다른 value로 변경하는 동작의 최대 횟수

## Value 대체
- df.replace(to_replace, value=None, inplace=False, limit=None, regex=False,...)
- to_replace로 주어진 대상이 value로 주어진 값으로 변경 된 DataFrame 객체
- to_replace
   - str, regex, list, dict, Series, int, float, or None
   - value로 대체될 값들을 찾는 방법
   - API에서 상세 설명 참조 ([DataFrmae.replace](https://pandas.pydata.org/pandas-docs/version/0.25/reference/api/pandas.DataFrame.replace.html))
- value
   - scalar, dict, list, str, regex, default None
   - to_replace에 매칭하는 값을 대체할 값을 지정함
   - dict 을 사용해 열 별 채우기 값을 별도 지정 가능
- inplace
   - bool, True인 경우 대상에 직접 반영 하고, None을 반환
- limit
   - NA values를 다른 value로 변경하는 동작의 최대 횟수
- regex
   - bool or same types as to_replace
   - True 설정 시 to_replace 및 value의 정규식 사용 가능 
   - to_replace는 str 을 사용해야 함


## DataFrame 합치기

### pd.concat 
- 여러개 데이터 프레임 하나로 합치기
- pd.concat(objs, axis=0, join=‘outer’, ignore_index=False,verify_integrity=False, ... )
- index를 기준으로, 행/열 방향으로 DataFrame을 병합함
- objs : a sequence or mapping of Series or DataFrame objects
- axis : 0  or 'index' : 행 방향, 1 or 'columns' : 열 방향
- join : { ‘outer’, ‘inner’ }, 매치되는 index/column 없을 때의 동작
   - outer : NaN 채우기, inner : 삭제하기
- ignore_index : index를 무시하고 RangeIndex로 변경
- verity_integrity : True : 중복 데이터 있으면 오류 발생 
- [pandas.concat](https://pandas.pydata.org/pandas-docs/version/0.25/reference/api/pandas.concat.html)  

### pd.merge
- pd.merge(left, right, how=‘inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, ...)
- on에 지정된 병합 기준 또는 index에 따라 left, right 병합
- left, right : DataFrame or named Series
- how : {‘left’, ‘right’, ‘outer’, ‘inner’}, default ‘inner’
- on : label or list,  병합 기준 지정 (columns or index level names)
- left_on, right_on : label or list, 왼쪽/오른쪽 병합 기준 지정
- left_index, right_index
   - True/False를 사용하여 index를 병합 기준으로 사용할지 여부 지정
   - columns가 다를 경우 True로 지정해야 함

- [pandas.merge](https://pandas.pydata.org/pandas-docs/version/0.25/reference/api/pandas.merge.html)


## 데이터 삭제
- x.drop(labels, axis=0, ...)
    - labels : 한 개의 label 또는 list-like index/column labels
    - axis=0 or 'index' : 행 삭제
    - axis=1 or 'columns' : 열 삭제
    - [DataFrame - drop](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html)

###  [ 실습 ]

## 데이터 추가
- x.append(other, ignore_index=False, verify_integrity=False, ...)
   - other에 전달된 데이터를 추가한 객체 반환
   - other 
     - x is DataFrame : DataFrame, Series/dict-like, list of these
     - x is Series : Series or list/tuple of Series
   - ignore_index : True - index labels 사용하지 않음, index 없는 대상 추가 시 필수
   - verity_integrity : True - index 중복 시 ValueError 발생
   - [DataFrame - append](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.append.html)


###  [ 실습 ]

## 데이터 변환

### Series.map

- s.map(arg, na_action=None)
   - arg로 전달된 내용이 ***각 항에 적용***된 Series 반환
- arg : <span style="background-color:yellow">function</span>, dict, Series
   - Series의 각 항에 적용될 내용
   - dict가 사용될 경우 key에 없는 것이 Series에 포함되어 있으면 NaN이 됨 
- na_action : {None, 'ignore'}  (default None)
  - 'ignore' : NA Value에 대해 동작을 무시하고  NaN, None, NaT 로 채움
- API : [Series.map](https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html)
<span style="color:red"></span>

In [1]:
import numpy as np
import pandas as pd

In [4]:
s = pd.Series(['Coffee', 'Is', 'Always', 'Right', np.nan, 'Americano', None, 'McMorning', pd.NaT])
s

0       Coffee
1           Is
2       Always
3        Right
4          NaN
5    Americano
6         None
7    McMorning
8          NaT
dtype: object

In [6]:
s + ' 님'

0       Coffee 님
1           Is 님
2       Always 님
3        Right 님
4            NaN
5    Americano 님
6            NaN
7    McMorning 님
8            NaN
dtype: object

In [7]:
s.map('{} ICE'.format)
# data type을 변경 시키지 않는다구~
# 중괄호 중요하다구~ (꼭 문자열 이여야 한다구~)

0       Coffee ICE
1           Is ICE
2       Always ICE
3        Right ICE
4          nan ICE
5    Americano ICE
6         None ICE
7    McMorning ICE
8          NaT ICE
dtype: object

In [8]:
s.map('{} ICE'.format, na_action = 'ignore')

0       Coffee ICE
1           Is ICE
2       Always ICE
3        Right ICE
4              NaN
5    Americano ICE
6             None
7    McMorning ICE
8              NaT
dtype: object

In [10]:
s1 = pd.Series([10, 20, 30, 10, 15, 45, 73, 13, 17])
s1

0    10
1    20
2    30
3    10
4    15
5    45
6    73
7    13
8    17
dtype: int64

In [14]:
# replace
s1.replace({10:999, 20:314159})

0       999
1    314159
2        30
3       999
4        15
5        45
6        73
7        13
8        17
dtype: int64

In [16]:
# map => data type : float NaN이 float 이기 때문~
s1.map({10:999, 20:314159})

0       999.0
1    314159.0
2         NaN
3       999.0
4         NaN
5         NaN
6         NaN
7         NaN
8         NaN
dtype: float64

# [ 실습 ] 

## 1. 데이터 읽어 오기

In [33]:
df = pd.read_csv('./files/data/employees.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   사번      10 non-null     int64  
 1   이름      10 non-null     object 
 2   생년월일    10 non-null     object 
 3   부서      10 non-null     object 
 4   영어등급    6 non-null      object 
 5   일본어등급   5 non-null      float64
 6   중국어등급   6 non-null      object 
 7   급여      10 non-null     object 
 8   초과근무    10 non-null     object 
dtypes: float64(1), int64(1), object(7)
memory usage: 848.0+ bytes


## 2. Data Type 변환하기

### 2-1. 생년월일 

In [42]:
df['생년월일'] = pd.to_datetime(df['생년월일'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype          
---  ------  --------------  -----          
 0   사번      10 non-null     int64          
 1   이름      10 non-null     object         
 2   생년월일    10 non-null     datetime64[ns] 
 3   부서      10 non-null     object         
 4   영어등급    10 non-null     int32          
 5   일본어등급   10 non-null     int32          
 6   중국어등급   10 non-null     int32          
 7   급여      10 non-null     int32          
 8   초과근무    10 non-null     timedelta64[ns]
dtypes: datetime64[ns](1), int32(4), int64(1), object(2), timedelta64[ns](1)
memory usage: 688.0+ bytes


### 2-2. 초과근무

In [41]:
df['초과근무'] = pd.to_timedelta(df['초과근무'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype          
---  ------  --------------  -----          
 0   사번      10 non-null     int64          
 1   이름      10 non-null     object         
 2   생년월일    10 non-null     object         
 3   부서      10 non-null     object         
 4   영어등급    10 non-null     int32          
 5   일본어등급   10 non-null     int32          
 6   중국어등급   10 non-null     int32          
 7   급여      10 non-null     int32          
 8   초과근무    10 non-null     timedelta64[ns]
dtypes: int32(4), int64(1), object(3), timedelta64[ns](1)
memory usage: 688.0+ bytes


### 2-3. 과목 등급 NaN 처리하기

In [44]:
df['영어등급'] = df['영어등급'].replace(' ',np.nan, regex=True)
df['중국어등급'] = df['중국어등급'].replace(' ',np.nan, regex=True)
df

Unnamed: 0,사번,이름,생년월일,부서,영어등급,일본어등급,중국어등급,급여,초과근무
0,18030201,임꺽정,1990-01-23,연구부,1,1,0,3456,0 days 23:10:10
1,18030202,손오공,1992-10-11,마케팅,0,2,0,4320,0 days 10:15:17
2,19030401,전우치,1995-07-02,연구부,1,0,0,5600,0 days 16:21:10
3,19070101,홍길동,1990-11-23,연구부,0,0,3,4500,0 days 15:00:20
4,19070102,사오정,1993-02-01,마케팅,0,0,0,3150,0 days 21:19:50
5,19070103,저팔계,1992-07-16,연구부,0,0,1,4200,0 days 14:10:40
6,19080101,김유신,1993-04-11,총무부,2,0,0,4800,0 days 09:50:30
7,19080102,강감찬,1991-12-07,영업부,1,1,1,10100,0 days 08:40:40
8,19090201,이순신,1992-06-16,영업부,3,1,2,6840,0 days 17:30:20
9,19090202,권율,1993-05-05,연구부,0,3,1,4750,0 days 19:50:20


In [37]:
df['영어등급'] = df['영어등급'].fillna(0).astype('int32')
df['일본어등급'] =df['일본어등급'].fillna(0).astype('int32')
df['중국어등급'] = df['중국어등급'].fillna(0).astype('int32')

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   사번      10 non-null     int64 
 1   이름      10 non-null     object
 2   생년월일    10 non-null     object
 3   부서      10 non-null     object
 4   영어등급    10 non-null     int32 
 5   일본어등급   10 non-null     int32 
 6   중국어등급   10 non-null     int32 
 7   급여      10 non-null     object
 8   초과근무    10 non-null     object
dtypes: int32(3), int64(1), object(5)
memory usage: 728.0+ bytes


### 2-4. 급여

In [43]:
df['급여'] = df['급여'].replace(',','', regex=True).astype('int32')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype          
---  ------  --------------  -----          
 0   사번      10 non-null     int64          
 1   이름      10 non-null     object         
 2   생년월일    10 non-null     datetime64[ns] 
 3   부서      10 non-null     object         
 4   영어등급    10 non-null     int32          
 5   일본어등급   10 non-null     int32          
 6   중국어등급   10 non-null     int32          
 7   급여      10 non-null     int32          
 8   초과근무    10 non-null     timedelta64[ns]
dtypes: datetime64[ns](1), int32(4), int64(1), object(2), timedelta64[ns](1)
memory usage: 688.0+ bytes


## 3. 부서별 코드 추가
<pre style="font-family:consolas">

    - 연구부 : 2
    - 마케팅 : 1
    - 총무부 : 4
    - 영업부 : 3
</pre>

### 3-1. 부서 개수 확인

In [52]:
df['부서'].unique()   # ==> ndarray
temp = sorted(df['부서'].unique()) # ==> python list
print(temp)
type(temp)

['마케팅', '연구부', '영업부', '총무부']


list

In [53]:
# 위와 동일한 표현
temp2 = df.sort_values(by = '부서')['부서'].unique().tolist()
print(temp2)
type(temp2)

['마케팅', '연구부', '영업부', '총무부']


list

In [55]:
data = dict(zip(temp, range(1, len(temp)+1)))

In [56]:
df['부서코드'] = df['부서'].map(data)
display(df)

Unnamed: 0,사번,이름,생년월일,부서,영어등급,일본어등급,중국어등급,급여,초과근무,부서코드
0,18030201,임꺽정,1990-01-23,연구부,1,1,0,3456,0 days 23:10:10,2
1,18030202,손오공,1992-10-11,마케팅,0,2,0,4320,0 days 10:15:17,1
2,19030401,전우치,1995-07-02,연구부,1,0,0,5600,0 days 16:21:10,2
3,19070101,홍길동,1990-11-23,연구부,0,0,3,4500,0 days 15:00:20,2
4,19070102,사오정,1993-02-01,마케팅,0,0,0,3150,0 days 21:19:50,1
5,19070103,저팔계,1992-07-16,연구부,0,0,1,4200,0 days 14:10:40,2
6,19080101,김유신,1993-04-11,총무부,2,0,0,4800,0 days 09:50:30,4
7,19080102,강감찬,1991-12-07,영업부,1,1,1,10100,0 days 08:40:40,3
8,19090201,이순신,1992-06-16,영업부,3,1,2,6840,0 days 17:30:20,3
9,19090202,권율,1993-05-05,연구부,0,3,1,4750,0 days 19:50:20,2


##  4. 초과근무 금액 계산

- 하루를 넘겨 초과근무를 한 사람은 1일당 10만원씩 추가 금액 지급
- 10시간을 초과근무한 사람은 시간당 1.5만원씩 추가 금액 지급
- 10시간 이하로 근무한 사람은 0


### 4-1.  함수정의

In [71]:
# x : 초과근무 시간

def overtime(x):
    hours = x.seconds // 3600  #시간만 구해버리기~~
#     print(hours)
#     print(x.days)
    if hours < 10:
        return 0
    return x.days * 10 + hours * 1.5

### 4-2. 함수 적용

In [74]:
# 함수에 적용 시키려면...함수이름만! 적어야 한다구
df['수당'] = df['초과근무'].map(overtime)

display(df)

Unnamed: 0,사번,이름,생년월일,부서,영어등급,일본어등급,중국어등급,급여,초과근무,부서코드,수당
0,18030201,임꺽정,1990-01-23,연구부,1,1,0,3456,0 days 23:10:10,2,34.5
1,18030202,손오공,1992-10-11,마케팅,0,2,0,4320,0 days 10:15:17,1,15.0
2,19030401,전우치,1995-07-02,연구부,1,0,0,5600,0 days 16:21:10,2,24.0
3,19070101,홍길동,1990-11-23,연구부,0,0,3,4500,0 days 15:00:20,2,22.5
4,19070102,사오정,1993-02-01,마케팅,0,0,0,3150,0 days 21:19:50,1,31.5
5,19070103,저팔계,1992-07-16,연구부,0,0,1,4200,0 days 14:10:40,2,21.0
6,19080101,김유신,1993-04-11,총무부,2,0,0,4800,0 days 09:50:30,4,0.0
7,19080102,강감찬,1991-12-07,영업부,1,1,1,10100,0 days 08:40:40,3,0.0
8,19090201,이순신,1992-06-16,영업부,3,1,2,6840,0 days 17:30:20,3,25.5
9,19090202,권율,1993-05-05,연구부,0,3,1,4750,0 days 19:50:20,2,28.5


## 5. 총 수령 금액 열 추가

In [78]:
df['총급여'] = df['급여'] + df['수당']
display(df)

Unnamed: 0,사번,이름,생년월일,부서,영어등급,일본어등급,중국어등급,급여,초과근무,부서코드,수당,총급여
0,18030201,임꺽정,1990-01-23,연구부,1,1,0,3456,0 days 23:10:10,2,34.5,3490.5
1,18030202,손오공,1992-10-11,마케팅,0,2,0,4320,0 days 10:15:17,1,15.0,4335.0
2,19030401,전우치,1995-07-02,연구부,1,0,0,5600,0 days 16:21:10,2,24.0,5624.0
3,19070101,홍길동,1990-11-23,연구부,0,0,3,4500,0 days 15:00:20,2,22.5,4522.5
4,19070102,사오정,1993-02-01,마케팅,0,0,0,3150,0 days 21:19:50,1,31.5,3181.5
5,19070103,저팔계,1992-07-16,연구부,0,0,1,4200,0 days 14:10:40,2,21.0,4221.0
6,19080101,김유신,1993-04-11,총무부,2,0,0,4800,0 days 09:50:30,4,0.0,4800.0
7,19080102,강감찬,1991-12-07,영업부,1,1,1,10100,0 days 08:40:40,3,0.0,10100.0
8,19090201,이순신,1992-06-16,영업부,3,1,2,6840,0 days 17:30:20,3,25.5,6865.5
9,19090202,권율,1993-05-05,연구부,0,3,1,4750,0 days 19:50:20,2,28.5,4778.5


### apply
- x.apply( <span style="background-color:yellow">func</span>, axis, ...,  args=(), **kwds )  # x : DataFrame, Series
- axis에 설정에 따라 행/열 별로 func에 주어진 함수를 적용한 결과 반환
- func : 각 행이나 열에 적용할 함수
   - 함수는 <span style="color:red">lambda</span>로 작성하거나 numpy, Series 등에서 제공되는 것 사용
   - apply는 행/열에 함수를 적용 함  (map은 각 항에 함수를 적용)
- axis : 0 or 'index' : 각 column 에 적용, 1 or ‘columns’ : 각 row에 적용
- args : array 또는 Series를 포함한 tuple로 작성
   - func에 전달 할 Positional arguments
- kwds  
   - func에 전달 할 Keyword arguments
- API : [DataFrame.apply](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html)

In [79]:
import numpy as np
import pandas as pd

In [83]:
tmp = pd.DataFrame(np.random.randint(50, 100, size=(4,3))
                   ,columns = ['More', 'Coffee', 'Please'])
tmp

Unnamed: 0,More,Coffee,Please
0,63,53,82
1,77,75,79
2,84,50,80
3,84,67,68


In [89]:
# 행
tmp.sum()

More      308
Coffee    245
Please    309
dtype: int64

In [87]:
# 열
tmp.sum(axis = 1)

0    198
1    231
2    214
3    219
dtype: int64

In [88]:
# 행
tmp.apply(sum)

More      308
Coffee    245
Please    309
dtype: int64

In [90]:
# 열
tmp.apply(sum, axis=1)

0    198
1    231
2    214
3    219
dtype: int64

In [91]:
# 평균은 numpy거 가져다 써야 한다
tmp.apply(np.mean, axis = 1)

0    66.000000
1    77.000000
2    71.333333
3    73.000000
dtype: float64

In [94]:
# 실제로 함수를 정의한 뒤에 사용할 수도 있다

tmp.apply([sum, min, max, np.mean])

Unnamed: 0,More,Coffee,Please
sum,308.0,245.0,309.0
min,63.0,50.0,68.0
max,84.0,75.0,82.0
mean,77.0,61.25,77.25


In [117]:
tmp.apply([sum, min, max, np.mean], axis = 1)

Unnamed: 0,sum,min,max,mean
0,198.0,53.0,82.0,66.0
1,231.0,75.0,79.0,77.0
2,214.0,50.0,84.0,71.333333
3,219.0,67.0,84.0,73.0


In [93]:
tmp.describe()

Unnamed: 0,More,Coffee,Please
count,4.0,4.0,4.0
mean,77.0,61.25,77.25
std,9.899495,11.786291,6.291529
min,63.0,50.0,68.0
25%,73.5,52.25,76.25
50%,80.5,60.0,79.5
75%,84.0,69.0,80.5
max,84.0,75.0,82.0


### aggregating functions
- mean()
- sum()
- size()
- count()
- std()
- var()
- describe()
- first()
- last()
- nth()
- min()
- max()

In [95]:
import numpy as np
import pandas as pd

In [96]:
df = pd.read_csv('./files/data/employees.csv')

df['생년월일'] = pd.to_datetime(df['생년월일'])
df['초과근무'] = pd.to_timedelta(df['초과근무'])
df['영어등급'] = df['영어등급'].replace(' ',np.nan, regex=True)
df['중국어등급'] = df['중국어등급'].replace(' ',np.nan, regex=True)
df['영어등급'] = df['영어등급'].fillna(0).astype('int32')
df['일본어등급'] =df['일본어등급'].fillna(0).astype('int32')
df['중국어등급'] = df['중국어등급'].fillna(0).astype('int32')
df['급여'] = df['급여'].replace(',','', regex=True).astype('int32')

display(df)

Unnamed: 0,사번,이름,생년월일,부서,영어등급,일본어등급,중국어등급,급여,초과근무
0,18030201,임꺽정,1990-01-23,연구부,1,1,0,3456,0 days 23:10:10
1,18030202,손오공,1992-10-11,마케팅,0,2,0,4320,0 days 10:15:17
2,19030401,전우치,1995-07-02,연구부,1,0,0,5600,0 days 16:21:10
3,19070101,홍길동,1990-11-23,연구부,0,0,3,4500,0 days 15:00:20
4,19070102,사오정,1993-02-01,마케팅,0,0,0,3150,0 days 21:19:50
5,19070103,저팔계,1992-07-16,연구부,0,0,1,4200,0 days 14:10:40
6,19080101,김유신,1993-04-11,총무부,2,0,0,4800,0 days 09:50:30
7,19080102,강감찬,1991-12-07,영업부,1,1,1,10100,0 days 08:40:40
8,19090201,이순신,1992-06-16,영업부,3,1,2,6840,0 days 17:30:20
9,19090202,권율,1993-05-05,연구부,0,3,1,4750,0 days 19:50:20


In [100]:
df1 = df.loc[:,['사번', '영어등급', '일본어등급', '중국어등급']]
df1 = df1.set_index('사번')
display(df1)

Unnamed: 0_level_0,영어등급,일본어등급,중국어등급
사번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
18030201,1,1,0
18030202,0,2,0
19030401,1,0,0
19070101,0,0,3
19070102,0,0,0
19070103,0,0,1
19080101,2,0,0
19080102,1,1,1
19090201,3,1,2
19090202,0,3,1


In [116]:
# 0과 NaN 은 세지 았는다
df1.apply(np.count_nonzero, axis=1)

사번
18030201    2
18030202    1
19030401    1
19070101    1
19070102    0
19070103    1
19080101    1
19080102    3
19090201    3
19090202    2
dtype: int64

In [120]:
df1.apply(pd.Series.value_counts)

Unnamed: 0,영어등급,일본어등급,중국어등급
0,5,5,5
1,3,3,3
2,1,1,1
3,1,1,1


## 데이터의 그룹별 작업 
- 작업 목적에 따른 분류
1. Aggregation
  - 각 그룹에 함수 적용 후, 그룹별 함수 결과 형태의 객체 반환
  - 예) 그룹별 합계, 평균, 개수 구하기
2. Transformation
  - 각 그룹에 함수 적용 후, index-like 객체 반환
  - 예) 그룹 내 데이터 표준화, 각 그룹별 산출 값으로 NA Value 채우기
3. Filtration
  - 각 그룹에 함수 적용 후, 그 결과가 True 인 것만 남김(False인 것 삭제)
  - 예) 데이터 개수가 적은 그룹 제거, 합계, 평균 등에 기반한 데이터 추출

  <span style="background-color:yellow">Highlihgt</span>
  <span style="color:red">Highlihgt</span>
  <span style="color:blue">Highlihgt</span>

### groupby 
- df.<span style="background-color:yellow">groupby</span>( by=None, axis=0, level=None, sort=True, as_index=True,...)
- by/level 에 의해 그룹화된 DataFrameGroupBy / SeriesGroupBy 객체 반환
- by : mapping, function, label or list of labels
   - function의 경우 객체의 index 각 항을 대상으로 함 
- axis : 0인 경우 행, 1인 경우 열 기준으로 그룹 나누기 작업 진행
- level : MultiIndex인 경우 level을 기준으로 그룹 나누기
- sort : 정렬할 것인지 결정하는 것으로  False가 성능면에서 좋음
- as_index : True인 경우 group_label을 index로 사용함
- https://pandas.pydata.org/pandas-docs/stable/reference/groupby.html
- https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html

In [123]:
import numpy as np
import pandas as pd

In [121]:
df = pd.read_csv('./files/data/employees.csv')

df['생년월일'] = pd.to_datetime(df['생년월일'])
df['초과근무'] = pd.to_timedelta(df['초과근무'])
df['영어등급'] = df['영어등급'].replace(' ',np.nan, regex=True)
df['중국어등급'] = df['중국어등급'].replace(' ',np.nan, regex=True)
df['영어등급'] = df['영어등급'].fillna(0).astype('int32')
df['일본어등급'] =df['일본어등급'].fillna(0).astype('int32')
df['중국어등급'] = df['중국어등급'].fillna(0).astype('int32')
df['급여'] = df['급여'].replace(',','', regex=True).astype('int32')

display(df)

Unnamed: 0,사번,이름,생년월일,부서,영어등급,일본어등급,중국어등급,급여,초과근무
0,18030201,임꺽정,1990-01-23,연구부,1,1,0,3456,0 days 23:10:10
1,18030202,손오공,1992-10-11,마케팅,0,2,0,4320,0 days 10:15:17
2,19030401,전우치,1995-07-02,연구부,1,0,0,5600,0 days 16:21:10
3,19070101,홍길동,1990-11-23,연구부,0,0,3,4500,0 days 15:00:20
4,19070102,사오정,1993-02-01,마케팅,0,0,0,3150,0 days 21:19:50
5,19070103,저팔계,1992-07-16,연구부,0,0,1,4200,0 days 14:10:40
6,19080101,김유신,1993-04-11,총무부,2,0,0,4800,0 days 09:50:30
7,19080102,강감찬,1991-12-07,영업부,1,1,1,10100,0 days 08:40:40
8,19090201,이순신,1992-06-16,영업부,3,1,2,6840,0 days 17:30:20
9,19090202,권율,1993-05-05,연구부,0,3,1,4750,0 days 19:50:20


In [122]:
df1 = df.loc[:,['사번', '영어등급', '일본어등급', '중국어등급']]
df1 = df1.set_index('사번')
display(df1)

Unnamed: 0_level_0,영어등급,일본어등급,중국어등급
사번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
18030201,1,1,0
18030202,0,2,0
19030401,1,0,0
19070101,0,0,3
19070102,0,0,0
19070103,0,0,1
19080101,2,0,0
19080102,1,1,1
19090201,3,1,2
19090202,0,3,1


In [127]:
df.groupby('부서')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001AE78578FA0>

In [126]:
df.groupby('부서').sum()
# object들은 날아가버림...숫자 타입만 더해진다
# 심지어 사번도...더해져 버렸다! -> 사번 type이 int기 때문

Unnamed: 0_level_0,사번,영어등급,일본어등급,중국어등급,급여
부서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
마케팅,37100304,0,2,0,7470
연구부,94291008,2,4,5,22506
영업부,38170303,4,2,3,16940
총무부,19080101,2,0,0,4800


In [128]:
dept_grp = df.groupby('부서')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001AE78578D60>

In [130]:
for name, dept in dept_grp:
    display(name, dept)
    print("="*60)

'마케팅'

Unnamed: 0,사번,이름,생년월일,부서,영어등급,일본어등급,중국어등급,급여,초과근무
1,18030202,손오공,1992-10-11,마케팅,0,2,0,4320,0 days 10:15:17
4,19070102,사오정,1993-02-01,마케팅,0,0,0,3150,0 days 21:19:50




'연구부'

Unnamed: 0,사번,이름,생년월일,부서,영어등급,일본어등급,중국어등급,급여,초과근무
0,18030201,임꺽정,1990-01-23,연구부,1,1,0,3456,0 days 23:10:10
2,19030401,전우치,1995-07-02,연구부,1,0,0,5600,0 days 16:21:10
3,19070101,홍길동,1990-11-23,연구부,0,0,3,4500,0 days 15:00:20
5,19070103,저팔계,1992-07-16,연구부,0,0,1,4200,0 days 14:10:40
9,19090202,권율,1993-05-05,연구부,0,3,1,4750,0 days 19:50:20




'영업부'

Unnamed: 0,사번,이름,생년월일,부서,영어등급,일본어등급,중국어등급,급여,초과근무
7,19080102,강감찬,1991-12-07,영업부,1,1,1,10100,0 days 08:40:40
8,19090201,이순신,1992-06-16,영업부,3,1,2,6840,0 days 17:30:20




'총무부'

Unnamed: 0,사번,이름,생년월일,부서,영어등급,일본어등급,중국어등급,급여,초과근무
6,19080101,김유신,1993-04-11,총무부,2,0,0,4800,0 days 09:50:30




In [131]:
dept_grp.get_group('연구부')

Unnamed: 0,사번,이름,생년월일,부서,영어등급,일본어등급,중국어등급,급여,초과근무
0,18030201,임꺽정,1990-01-23,연구부,1,1,0,3456,0 days 23:10:10
2,19030401,전우치,1995-07-02,연구부,1,0,0,5600,0 days 16:21:10
3,19070101,홍길동,1990-11-23,연구부,0,0,3,4500,0 days 15:00:20
5,19070103,저팔계,1992-07-16,연구부,0,0,1,4200,0 days 14:10:40
9,19090202,권율,1993-05-05,연구부,0,3,1,4750,0 days 19:50:20


### 그룹별 작업은 다음 단계를 거쳐 결과를 만들어 낸다
1. Splitting : 그룹 분류 기준에 따라 데이터를 그룹으로 분리
2. Applying : 각 그룹별로 연산 적용
3. Combining : applying의 결과를 하나의 데이터 구조로 결합

In [133]:
dept_grp.mean()

Unnamed: 0_level_0,사번,영어등급,일본어등급,중국어등급,급여
부서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
마케팅,18550152.0,0.0,1.0,0.0,3735.0
연구부,18858201.6,0.4,0.8,1.0,4501.2
영업부,19085151.5,2.0,1.0,1.5,8470.0
총무부,19080101.0,2.0,0.0,0.0,4800.0


In [134]:
df.groupby(by='부서')['급여'].sum()

부서
마케팅     7470
연구부    22506
영업부    16940
총무부     4800
Name: 급여, dtype: int32

In [137]:
dept_grp['급여'].mean()

부서
마케팅    3735.0
연구부    4501.2
영업부    8470.0
총무부    4800.0
Name: 급여, dtype: float64

### groupby의 function 관련 메서드 1
- ```gp.apply(func, *args, **kwargs)```
   - 그룹별로 func을 적용하고 결과를 combine함
   - func의 argument : 그룹별 **DataFrame/Series 객체**
   - 결과로 DataFrame/Series 객체 반환 (변경된 index)

- ```gp.agg(func, *args, **kwargs)```
   - func : function, str, list or dict
   - func의 argument : 그룹별 DataFrame/Series의 **각 Series 객체**(column)를 인수로 받음
   - 결과로 DataFrame 또는 Series 반환 (변경된 index)
    

In [2]:
import warnings  
warnings.filterwarnings('ignore')

In [141]:
temp = df.groupby(by='부서', sort=True)

In [142]:
s1 = temp.apply(lambda x : (x.shape, type(x)))
s1

부서
마케팅    ((2, 9), <class 'pandas.core.frame.DataFrame'>)
연구부    ((5, 9), <class 'pandas.core.frame.DataFrame'>)
영업부    ((2, 9), <class 'pandas.core.frame.DataFrame'>)
총무부    ((1, 9), <class 'pandas.core.frame.DataFrame'>)
dtype: object

In [147]:
df2 = df.loc[:, ['부서', '영어등급', '중국어등급', '일본어등급']]
df2

Unnamed: 0,부서,영어등급,중국어등급,일본어등급
0,연구부,1,0,1
1,마케팅,0,0,2
2,연구부,1,0,0
3,연구부,0,3,0
4,마케팅,0,0,0
5,연구부,0,1,0
6,총무부,2,0,0
7,영업부,1,1,1
8,영업부,3,2,1
9,연구부,0,1,3


In [149]:
temp = df2.groupby('부서', sort=True)
temp

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001AE782BCF40>

In [150]:
s2 = temp.apply(lambda x : np.where(x>0, 1, 0).sum())
s2

부서
마케팅    1
연구부    7
영업부    6
총무부    1
dtype: int64

In [151]:
df3 = df.loc[:, ['부서', '급여']]
df3

Unnamed: 0,부서,급여
0,연구부,3456
1,마케팅,4320
2,연구부,5600
3,연구부,4500
4,마케팅,3150
5,연구부,4200
6,총무부,4800
7,영업부,10100
8,영업부,6840
9,연구부,4750


In [156]:
df3.groupby(by='부서', sort=True)['급여'].agg([min, max, np.mean])

Unnamed: 0_level_0,min,max,mean
부서,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
마케팅,3150,4320,3735.0
연구부,3456,5600,4501.2
영업부,6840,10100,8470.0
총무부,4800,4800,4800.0


In [158]:
df3.groupby(by='부서', sort=True).agg({'급여':[min, max, sum, np.mean]})

Unnamed: 0_level_0,급여,급여,급여,급여
Unnamed: 0_level_1,min,max,sum,mean
부서,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
마케팅,3150,4320,7470,3735.0
연구부,3456,5600,22506,4501.2
영업부,6840,10100,16940,8470.0
총무부,4800,4800,4800,4800.0


### groupby의 function 관련 메서드 2
- ```gp.transform(func)```
   - func의 argument : 그룹별 DataFrame/Series의 **각 Series 객체**(column)를 인수로 받음
   - DataFrame 형식을 유지하면서 결과를 구함 (index 유지)
   
   
- ```gp.filter(func, dropna=True, *args, *kwargs)```
   - 특정 조건으로 데이터를 검색(추출)할 때 사용
   - func의 return : True/False를 반환하는 형태여야 함
   - func의 argument : 그룹별 **DataFrame/Series 객체**
   - dropna : func의 결과가 False인 것에 대해 삭제할 것인가의 여부, dropna=False인 경우 False인 것을 NaN으로 채움
   - filter된 DataFrame 반환 (변경된 index)  

In [159]:
df

Unnamed: 0,사번,이름,생년월일,부서,영어등급,일본어등급,중국어등급,급여,초과근무
0,18030201,임꺽정,1990-01-23,연구부,1,1,0,3456,0 days 23:10:10
1,18030202,손오공,1992-10-11,마케팅,0,2,0,4320,0 days 10:15:17
2,19030401,전우치,1995-07-02,연구부,1,0,0,5600,0 days 16:21:10
3,19070101,홍길동,1990-11-23,연구부,0,0,3,4500,0 days 15:00:20
4,19070102,사오정,1993-02-01,마케팅,0,0,0,3150,0 days 21:19:50
5,19070103,저팔계,1992-07-16,연구부,0,0,1,4200,0 days 14:10:40
6,19080101,김유신,1993-04-11,총무부,2,0,0,4800,0 days 09:50:30
7,19080102,강감찬,1991-12-07,영업부,1,1,1,10100,0 days 08:40:40
8,19090201,이순신,1992-06-16,영업부,3,1,2,6840,0 days 17:30:20
9,19090202,권율,1993-05-05,연구부,0,3,1,4750,0 days 19:50:20


In [167]:
df4 = df.loc[:, ['부서', '이름', '급여']]
df4.loc[0, '급여'] = np.nan
df4

Unnamed: 0,부서,이름,급여
0,연구부,임꺽정,
1,마케팅,손오공,4320.0
2,연구부,전우치,5600.0
3,연구부,홍길동,4500.0
4,마케팅,사오정,3150.0
5,연구부,저팔계,4200.0
6,총무부,김유신,4800.0
7,영업부,강감찬,10100.0
8,영업부,이순신,6840.0
9,연구부,권율,4750.0


In [171]:
a = lambda x : True if type(x) == pd.DataFrame else False
b = lambda x : True if len(x) > 0 else False

df4.groupby(by='부서').filter(b)

Unnamed: 0,부서,이름,급여
0,연구부,임꺽정,
1,마케팅,손오공,4320.0
2,연구부,전우치,5600.0
3,연구부,홍길동,4500.0
4,마케팅,사오정,3150.0
5,연구부,저팔계,4200.0
6,총무부,김유신,4800.0
7,영업부,강감찬,10100.0
8,영업부,이순신,6840.0
9,연구부,권율,4750.0
