# 데이터 전처리
- 처리가 필요한 데이터
   - 누락 데이터(NA) -> 누락 데이터 처리
   - 타입이 올바르지 않은 데이터 -> 데이터 타입 변경
   - 콤마, 공백, 모호한 대/소문자 사용 -> 콤마, 공백 제거, 대/소문자 변경
   - 의미 없는 데이터 -> 의미 없는 데이터 선별 및 제거

In [1]:
import numpy as np
import pandas as pd

In [2]:
emp = pd.read_csv('./files/data/employees.csv', index_col='사번')
emp['생년월일'] = pd.to_datetime(emp['생년월일'])
emp['초과근무'] = pd.to_timedelta(emp['초과근무'])
emp = emp.replace(' ', 0, regex=True)
emp = emp.replace(np.nan, 0)
emp['영어등급'] = emp['영어등급'].astype(np.int32)
emp['일본어등급'] = emp['일본어등급'].astype(np.int32)
emp['중국어등급'] = emp['중국어등급'].astype(np.int32)
emp['급여'] = emp['급여'].replace('\,', '', regex=True).astype(np.int64)

display(emp)

Unnamed: 0_level_0,이름,생년월일,부서,영어등급,일본어등급,중국어등급,급여,초과근무
사번,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
18030201,임꺽정,1990-01-23,연구부,1,1,0,3456,0 days 23:10:10
18030202,손오공,1992-10-11,마케팅,0,2,0,4320,0 days 10:15:17
19030401,전우치,1995-07-02,연구부,1,0,0,5600,0 days 16:21:10
19070101,홍길동,1990-11-23,연구부,0,0,3,4500,0 days 15:00:20
19070102,사오정,1993-02-01,마케팅,0,0,0,3150,0 days 21:19:50
19070103,저팔계,1992-07-16,연구부,0,0,1,4200,0 days 14:10:40
19080101,김유신,1993-04-11,총무부,2,0,0,4800,0 days 09:50:30
19080102,강감찬,1991-12-07,영업부,1,1,1,10100,0 days 08:40:40
19090201,이순신,1992-06-16,영업부,3,1,2,6840,0 days 17:30:20
19090202,권율,1993-05-05,연구부,0,3,1,4750,0 days 19:50:20


## NA정보 확인
- df.info()
   - index, columns, dtypes, memory usage 정보 출력
   - 출력 정보의 정도를 조절할 수 있는 parameters가 있음
   - memory_usage='deep', deep memory introspection 설정
   - [DataFrame.info()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html)
- df.isna()
   - Boolean 데이터로 작성된 DataFrame 객체 반환 (NA value => True)
   - isna, isnull은 동일 동작 (isnull 는 isna 의 alias)
   - any(), all() 등으로 정보를 요약 할 수 있음
   - df.isna().any()
   - df.isna().all()
   - df.isna().any().any()
   - [DataFrame.isna()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isna.html)
- df.any(axis=0) 
   - column 별로 값이 하나라도 True인 경우 True, 아니면 False
   - axis = 1로 하면, row 별로 확인
- df.all(axis=0)
   - column 별로 모든 값이 True인 경우 True, 아니면 False
   - axis = 1로 하면, row 별로 확인   

In [3]:
df = pd.read_csv('./files/data/sample1.csv')
df

Unnamed: 0,ID,pname,birth,dept,영어,일본어,중국어
0,18030201,홍길동,1990-01-23,연구소,1.0,1.0,
1,18030202,전우치,1992-10-11,마케팅,,2.0,
2,19030401,사오정,1995-07-02,연구소,1.0,,
3,19070101,손오공,1990-11-23,연구소,,,3.0
4,19070102,임꺽정,1993-02-01,마케팅,,,
5,19070103,저팔계,1992-07-16,연구소,,,1.0


In [7]:
names = ['사번', '이름', '생년월일', '부서', '영어', '일본어', '중국어']

df.columns = names
df

Unnamed: 0,사번,이름,생년월일,부서,영어,일본어,중국어
0,18030201,홍길동,1990-01-23,연구소,1.0,1.0,
1,18030202,전우치,1992-10-11,마케팅,,2.0,
2,19030401,사오정,1995-07-02,연구소,1.0,,
3,19070101,손오공,1990-11-23,연구소,,,3.0
4,19070102,임꺽정,1993-02-01,마케팅,,,
5,19070103,저팔계,1992-07-16,연구소,,,1.0


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   사번      6 non-null      int64  
 1   이름      6 non-null      object 
 2   생년월일    6 non-null      object 
 3   부서      6 non-null      object 
 4   영어      2 non-null      float64
 5   일본어     2 non-null      float64
 6   중국어     2 non-null      float64
dtypes: float64(3), int64(1), object(3)
memory usage: 464.0+ bytes


In [11]:
df1 = df[['영어', '일본어', '중국어']]
df1.isna()
df1.isna().sum() # sum 으로 조건 만족하는지 안 하는지 볼 수 있다고 ?

영어     4
일본어    4
중국어    4
dtype: int64

## NA 제거
- df.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
- axis
   - axis=0 이거나 'index' : NA value 포함 행(row) 제거
   - axis=1 이거나 'columns' : NA value 포함 열(column) 제거
- how
   - how='any' : NA value 가 하나라도 포함된 경우 True
   - how='all' : 모든 값이 NA value 인 경우 True
- thresh
   - int, non-NA value 개수가 설정 값 이상 일 때 제거 안함
- subset 
   - array-like, NA value를 살펴 볼 label 목록
   - axis=0 : columns에 대한 label 을 목록으로 작성함
- inplace
   - bool, True인 경우 대상에 직접 반영 하고, None을 반환

## NA 채우기
- df.fillna(value=None, method=None, axis=None, inplace=False, limit=None, ... )
- NA value 를 value 또는 method를 사용하여 변경한 DataFrame 객체 반환
- value 
   - scalar, dict, Series, or DataFrame
   - NA values를 대신 할 값을 지정함
   - dict, Series, DataFrame 을 사용해 행/열 별 채우기 값 별도 지정 가능
- method
   - {'backfill', 'bfill', 'pad', 'ffill', None}
   - value=None 일 때, NA values를 대신 할 값 선정 방법을 지정함
   - 'backfill', 'bfill' : (아래->위)다음 발견되는 valid observation으로 채움
   - 'pad', 'ffill' : (위->아래) 이전에 발견된 valid observation으로 채움
- axis
   - axis=0 이거나 'index' : 행 방향으로 채우기 진행
   - axis=1 이거나 'columns' : 열 방향으로 채우기 진행
- inplace
   - bool, True인 경우 대상에 직접 반영 하고, None을 반환
- limit
   - NA values를 다른 value로 변경하는 동작의 최대 횟수

## Value 대체
- df.replace(to_replace, value=None, inplace=False, limit=None, regex=False,...)
- to_replace로 주어진 대상이 value로 주어진 값으로 변경 된 DataFrame 객체
- to_replace
   - str, regex, list, dict, Series, int, float, or None
   - value로 대체될 값들을 찾는 방법
   - API에서 상세 설명 참조 ([DataFrmae.replace](https://pandas.pydata.org/pandas-docs/version/0.25/reference/api/pandas.DataFrame.replace.html))
- value
   - scalar, dict, list, str, regex, default None
   - to_replace에 매칭하는 값을 대체할 값을 지정함
   - dict 을 사용해 열 별 채우기 값을 별도 지정 가능
- inplace
   - bool, True인 경우 대상에 직접 반영 하고, None을 반환
- limit
   - NA values를 다른 value로 변경하는 동작의 최대 횟수
- regex
   - bool or same types as to_replace
   - True 설정 시 to_replace 및 value의 정규식 사용 가능 
   - to_replace는 str 을 사용해야 함


## DataFrame 합치기

### pd.concat 
- 여러개 데이터 프레임 하나로 합치기
- pd.concat(objs, axis=0, join=‘outer’, ignore_index=False,verify_integrity=False, ... )
- index를 기준으로, 행/열 방향으로 DataFrame을 병합함
- objs : a sequence or mapping of Series or DataFrame objects
- axis : 0  or 'index' : 행 방향, 1 or 'columns' : 열 방향
- join : { ‘outer’, ‘inner’ }, 매치되는 index/column 없을 때의 동작
   - outer : NaN 채우기, inner : 삭제하기
- ignore_index : index를 무시하고 RangeIndex로 변경
- verity_integrity : True : 중복 데이터 있으면 오류 발생 
- [pandas.concat](https://pandas.pydata.org/pandas-docs/version/0.25/reference/api/pandas.concat.html)  

### pd.merge
- pd.merge(left, right, how=‘inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, ...)
- on에 지정된 병합 기준 또는 index에 따라 left, right 병합
- left, right : DataFrame or named Series
- how : {‘left’, ‘right’, ‘outer’, ‘inner’}, default ‘inner’
- on : label or list,  병합 기준 지정 (columns or index level names)
- left_on, right_on : label or list, 왼쪽/오른쪽 병합 기준 지정
- left_index, right_index
   - True/False를 사용하여 index를 병합 기준으로 사용할지 여부 지정
   - columns가 다를 경우 True로 지정해야 함

- [pandas.merge](https://pandas.pydata.org/pandas-docs/version/0.25/reference/api/pandas.merge.html)


## 데이터 삭제
- x.drop(labels, axis=0, ...)
    - labels : 한 개의 label 또는 list-like index/column labels
    - axis=0 or 'index' : 행 삭제
    - axis=1 or 'columns' : 열 삭제
    - [DataFrame - drop](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html)

###  [ 실습 ]

## 데이터 추가
- x.append(other, ignore_index=False, verify_integrity=False, ...)
   - other에 전달된 데이터를 추가한 객체 반환
   - other 
     - x is DataFrame : DataFrame, Series/dict-like, list of these
     - x is Series : Series or list/tuple of Series
   - ignore_index : True - index labels 사용하지 않음, index 없는 대상 추가 시 필수
   - verity_integrity : True - index 중복 시 ValueError 발생
   - [DataFrame - append](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.append.html)


###  [ 실습 ]

## 데이터 변환

### Series.map

- s.map(arg, na_action=None)
   - arg로 전달된 내용이 ***각 항에 적용***된 Series 반환
- arg : function, dict, Series
   - Series의 각 항에 적용될 내용
   - dict가 사용될 경우 key에 없는 것이 Series에 포함되어 있으면 NaN이 됨 
- na_action : {None, 'ignore'}  (default None)
  - 'ignore' : NA Value에 대해 동작을 무시하고  NaN, None, NaT 로 채움
- API : [Series.map](https://pandas.pydata.org/docs/reference/api/pandas.Series.map.html)

### 부서별 코드 번호 부여

### 초과근무 금액 계산

### apply
- x.apply( func, axis, ...,  args=(), **kwds )  # x : DataFrame, Series
- axis에 설정에 따라 행/열 별로 func에 주어진 함수를 적용한 결과 반환
- func : 각 행이나 열에 적용할 함수
   - 함수는 lambda로 작성하거나 numpy, Series 등에서 제공되는 것 사용
   - apply는 행/열에 함수를 적용 함  (map은 각 항에 함수를 적용)
- axis : 0 or ‘index : 각 column 에 적용, 1 or ‘columns’ : 각 row에 적용
- args : array 또는 Series를 포함한 tuple로 작성
   - func에 전달 할 Positional arguments
- kwds  
   - func에 전달 할 Keyword arguments
- API : [DataFrame.apply](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.apply.html)

### aggregating functions
- mean()
- sum()
- size()
- count()
- std()
- var()
- describe()
- first()
- last()
- nth()
- min()
- max()

## 데이터의 그룹별 작업 
- 작업 목적에 따른 분류
1. Aggregation
  - 각 그룹에 함수 적용 후, 그룹별 함수 결과 형태의 객체 반환
  - 예) 그룹별 합계, 평균, 개수 구하기
2. Transformation
  - 각 그룹에 함수 적용 후, index-like 객체 반환
  - 예) 그룹 내 데이터 표준화, 각 그룹별 산출 값으로 NA Value 채우기
3. Filtration
  - 각 그룹에 함수 적용 후, 그 결과가 True 인 것만 남김(False인 것 삭제)
  - 예) 데이터 개수가 적은 그룹 제거, 합계, 평균 등에 기반한 데이터 추출

  

### groupby 
- df.groupby( by=None, axis=0, level=None, sort=True, as_index=True,...)
- by/level 에 의해 그룹화된 DataFrameGroupBy / SeriesGroupBy 객체 반환
- by : mapping, function, label or list of labels
   - function의 경우 객체의 index 각 항을 대상으로 함 
- axis : 0인 경우 행, 1인 경우 열 기준으로 그룹 나누기 작업 진행
- level : MultiIndex인 경우 level을 기준으로 그룹 나누기
- sort : 정렬할 것인지 결정하는 것으로  False가 성능면에서 좋음
- as_index : True인 경우 group_label을 index로 사용함
- https://pandas.pydata.org/pandas-docs/stable/reference/groupby.html
- https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html

### 그룹별 작업은 다음 단계를 거쳐 결과를 만들어 낸다
1. Splitting : 그룹 분류 기준에 따라 데이터를 그룹으로 분리
2. Applying : 각 그룹별로 연산 적용
3. Combining : applying의 결과를 하나의 데이터 구조로 결합

### groupby의 function 관련 메서드 1
- ```gp.apply(func, *args, **kwargs)```
   - 그룹별로 func을 적용하고 결과를 combine함
   - func의 argument : 그룹별 **DataFrame/Series 객체**
   - 결과로 DataFrame/Series 객체 반환 (변경된 index)

- ```gp.agg(func, *args, **kwargs)```
   - func : function, str, list or dict
   - func의 argument : 그룹별 DataFrame/Series의 **각 Series 객체**(column)를 인수로 받음
   - 결과로 DataFrame 또는 Series 반환 (변경된 index)
    

In [2]:
import warnings  
warnings.filterwarnings('ignore')

### groupby의 function 관련 메서드 2
- ```gp.transform(func)```
   - func의 argument : 그룹별 DataFrame/Series의 **각 Series 객체**(column)를 인수로 받음
   - DataFrame 형식을 유지하면서 결과를 구함 (index 유지)
   
   
- ```gp.filter(func, dropna=True, *args, *kwargs)```
   - 특정 조건으로 데이터를 검색(추출)할 때 사용
   - func의 return : True/False를 반환하는 형태여야 함
   - func의 argument : 그룹별 **DataFrame/Series 객체**
   - dropna : func의 결과가 False인 것에 대해 삭제할 것인가의 여부, dropna=False인 경우 False인 것을 NaN으로 채움
   - filter된 DataFrame 반환 (변경된 index)  