## 누락 데이터 확인과 처리
- 워크시트 셀이 데이터 값이 누락되거나 잘 못들어가기도 하고 임의의 구조로 되어 있는 데이터를
- 가공해 데이터 분석에 편리한 데이터로 만드는 과정을 데이터 정제 (Data Cleaning) 혹은 Data tidying 이라 한다.
- 누락된 데이터를 찾아 상황에 맞게 처리하여 분석이 편하고 정확한 결과가 나오게 한다.







## Null 정보 확인
```python
DataFrame_data.info() # index, col 범위, 데이터 타입, missing data가 아닌 값의 개수와 메모리 사용량 정보 출력
DataFrame_data.isnull() # 데이터가 null 이면 해당 데이터 값의 위치에 True, 아니면 False
DataFrame_data.notnull() # 데이터가 not null 이면 해당 데이터 값의 위치에 True, 아니면 False

DataFrame_data.isnull().sum() # null 개수 계산
```

## Null 처리
### 누락데이터가 있는 행이나 열을 삭제
```python
DataFrame_data.dropna([axis=0(기본) or 1, how='any'(기본) or 'all', thresh=정수, subset=라벨])
```
- axis=0 또는 axis='index' 이면 index 방향으로 각 행의 null을 확인해 제거
- axis=1 또는 axis='columns' 이면 col 방향으로 각 열의 null 확인해 제거
- how='any' : 행 또는 열에 하나라도 null이 있으면 행 혹은 열 제거
- how='all' : 행 또는 열의 모든 데이터가 null이면 행 혹은 열 제거
- threash=정수를 지정하면 not-null 개수가 해당 정수 미만일 때만 행이나 열을 제거한다.
- subset에는 제거하고자 하는 행 혹은 열과 다른 축의 라벨을 지정해 null을 확인할 기준을 설정할수 있다.
- (subset에 등록된 행/열의 null 을 기준으로 처리)

### 누락데이터가 있는 행이나 열을 특정 값으로 채우기
```python
DataFrame_data.fillna(value=None, method=None, axis=None)
```
- 라벨에는 index 라벨이나 열 이름을 리스트로 지정한다.
- value : null에 채울 값
- 

In [1]:
import pandas as pd
folder = './example/pyexcel-master/data/ch07/missing_data/'

### Null 정보 확인

In [2]:
excel_file = folder + '자동차판매현황.xlsx'
df = pd.read_excel(excel_file, index_col='연도')
df

Unnamed: 0_level_0,세단A,세단B,트럭X,왜건K,밴Q
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2017,430.0,320,,,
2018,529.0,293,105.0,,
2019,580.0,325,195.0,134.0,
2020,595.0,253,201.0,158.0,75.0
2021,516.0,337,232.0,179.0,93.0
2022,,298,,189.0,120.0


In [3]:
df.info() # index와 column의 범위, 데이터의 타입, 결측치가 아닌 값의 개수와 메모리 사용량 요작정리

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6 entries, 2017 to 2022
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   세단A     5 non-null      float64
 1   세단B     6 non-null      int64  
 2   트럭X     4 non-null      float64
 3   왜건K     4 non-null      float64
 4   밴Q      3 non-null      float64
dtypes: float64(4), int64(1)
memory usage: 288.0 bytes


In [8]:
df.isnull() # null 이면 True

Unnamed: 0_level_0,세단A,세단B,트럭X,왜건K,밴Q
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2017,False,False,True,True,True
2018,False,False,False,True,True
2019,False,False,False,False,True
2020,False,False,False,False,False
2021,False,False,False,False,False
2022,True,False,True,False,False


In [11]:
df.isnull().sum() # null 개수 계산

세단A    1
세단B    0
트럭X    2
왜건K    2
밴Q     3
dtype: int64

In [12]:
df.notnull() # not null 이면 True

Unnamed: 0_level_0,세단A,세단B,트럭X,왜건K,밴Q
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2017,True,True,False,False,False
2018,True,True,True,False,False
2019,True,True,True,True,False
2020,True,True,True,True,True
2021,True,True,True,True,True
2022,False,True,False,True,True


### 누락데이터가 있는 행이나 열을 삭제

In [14]:
excel_file = folder + '자동차판매현황.xlsx'
df = pd.read_excel(excel_file, index_col='연도')
df

Unnamed: 0_level_0,세단A,세단B,트럭X,왜건K,밴Q
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2017,430.0,320,,,
2018,529.0,293,105.0,,
2019,580.0,325,195.0,134.0,
2020,595.0,253,201.0,158.0,75.0
2021,516.0,337,232.0,179.0,93.0
2022,,298,,189.0,120.0


In [17]:
df.dropna(axis=0) # null 이 하나라도 있는 행 제거 (df.dropna() 와 동일)

Unnamed: 0_level_0,세단A,세단B,트럭X,왜건K,밴Q
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020,595.0,253,201.0,158.0,75.0
2021,516.0,337,232.0,179.0,93.0


In [18]:
df.dropna(axis=0, thresh=4) # null이 아닌 행이 4개 미만인 행 삭제

Unnamed: 0_level_0,세단A,세단B,트럭X,왜건K,밴Q
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2019,580.0,325,195.0,134.0,
2020,595.0,253,201.0,158.0,75.0
2021,516.0,337,232.0,179.0,93.0


In [19]:
df.dropna(axis=1)

Unnamed: 0_level_0,세단B
연도,Unnamed: 1_level_1
2017,320
2018,293
2019,325
2020,253
2021,337
2022,298


In [20]:
df.dropna(axis=1, subset=[2018, 2019])

Unnamed: 0_level_0,세단A,세단B,트럭X
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2017,430.0,320,
2018,529.0,293,105.0
2019,580.0,325,195.0
2020,595.0,253,201.0
2021,516.0,337,232.0
2022,,298,


### 누락데이터가 있는 행이나 열을 특정 값으로 채우기

In [22]:
df.fillna(0) # null 을 0으로 채운다. (df.fillna(value=0)와 동일)

Unnamed: 0_level_0,세단A,세단B,트럭X,왜건K,밴Q
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2017,430.0,320,0.0,0.0,0.0
2018,529.0,293,105.0,0.0,0.0
2019,580.0,325,195.0,134.0,0.0
2020,595.0,253,201.0,158.0,75.0
2021,516.0,337,232.0,179.0,93.0
2022,0.0,298,0.0,189.0,120.0


In [23]:
df.fillna('누락') # null을 '누락'으로 채운다.

Unnamed: 0_level_0,세단A,세단B,트럭X,왜건K,밴Q
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2017,430.0,320,누락,누락,누락
2018,529.0,293,105.0,누락,누락
2019,580.0,325,195.0,134.0,누락
2020,595.0,253,201.0,158.0,75.0
2021,516.0,337,232.0,179.0,93.0
2022,누락,298,누락,189.0,120.0


In [27]:
df.fillna(method='bfill') # axis=0 (default): 다음 index의 not null 인 값으로 채운다.

Unnamed: 0_level_0,세단A,세단B,트럭X,왜건K,밴Q
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2017,430.0,320,105.0,134.0,75.0
2018,529.0,293,105.0,134.0,75.0
2019,580.0,325,195.0,134.0,75.0
2020,595.0,253,201.0,158.0,75.0
2021,516.0,337,232.0,179.0,93.0
2022,,298,,189.0,120.0


In [28]:
df.fillna(method='ffill') # axis=0 (default): 이전 index의 not null 인 값으로 채운다.

Unnamed: 0_level_0,세단A,세단B,트럭X,왜건K,밴Q
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2017,430.0,320,,,
2018,529.0,293,105.0,,
2019,580.0,325,195.0,134.0,
2020,595.0,253,201.0,158.0,75.0
2021,516.0,337,232.0,179.0,93.0
2022,516.0,298,232.0,189.0,120.0


In [30]:
# 열별로 다른 값을 채울때
values = {'세단A':500, '트럭X':200, '왜건K':0, '밴Q':0}
df.fillna(values)

Unnamed: 0_level_0,세단A,세단B,트럭X,왜건K,밴Q
연도,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2017,430.0,320,200.0,0.0,0.0
2018,529.0,293,105.0,0.0,0.0
2019,580.0,325,195.0,134.0,0.0
2020,595.0,253,201.0,158.0,75.0
2021,516.0,337,232.0,179.0,93.0
2022,500.0,298,200.0,189.0,120.0
