# <a id='toc1_'></a>[결측값(Missing Value)](#toc0_)
---

**Table of contents**<a id='toc0_'></a>    
- [결측값(Missing Value)](#toc1_)    
  - [결측값 인식](#toc1_1_)    
    - [[1] `isna` 함수를 이용한 결측값 확인](#toc1_1_1_)    
    - [[2] `info` 함수를 이용한 결측값 확인](#toc1_1_2_)    
    - [[3] 행별, 컬럼별, 전체 관측값 확인](#toc1_1_3_)    
  - [결측값 처리](#toc1_2_)    
    - [[1] 결측값 삭제](#toc1_2_1_)    
      - [결측값이 있는 행 삭제](#toc1_2_1_1_)    
      - [결측값이 있는 열 삭제](#toc1_2_1_2_)    
    - [[2] 단순 대치법](#toc1_2_2_)    

<!-- vscode-jupyter-toc-config
	numbering=false
	anchor=true
	flat=false
	minLevel=1
	maxLevel=6
	/vscode-jupyter-toc-config -->
<!-- THIS CELL WILL BE REPLACED ON TOC UPDATE. DO NOT WRITE YOUR TEXT IN THIS CELL -->

---

## <a id='toc1_1_'></a>[결측값 인식](#toc0_)

### <a id='toc1_1_1_'></a>[[1] `isna` 함수를 이용한 결측값 확인](#toc0_)

In [1]:
import pandas as pd

airquality = pd.read_csv('./datasets/airquality.csv')

In [2]:
print(airquality)

     rownames  Ozone  Solar.R  Wind  Temp  Month  Day
0           1   41.0    190.0   7.4    67      5    1
1           2   36.0    118.0   8.0    72      5    2
2           3   12.0    149.0  12.6    74      5    3
3           4   18.0    313.0  11.5    62      5    4
4           5    NaN      NaN  14.3    56      5    5
..        ...    ...      ...   ...   ...    ...  ...
148       149   30.0    193.0   6.9    70      9   26
149       150    NaN    145.0  13.2    77      9   27
150       151   14.0    191.0  14.3    75      9   28
151       152   18.0    131.0   8.0    76      9   29
152       153   20.0    223.0  11.5    68      9   30

[153 rows x 7 columns]


In [3]:
print(airquality.isna())    # 결측값 확인 (결측값은 True로 표시된다.)

     rownames  Ozone  Solar.R   Wind   Temp  Month    Day
0       False  False    False  False  False  False  False
1       False  False    False  False  False  False  False
2       False  False    False  False  False  False  False
3       False  False    False  False  False  False  False
4       False   True     True  False  False  False  False
..        ...    ...      ...    ...    ...    ...    ...
148     False  False    False  False  False  False  False
149     False   True    False  False  False  False  False
150     False  False    False  False  False  False  False
151     False  False    False  False  False  False  False
152     False  False    False  False  False  False  False

[153 rows x 7 columns]


### <a id='toc1_1_2_'></a>[[2] `info` 함수를 이용한 결측값 확인](#toc0_)

In [4]:
print(airquality.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 153 entries, 0 to 152
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   rownames  153 non-null    int64  
 1   Ozone     116 non-null    float64
 2   Solar.R   146 non-null    float64
 3   Wind      153 non-null    float64
 4   Temp      153 non-null    int64  
 5   Month     153 non-null    int64  
 6   Day       153 non-null    int64  
dtypes: float64(3), int64(4)
memory usage: 8.5 KB
None


### <a id='toc1_1_3_'></a>[[3] 행별, 컬럼별, 전체 관측값 확인](#toc0_)

In [5]:
print(airquality.isna().sum(axis=1))    # 행별 관측값의 개수 출력

0      0
1      0
2      0
3      0
4      2
      ..
148    0
149    1
150    0
151    0
152    0
Length: 153, dtype: int64


In [6]:
print(airquality.isna().sum(axis=1).sum())    # 행별 결측값의 개수를 구한 후, 전체 결측값의 합계 확인

44


In [7]:
print(airquality.isna().sum(axis=0))   # 컬럼별 결측값의 개수 확인

rownames     0
Ozone       37
Solar.R      7
Wind         0
Temp         0
Month        0
Day          0
dtype: int64


In [8]:
print(airquality.shape[0] - airquality.dropna().shape[0])    # 전체 행의 개수 - 결측값 잇는 행을 제거한 행의 개수

42


## <a id='toc1_2_'></a>[결측값 처리](#toc0_)

### <a id='toc1_2_1_'></a>[[1] 결측값 삭제](#toc0_)

#### <a id='toc1_2_1_1_'></a>[결측값이 있는 행 삭제](#toc0_)

In [9]:
import pandas as pd

airquality = pd.read_csv('./datasets/airquality.csv')
airquality = airquality.dropna(axis=0)    # 결측값이 있는 행 제거

print(airquality.isna().sum(axis=0))

rownames    0
Ozone       0
Solar.R     0
Wind        0
Temp        0
Month       0
Day         0
dtype: int64


#### <a id='toc1_2_1_2_'></a>[결측값이 있는 열 삭제](#toc0_)

In [10]:
import pandas as pd

airquality = pd.read_csv('./datasets/airquality.csv')
airquality = airquality.dropna(axis=1)    # 결측값이 있는 열 제거

print(airquality.isna().sum(axis=1))

0      0
1      0
2      0
3      0
4      0
      ..
148    0
149    0
150    0
151    0
152    0
Length: 153, dtype: int64


### <a id='toc1_2_2_'></a>[[2] 단순 대치법](#toc0_)

- 데이터의 결측값을 **평균값(Mean)** 으로 변경하는 기법

In [11]:
import pandas as pd

airquality = pd.read_csv('./datasets/airquality.csv')

print(pd.isna(airquality['Ozone']).value_counts())    # 결측값과 결측값이 아닌 값들 개수 출력

Ozone
False    116
True      37
Name: count, dtype: int64


In [12]:
airquality['Ozone'] = airquality['Ozone'].fillna(airquality['Ozone'].mean())    # 평균값으로 대체

print(pd.isna(airquality['Ozone']).value_counts())

Ozone
False    153
Name: count, dtype: int64


- 결측값 대체 전후의 통계량의 차이 구하기

In [13]:
import pandas as pd

airquality = pd.read_csv('./datasets/airquality.csv')

a = airquality['Ozone'].std()    # 표준편차 (결측값 대체 전)
print(a)

32.987884514433944


In [14]:
airquality['Ozone'] = airquality['Ozone'].fillna(airquality['Ozone'].mean())   # 결측값을 평균값으로 대체
b = airquality['Ozone'].std()    # 표준편차 (결측값 대체 후)
print(b)

28.693372188220756


In [15]:
# 결측값을 대체하기 전과 대체한 후의 값 차이 구하기
print(a - b)

4.294512326213187
