In [None]:
# 그래프 해상도 설정
import matplotlib.pyplot as plt
plt.rcParams.update({'figure.dpi' : '100'})
%config InlineBackend.figure_format = 'retina'

---

# 07 데이터 정제  - 빠진 데이터, 이상한 데이터 제거하기

## 07-1 빠진 데이터를 찾아라! - 결측치 정제하기

### 결측치 찾기

#### 결측치 만들기

In [None]:
import pandas as pd
import numpy as np
df = pd.DataFrame({'sex'   : ['M', 'F', np.nan, 'M', 'F'],
                   'score' : [5, 4, 3, 4, np.nan]})
df

In [None]:
df['score'] + 1

#### 결측치 확인하기

In [None]:
# 결측치 확인


In [None]:
# 결측치 빈도 확인


### 결측치 제거하기
#### 결측치 있는 행 제거하기

In [None]:
# score 결측치 제거


In [None]:
# score 결측치 제거된 데이터 만들기
df_nomiss = ?? 
df_nomiss['score'] + 1                   # score로 연산

#### 여러 변수에 결측치 없는 데이터 추출하기

In [None]:
# score, sex 결측치 제거
df_nomiss = ??  
df_nomiss

#### 결측치가 하나라도 있으면 제거하기

In [None]:
df_nomiss2 = df.dropna()  # 모든 변수에 결측치 없는 데이터 추출
df_nomiss2

------------------------------------------------------------------------
#### (알아 두면 좋아요) 결측치 제거하지 않고 분석하기
####  

In [None]:
df['score'].mean()

In [None]:
df['score'].sum()

In [None]:
df.groupby('sex').agg(mean_score = ('score', 'mean'),
                      sum_score  = ('score', 'sum'))

------------------------------------------------------------------------
### 결측치 대체하기
#### 평균값으로 결측치 대체하기

In [None]:
exam = pd.read_csv('exam.csv')           # 데이터 불러오기
exam.loc[[2, 7, 14], ['math']] = np.nan  # 2, 7, 14행의 math에 NaN 할당, 
                                         # df.loc[ [ 행위치, . . .] , [ 열위치, . . . ] ]   # 16-2 절 참조

exam

In [None]:
exam['math'].mean()

In [None]:
# math가 NaN이면 55로 대체
exam['math'] = ?? 
exam                                    # 출력

In [None]:
exam['math'].isna().sum()  # 결측치 빈도 확인

---
## 07-2 이상한 데이터를 찾아라! - 이상치 정제하기
### 이상치 제거하기 - 존재할 수 없는 값


In [None]:
df = pd.DataFrame({'sex'   : [1, 2, 1, 3, 2, 1], 
                   'score' : [5, 4, 3, 4, 2, 6]})
df

#### 이상치 확인하기
##### 정상치 - sex(1,2) / score(1~5)
##### value_counts().sort_index() 이용 : 빈도 기준이 아니라 변수 값 순서로 정렬

In [None]:
# 'sex' 변수의 이상치 확인 (1,2)


In [None]:
# 'score' 변수의 이상치 확인 (0~5)


#### 결측 처리하기
##### numpy.where() 함수 이용 결측처리

In [None]:
# sex가 3이면 NaN 부여

df

In [None]:
# score가 5보다 크면 NaN 부여

df

In [None]:
# sex, score 결측치 제거
# sex별 분리
# score 평균 구하기
df.dropna(subset = ['sex', 'score']) \
       .groupby('sex') \
       .agg(mean_score = ('score', 'mean'))

------------------------------------------------------------------------
#### (알아 두면 좋아요) `np.where()`는 문자와 `NaN`을 함께 반환할 수 없습니다.

In [None]:
df = pd.DataFrame({'x1' : [1, 1, 2, 2]})
df['x2'] = np.where(df['x1'] == 1, 'a', np.nan)  # 조건에 맞으면 문자 부여
df

In [None]:
df.isna()

In [None]:
# 결측치로 만들 값에 문자 부여
df['x2'] = np.where(df['x1'] == 1, 'a', 'etc')

In [None]:
# 'etc'를 NaN으로 바꾸기
df['x2'] = df['x2'].replace('etc', np.nan)  

In [None]:
df

In [None]:
df.isna()

------------------------------------------------------------------------
### 이상치 제거하기 - 극단적인 값

#### 상자 그림으로 극단치 기준 정하기

##### 1. 상자 그림 살펴보기

In [None]:
mpg = pd.read_csv('mpg.csv')

import seaborn as sns
sns.boxplot(data = mpg, y = 'hwy')

##### 2.극단치 기준값 구하기

**(1) 1사분위수, 3사분위수 구하기**

In [None]:
pct25 = mpg['hwy'].quantile(.25)
pct25

In [None]:
pct75 = mpg['hwy'].quantile(.75)
pct75

**(2) IQR 구하기**

In [None]:
iqr = pct75 - pct25
iqr

**(3) 하한, 상한 구하기**

In [None]:
pct25 - 1.5 * iqr  # 하한

In [None]:
pct75 + 1.5 * iqr  # 상한

##### 3. 극단치를 결측 처리하기

In [None]:
# 4.5 ~ 40.5 벗어나면 NaN 부여
mpg['hwy'] = np.where((mpg['hwy'] < 4.5) | (mpg['hwy'] > 40.5), np.nan, mpg['hwy'])

# 결측치 빈도 확인
mpg['hwy'].isna().sum()

##### 4. 결측치 제거하고 분석하기

In [None]:
# hwy 결측치 제거
# drv별 분리
# hwy 평균 구하기
mpg.dropna(subset = 'hwy') \
   .groupby('drv') \
   .agg(mean_hwy = ('hwy', 'mean'))

### 정리하기

In [None]:
## 1. 결측치 정제하기
pd.isna(df).sum()                                 # 결측치 확인
df_nomiss = df.dropna(subset = ['score'])         # 결측치 제거
df_nomiss = df.dropna(subset = ['score', 'sex'])  # 여러 변수 동시에 결측치 제거


## 2. 이상치 정제하기

# 이상치 확인
df['sex'].value_counts(sort = False)

# 이상치 결측 처리
df['sex'] = np.where(df['sex'] == 3, np.nan, df['sex'])

# 상자 그림으로 극단치 기준값 찾기
pct25 = mpg['hwy'].quantile(.25)  # 1사분위수
pct75 = mpg['hwy'].quantile(.75)  # 3사분위수
iqr = pct75 - pct25               # IQR
pct25 - 1.5 * iqr                 # 하한
pct75 + 1.5 * iqr                 # 상한

# 극단치 결측 처리
mpg['hwy'] = np.where((mpg['hwy'] < 4.5) | (mpg['hwy'] > 40.5), np.nan, mpg['hwy'])