# 이상치 모듈 기능 확인

## #01. 준비작업

### [1] 패키지 참조

In [1]:
import sys
import os
work_path = os.path.abspath(os.path.join(os.getcwd(), "../.."))
sys.path.append(work_path)

from helper.util import *

### [2] 데이터 가져오기

In [2]:
origin = my_read_excel("https://data.hossam.kr/edadata/grade.xlsx", 
                    index_col="이름", info=False)
my_pretty_table(origin.head())

+--------+--------+--------+--------+--------+--------+--------+
| 이름   |   학년 | 성별   |   국어 |   영어 |   수학 |   과학 |
|--------+--------+--------+--------+--------+--------+--------|
| 철수   |      1 | 남자   |     98 |     77 |     88 |     64 |
| 영희   |      2 | 여자   |     88 |    120 |     62 |     72 |
| 민철   |      1 | 남자   |     92 |     70 |     83 |     79 |
| 수현   |      3 | 여자   |     63 |     60 |     31 |     71 |
| 호영   |      4 | 남자   |     75 |     50 |     90 |     88 |
+--------+--------+--------+--------+--------+--------+--------+


## #02. 데이터 전처리

### [1] 명목형 변수에 대한 타입변환

In [3]:
df = set_category(origin, "학년", "성별")
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9 entries, 철수 to 석영
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   학년      9 non-null      category
 1   성별      9 non-null      category
 2   국어      9 non-null      int64   
 3   영어      9 non-null      int64   
 4   수학      9 non-null      int64   
 5   과학      9 non-null      int64   
dtypes: category(2), int64(4)
memory usage: 706.0+ bytes


## #03. 이상치 경계값 구하기

### [1] 전체 필드를 대상으로 수행

In [4]:
iq_table = get_outlier_table(df)
my_pretty_table(iq_table)

+---------+------+------+------+-------+-------+--------+
| FIELD   |   Q1 |   Q2 |   Q3 |   IQR |    UP |   DOWN |
|---------+------+------+------+-------+-------+--------|
| 국어    |   80 |   88 |   91 |    11 | 107.5 |   63.5 |
| 영어    |   70 |   88 |   90 |    20 |   120 |     40 |
| 수학    |   79 |   83 |   89 |    10 |   104 |     64 |
| 과학    |   72 |   79 |   88 |    16 |   112 |     48 |
+---------+------+------+------+-------+-------+--------+


### [2] 특정 필드를 대상으로 수행

In [5]:
iq_table = get_outlier_table(df, "국어", "영어")
my_pretty_table(iq_table)

+---------+------+------+------+-------+-------+--------+
| FIELD   |   Q1 |   Q2 |   Q3 |   IQR |    UP |   DOWN |
|---------+------+------+------+-------+-------+--------|
| 국어    |   80 |   88 |   91 |    11 | 107.5 |   63.5 |
| 영어    |   70 |   88 |   90 |    20 |   120 |     40 |
+---------+------+------+------+-------+-------+--------+


## #04. 이상치 정제

### [1] 이상치 경계값으로 대체

특정 필드에 대해서만 처리할 경우 필드 이름을 파라미터로 전달한다.

`replace_outliner(df, '국어','영어')`

In [6]:
df2 = replace_outliner(df)
my_pretty_table(df2)

+--------+--------+--------+--------+--------+--------+--------+
| 이름   |   학년 | 성별   |   국어 |   영어 |   수학 |   과학 |
|--------+--------+--------+--------+--------+--------+--------|
| 철수   |      1 | 남자   |     98 |     77 |     88 |     64 |
| 영희   |      2 | 여자   |     88 |    120 |     64 |     72 |
| 민철   |      1 | 남자   |     92 |     70 |     83 |     79 |
| 수현   |      3 | 여자   |   63.5 |     60 |     64 |     71 |
| 호영   |      4 | 남자   |     75 |     50 |     90 |     88 |
| 영호   |      4 | 남자   |     80 |     88 |     91 |     72 |
| 용식   |      2 | 남자   |     82 |     88 |     79 |     90 |
| 나영   |      1 | 여자   |     90 |     92 |     81 |     95 |
| 석영   |      1 | 남자   |     91 |     90 |     89 |     80 |
+--------+--------+--------+--------+--------+--------+--------+


### [2] 이상치를 결측치로 대체

특정 필드에 대해서만 처리할 경우 필드 이름을 파라미터로 전달한다.

`replace_outliner(df, '국어','영어')`

In [7]:
df3 = replace_outliner_to_nan(df)
my_pretty_table(df3)

+--------+--------+--------+--------+--------+--------+--------+
| 이름   |   학년 | 성별   |   국어 |   영어 |   수학 |   과학 |
|--------+--------+--------+--------+--------+--------+--------|
| 철수   |      1 | 남자   |     98 |     77 |     88 |     64 |
| 영희   |      2 | 여자   |     88 |    120 |    nan |     72 |
| 민철   |      1 | 남자   |     92 |     70 |     83 |     79 |
| 수현   |      3 | 여자   |    nan |     60 |    nan |     71 |
| 호영   |      4 | 남자   |     75 |     50 |     90 |     88 |
| 영호   |      4 | 남자   |     80 |     88 |     91 |     72 |
| 용식   |      2 | 남자   |     82 |     88 |     79 |     90 |
| 나영   |      1 | 여자   |     90 |     92 |     81 |     95 |
| 석영   |      1 | 남자   |     91 |     90 |     89 |     80 |
+--------+--------+--------+--------+--------+--------+--------+


### [3] 이상치를 평균값으로 대체

특정 필드에 대해서만 처리할 경우 필드 이름을 파라미터로 전달한다.

`replace_outliner(df, '국어','영어')`

In [9]:
df4 = replace_outliner_to_mean(df)
my_pretty_table(df4)

+--------+--------+--------+--------+--------+---------+--------+
| 이름   |   학년 | 성별   |   국어 |   영어 |    수학 |   과학 |
|--------+--------+--------+--------+--------+---------+--------|
| 철수   |      1 | 남자   |     98 |     77 |      88 |     64 |
| 영희   |      2 | 여자   |     88 |    120 | 85.8571 |     72 |
| 민철   |      1 | 남자   |     92 |     70 |      83 |     79 |
| 수현   |      3 | 여자   |     87 |     60 | 85.8571 |     71 |
| 호영   |      4 | 남자   |     75 |     50 |      90 |     88 |
| 영호   |      4 | 남자   |     80 |     88 |      91 |     72 |
| 용식   |      2 | 남자   |     82 |     88 |      79 |     90 |
| 나영   |      1 | 여자   |     90 |     92 |      81 |     95 |
| 석영   |      1 | 남자   |     91 |     90 |      89 |     80 |
+--------+--------+--------+--------+--------+---------+--------+
