In [None]:
# 라이브러리 설치 
!pip install scikit-learn

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_wine

### 이상치 
- 값이 크게 차이가 나는 데이터를 뜻한다. 
- 분석 모델의 성능을 떨어뜨리거나 분석 결과에 악영향
- 해당하는 이상치를 확인 후 대체, 제거 
- 일반적으로 수치형 데이터의 이상치의 판단 기준은 IQR 방식
- IQR 방식은 matplotlib에서 제공하는 boxplot의 이상치 경계 기준을 그래도 사용
- IQR 방식은 Q3(3사분위수)와 Q1(1사분위수)의 값에 차이를 이용
- 이상치의 경계는 (Q3 + 1.5 * IQR)보다 크거나 (Q1 - 1.5 * IQR)보다 작은 범위를 이상치로 간주 


In [None]:
# scikitlearn에서 제공하는 샘플 데이터 로드 
wine_load = load_wine()

In [None]:
wine_load['data']

wine = pd.DataFrame(wine_load['data'], 
                    columns=wine_load['feature_names'])
wine

In [None]:
# matplotlib을 이용하여 boxplot 표시
plt.boxplot(wine['color_intensity'])
plt.show()

In [None]:
## 이상치의 값들을 출력하는 함수를 하나 생성 
## 매개변수 : 데이터프레임, 특정 컬럼명
def outliers_iqr(_df, _col):
    # _df : 데이터프레임
    # _col : 컬럼명
    # 1사분위수, 3사분위수를 변수에 대입
    q_1, q_3 = np.percentile(_df[_col], [25, 75])
    # iqr 데이터를 생성 
    iqr = q_3 - q_1
    # 이상치의 상단의 경계, 하단의 경계 변수에 대입 
    upper_whis = q_3 + 1.5 * iqr
    lower_whis = q_1 - 1.5 * iqr
    print("상단의 경계값 :", upper_whis)
    print("하단의 경계값 :", lower_whis)
    # 입력받은 데이터프레임에서 상단의 경계보다 크거나 
    # 하단에 경계보다 낮은 데이터를 필터링
    flag = (_df[_col] > upper_whis) | (_df[_col] < lower_whis)
    result = _df.loc[flag]
    return result

In [None]:
outlier =  outliers_iqr(wine, 'color_intensity')
outlier

### 이상치의 정제 
1. 이상치 제거 
    - 데이터의 개수가 매우 많고 이상치가 존재하는 행의 수가 전체 데이터에서 많은 비중을 차지하지 않는다면 제거 가능
    - 이상치를 제거 -> 데이터의 개수가 줄어든다. 
2. 이상치를 특정한 값을 대체 
    - 이상치의 값을 다른 값으로 대체하는 경우는 분석가에 따라 값들에는 차이가 발생

In [None]:
outlier.index

In [None]:
## 이상치를 제거 (해당하는 행을 제거)
drop_outlier = wine.drop(outlier.index  ,axis=0)
## 제거가 잘 되었는가 확인
print("원본데이터의 크기 :", len(wine), wine.shape)
print('이상치를 제거한 데이터의 크기 :', len(drop_outlier), drop_outlier.shape)

In [None]:
## 이상치를 특정한 값을 대체 
wine.loc[outlier.index, 'color_intensity'] = np.NaN

In [None]:
wine.isna().sum()

In [None]:
# 평균값을 변수에 대입 
mean_data = wine['color_intensity'].mean()
mean_data

In [None]:
# 평균값을 결측치에 대체
wine['color_intensity'] = wine['color_intensity'].fillna(mean_data)

In [None]:
wine.isna().sum()

In [None]:
wine.loc[outlier.index, 'color_intensity']

In [None]:
from sklearn.datasets import load_iris

In [None]:
iris_load = load_iris()

In [None]:
iris = pd.DataFrame(iris_load['data'], columns = iris_load['feature_names'])

In [None]:
iris.columns[1]

In [None]:
plt.boxplot(iris['sepal width (cm)'])
plt.show()

### 이상치를 정제 
1. iris 데이터에서 'sepal width (cm)' 컬럼에 극단치가 존재
2. 'sepal width (cm)'의 2사분위수를 변수에 저장 
3. 해당하는 극단치를 결측치로 변경
4. 결측치를 2번과정에서 나온 데이터로 대체

In [None]:
## 컬럼의 이름을 변수에 저장
col2 = iris.columns[1]
col2

In [None]:
outlier_iris = outliers_iqr(iris, col2)
outlier_iris

In [None]:
## 중간값을 변수에 대입 
median_data = np.percentile(iris[col2], 50)
# iris[col2].median()

In [None]:
# 이상치 데이터를 결측치로 변경 
iris.loc[outlier_iris.index, col2] = np.nan

In [None]:
iris[col2].fillna(median_data, inplace=True)

In [None]:
iris.isna().sum()

In [None]:
iris.loc[outlier_iris.index]