## 문제 3: 이상치 제거 (IQR 이용)

이상치(Outlier)는 데이터의 전체적인 패턴과 동떨어진 관측치를 의미합니다.

이상치는 데이터 분석 결과를 왜곡하고, 모델의 성능을 떨어뜨릴 수 있습니다.

이상치를 탐지하고 처리하는 것은 데이터 전처리 과정에서 중요한 작업 중 하나입니다.

이번 문제에서는 IQR(Interquartile Range) 방식을 사용하여 이상치를 탐지하고 제거하는 방법을 실습합니다.

IQR은 사분위 범위로, 데이터의 상위 75%와 하위 25% 사이의 범위를 의미합니다.

IQR은 Q3(75% 분위수) - Q1(25% 분위수)로 계산합니다.

IQR을 사용하여 이상치의 경계를 계산할 수 있습니다.

이상치는 Q1 - 1.5 * IQR 보다 작거나, Q3 + 1.5 * IQR 보다 큰 경우로 정의합니다.

이상치를 제거하는 방법은 이 경계를 벗어나는 데이터를 제거하는 것입니다.

## 데이터셋 다운로드

캐글에 있는 "Diamonds" 데이터셋을 사용하여 이상치 제거 문제를 해결하세요.

이 데이터셋은 다이아몬드의 가격과 관련된 다양한 특징(캐럿, 컷, 색상, 투명도 등)을 포함하고 있습니다.

데이터셋 이름: "Diamonds"     출처: Kaggle Diamonds Dataset  파일명: diamonds.csv

데이터 다운로드 방법: Kaggle의 데이터셋 페이지로 이동하여 diamonds.csv 파일을 다운로드합니다.

Download 버튼을 클릭하여 diamonds.csv 파일을 다운로드 -> diamonds.csv 파일을 작업 디렉터리에 저장

## 문제

carat 열에서 IQR 방식을 사용하여 이상치를 제거하세요.

이상치를 제거한 후 데이터의 개수를 출력하세요.

이상치의 경계를 계산하여 하한(lower bound)과 상한(upper bound) 값을 출력하세요.

데이터셋을 불러온 후, 이상치를 제거하는 코드를 작성하세요.

In [3]:
import pandas as pd

In [4]:
#1. 데이터 불러오기
df = pd.read_csv('diamonds.csv')

In [10]:
#2. 이상치 확인
print(df)

       Unnamed: 0  carat        cut color clarity  depth  table  price     x  \
0               1   0.23      Ideal     E     SI2   61.5   55.0    326  3.95   
1               2   0.21    Premium     E     SI1   59.8   61.0    326  3.89   
2               3   0.23       Good     E     VS1   56.9   65.0    327  4.05   
3               4   0.29    Premium     I     VS2   62.4   58.0    334  4.20   
4               5   0.31       Good     J     SI2   63.3   58.0    335  4.34   
...           ...    ...        ...   ...     ...    ...    ...    ...   ...   
53935       53936   0.72      Ideal     D     SI1   60.8   57.0   2757  5.75   
53936       53937   0.72       Good     D     SI1   63.1   55.0   2757  5.69   
53937       53938   0.70  Very Good     D     SI1   62.8   60.0   2757  5.66   
53938       53939   0.86    Premium     H     SI2   61.0   58.0   2757  6.15   
53939       53940   0.75      Ideal     D     SI2   62.2   55.0   2757  5.83   

          y     z  
0      3.98  2.43  

In [8]:
#3. carat열 IQR 방식으로 이상치 제거
Q1 = df['carat'].quantile(0.25)
Q3 = df['carat'].quantile(0.75)

IQR = Q3 - Q1

l_bound = Q1 - 1.5 * IQR
u_bound = Q3 + 1.5 * IQR

out_range = df[(df['carat']<l_bound) | (df['carat']>u_bound)]
print(out_range)

       Unnamed: 0  carat      cut color clarity  depth  table  price     x  \
12246       12247   2.06  Premium     J      I1   61.2   58.0   5203  8.10   
13002       13003   2.14     Fair     J      I1   69.4   57.0   5405  7.74   
13118       13119   2.15     Fair     J      I1   65.5   57.0   5430  8.01   
13757       13758   2.22     Fair     J      I1   66.7   56.0   5607  8.04   
13991       13992   2.01     Fair     I      I1   67.4   58.0   5696  7.71   
...           ...    ...      ...   ...     ...    ...    ...    ...   ...   
27741       27742   2.15    Ideal     G     SI2   62.6   54.0  18791  8.29   
27742       27743   2.04  Premium     H     SI1   58.1   60.0  18795  8.37   
27744       27745   2.29  Premium     I     SI1   61.8   59.0  18797  8.52   
27746       27747   2.07    Ideal     G     SI2   62.5   55.0  18804  8.20   
27749       27750   2.29  Premium     I     VS2   60.8   60.0  18823  8.50   

          y     z  
12246  8.07  4.95  
13002  7.70  5.36  
131

In [11]:
df = df[(df['carat']>l_bound) & (df['carat']<u_bound)]
df

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,4,0.29,Premium,I,VS2,62.4,58.0,334,4.20,4.23,2.63
4,5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
...,...,...,...,...,...,...,...,...,...,...,...
53935,53936,0.72,Ideal,D,SI1,60.8,57.0,2757,5.75,5.76,3.50
53936,53937,0.72,Good,D,SI1,63.1,55.0,2757,5.69,5.75,3.61
53937,53938,0.70,Very Good,D,SI1,62.8,60.0,2757,5.66,5.68,3.56
53938,53939,0.86,Premium,H,SI2,61.0,58.0,2757,6.15,6.12,3.74


In [2]:
#4. 이상치 확인