In [1]:
import pandas as pd

In [2]:
# ===================== 1. 데이터 로드 =====================
# CSV 파일을 읽어와 데이터프레임 생성
file_path = '../data/customer_data.csv'  # 파일 경로 지정
customer_data = pd.read_csv(file_path)  # CSV 파일 로드
customer_data

Unnamed: 0,CustomerID,Age,AnnualIncome,SpendingScore,PurchaseHistory
0,1,47.0,63.0,19,12
1,2,31.0,73.0,67,7
2,3,,,1,17
3,4,33.0,66.0,71,15
4,5,22.0,127.0,61,11
...,...,...,...,...,...
995,996,63.0,102.0,12,19
996,997,55.0,20.0,11,7
997,998,49.0,102.0,39,5
998,999,21.0,135.0,15,17


In [3]:
# ===================== 3. 결측치 처리 =====================
# dropna(): 결측치(NaN)가 있는 행을 제거하여 데이터 정제
customer_data = customer_data.dropna(axis=0)

# 결측치 제거 후 데이터 크기 출력
print(f"결측치 제거 후 데이터셋 크기: {customer_data.shape}")  
# shape: (행, 열) 형태의 데이터 크기 출력

결측치 제거 후 데이터셋 크기: (900, 5)


In [4]:
# ===================== 4. 이상치 탐지 및 처리 =====================
# 이상치를 탐지하기 위해 IQR(Interquartile Range, 사분위 범위) 방법 사용
for column in ['Age', 'AnnualIncome']:  # 이상치를 탐지할 컬럼 선택
    Q1 = customer_data[column].quantile(0.25)  # 1사분위(Q1, 25% 지점)
    Q3 = customer_data[column].quantile(0.75)  # 3사분위(Q3, 75% 지점)
    IQR = Q3 - Q1  # 사분위 범위 (IQR = Q3 - Q1)

    # 이상치 경계값 설정
    lower_bound = Q1 - 1.5 * IQR  # 하한값: Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR  # 상한값: Q3 + 1.5 * IQR

    # 기존 데이터 크기 저장
    initial_shape = customer_data.shape  

    # 이상치를 제거한 데이터프레임 생성 (lower_bound보다 크거나 upper_bound보다 작은 데이터만 남김)
    customer_data = customer_data[(customer_data[column] >= lower_bound) & (customer_data[column] <= upper_bound)]

    # 이상치 처리 전후 데이터 크기 출력
    print(f"{column} 이상치 처리 전후 데이터셋 크기: {initial_shape} -> {customer_data.shape}")

Age 이상치 처리 전후 데이터셋 크기: (900, 5) -> (899, 5)
AnnualIncome 이상치 처리 전후 데이터셋 크기: (899, 5) -> (899, 5)
