In [198]:
import pandas as pd

In [199]:
customer_df = pd.read_csv('Mall_Customers.csv')
print(customer_df)

     CustomerID  Gender  Age  Annual Income (k$)  Spending Score (1-100)
0             1    Male   19                  15                      39
1             2    Male   21                  15                      81
2             3  Female   20                  16                       6
3             4  Female   23                  16                      77
4             5  Female   31                  17                      40
..          ...     ...  ...                 ...                     ...
195         196  Female   35                 120                      79
196         197  Female   45                 126                      28
197         198    Male   32                 126                      74
198         199    Male   32                 137                      18
199         200    Male   30                 137                      83

[200 rows x 5 columns]


Annual Income (k$)
- 고객의 연간 소득을 1,000달러 단위로 나타낸 값
  예를 들어, 값이 15라면 해당 고객의 연간 소득은 15,000달러를 의미
- 고소득과 저소득 고객을 구분하여 다른 마케팅 전략을 수립하는 데 유용

Spending Score (1-100)
- 쇼핑몰에서 고객의 소비 성향을 1에서 100 사이의 점수로 나타낸 값
  점수가 높을수록 고객의 소비가 활발하거나 구매 가능성이 높음을 의미
- 소비 성향이 높은 고객(고득점)과 낮은 고객(저득점)을 구분하여 마케팅 캠페인을 타겟팅할 수 있다

In [200]:
print(customer_df.isnull().sum()) #결측값 확인

CustomerID                0
Gender                    0
Age                       0
Annual Income (k$)        0
Spending Score (1-100)    0
dtype: int64


데이터프레임화가 필요한 이유
- **가독성**
표준화된 data를 Numpy배열로 유지하면 변수 이름이 없어서 어떤 값이 변수인지 알기 어렵다.
- **data 병합**
기존의 DataFrame과 표준화된 Data를 병합하거나, 기존 DataFrame을 대체하려면 데이터프레임화가 유용하다.
- **분석 편의성**
DataFrame은 Pandas의 다양한 기능(ex:필터링, 집계, 시각화)을 활용할 수 있어 작업이 편리하다.

In [201]:
# z-score기반 이상치 탐지
from scipy.stats import zscore

# Z-Score 계산
z_scores = zscore(customer_df[['Annual Income (k$)', 'Spending Score (1-100)']])

# 이상치 탐지
customer_df_cleaned = customer_df[(abs(z_scores) < 3).all(axis=1)]

In [202]:
# 이상치 필터링 (Z-Score 절대값이 3 이상인 데이터를 이상치로 간주)
outliers = customer_df[(abs(z_scores) >= 3).any(axis=1)]

# 이상치 데이터 출력
print(outliers)

Empty DataFrame
Columns: [CustomerID, Gender, Age, Annual Income (k$), Spending Score (1-100)]
Index: []


In [203]:
# 이상치 탐지
customer_df_cleaned = customer_df[(abs(z_scores) < 2.5).all(axis=1)]
# 이상치 필터링 (Z-Score 절대값이 2.5 이상인 데이터를 이상치로 간주)
outliers = customer_df[(abs(z_scores) >= 2.5).any(axis=1)]
# 이상치 데이터 출력
print(outliers)

     CustomerID Gender  Age  Annual Income (k$)  Spending Score (1-100)
198         199   Male   32                 137                      18
199         200   Male   30                 137                      83


In [204]:
# 해당되는 두개의 data 이상치 제거
customer_df_cleaned = customer_df[(abs(z_scores) < 2.5).all(axis=1)]

In [205]:
# 표준화 선택
from sklearn.preprocessing import StandardScaler
# StandardScaler 객체 생성
scaler = StandardScaler()
# 데이터 표준화 
scaled_data = scaler.fit_transform(customer_df_cleaned[['Annual Income (k$)', 'Spending Score (1-100)']])

In [206]:
# 표준화된 데이터 데이터프레임으로 변환
standardized_df = pd.DataFrame(scaled_data, columns=['Annual Income (k$)_standardized', 'Spending Score (1-100)_standardized'])