## Recency, Frequency, Monetary에 기반한 고객 분류

RFM 분석은 구매 최신성(Recency), 구매 빈도(Frequency)와 구매 가치(Monetary)에 따라 고객들을 여러 그룹으로 나누는 세그먼테이션(segmentation) 방법입니다.

#### Recency: 고객이 마지막으로 구매한 시점을 나타냅니다. 최근에 구매한 고객들은 더 자주 구매할 가능성이 높기 때문에, 최신성 점수가 높은지를 고려합니다.

#### Frequency: 특정 기간 동안 고객이 얼마나 자주 우리의 제품이나 서비스를 구매하는지를 나타냅니다. 빈번하게 구매를 하는 고객은 더 충성도가 높은 고객일 확률이 높기 때문에, 빈도 점수가 높은지를 고려합니다.

#### Monetary: 고객이 지출한 총 금액을 말합니다. 높은 금액을 지불한 고객일수록 더 가치가 높은 충성 고객일 수 있습니다. 앞으로도 우리 제품과 사이트에 많은 돈을 지불할 수 있는 고객이므로, 가치 점수가 높은지를 함께 고려합니다.

이 세 가지 요소를 분석함으로써 기업들은 고객들을 여러 그룹으로 나누고, 각 그룹에 맞는 마케팅 전략을 세웁니다. 예를 들어 최근에 자주 높은 금액을 지출한 고객 그룹에게는 프리미엄 제품이나 서비스를 제안할 수도 있고, 오랫동안 구매하지 않은 고객에게는 특별 할인이나 재방문 캠페인을 진행하기도 하죠.

#### '고객을 세그먼테이션하자! [파트1 - SQL 실습]'
- 데이터 불러오기
- 데이터 전처리
    * 결측치 제거
    * 중복값 처리
    * 오류값 처리
- RFM 분석
- 추가 feature 추츌

#### '고객을 세그먼테이션하자! [파트2 - 파이썬 실습]'
- 이상 데이터 처리
- 변수간 상관관계 분석
- 피처 스케일링
- 차원 축소
- K-Means 클러스터링
- 시각화 및 결과 분석
    * 고객 세그먼테이션을 통한 인사이트와 전략
    
![image.png](attachment:image.png)

![image.png](attachment:image.png)

### 15-3. 데이터 전처리 방법
데이터 전처리는 데이터를 분석 과정 중 굉장히 중요한 단계입니다.

데이터의 형태와 분석 의도에 따라 다양한 데이터 전처리 방법들을 활용할 수 있습니다. 아래는 그 중 자주 사용되는 전처리 기법입니다.

#### 1. 결측치 처리
결측치는 데이터가 비어 있는 값입니다.

현실에서 마주하게 되는 데이터는 비어 있는 값, 즉 결측치가 많은 (sparse) 데이터셋일 가능성이 높습니다.

결측치를 처리하기 위한 대표적인 방법은 결측치가 존재하는 행을 삭제하거나, 다른 값들의 평균, 중앙값, 최빈값 등으로 대체할 수 있습니다.

#### 2. 중복값 처리
중복값은 데이터셋에서 똑같은 정보를 가진 반복된 행을 말합니다.

현실의 데이터셋은 종종 중복된 데이터를 포함하고 있을 수 있으며, 이는 데이터의 전체적인 품질을 저하시키고 분석의 정확도를 떨어뜨립니다.

중복된 행을 식별하고 제거하는 것은 데이터의 일관성과 정확성을 유지하기 위해 필수적인 단계입니다. 경우에 따라서는 특정 조건이나 규칙에 따라 중복된 데이터를 유지할 필요가 있을 수도 있으니, 데이터의 특성에 따라 판단해야 한다는 점, 반드시 기억해 주세요! 😁

#### 3. 정규화 및 표준화
정규화와 표준화를 통해 데이터의 범위를 일정하게 조정하거나, 데이터의 스케일을 변경할 수 있습니다.

예를 들어 제품의 판매량(개)과 판매금액(원)을 활용하여 데이터를 분석하는 경우, 일반적으로 판매금액이 판매량보다 단위가 크기 때문에 판매금액에 영향을 많이 받습니다. 그래서 이 두 데이터의 범위를 모두 0과 1 사이의 숫자로 변경하는 형태로 스케일링을 진행하거나, 로그 변환이나 제곱근 변환 등을 통해 데이터의 분포를 조정할 수 있습니다.

데이터를 어떻게 정규화 및 표준화해야 하는지에 대한 정답은 없습니다. 여러 스케일링 기법을 활용하면서 최적의 정규화 및 표준화 방법을 선택하는 것이 일반적입니다.

#### 4. 범주형(명목형) 데이터의 인코딩
성별이나 구매 지역 등의 범주형(명목형) 데이터를 수치형으로 변환하는 전처리 방법을 진행할 수 있습니다. 예를 들어 여성과 남성의 경우 0과 1로 변환할 수 있겠죠.

![image.png](attachment:image.png)

#### 5. 이상치 분석 및 처리
통계적인 방법이나 시각적 도구를 활용해서 값이 극단적으로 크거나 작은 이상치(outlier)들을 찾고, 필요에 따라 제거를 하거나 수정하여 사용합니다.

![image-2.png](attachment:image-2.png)

## 15-4. 데이터 전처리(1): 결측치 제거

### 컬럼 별 누락된 값의 비율 계산
각 컬럼 별 누락된 값의 비율을 계산해보겠습니다.

각 컬럼에 대해서 누락 값을 계산한 후, 계산된 누락 값을 UNION ALL을 통해 합쳐주세요.

In [3]:
SELECT column_name, missing_percentage
FROM(
    SELECT 'InvoiceNo' AS column_name,
    ROUND(SUM(CASE WHEN InvoiceNo IS NULL THEN 1 ELSE 0 END) / COUNT(*) * 100, 2) AS missing_percentage
    FROM silken-period-411001.modulabs_project.data UNION ALL
    SELECT 'StockCode' AS column_name,
    ROUND(SUM(CASE WHEN StockCode IS NULL THEN 1 ELSE 0 END) / COUNT(*) * 100, 2) AS missing_percentage
    FROM silken-period-411001.modulabs_project.data UNION ALL
    SELECT 'Description' AS column_name,
    ROUND(SUM(CASE WHEN Description IS NULL THEN 1 ELSE 0 END) / COUNT(*) * 100, 2) AS missing_percentage
    FROM silken-period-411001.modulabs_project.data UNION ALL
    SELECT 'Quantity' AS column_name,
    ROUND(SUM(CASE WHEN Quantity IS NULL THEN 1 ELSE 0 END) / COUNT(*) * 100, 2) AS missing_percentage
    FROM silken-period-411001.modulabs_project.data UNION ALL
    SELECT 'InvoiceDate' AS column_name,
    ROUND(SUM(CASE WHEN InvoiceDate IS NULL THEN 1 ELSE 0 END) / COUNT(*) * 100, 2) AS missing_percentage
    FROM silken-period-411001.modulabs_project.data UNION ALL
    SELECT 'UnitPrice' AS column_name,
    ROUND(SUM(CASE WHEN UnitPrice IS NULL THEN 1 ELSE 0 END) / COUNT(*) * 100, 2) AS missing_percentage
    FROM silken-period-411001.modulabs_project.data UNION ALL
    SELECT 'CustomerID' AS column_name,
    ROUND(SUM(CASE WHEN CustomerID IS NULL THEN 1 ELSE 0 END) / COUNT(*) * 100, 2) AS missing_percentage
    FROM silken-period-411001.modulabs_project.data UNION ALL
    SELECT 'Country' AS column_name,
    ROUND(SUM(CASE WHEN Country IS NULL THEN 1 ELSE 0 END) / COUNT(*) * 100, 2) AS missing_percentage
    FROM silken-period-411001.modulabs_project.data)

SyntaxError: invalid syntax (4199284278.py, line 1)

![image.png](attachment:image.png)

In [None]:
## 또 다른 방법
SELECT column_name, ROUND((total - column_value) / total * 100, 2)
FROM
(
    SELECT 'InvoiceNo' AS column_name, COUNT(InvoiceNo) AS column_value, COUNT(*) AS total FROM project_name.modulabs_project.data UNION ALL
    SELECT 'StockCode' AS column_name, COUNT(StockCode) AS column_value, COUNT(*) AS total FROM project_name.modulabs_project.data UNION ALL
    SELECT 'Description' AS column_name, COUNT(Description) AS column_value, COUNT(*) AS total FROM project_name.modulabs_project.data UNION ALL
    SELECT 'Quantity' AS column_name, COUNT(Quantity) AS column_value, COUNT(*) AS total FROM project_name.modulabs_project.data UNION ALL
    SELECT 'InvoiceDate' AS column_name, COUNT(InvoiceDate) AS column_value, COUNT(*) AS total FROM project_name.modulabs_project.data UNION ALL
    SELECT 'UnitPrice' AS column_name, COUNT(UnitPrice) AS column_value, COUNT(*) AS total FROM project_name.modulabs_project.data UNION ALL
    SELECT 'CustomerID' AS column_name, COUNT(CustomerID) AS column_value, COUNT(*) AS total FROM project_name.modulabs_project.data UNION ALL
    SELECT 'Country' AS column_name, COUNT(Country) AS column_value, COUNT(*) AS total FROM project_name.modulabs_project.data
) AS column_data;

### ustomerID (24.93%)
CustomerID는 고객을 클러스터링할 때 필수적인 정보입니다. 그러나 결측치의 비중이 약 4분의 1이나 됩니다.

이렇게 큰 비율의 누락된 값을 다른 값으로 대체하는 것은 분석에 상당한 편향을 주고 노이즈가 될 수 있습니다. 또한 궁극적으로 여러분이 진행하는 프로젝트는 RFM 분석 기법에 따른 고객 세그먼테이션이기 때문에, 고객 식별자 데이터는 정확해야 합니다. 따라서 누락된 CustomerID가 있는 행을 제거하는 것이 가장 합리적인 접근 방법으로 보입니다.

✳️ 참고: 데이터 편향이란?
데이터가 특정 경향을 가지고 있어 전체적인 분석이나 결과가 왜곡되는 현상을 말합니다.

✳️ 참고: 데이터 노이즈란?
데이터에 관련 없는 정보가 포함되어 있어 데이터의 질이 저하되고 분석의 정확도가 떨어지는 것을 말합니다.

### Description (0.27%)
Description은 결측치가 비교적 적습니다. 하지만 같은 제품(StockCode)이 항상 같은 상세 설명(Description)을 가지고 있지 않다는 데이터의 일관성 문제가 발견되었습니다.

동일한 제품(StockCode = '85123A')이지만 제품을 지칭하는 설명(Description)이 'WHITE HANGING HEART T-LIGHT HOLDER', 'CREAM HANGING HEART T-LIGHT HOLDER', 'wrongly marked carton 22804', '?'로, 4개의 설명이 모두 다릅니다.

이는 제품 설명(Description)이 일관적으로 기록되지 않은 오류로 해석할 수 있습니다.

일관성 결여를 고려할 때,StockCode를 기반으로 누락된 설명을 대체하는 것은 신뢰할 수 없을 가능성이 있습니다. 또한 누락된 비율이 0.27%로 매우 낮기 때문에, 데이터의 일관성 문제가 후속 분석 과정에 영향을 주지 않게 하기 위해 누락된 설명이 있는 행을 제거하는 것이 현명할 것입니다.

### 결측치 처리
지금까지의 결측치 제거 전략에 맞춰서 결측치를 제거해 보겠습니다. 결측치를 제거할 때에는 DELETE 구문을 사용하며, WHERE 절을 통해 데이터를 제거할 조건을 제시해 줍니다.

DELETE FROM silken-period-411001.modulabs_project.data
WHERE CustomerID IS NULL
OR Description IS NULL

![image.png](attachment:image.png)

## 15-5. 데이터 전처리(2): 중복값 처리
다음으로 해볼 전처리는 중복값을 제거하는 것입니다.

### 중복값 확인
중복된 행의 수를 세어주세요. 8개의 컬럼에 그룹 함수를 적용한 후, COUNT가 1보다 큰 데이터를 세어주면 됩니다.

In [None]:
SELECT *, COUNT(*)
FROM silken-period-411001.modulabs_project.data
GROUP BY InvoiceNo, StockCode, Description, Quantity, InvoiceDate, UnitPrice, CustomerID, Country
HAVING COUNT(*) > 1;

![image.png](attachment:image.png)

### 중복값 처리

프로젝트의 맥락에서 완전히 동일한 행들, 특히 동일한 거래 시간을 포함한 동일한 행은 데이터 오류일 가능성이 높습니다. 이러한 중복 행을 유지하면 분석 결과에 영향을 줄 수가 있습니다. 따라서 데이터셋에서 완전히 동일한 중복 행들을 제거하도록 하겠습니다.

중복값을 제거하는 쿼리문을 적어주세요.

In [None]:
#CREATE OR REPLACE TABLE 구문을 활용하여 모든 컬럼(*)을 DISTINCT 한 데이터로 업데이트해 주세요.

CREATE OR REPLACE TABLE silken-period-411001.modulabs_project.distinct_table AS(
SELECT DISTINCT *
FROM silken-period-411001.modulabs_project.data)

![image.png](attachment:image.png)

## 15-6. 데이터 전처리(3): 오류값 처리

### InvoiceNo 살펴보기

데이터를 자세히 살펴보면 몇 개의 InvoiceNo는 'C'로 시작한다는 것을 알 수 있습니다. 데이터 설명에도 나와 있던 것처럼, InvoiceNo가 'C'로 시작한다면 취소한 거래입니다.

고객 행동과 제품 선호도에 대한 이해를 높이기 위해서는 취소된 거래들도 고려해야 합니다.

먼저, InvoiceNo가 'C'로 시작하는 행을 필터링하여 취소된 거래들만 살펴봅시다. 이후에는 이 행들을 분석하여 공통적인 특성이나 패턴이 있는지 파악할 것입니다.

InvoiceNo가 'C'로 시작하는 행을 필터링할 수 있는 쿼리문을 작성해 주세요.

In [None]:
SELECT * 
FROM silken-period-411001.modulabs_project.distinct_table
WHERE InvoiceNo LIKE "C%"
LIMIT 100; #100개만 표시

![image.png](attachment:image.png)

구매 건 상태가 Canceled 인 데이터의 비율(%)은 어떻게 되나요? 이를 계산할 수 있는 쿼리문을 작성하고, 취소 비율을 소수점 첫번째 자리까지 구해 주세요

In [None]:
SELECT ROUND(SUM(CASE WHEN  InvoiceNo LIKE "C%" THEN 1 ELSE 0 END)/ COUNT(InvoiceNo) * 100, 1)
FROM silken-period-411001.modulabs_project.distinct_table

![image-2.png](attachment:image-2.png)

데이터를 자세히 보면 InvoiceNo 컬럼에서 'C'가 붙은 거래 취소 건들은 Quantity가 음수인 것을 알 수 있습니다.

취소를 많이 한 제품들의 가격대가 높았는지, 또는 거래 지역이 특정 지역에 몰려 있는지도 살펴보았지만, 그런 경향성은 크게 보이지 않습니다. (Country는 취소 여부와 상관없이 United Kingdom에 밀집되어 있습니다.)

그럼 InvoiceNo에 따른 추가 처리를 해야 할까요?

실제 분석 과정에서는 분석가의 주관적 판단에 의해 전처리 여부와 그 방식을 결정 짓습니다. 위의 경우 프로젝트의 초기 목표가 고객들의 구매 최신성, 구매 빈도, 구매 금액에 따라 세그멘테이션하는 것이었기 때문에, 고객의 취소 패턴을 이해하는 것도 중요할 것입니다. 가령 취소된 거래에 공통점이 있는지 살펴볼 수도 있을 것이고, 추천될 가능성이 높은 제품을 찾아서 문제를 진단할 수도 있습니다.

따라서 취소된 거래 데이터는 유지하되, 명확하게 표시하여 추가 분석을 용이하게 만들어주는 것도 전략 중 하나입니다.

## StockCode 살펴보기

총 3,684개의 상품들이 있는 것을 알 수 있습니다.

이번에는 어떤 제품이 가장 많이 판매되었는지 보기 위하여 StockCode 별 등장 빈도를 출력해보겠습니다. 상위 10개의 제품들을 출력해 보세요.

In [None]:
SELECT StockCode, COUNT(*) AS sell_cnt 
FROM silken-period-411001.modulabs_project.distinct_table
GROUP BY StockCode
ORDER BY sell_cnt DESC
LIMIT 10

![image.png](attachment:image.png)

가장 판매가 많이 일어난 상위 10개의 제품 코드를 자세히 살펴보면, 고객들이 자주 구매하는 인기 제품군이나 카테고리에 대한 인사이트도 얻을 수가 있습니다.

제품 코드는 대부분 5~6자리의 숫자와 문자 조합으로 구성되어 있는 반면, 'POST'와 같은 몇 가지 이상한 코드도 있습니다. 이러한 이상 현상은 실제 제품보다는 서비스나 배송비 같은 형태를 코드로 남긴 것일 수도 있습니다. 현재 진행하고 있는 프로젝트는 고객들의 제품 구매에 초점이 맞춰져 있기 때문에 이런 값들은 제거하는 것이 좋을 것 같습니다.

'POST'와 같은 이상치들이 몇 개나 있는지 확인하기 위하여 StockCode의 문자열 내 숫자의 길이를 살펴보겠습니다. 예를 들어 '22423'와 '85123A'는 모두 다 숫자가 5개씩 포함되어 있는 문자열이지만 'POST'와 같은 비정상적인 항목들은 숫자가 0개 포함되어 있습니다.

이처럼 각 StockCode 내 숫자의 개수를 살펴보면서 값의 특성에 대한 통찰력을 얻을 수 있습니다.

StockCode의 문자열 내 숫자의 길이를 구해 봅시다.

In [None]:
WITH UniqueStockCodes AS (
  SELECT DISTINCT StockCode
  FROM project_name.modulabs_project.data
)
SELECT
  LENGTH(StockCode) - LENGTH(REGEXP_REPLACE(StockCode, r'[0-9]', '')) AS number_count,
  COUNT(*) AS stock_cnt
FROM UniqueStockCodes
GROUP BY number_count
ORDER BY stock_cnt DESC;

우선 REGEXP_REPLACE 라는 함수는 텍스트를 처리하는 정규 표현식(Regular Expression) 중 하나입니다. 'REGEXP'는 정규 표현식를 의미하며, 'REPLACE'는 텍스트를 대체한다는 의미로, REGEXP_REPLACE 함수는 특정 조건에 부합한 텍스트를 다른 텍스트로 대체하는 함수입니다.

LENGTH 함수 내부에 있는 코드는 REGEXP_REPLACE(StockCode, r’[0-9]’, ‘’)라고 작성되어 있습니다. 이 코드는 StockCode 컬럼에 있던 값 중에서 0부터 9 사이의 숫자([0-9])를 비어 있는 값(’’)으로 대체하는 코드입니다. 이 코드를 통해 숫자를 제외한 문자만 남게 됩니다. 이후에 LENGTH 함수로 감싸주어서, 각 StockCode에 문자가 몇자리 수인지를 세어주었습니다.

최종적으로 LENGTH(StockCode) - LENGTH(REGEXP_REPLACE(StockCode, r’[0-9]’, ‘’) 연산을 통하여 StockCode 안에 있는 숫자의 수를 세어준 후, 이를 number_count라는 이름의 컬럼으로 저장해 주었습니다.

![image.png](attachment:image.png)

출력 결과를 보면, 8개를 제외하곤 StockCode에 5개의 숫자들이 포함되어 있는 것을 알 수 있습니다. 숫자가 0개인 코드는 7개, 숫자가 1개인 코드는 1개입니다.

숫자가 0~1개인 값들에는 어떤 코드들이 들어가 있는지를 확인해 봅시다.

In [None]:
SELECT DISTINCT StockCode, number_count
FROM (
  SELECT StockCode,
    LENGTH(StockCode) - LENGTH(REGEXP_REPLACE(StockCode, r'[0-9]', '')) AS number_count
  FROM silken-period-411001.modulabs_project.distinct_table
) 
WHERE number_count < 2

![image.png](attachment:image.png)

해당 코드 값들을 가지고 있는 데이터 수는 전체 데이터 수 대비 몇 퍼센트일까요? 소수점 두번째 자리까지 구해 주세요.

In [None]:
SELECT ROUND(SUM(CASE WHEN number_count < 2 THEN 1 ELSE 0 END) / COUNT(StockCode) * 100, 2)
FROM (
  SELECT StockCode,
    LENGTH(StockCode) - LENGTH(REGEXP_REPLACE(StockCode, r'[0-9]', '')) AS number_count
  FROM silken-period-411001.modulabs_project.distinct_table
) 

![image.png](attachment:image.png)

분석에 따르면 전체 데이터 중 매우 작은 비율인 0.48%의 데이터가 일반적인 형식에서 벗어난 값을 가지고 있었습니다.

이 코드들은 'BANK CHARGES, POST' 등 제품과 관련되지 않은 거래 기록으로 보입니다. 진행하고 있는 프로젝트의 목표는 고객들의 '제품 구매'에 기반하여 세그먼테이션을 하는 것이므로, 이런 StockCode가 포함된 기록은 데이터셋에서 제외하도록 하겠습니다.

제품과 관련되지 않은 거래 기록을 제거하는 쿼리문을 작성해 주세요.

In [None]:
DELETE FROM silken-period-411001.modulabs_project.distinct_table
WHERE StockCode IN (
  SELECT DISTINCT StockCode
  FROM (SELECT StockCode,
        LENGTH(StockCode) - LENGTH(REGEXP_REPLACE(StockCode, r'[0-9]', '')) AS number_count
        FROM silken-period-411001.modulabs_project.distinct_table)
  WHERE number_count < 2
);

![image.png](attachment:image.png)

## Description 살펴보기

먼저 데이터셋에서 고유한 Description 별 출현 빈도를 계산하고 상위 30개를 출력해 주세요.

In [None]:
SELECT Description, COUNT(*) AS description_cnt
FROM silken-period-411001.modulabs_project.distinct_table
GROUP BY Description
LIMIT 30;

![image.png](attachment:image.png)

출력 결과를 보니 제품군들이 대부분 가정용품, 주방용품, 점심 도시락, 장식품과 관련된 것들임을 알 수 있습니다.

흥미롭게도 모든 Description이 대문자로 되어 있는데, 이는 데이터베이스에 제품 설명을 입력할 때 사용되는 표준화된 형식일 수도 있습니다. 그러나 혹시라도 대문자와 소문자가 혼합된 스타일로 입력된 설명이 있는지 확인해 보는 것이 현명할 것입니다.

대소문자가 혼합된 Description이 있는지 확인해 봅시다.

In [None]:
SELECT DISTINCT Description
FROM project_name.modulabs_project.data
WHERE REGEXP_CONTAINS(Description, r'[a-z]');

위의 코드를 더 자세히 살펴보도록 하겠습니다.

WHERE 절의 REGEXP_CONTAINS 함수는 특정 패턴이 문자열에 포함되어 있는지 여부를 확인하는 데에 유용한 함수입니다. 특정 패턴이 문자열에 포함되어 있으면 True를, 포함되어 있지 않으면 False를 반환합니다. REGEXP_CONTAINS(Description, r’[a-z]’) 코드는 Description 컬럼에 있는 문자열에서 소문자 알파벳([a-z])이 포함되어 있는지를 확인하는 조건문입니다. 만약 r’[a-z]’ 대신 r’[A-Z]’ 를 사용했다면 대문자 알파벳이 포함되어 있는지를 확인하는 조건문이 됩니다.

결과는 아래와 같이 나옵니다. 빅쿼리에서 실행 결과의 스크롤을 내리면 총 19개의 Description이 대소문자를 혼합하고 있다는 것을 알 수 있습니다.

출력 결과를 보면 사이즈(cm)나 무게(g) 등의 단위를 나타내는 설명이 포함되어 있고, 'Next Day Carriage'나 'High Resolution Image'와 같은 일부 항목들처럼 실제 제품에 대한 Description이 아닌 것도 있는 것을 알 수 있습니다. 이 데이터들은 실제 제품 정보와 관련이 없어 보입니다. 아마도 다른 유형의 정보나 서비스 세부사항을 나타내는 것일수도 있습니다. 이를 처리하기 위한 몇가지 전략들을 생각해볼 수 있습니다.

1. 'Next Day Carriage'와 'High Resolution Image'와 같은 서비스 관련 정보를 포함하는 행들을 제거합니다.

2. 대소문자를 혼합해서 사용하는 경우, 대문자로 표준화하여 데이터셋 전체에서 일관성을 유지할 수 있습니다. 이는 대소문자에 의한 중복 항목의 가능성을 줄이는 데에도 도움이 될 것입니다.

이러한 전략을 선택함으로써, 데이터셋의 품질을 향상시킬 수 있고 프로젝트의 분석 단계에 더 적합한 데이터셋을 완성할 수 있습니다.

우선 서비스 관련 정보를 포함하는 행들을 제거하는 쿼리문을 작성해 보세요.

In [None]:
DELETE
FROM silken-period-411001.modulabs_project.distinct_table
WHERE Description = 'Next Day Carriage' or Description = 'High Resolution Image'

![image.png](attachment:image.png)

이번에는 대소문자를 혼합하고 있는 데이터를 대문자로 표준화하는 쿼리문을 작성해 보세요.

In [None]:
CREATE OR REPLACE TABLE silken-period-411001.modulabs_project.distinct_table AS
SELECT
  * EXCEPT (Description),
  UPPER(Description) AS Description 
FROM silken-period-411001.modulabs_project.distinct_table;

![image.png](attachment:image.png)

## UnitPrice 살펴보기

이번에는 UnitPrice에서 이상치를 찾아봅시다. 최솟값, 최댓값, 평균 데이터를 확인해 봄으로써, 단위 가격의 요약 통계량을 살펴보겠습니다.

   ✳️ 단위 가격(UnitPrice)이란?

    상품 1개당 가격을 말합니다. 즉 "단위 당 가격"을 의미합니다.

UnitPrice의 최솟값, 최댓값, 평균을 구해 보세요.

In [None]:
SELECT MIN(UnitPrice) AS min_price, MAX(UnitPrice) AS max_price, AVG(UnitPrice) AS avg_price
FROM silken-period-411001.modulabs_project.distinct_table;

![image.png](attachment:image.png)

단위 가격의 요약 통계량을 보면 최소 단위 가격(min_price)이 0인 것을 알 수 있습니다. 이는 단가가 0원인 데이터가 존재한다는 것을 의미하고, 이는 이 제품이 무료 제품이거나 데이터 오류일 수도 있다는 의미입니다.

단가가 0원인 거래의 성격을 제대로 이해하기 위해서는 데이터를 더 자세히 살펴볼 필요가 있습니다. 단가가 0원인 제품을 상세하게 분석해보면서 특정한 패턴이 있는지 살펴보겠습니다.

단가가 0원인 거래의 개수, 구매 수량(Quantity)의 최솟값, 최댓값, 평균을 구해 보세요.

In [None]:
SELECT COUNT(Quantity) AS cnt_quantity,MIN(Quantity) AS min_quantity, MAX(Quantity) AS max_quantity, AVG(Quantity) AS avg_quantity
FROM silken-period-411001.modulabs_project.distinct_table
WHERE UnitPrice = 0

![image.png](attachment:image.png)

UnitPrice가 0인 행의 수는 33개로 비교적 적음을 알 수 있습니다. 구매 수량(Quantity)은 최소 1개부터 최대 12,540개에 이르기까지 굉장히 큰 편차를 가집니다.

데이터의 수가 적은 걸 보니 무료 제품이라기보다 데이터 오류일 가능성이 더 높을 것 같습니다. 그래서 이 데이터(UnitPrice = 0)를 제거하고 일관된 데이터셋을 유지하도록 하겠습니다.

In [8]:
CREATE OR REPLACE TABLE silken-period-411001.modulabs_project.distinct_table AS 
SELECT *
FROM silken-period-411001.modulabs_project.distinct_table
WHERE UnitPrice != 0

SyntaxError: invalid syntax (2847353110.py, line 1)

## 15-7. RFM 스코어

### Recency

Recency 단계에서는 고객이 얼마나 최근에 구매를 했는지에 중점을 둡니다. 그러므로 '마지막 구매일로부터 현재까지 경과한 일수'를 계산해야 합니다. 낮은 값일수록 고객이 최근에 구매를 했음을 의미하며, 제품이나 서비스에 더 관심을 보인다고 예측할 수 있습니다. Recency를 통해 오랜 시간 동안 구매를 하지 않았던 고객을 발견하고, 다시 제품과 서비스로 불러들이기 위한 마케팅 전략을 맞춤화해볼 수도 있습니다.

우선 InvoiceDate를 '2010-12-01 08:26:00'와 같은 'YYYY-MM-DD HH:MM:SS' 형태에서 'YYYY-MM-DD' 형태로 날짜에 해당하는 부분만 남겨놓고 싶습니다. 이를 위해 DATE 함수를 활용하여 InvoiceDate 컬럼을 연월일 자료형으로 변경해 주세요.

In [None]:
SELECT DATE(InvoiceDate) AS InvoiceDay, *
FROM silken-period-411001.modulabs_project.distinct_table

![image.png](attachment:image.png)

실제 회사에서 다루는 데이터라면 오늘 날짜를 기준으로 최종 구매일이 몇 일 지났는지 계산하겠지만, 여러분이 다루고 있는 데이터는 2010년~2011년 사이의 데이터이므로, 최종 구매일로부터 꽤 오랜 시간이 지난 데이터라는 특성이 있습니다. 그래서 이번 프로젝트에서는 모든 고객들을 통틀어 가장 최근 구매 일자를 기준으로 Recency를 구하려고 합니다.

우선 가장 최근 구매 일자를 MAX() 함수로 찾아보겠습니다.

In [None]:
SELECT MAX(InvoiceDay) as most_recent_date
FROM(
SELECT DATE(InvoiceDate) AS InvoiceDay, *
FROM silken-period-411001.modulabs_project.data)

![image.png](attachment:image.png)

이번에는 유저 별로 가장 최근에 일어난 구매 정보를 정리해 봅시다. 유저 별로 가장 큰 InvoiceDay를 찾아서 가장 최근 구매일로 저장해 주겠습니다.

In [None]:
SELECT 
    CustomerID,
    MAX(DATE(InvoiceDate)) AS InvoiceDay
FROM silken-period-411001.modulabs_project.distinct_table
GROUP BY CustomerID

![image.png](attachment:image.png)

다음에는 가장 최근 일자(most_recent_date)와 유저별 마지막 구매일(InvoiceDay)간의 차이를 계산하겠습니다.

In [None]:
SELECT
  CustomerID, 
  EXTRACT(DAY FROM MAX(InvoiceDay) OVER () - InvoiceDay) AS recency
FROM (
  SELECT 
    CustomerID,
    MAX(DATE(InvoiceDate)) AS InvoiceDay
  FROM silken-period-411001.modulabs_project.distinct_table
  GROUP BY CustomerID
);

![image.png](attachment:image.png)

EXTRACT 함수는 날짜 또는 시간 데이터 타입에서 특정 부분을 추출하는 데 사용됩니다. 이 함수는 주로 SQL에서 날짜와 시간 연산을 수행할 때 사용되며, 날짜의 연도, 월, 일 또는 시간의 시, 분, 초 등을 추출할 수 있습니다.

쿼리문에서 EXTRACT 함수의 사용 방법을 자세히 살펴보겠습니다.

1. MAX(InvoiceDay) OVER () - InvoiceDay : 각 고객(CustomerID)의 각 구매일(InvoiceDay)과 전체 데이터셋에서의 마지막 구매일(MAX(InvoiceDay)) 간의 차이를 계산합니다.

2. EXTRACT(DAY FROM …) : 여기에서 EXTRACT 함수는 위에서 계산된 날짜 차이에서 일(DAY) 부분만을 추출합니다. 즉 각 고객의 최근 구매일로부터 해당 구매 건의 구매일부터의 날짜 차이를 계산하는 함수입니다.

이제 최종 데이터 셋에 필요한 데이터들을 각각 정제해서 이어붙이도록 하겠습니다. 지금까지의 결과를 user_r이라는 이름의 테이블로 저장해 주세요.

In [None]:
CREATE OR REPLACE TABLE silken-period-411001.modulabs_project.user_r AS(
SELECT
  CustomerID, 
  EXTRACT(DAY FROM MAX(InvoiceDay) OVER () - InvoiceDay) AS recency
FROM (
  SELECT 
    CustomerID,
    MAX(DATE(InvoiceDate)) AS InvoiceDay
  FROM silken-period-411001.modulabs_project.distinct_table
  GROUP BY CustomerID
))

## Frequency

Frequency를 계산하는 단계에서는 고객의 구매 빈도 또는 참여 빈도에 초점을 맞춥니다. 전체 거래 건수로 계산을 할 수도 있고, 구매한 아이템의 수량을 합하여 계산할 수도 있습니다. 예를 들어 한 명의 고객이 구매를 2번 했는데 각각 아이템을 4개씩 구매한 경우, 해당 고객의 거래 건수는 2회겠지만 실제로 구매한 수량은 8개가 됩니다. 이 두가지 측면을 모두 포착하기 위해 두 개를 모두 계산해 봅시다.

### 1. 전체 거래 건수 계산

우선 각 고객의 거래 건수를 세어 봅시다. 거래 건은 InvoiceNo를 기준으로 파악하면 되기 때문에, 고객마다 고유한 InvoiceNo의 수를 세어 주겠습니다.

In [None]:
SELECT
  CustomerID,
  COUNT(InvoiceNo) AS purchase_cnt
FROM silken-period-411001.modulabs_project.distinct_table
GROUP BY CustomerID

![image.png](attachment:image.png)

### 2. 구매한 아이템의 총 수량 계산

그 다음으로는 각 고객 별로 구매한 아이템의 총 수량을 더해주겠습니다.

SELECT
  CustomerID,
  COUNT(Quantity) AS item_cnt
FROM silken-period-411001.modulabs_project.distinct_table
GROUP BY CustomerID

![image.png](attachment:image.png)

이제 위에서 구한 '1. 전체 거래 건수 계산'과 '2. 구매한 아이템의 총 수량 계산'의 결과를 합쳐서 user_rf라는 이름의 테이블에 저장해 주겠습니다.

In [None]:
CREATE OR REPLACE TABLE silken-period-411001.modulabs_project.user_rf AS

-- (1) 전체 거래 건수 계산
WITH purchase_cnt AS ( 
  SELECT
  CustomerID,
  COUNT(InvoiceNo) AS purchase_cnt
FROM silken-period-411001.modulabs_project.distinct_table
GROUP BY CustomerID
),

-- (2) 구매한 아이템 총 수량 계산
item_cnt AS (
SELECT
  CustomerID,
  COUNT(Quantity) AS item_cnt
FROM silken-period-411001.modulabs_project.distinct_table
GROUP BY CustomerID
)

-- 기존의 user_r에 (1)과 (2)를 통합
SELECT
  pc.CustomerID,
  pc.purchase_cnt,
  ic.item_cnt,
  ur.recency
FROM purchase_cnt AS pc
JOIN item_cnt AS ic
  ON pc.CustomerID = ic.CustomerID
JOIN silken-period-411001.modulabs_project.user_r AS ur
  ON pc.CustomerID = ur.CustomerID;

### Monetary
Monetary를 계산하는 단계에서는 고객이 지불한 총 금액에 초점을 맞춥니다. 이 때 총 지출액을 계산할수도 있고, 거래당 평균 거래 금액을 계산할 수도 있습니다. 예를 들어, 한 명의 고객이 총 2번의 구매를 했고, 그 합산 금액이 10만원인 경우, 총 지출액은 10만원, 거래당 평균 거래 금액은 5만원이 되는 것입니다.

결제한 총 금액이 높은 고객을 찾는 것도 좋지만, 한번에 많이 구매하는 고객들을 찾는 것도 굉장히 중요합니다. 결제 금액은 낮지만 구매를 자주 하는 고객과, 한번 결제할 때 큰 금액을 결제하는 고객은 분명 특성이나 행동 패턴이 다를테니까요.

이 두 가지 측면을 모두 포착하기 위해 고객별 총 지출액과 평균 거래 금액을 모두 계산해 봅시다.

### 1. 고객별 총 지출액 계산
고객별 총 지출액을 계산해 보세요. 소수점 첫째 자리에서 반올림하세요.

In [None]:
SELECT
  CustomerID,
  ROUND(SUM(UnitPrice),1) AS user_total
FROM silken-period-411001.modulabs_project.distinct_table
GROUP BY CustomerID

![image.png](attachment:image.png)

### 2. 고객별 평균 거래 금액 계산
고객별 평균 거래 금액을 구하기 위해 

1) data 테이블을 user_rf 테이블과 조인(LEFT JOIN) 한 후, 

2) purchase_cnt로 나누어서 

3) user_rfm 테이블로 저장해 봅시다.

In [None]:
CREATE OR REPLACE TABLE silken-period-411001.modulabs_project.user_rfm AS   
SELECT
  rf.CustomerID AS CustomerID,
  rf.purchase_cnt,
  rf.item_cnt,
  rf.recency,
  ut.user_total,
  (ut.user_total / rf.purchase_cnt) AS user_average
FROM silken-period-411001.modulabs_project.user_rf rf
LEFT JOIN (
  -- 고객 별 총 지출액
  SELECT
  CustomerID,
  ROUND(SUM(UnitPrice),1) AS user_total
  FROM silken-period-411001.modulabs_project.distinct_table
  GROUP BY CustomerID
) ut
ON rf.CustomerID = ut.CustomerID;

![image.png](attachment:image.png)

## 15-8. 추가 Feature 추출

### 클러스터링 알고리즘이란?

클러스터링 알고리즘은 비슷한 특성을 가진 데이터 포인트들을 그룹화하는 기술을 말합니다. 데이터 속에 숨겨진 구조나 패턴을 찾아서 비슷한 데이터들끼리 그룹을 지어주는 것이죠.

클러스터링 알고리즘은 고객 세그먼테이션을 하는 것 외에도 굉장히 다양한 활용처들이 있습니다. 대표적인 클러스터링 활용 사례는 다음과 같습니다.

1. 고객 세그먼테이션: 고객 데이터를 기반으로 비슷한 구매 패턴이나 선호도를 가진 고객 그룹을 찾아서 타겟 마케팅 전략을 최적화합니다.

2. 이미지 분류: 비슷한 특징을 가진 이미지를 그룹화하여 이미지 검색 또는 분류를 개선합니다.

3. 자연어 처리: 비슷한 주제를 가진 문서를 그룹화하여 정보 검색 및 텍스트 분석에 활용합니다.

4. 의학 분야: 유사한 진단 패턴이나 환자 그룹을 식별하여 질병 진단을 지원합니다.

5. 이상탐지: 정상 데이터 그룹과 다른 패턴을 가진 이상 데이터 그룹을 찾아 보안 및 이상 탐지에 사용합니다.

클러스터링 알고리즘에는 K-Means 클러스터링, 계층적 클러스터링, DBSCAN 등 다양한 종류가 있습니다. 선택한 알고리즘은 데이터의 특성과 목표에 따라 다를 수 있습니다.

이번 프로젝트에서는 K-Means 클러스터링을 활용해 보겠습니다.



클러스터링을 진행하기에 앞서, 유저별 구매 특성을 더 다양하게 뽑아보도록 하겠습니다.

### 1. 구매하는 제품의 다양성

이 단계에서는 고객들의 제품 구매 행동 속 구매 제품의 다양성을 살펴보려고 합니다. 고객이 얼마나 다양한 제품들에 관심 있는 사람인지를 알게 되면, 개인 맞춤형 마케팅 전략과 추천 서비스를 계획하는 데에도 큰 도움이 될 수 있습니다.

우선 1) 고객 별로 구매한 상품들의 고유한 수를 계산합니다. 높은 숫자가 나오는 것은 해당 고객이 다양한 제품들을 구매한다는 의미이며, 낮은 값이 나오는 경우 소수의 제품들만 구매한다는 것을 의미합니다.

이후 2) user_rfm 테이블과 결과를 합치고, 이를 3) user_data라는 이름의 테이블에 저장하겠습니다.

In [9]:
CREATE OR REPLACE TABLE silken-period-411001.modulabs_project.user_data AS  
WITH unique_products AS (
  SELECT
    CustomerID,
    COUNT(DISTINCT StockCode) AS unique_products
  FROM silken-period-411001.modulabs_project.distinct_table
  GROUP BY CustomerID
)
SELECT ur.*, up.* EXCEPT (CustomerID)
FROM silken-period-411001.modulabs_project.user_rfm AS ur
JOIN unique_products AS up
ON ur.CustomerID = up.CustomerID;

SyntaxError: invalid syntax (2585081575.py, line 1)

### 2. 평균 구매 주기
이 단계에서는 고객들의 쇼핑 패턴을 이해하는 것을 목표로 합니다. 그 중에서도 고객 별 재방문 주기를 살펴볼 것입니다. 고객들의 구매와 구매 사이의 기간이 평균적으로 몇 일인지를 보여주는 평균 일수를 계산하면, 고객이 다음 구매를 언제할지 예측하는 데에도 큰 도움이 됩니다. 평균 구매 소요 일수를 계산하고, 그 결과를 user_data에 통합해 줍시다.

WITH 절 내의 FROM 절 안에는 (1) 구매와 구매 사이의 소요된 일수를 계산하는 부분이 있습니다. InvoiceDate와 바로 뒤에 앞선 InvoiceDate 사이의 일수 차이를 DATE_DIFF 함수로 계산하였습니다. 이를 감싸는 쿼리문으로 CASE WHEN 구문을 사용하였습니다.

CASE WHEN ROUND(AVG(interval_), 2) IS NULL THEN 0 ELSE ROUND(AVG(interval_), 2) END AS average_interval 구문을 더 자세히 보도록 하겠습니다.

ROUND(AVG(interval_), 2) IS NULL 은 특정 고객이 단 하나의 구매 건만 있어서, '바로 직전 구매일'이 없는 경우를 의미합니다. 이 경우에는 '평균 소요 일수'를 0으로 넣었습니다. CASE 절의 ELSE 조건에서는 interval_의 평균을 계산하여 average_interval에 넣었습니다. 이를 통해 구매와 구매 사이의 평균 소요 일수를 계산하였습니다.

마지막으로 기존의 user_data와 결합하여 저장해 주었습니다.

In [None]:
CREATE OR REPLACE TABLE silken-period-411001.modulabs_project.user_data AS 
WITH purchase_intervals AS (
  -- (2) 고객 별 구매와 구매 사이의 평균 소요 일수
  SELECT
    CustomerID,
    CASE WHEN ROUND(AVG(interval_), 2) IS NULL THEN 0 ELSE ROUND(AVG(interval_), 2) END AS average_interval
  FROM (
    -- (1) 구매와 구매 사이에 소요된 일수
    SELECT
      CustomerID,
      DATE_DIFF(InvoiceDate, LAG(InvoiceDate) OVER (PARTITION BY CustomerID ORDER BY InvoiceDate), DAY) AS interval_
    FROM
      silken-period-411001.modulabs_project.data
    WHERE CustomerID IS NOT NULL
  )
  GROUP BY CustomerID
)

SELECT u.*, pi.* EXCEPT (CustomerID)
FROM silken-period-411001.modulabs_project.user_data AS u
LEFT JOIN purchase_intervals AS pi
ON u.CustomerID = pi.CustomerID;

### 3. 구매 취소 경향성
이 단계에서는 고객의 취소 패턴을 더 깊이 있게 파고 들어 고객을 세그먼테이션할 때 사용하려고 합니다. 아래와 같은 특징들을 추가해 보겠습니다.

1. 취소 빈도(cancel_frequency)
취소 빈도는 고객 별로 취소한 거래의 총 횟수입니다.

취소 빈도를 이해하면 거래를 취소할 가능성이 높은 고객을 식별할 수 있습니다. 취소 빈도는 불만족의 정도이거나 다른 문제에 대한 지표일 수 있습니다. 따라서 취소 빈도를 이해함으로써 거래 취소 횟수를 줄이고 고객 만족도를 높이기 위한 전략을 세울 수 있습니다.

2. 취소 비율(cancel_rate)
취소 비율은 각 고객이 한 모든 거래 중에서 취소를 한 거래의 비율입니다.

취소 비율은 특정 고객이 원래 취소를 잘 하는 고객인지와 같은 고객의 특징을 잡아내기 위한 지표입니다. 이런 특성을 식별함으로써 고객의 쇼핑 경험을 개선하고 취소 비율을 감소시키기 위해 어떤 고객 대상군을 공략해야 할지에 대한 실마리를 얻을 수 있습니다.

취소 빈도와 취소 비율을 계산하고 그 결과를 user_data에 통합해 줍시다. 취소 비율은 소수점 두번째 자리까지 구해 주세요.






In [10]:
CREATE OR REPLACE TABLE silken-period-411001.modulabs_project.user_data AS

WITH TransactionInfo AS (
  SELECT
    CustomerID,
    COUNT(InvoiceNo) AS total_transactions,
    SUM(CASE WHEN InvoiceNo LIKE 'C%' THEN 1 ELSE 0 END) AS cancel_frequency
  FROM silken-period-411001.modulabs_project.distinct_table
  GROUP BY CustomerID
)

SELECT u.*, t.* EXCEPT(CustomerID), ROUND(t.cancel_frequency / t.total_transactions, 2) AS cancel_rate
FROM `silken-period-411001.modulabs_project.user_data` AS u
LEFT JOIN TransactionInfo AS t
ON u.CustomerID = t.CustomerID

SyntaxError: invalid syntax (3080942463.py, line 1)

![image.png](attachment:image.png)

# 회고
잘한 점: 노드의 insturction을 잘 이해한 후 따라가려고 노력했다. 단순히 코드를 넣는것이 아니라 더 효율적으로 할 수 있는 방법을 찾아보거나, 새로운 function이 나오면 검색을 통해 찾아보았다.

보완해야할 점: 시간 분배를 잘 해야할것 같다. github 사용에 더 친숙해져야할것 같다. 다음에는 markdown 파일을 더 잘 정리할 수 있으면 좋을것 같다.