In [1]:
#Online Retail 데이터 기본 정보
#InvoiceNo 6자리 숫자로 된 고유번호
#StockCode 5자리 숫자로 된 상품코드(상품으로 간주)
#Description 상품명
#Quantity 한 거래당 판매된 상품 수
#InvoiceDate 거래가 성립된 일시 MM/DD/YY HH:MM
#UnitPrice 가격
#CustomerID 사용자ID
#Country 사용자 국가

#2011년 거래 데이터를 이용하여 같은 상품을 구입한 영국에 거주하는 사용자 그룹을 찾기
#StockCode를 이용하여 CustomerID 군집화


In [2]:
#데이터 전처리
#고유 사용자 수와 고유 상품 수를 사용하므로 기초 통계량 조사
#전체 사용자 수 및 상품 수를 구하고, 한 사용자고 구매한 고유 상품 수의 기초 통계량(고유상품 수의 최솟값, 최댓값, 평균값, 표준편차)
#기초 통계량을 구하면 데이터 전체 모습과 군집화의 노이즈가 될 수 있는 예외값 알 수 있음

#user_product_dic : 사용자ID를 키로 그 사용자가 구입한 상품코드의 셋을 값으로 하는 딕셔너리
#product_user_dic : 상품코드를 키로 그 상품을 구입한 사용자ID의 셋을 값으로 하는 딕셔너리

#product_per_user_li를 이용하여 사용자 구매한 상품수를 리스트에 저장, 사용자 구매한 고유상품의 최솟값, 최댓값, 평균값, 표준편차 구함
#product_id_name_dic: 상품코드를 키로 상품명을 값으로 하는 딕셔너리




In [4]:
import time
from scipy import stats

# 데이터 구조 정의
# 사용자ID를 키로 갖고 상품코드의 셋을 값으로 갖는 딕셔너리와
# 상품코드를 키로 갖고 사용자 ID의 셋을 값으로 갖는 딕셔너리
user_product_dic= {}
product_user_dic= {}

# 상품 코드를 키로 갖고 상품명을 값으로 갖는 딕셔너리
# 군집화의 내용을 확인하는 단계에서 상품명을 사용
product_id_name_dic = {}



In [7]:
# 파일을 읽어 위에서 정의한 데이터구조를 채움
for line in open ('Online Retail.txt'):
    #데이터를 한 행씩 읽어 필요한 항목을 저장.
    line_items = line.strip().split('\t')
    user_code = line_items[6]
    product_id = line_items[1]
    product_name = line_items[2]
    
    #사용자 ID가 없을 경우 무시
    if len(user_code) ==0:
        continue
    
    #영국에서 구매한 사용자만 고려하므로 국가가 united kingdom이 아닌 경우 무시
    country = line_items[7]
    if country != 'United Kindom':
        continue
        
    #연도를 읽을 때 에러처리, 파일 헤더 무시
    try:
        invoice_year = time.strptime(line_items[4], '%m/%d/%y %H:%M').tm_year
        
    except ValueError:
        continue
    
    #2011년에 일어난 구매가 아닌 것은 무시
    if invoice_year !=2011:
        continue
    
    #읽은 정보로 데이터 구조를 채웁니다.
    #상품 가짓수를 고려하므로 상품코드를 셋으로 가지도록 함
    user_product_dic.setdefault(user_code, set())
    user_product_dic[user_code].add(product_id)
    
    product_user_dic.setdefault(product_id, set())
    product_user_dic[product_id].add(user_code)
    
    product_id_name_dic[product_id] = product_name

# 데이터 구조를 다 채웠으므로 각 사용자가 구매한 상품 가짓수로 리스트를 만든다
product_per_user_li = [len(x) for x in user_product_dic.values()]

# 이 장에서 사용할 최종 사용자 수와 상품 가짓수를 출력
print('# of users:', len(user_product_dic))
print('# of products',len(product_user_dic))

#각 사용자가 구매한 상품 가짓수로 기초 통계량을 출력
print(stats.describe(product_per_user_li))



NameError: name 'user_product_dic' is not defined