## 데이터 전처리

### 실습 데이터셋 안내

- 2022년 1~12월 간 lg.com의 마케팅 실적 데이터입니다.<br><br>
- 변수(열)에 대한 간단한 설명입니다.

| 열이름 | 설명 | 특징 |
| :----- | :--- | :--- |
| country | 국가 코드 | au: 호주, br: 브라질, de: 독일, fr: 프랑스, it: 이탈리아, <br> uk: 영국 |
| date | 웹 행동 발생 일자 | 2022.01.01~2022.12.31 |
| product_category | 제품 대분류 | HE, HA, BS(LG전자 사업부별 분류) |
| product_subcategory | 제품 소분류 | 13개 카테고리(제품별 분류) |
| product_detail_page | 제품 상세 페이지 유입 수 | 수치형 |
| add_to_cart | 장바구니 추가 클릭 수 | 수치형 |
| sales_amt | 판매대수 | 수치형(대) |
| sales_usd | 판매금액 | 수치형(USD) |

- 실습 데이터인 csv 파일은 data 폴더에 있습니다.
  - 구분자는 콤마(,)이고 인코딩 방식은 **ASCII**입니다.

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import chardet
import numpy as np
import pandas as pd
import joblib

In [None]:
# Jupyter Notebook에서 실수를 소수점 셋째 자리까지 출력하도록 설정합니다.
%precision 3

In [None]:
# pandas 객체에서 실수를 소수점 셋째 자리까지 출력하도록 설정합니다.
pd.options.display.precision = 3

### 작업 경로 확인 및 변경

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# 작업 경로에 있는 폴더명과 파일명을 출력합니다.
sorted(os.listdir())

### 인코딩 방식 확인

In [None]:
# csv 파일명을 변수에 할당합니다. 여러 번 재사용하기 위함입니다.
fileName = 'online_mall.csv'

In [None]:
# csv 파일을 bytes 문자열로 읽고 text에 할당합니다.
# [힌트] open(), read() 함수를 사용하세요.
text = open(file = fileName, mode = 'rb').read()

In [None]:
# 바이너리 텍스트의 인코딩 방식을 확인합니다.
# [힌트] chardet.detect() 함수를 사용하세요.
chardet.detect(text)

### 실습 데이터셋 준비

In [None]:
# 링크를 읽고 데이터프레임 rawdat를 생성합니다.
# [힌트] pd.read_csv() 함수를 사용하세요.
# [참고] EUC-KR은 CP949의 부분집합입니다.
rawdat = pd.read_csv(filepath_or_buffer = fileName)

In [None]:
# rawdat의 정보를 확인합니다.
# [힌트] info() 함수를 사용하세요.
rawdat.info()

In [None]:
# rawdat의 처음 5행을 출력합니다.
# [힌트] head() 함수를 사용하세요.
rawdat.head()

In [None]:
# rawdat의 마지막 5행을 출력합니다.
# [힌트] tail() 함수를 사용하세요.
rawdat.tail()

### 실습 데이터셋 전처리

In [None]:
# 불필요한 열을 삭제합니다.
# [힌트] drop() 함수를 실행한 결과를 데이터프레임에 재할당해야 합니다.
rawdat = rawdat.drop(columns = ['Unnamed: 0'])

In [None]:
# rawdat의 처음 5행을 출력합니다.
rawdat.head()

In [None]:
# rawdat의 열이름을 출력합니다.
rawdat.columns

In [None]:
# rawdat의 열이름에서 'product_'를 삭제한 결과를 출력합니다.
rawdat.columns.str.replace('product_', '')

In [None]:
# 위 코드 실행 결과를 rawdat 열이름에 할당하여 변경합니다.
rawdat.columns = rawdat.columns.str.replace('product_', '')

In [None]:
# rawdat의 처음 5행을 출력합니다.
rawdat.head()

In [None]:
# rawdat의 열별 자료형을 확인합니다.
rawdat.dtypes

In [None]:
# date를 날짜시간형(np.datetime64)으로 변환합니다.
# [주의] 날짜시간형으로 변환하려면 정수를 문자열로 먼저 변환해야 합니다.
rawdat['date'] = rawdat['date'].astype(str).astype(np.datetime64)

In [None]:
# date에서 월(month)을 정수로 추출하여 새로운 열로 추가합니다.
rawdat['month'] = rawdat['date'].dt.month

In [None]:
# date에서 월을 정수 대신 숫자(문자열)로 추출할 수 있습니다.
# [힌트] dt.strftime() 함수를 사용하세요.
rawdat['date'].dt.strftime('%m')

In [None]:
# date에서 월을 정수 대신 영문자(문자열)로 추출할 수 있습니다.
# [힌트] dt.strftime() 함수를 사용하세요.
rawdat['date'].dt.strftime('%b')

### 기술통계량 확인

In [None]:
# rawdat의 수치(정수 또는 실수)형 변수의 기술통계량을 확인합니다.
# [힌트] describe() 함수를 사용하세요.
rawdat.describe()

In [None]:
# rawdat의 범주형 변수의 기술통계량을 확인합니다.
# [힌트] describe() 함수의 include 매개변수에 자료형을 지정하세요.
rawdat.describe(include = object)

In [None]:
# country의 빈도수를 확인합니다.
# [힌트] value_counts() 함수를 사용하세요.
rawdat['country'].value_counts()

In [None]:
# country의 상대도수를 확인합니다.
# [힌트] value_counts() 함수에 normalize 매개변수를 추가하세요.
rawdat['country'].value_counts(normalize = True)

In [None]:
# category와 subcategory로 리스트 cols를 생성합니다.
cols = ['category', 'subcategory']

In [None]:
# category와 subcategory의 빈도수를 인덱스로 정렬하여 출력합니다.
# [힌트] value_counts(), sort_index() 함수를 사용하세요.
rawdat[cols].value_counts().sort_index()

In [None]:
# category와 subcategory의 상대도수를 인덱스로 정렬하여 출력합니다.
rawdat[cols].value_counts(normalize = True).sort_index()

In [None]:
# rawdat에서 빈도수 100 미만인 HE & Monitor 행을 삭제합니다.
# [힌트] 비트 연산자 &와 ~를 사용하세요.
rawdat = rawdat[~ (rawdat['category'].eq('HE') & rawdat['subcategory'].eq('Monitor'))]

In [None]:
# rawdat의 행 개수를 출력합니다.
# [힌트] shape 속성 결과에 0번 인덱스 원소를 선택하세요.
rawdat.shape[0]

### 국가별 페이지 유입, 장바구니 담기 및 구매 건수 확인

In [None]:
# 아래 조건을 만족하는 피벗 테이블을 funnel_nat에 할당합니다.
# [힌트] pd.pivot_table() 함수를 사용하세요.
# 데이터(data)는 rawdat, 
# 값(values)은 detail_page, add_to_cart와 sales_amt, 
# 행이름(index)은 country, 
# 열이름(columns)은 생략, 
# 집계함수(aggfunc)에 np.sum을 지정하세요.
funnel_nat = pd.pivot_table(
    data = rawdat, 
    values = ['detail_page', 'add_to_cart', 'sales_amt'],
    index = 'country',
    columns = None, 
    aggfunc = np.sum
)

In [None]:
# funnel_nat을 출력합니다.
funnel_nat

In [None]:
# funnel_nat의 열이름이 자동으로 정렬되었습니다.
# 열의 순서를 변경하기 위해 열이름으로 cols를 생성합니다.
cols = ['detail_page', 'add_to_cart', 'sales_amt']

In [None]:
# funnel_nat에 cols로 열의 순서를 변경한 결과를 출력합니다.
funnel_nat[cols]

In [None]:
# funnel_nat에 cols로 열의 순서를 변경한 결과를 funnel_nat에 재할당합니다.
funnel_nat = funnel_nat[cols]

In [None]:
# add_to_cart를 detail_page로 나누고 100을 곱한 cart_rate를 생성합니다.
funnel_nat['cart_rate'] = funnel_nat['add_to_cart'] / funnel_nat['detail_page'] * 100

In [None]:
# sales_amt를 add_to_cart로 나누고 100을 곱한 buy_rate1을 생성합니다.
funnel_nat['buy_rate1'] = funnel_nat['sales_amt'] / funnel_nat['add_to_cart'] * 100

In [None]:
# sales_amt를 detail_page로 나누고 100을 곱한 buy_rate2를 생성합니다.
funnel_nat['buy_rate2'] = funnel_nat['sales_amt'] / funnel_nat['detail_page'] * 100

In [None]:
# funnel_nat을 출력합니다.
funnel_nat

In [None]:
# funnel_nat을 cart_rate로 내림차순 정렬한 결과를 출력합니다.
funnel_nat.sort_values(by = ['cart_rate'], ascending = False)

In [None]:
# funnel_nat을 buy_rate1으로 내림차순 정렬한 결과를 출력합니다.
funnel_nat.sort_values(by = ['buy_rate1'], ascending = False)

In [None]:
# funnel_nat을 buy_rate2로 내림차순 정렬한 결과를 출력합니다.
funnel_nat.sort_values(by = ['buy_rate2'], ascending = False)

### 제품별 페이지 유입, 장바구니 담기 및 구매 건수 확인

In [None]:
# 아래 조건을 만족하는 피벗 테이블을 funnel_prd에 할당합니다.
# [힌트] pd.pivot_table() 함수를 사용하세요.
# 데이터(data)는 rawdat, 
# 값(values)은 detail_page, add_to_cart와 sales_amt, 
# 행이름(index)은 category, subcategory, 
# 열이름(columns)은 생략, 
# 집계함수(aggfunc)에 np.sum, 
# 정렬(sort)에 False를 지정하세요.
funnel_prd = pd.pivot_table(
    data = rawdat, 
    values = ['detail_page', 'add_to_cart', 'sales_amt'],
    index = ['category', 'subcategory'],
    columns = None, 
    aggfunc = np.sum, 
    sort = False
)

In [None]:
# funnel_prd을 출력합니다.
funnel_prd

In [None]:
# add_to_cart를 detail_page로 나누고 100을 곱한 cart_rate를 생성합니다.
funnel_prd['cart_rate'] = funnel_prd['add_to_cart'] / funnel_prd['detail_page'] * 100

In [None]:
# sales_amt를 add_to_cart로 나누고 100을 곱한 buy_rate1을 생성합니다.
funnel_prd['buy_rate1'] = funnel_prd['sales_amt'] / funnel_prd['add_to_cart'] * 100

In [None]:
# sales_amt를 detail_page로 나누고 100을 곱한 buy_rate2를 생성합니다.
funnel_prd['buy_rate2'] = funnel_prd['sales_amt'] / funnel_prd['detail_page'] * 100

In [None]:
# funnel_prd을 출력합니다.
funnel_prd

In [None]:
# funnel_prd을 cart_rate로 내림차순 정렬한 결과를 출력합니다.
funnel_prd.sort_values(by = ['cart_rate'], ascending = False)

In [None]:
# funnel_prd을 buy_rate1으로 내림차순 정렬한 결과를 출력합니다.
funnel_prd.sort_values(by = ['buy_rate1'], ascending = False)

In [None]:
# funnel_prd을 buy_rate2로 내림차순 정렬한 결과를 출력합니다.
funnel_prd.sort_values(by = ['buy_rate2'], ascending = False)

### 국가별 판매대수와 판매금액 합계 계산

In [None]:
# 아래 조건을 만족하는 피벗 테이블을 price_nat에 할당합니다.
# [힌트] pd.pivot_table() 함수를 사용하세요.
# 데이터(data)는 rawdat, 
# 값(values)은 sales_amt와 sales_usd, 
# 행이름(index)은 country, 
# 열이름(columns)은 생략, 
# 집계함수(aggfunc)에 np.sum을 지정하세요.
price_nat = pd.pivot_table(
    data = rawdat, 
    values = ['sales_amt', 'sales_usd'],
    index = 'country',
    columns = None, 
    aggfunc = np.sum
)

In [None]:
# price_nat을 출력합니다.
price_nat

In [None]:
# sales_usd를 sales_amt로 나눈 avg_price를 생성합니다.
price_nat['avg_price'] = price_nat['sales_usd'] / price_nat['sales_amt']

In [None]:
# price_nat을 sales_amt로 내림차순 정렬한 결과를 출력합니다.
price_nat.sort_values(by = ['sales_amt'], ascending = False)

In [None]:
# price_nat을 sales_usd로 내림차순 정렬한 결과를 출력합니다.
price_nat.sort_values(by = ['sales_usd'], ascending = False)

In [None]:
# price_nat을 avg_price로 내림차순 정렬한 결과를 출력합니다.
price_nat.sort_values(by = ['avg_price'], ascending = False)

### 제품별 판매대수와 판매금액 합계 계산

In [None]:
# 아래 조건을 만족하는 피벗 테이블을 price_prd에 할당합니다.
# [힌트] pd.pivot_table() 함수를 사용하세요.
# 데이터(data)는 rawdat에서 country가 'au'인 행을 선택, 
# 값(values)은 sales_amt와 sales_usd, 
# 행이름(index)은 category와 subcategory, 
# 열이름(columns)은 생략, 
# 집계함수(aggfunc)에 np.sum을 지정하세요.
price_prd = pd.pivot_table(
    data = rawdat[rawdat['country'].eq('au')], 
    values = ['sales_amt', 'sales_usd'],
    index = ['category', 'subcategory'],
    columns = None, 
    aggfunc = np.sum
)

In [None]:
# price_prd의 처음 5행을 출력합니다.
price_prd.head()

In [None]:
# price_prd의 행 개수를 출력합니다.
# [힌트] shape 속성 결과에 0번 인덱스 원소를 선택하세요.
price_prd.shape[0]

In [None]:
# price_prd의 열별 결측값 개수를 확인합니다.
# [힌트] isna() 함수를 사용하세요.
price_prd.isna().sum()

In [None]:
# price_prd에 있는 결측값을 0으로 대체하고 price_prd에 재할당합니다.
# [힌트] fillna() 함수를 사용하세요.
price_prd = price_prd.fillna(value = 0)

In [None]:
# sales_usd를 sales_amt로 나눈 avg_price를 생성합니다.
price_prd['avg_price'] = price_prd['sales_usd'] / price_prd['sales_amt']

In [None]:
# price_prd를 avg_price로 내림차순 정렬하고 price_prd에 재할당합니다.
# [힌트] sort_values() 함수를 사용하세요.
price_prd = price_prd.sort_values(by = ['avg_price'], ascending = False)

In [None]:
# price_prd를 출력합니다.
price_prd

In [None]:
# price_prd의 행이름을 초기화한 결과를 출력합니다.
# [힌트] reset_index() 함수를 사용하세요.
# [참고] 기존 행이름을 맨 처음 열로 추가합니다.
# [참고] drop = True를 추가하면 기존 행이름을 삭제합니다.
price_prd.reset_index()

In [None]:
# price_prd의 행이름을 초기화하고 price_prd에 재할당합니다.
price_prd = price_prd.reset_index()

In [None]:
# price_prd의 처음 7행을 출력합니다.(평균 가격 상위 7개)
price_prd.head(n = 7)

In [None]:
# price_prd의 마지막 7행을 출력합니다.(평균 가격 하위 7개)
price_prd.tail(n = 7)

### 지정한 국가의 제품별 평균 가격을 반환하는 함수 생성

In [None]:
# 국가명을 지정하면 수산물품목별 무역수지를 반환하는 함수를 생성합니다.
def getAvgPrice(nation):
    
    # rawdat에서 contry가 nation인 행을 선택한 다음
    # 피벗 테이블을 생성하고 price_prd에 할당합니다.
    price_prd = pd.pivot_table(
        data = rawdat[rawdat['country'].eq(nation)], 
        values = ['sales_amt', 'sales_usd'],
        index = ['category', 'subcategory'],
        columns = None, 
        aggfunc = np.sum
    )
    
    # price_prd에 있는 결측값을 0으로 대체하고 price_prd에 재할당합니다.
    price_prd = price_prd.fillna(value = 0)
    
    # sales_usd를 sales_amt로 나눈 avg_price를 생성합니다.
    price_prd['avg_price'] = price_prd['sales_usd'] / price_prd['sales_amt']
    
    # price_prd를 avg_price로 내림차순 정렬하고 price_prd에 재할당합니다.
    # [힌트] sort_values() 함수를 사용하세요.
    price_prd = price_prd.sort_values(by = ['avg_price'], ascending = False)
    
    # price_prd의 행이름을 초기화하고 price_prd에 재할당합니다.
    price_prd = price_prd.reset_index()

    # 결과를 반환합니다.
    return price_prd

In [None]:
# 호주의 제품별 평균 가격을 출력합니다.
getAvgPrice(nation = 'au')

In [None]:
# 브라질의 제품별 평균 가격을 출력합니다.
getAvgPrice(nation = 'br')

In [None]:
# 독일의 제품별 평균 가격을 출력합니다.
getAvgPrice(nation = 'de')

In [None]:
# 프랑스의 제품별 평균 가격을 출력합니다.
getAvgPrice(nation = 'fr')

In [None]:
# 이탈리아의 제품별 평균 가격을 출력합니다.
getAvgPrice(nation = 'it')

In [None]:
# 영국의 제품별 평균 가격을 출력합니다.
getAvgPrice(nation = 'uk')

### 데이터 병합

In [None]:
# rawdat에서 category와 subcategory의 빈도수를 계산하여 merged에 할당합니다.
merged = rawdat[['category', 'subcategory']].value_counts()

In [None]:
# merged를 출력합니다.
merged

In [None]:
# merged의 행이름을 초기화한 결과를 출력합니다.
# [참고] 시리즈의 행이름을 초기화하면 데이터프레임을 반환합니다.
merged.reset_index()

In [None]:
# merged의 행이름을 초기화한 결과를 merged에 재할당합니다.
merged = merged.reset_index()

In [None]:
# merged에서 정수 0인 열이름을 삭제합니다.
merged = merged.drop(columns = [0])

In [None]:
# 호주의 국가명을 nation에 할당합니다.
nation = 'au'

In [None]:
# 호주의 제품별 평균 가격 데이터를 price_prd로 생성합니다.
price_prd = getAvgPrice(nation = nation)

In [None]:
# price_prd를 출력합니다.
price_prd

In [None]:
# price_prd의 일부 열이름을 아래와 같이 변경합니다.
# sales_amt -> amt_au
# sales_usd -> usd_au
# avg_price -> avg_au
# [힌트] rename() 함수와 f-문자열을 사용하세요.
price_prd = price_prd.rename(columns = {
    'sales_amt': f'amt_{nation}', 
    'sales_usd': f'usd_{nation}', 
    'avg_price': f'avg_{nation}'
})

In [None]:
# merged와 price_prd의 제품별 평균 가격 데이터를 외부병합합니다.
# [참고] 결측값(NaN)은 해당 국가에 관련 데이터가 없다는 것을 의미합니다.
pd.merge(
    left = merged, 
    right = price_prd, 
    how = 'outer', 
    on = ['category', 'subcategory']
)

In [None]:
# 반복문을 실행할 범위(국가명 리스트)를 nations에 할당합니다.
# [힌트] unique() 함수를 사용하세요.
nations = rawdat['country'].unique()

In [None]:
# nations을 출력합니다.
nations

In [None]:
# nations의 원소를 출력하는 for 반복문을 실행합니다.
for nation in nations:
    print(nation)

In [None]:
# nations의 원소를 바꿔가면서 merged에 병합합니다.
for nation in nations:
    
    # nation의 제품별 평균 가격 데이터를 price_prd로 생성합니다.
    price_prd = getAvgPrice(nation = nation)
    
    # price_prd의 일부 열이름을 변경합니다.
    price_prd = price_prd.rename(columns = {
        'sales_amt': f'amt_{nation}', 
        'sales_usd': f'usd_{nation}', 
        'avg_price': f'avg_{nation}'
    })
    
    # merged와 price_prd의 제품별 평균 가격 데이터를 외부병합합니다.
    merged = pd.merge(
        left = merged, 
        right = price_prd, 
        how = 'outer', 
        on = ['category', 'subcategory']
    )

In [None]:
# merged를 출력합니다.
merged

In [None]:
# merged에서 category와 subcategory를 인덱스로 설정합니다.
# [힌트] set_index() 함수를 사용하세요.
merged = merged.set_index(keys = ['category', 'subcategory'])

In [None]:
# merged의 열이름을 출력합니다.
merged.columns

### 데이터 결합

In [None]:
# merged의 열이름에서 'amt'를 포함하는 원소만 남겨 col_amt에 할당합니다.
# [힌트] 리스트 컴프리헨션을 사용하세요.
col_amt = [col for col in merged.columns if 'amt' in col]

In [None]:
# col_amt를 출력합니다.
col_amt

In [None]:
# merged에서 열이름이 col_amt인 원소를 선택하여 merged_amt에 할당합니다.
merged_amt = merged[col_amt]

In [None]:
# merged_amt를 출력합니다.
merged_amt

In [None]:
# merged의 열이름에서 'usd'를 포함하는 원소만 남겨 col_usd에 할당합니다.
col_usd = [col for col in merged.columns if 'usd' in col]

In [None]:
# col_usd를 출력합니다.
col_usd

In [None]:
# merged에서 열이름이 col_usd인 원소를 선택하여 merged_usd에 할당합니다.
merged_usd = merged[col_usd]

In [None]:
# merged_usd를 출력합니다.
merged_usd

In [None]:
# merged의 열이름에서 'avg'를 포함하는 원소만 남겨 col_avg에 할당합니다.
col_avg = [col for col in merged.columns if 'avg' in col]

In [None]:
# col_avg를 출력합니다.
col_avg

In [None]:
# merged에서 열이름이 col_avg인 원소를 선택하여 merged_avg에 할당합니다.
merged_avg = merged[col_avg]

In [None]:
# merged_avg를 출력합니다.
merged_avg

In [None]:
# merged_amt, merged_usd, merged_avg를 열 방향으로 결합하고 merged에 할당합니다.
# [힌트] pd.concat() 함수를 사용하세요.
# [주의] axis 매개변수의 기본값은 0(행)이므로 1(열)을 지정해야 합니다.
merged = pd.concat(objs = [merged_amt, merged_usd, merged_avg], axis = 1)

In [None]:
# merged를 출력합니다.
merged

In [None]:
# merged를 인덱스로 오름차순 정렬한 결과를 출력합니다.
merged.sort_index()

In [None]:
# merged를 인덱스로 오름차순 정렬한 결과를 merged에 재할당합니다.
merged = merged.sort_index()

### 외부 파일로 저장

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# 여러 객체를 하나의 압축 파일로 저장합니다.
# 파일명은 'Online_Mall.z'으로 지정하세요.
# [힌트] joblib.dump() 함수를 사용하세요.
%time joblib.dump(value = [rawdat, merged], filename = 'Online_Mall.z')

In [None]:
# rawdat를 xlsx 파일로 저장합니다.
# [참고] 데이터프레임의 인덱스를 추가하지 않도록 설정합니다.
%time rawdat.to_excel(excel_writer = 'Online_Mall_Rawdat.xlsx', index = False)

In [None]:
# merged를 xlsx 파일로 저장합니다.
# [참고] 데이터프레임의 인덱스를 추가도록 설정합니다.
%time merged.to_excel(excel_writer = 'Online_Mall_Merged.xlsx', index = True)

In [None]:
# 작업 경로에 있는 폴더명과 파일명을 출력합니다.
sorted(os.listdir())

## End of Document