## 데이터 전처리 실습

### 실습 데이터셋 안내

- 2022년 1~12월 간 lg.com의 마케팅 실적 데이터입니다.<br>
- 변수(열)에 대한 간단한 설명입니다.

| 열이름 | 설명 | 특징 |
| :----- | :--- | :--- |
| country | 국가 코드 | au: 호주, br: 브라질, de: 독일, fr: 프랑스, it: 이탈리아, <br> uk: 영국 |
| date | 웹 행동 발생 일자 | 20220101~20221231 |
| product_category | 제품 대분류 | HE, HA, BS(LG전자 사업부별 분류) |
| product_subcategory | 제품 소분류 | 13개 카테고리(제품별 분류) |
| product_detail_page | 제품 상세 페이지 유입 수 | 수치형 |
| add_to_cart | 장바구니 추가 클릭 수 | 수치형 |
| sales_amt | 판매수량 | 수치형(단위: 개) |
| sales_usd | 판매금액 | 수치형(단위: 달러) |

- 실습 데이터인 **'Online_Mall.csv'** 파일은 data 폴더에 있습니다.
  - 구분자는 콤마(,)이고 인코딩 방식은 **ASCII**입니다.

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import chardet
import numpy as np
import pandas as pd
import joblib

In [None]:
# Jupyter Notebook에서 실수를 소수점 셋째 자리까지 출력하도록 설정합니다.
%precision 3

In [None]:
# pandas 객체에서 실수를 소수점 셋째 자리까지 출력하도록 설정합니다.
pd.options.display.precision = 3

### 작업 경로 확인 및 변경

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
sorted(os.listdir())

### 문자 인코딩 방식 확인

In [None]:
# csv 파일명을 변수에 할당합니다. 여러 번 재사용하기 위함입니다.
fileName = 'Online_Mall.csv'

In [None]:
# csv 파일을 bytes 문자열로 읽고 text에 할당합니다.
# [힌트] with 문, open() 및 read() 함수를 사용하세요.
with open(file = fileName, mode = 'rb') as file:
    text = file.read()

In [None]:
# 바이너리 텍스트의 인코딩 방식을 확인합니다.
# [힌트] chardet.detect() 함수를 사용하세요.
chardet.detect(text)

### 실습 데이터셋 준비

In [None]:
# 링크를 읽고 데이터프레임 rawdat를 생성합니다.
# [힌트] pd.read_csv() 함수를 사용하세요.
# [참고] 문자 인코딩 방식이 ASCII와 UTF-8이면 encoding 매개변수를 생략할 수 있습니다.
rawdat = pd.read_csv(filepath_or_buffer = fileName)

In [None]:
# rawdat의 정보를 확인합니다.
# [힌트] info() 함수를 사용하세요.
rawdat.info()

In [None]:
# rawdat의 처음 5행을 출력합니다.
# [힌트] head() 함수를 사용하세요.
rawdat.head()

In [None]:
# rawdat의 마지막 5행을 출력합니다.
# [힌트] tail() 함수를 사용하세요.
rawdat.tail()

### 실습 데이터셋 전처리

In [None]:
# rawdat의 열이름을 출력합니다.
# [힌트] columns 속성을 사용하세요.
rawdat.columns

In [None]:
# rawdat에서 불필요한 열인 'Unnamed: 0'을 삭제한 결과를 출력합니다.
# [힌트] drop() 함수를 사용하세요.
rawdat.drop(columns = ['Unnamed: 0'])

In [None]:
# 위 코드 실행 결과를 rawdat에 재할당합니다.
rawdat = rawdat.drop(columns = ['Unnamed: 0'])

In [None]:
# rawdat의 처음 5행을 출력합니다.
rawdat.head()

In [None]:
# rawdat의 열이름을 출력합니다.
rawdat.columns

In [None]:
# rawdat의 열이름에서 'product_'를 삭제한 결과를 출력합니다.
rawdat.columns.str.replace(pat = 'product_', repl = '')

In [None]:
# 위 코드 실행 결과를 rawdat 열이름에 할당하여 변경합니다.
rawdat.columns = rawdat.columns.str.replace(pat = 'product_', repl = '')

In [None]:
# rawdat의 처음 5행을 출력합니다.
rawdat.head()

In [None]:
# rawdat의 열이름에서 일부를 변경하고 rawdat에 재할당합니다.
# 'detail_page' -> 'page'
# 'add_to_cart' -> 'cart'
# 'sales_amt' -> 'vol'
# 'sales_usd' -> 'usd'
# [힌트] rename() 함수의 columns 매개변수에 딕셔너리를 지정하세요.
rawdat = rawdat.rename(columns = {
    'detail_page': 'page', 
    'add_to_cart': 'cart', 
    'sales_amt': 'vol', 
    'sales_usd': 'usd'
})

In [None]:
# rawdat의 열이름을 출력합니다.
rawdat.columns

In [None]:
# rawdat의 열별 자료형을 확인합니다.
rawdat.dtypes

In [None]:
# date 열을 날짜시간형으로 변환한 결과를 출력합니다.
# [힌트] astype() 함수에 'datetime64[ns]'을 지정하세요.
# [주의] 정수를 날짜시간형으로 변환하면 엉뚱한 결과를 반환할 수 있습니다.
rawdat['date'].astype('datetime64[ns]')

In [None]:
# date 열을 날짜시간형으로 변환한 결과를 출력합니다.
# [주의] 날짜시간형으로 변환할때 정수를 문자열로 먼저 변환해야 합니다.
rawdat['date'].astype(str).astype('datetime64[ns]')

In [None]:
# 위 코드 실행 결과를 date 열에 할당하여 변경합니다.
rawdat['date'] = rawdat['date'].astype(str).astype('datetime64[ns]')

In [None]:
# rawdat의 열별 자료형을 확인합니다.
rawdat.dtypes

In [None]:
# date 열에서 월(month)을 정수로 추출한 결과를 출력합니다.
rawdat['date'].dt.month

In [None]:
# 위 코드 실행 결과를 새 변수 month 열에 할당합니다.
rawdat['month'] = rawdat['date'].dt.month

In [None]:
# rawdat의 처음 5행을 출력합니다.
rawdat.head()

In [None]:
# date 열에서 월을 숫자(문자열)로 추출한 결과를 출력합니다.
# [힌트] dt.strftime() 함수의 date_format 매개변수에 날짜 포맷을 지정하세요.
# [힌트] 열을 숫자(문자열)로 반환하는 날짜 포맷은 '%m'입니다.
rawdat['date'].dt.strftime(date_format = '%m')

In [None]:
# date 열에서 월을 영문자(문자열)로 추출한 결과를 출력합니다.
# [힌트] dt.strftime() 함수의 date_format 매개변수에 날짜 포맷을 지정하세요.
# [힌트] 열을 영문자(문자열)로 반환하는 날짜 포맷은 '%B' 또는 '%b'입니다.
rawdat['date'].dt.strftime(date_format = '%b')

### 기술통계량 확인

In [None]:
# rawdat의 수치형(정수 또는 실수) 변수의 기술통계량을 확인합니다.
# [힌트] describe() 함수를 사용하세요.
# [주의] include 매개변수에 자료형을 지정하지 않으면 날짜시간형도 포함됩니다.
rawdat.describe()

In [None]:
# rawdat의 수치형(정수 또는 실수) 변수의 기술통계량을 확인합니다.
# [주의] describe() 함수의 include 매개변수에 정수와 실수를 지정합니다.
rawdat.describe(include = [int, float])

In [None]:
# rawdat의 범주형 변수의 기술통계량을 확인합니다.
# [힌트] describe() 함수의 include 매개변수에 자료형을 지정하세요.
rawdat.describe(include = object)

In [None]:
# country 열의 빈도수를 확인합니다.
# [힌트] value_counts() 함수를 사용하세요.
rawdat['country'].value_counts()

In [None]:
# country 열의 상대도수를 확인합니다.
# [힌트] value_counts() 함수의 normalize 매개변수에 True를 지정하세요.
rawdat['country'].value_counts(normalize = True)

In [None]:
# category와 subcategory 열이름으로 리스트 cols에 할당합니다.
# [참고] 데이터프레임에서 선택할 열이름을 리스트로 만들면 코딩에 편리합니다.
cols = ['category', 'subcategory']

In [None]:
# rawdat에서 cols를 선택한 결과를 출력합니다.
rawdat[cols]

In [None]:
# category와 subcategory 열의 빈도수를 출력합니다.
# [힌트] value_counts() 함수를 사용하세요.
# [참고] value_counts() 함수는 빈도수를 내림차순 정렬합니다.
rawdat[cols].value_counts()

In [None]:
# category와 subcategory 열의 빈도수를 인덱스로 정렬하여 출력합니다.
# [힌트] sort_index() 함수를 사용하세요.
rawdat[cols].value_counts().sort_index()

In [None]:
# category와 subcategory 열의 상대도수를 인덱스로 정렬하여 출력합니다.
# [참고] 1.234e-02는 과학적 표기법(scientific notation)을 적용한 것입니다.
rawdat[cols].value_counts(normalize = True).sort_index()

In [None]:
# pandas 객체에서 실수 포맷을 설정합니다.
# [참고] 실수 포맷을 설정하면 과학적 표기법 적용을 해제합니다.
pd.options.display.float_format = lambda x: f'{x:.3f}'

In [None]:
# category와 subcategory 열의 상대도수를 인덱스로 정렬하여 출력합니다.
rawdat[cols].value_counts(normalize = True).sort_index()

In [None]:
# category 열이 'HE'이고 subcategory 열이 'Monitor'이면 True, 아니면 False인
# 논리형 시리즈를 locs에 할당합니다.
# [힌트] 시리즈 비교 연산 함수와 비트 연산자를 사용하세요.
locs = rawdat['category'].eq('HE') & rawdat['subcategory'].eq('Monitor')

In [None]:
# locs를 출력합니다.
# [참고] locs는 원소가 True 또는 False인 불리언 시리즈입니다.
locs

In [None]:
# locs에서 True의 개수를 확인합니다.
# [힌트] sum() 함수를 사용하세요.
locs.sum()

In [None]:
# locs의 원소를 True일 때 False, False일 때 True로 반전합니다.
# [힌트] 비트 연산자 ~를 사용하세요.
~locs

In [None]:
# rawdat에서 locs True인 행을 삭제하고 rawdat에 재할당합니다.
# [참고] locs가 False인 행을 반전하여 True인 행을 남기는 것과 같습니다.
rawdat = rawdat[~locs]

In [None]:
# rawdat의 행 개수를 출력합니다.
# [힌트] shape 속성 결과에 0번 인덱스 원소를 선택하세요.
# [참고] rawdat의 행 개수는 13908에서 13901로 감소합니다.
rawdat.shape[0]

### 국가별 페이지 유입, 장바구니 담기 및 구매 건수 확인

In [None]:
# 아래 조건을 만족하는 피벗 테이블을 funnel_nation에 할당합니다.
# [힌트] pd.pivot_table() 함수를 사용하세요.
# 데이터(data)는 rawdat, 
# 값(values)은 ['page', 'cart', 'vol'], 
# 행이름(index)은 'country', 
# 열이름(columns)은 생략, 
# 집계함수(aggfunc)에 np.sum을 지정하세요.
funnel_nation = pd.pivot_table(
    data = rawdat, 
    values = ['page', 'cart', 'vol'],
    index = 'country',
    columns = None, 
    aggfunc = np.sum
)

In [None]:
# funnel_nation의 행 개수를 확인합니다.
funnel_nation.shape[0]

In [None]:
# funnel_nation을 출력합니다.
# [참고] 열 순서를 열이름으로 오름차순 정렬했습니다.
funnel_nation

In [None]:
# 피벗 테이블을 생성할 때 지정했던 열이름 리스트를 cols에 할당합니다.
cols = ['page', 'cart', 'vol']

In [None]:
# funnel_nation에 cols로 인덱싱한 결과를 출력합니다.
# [참고] cols의 원소(열이름) 순으로 열 순서를 변경할 수 있습니다.
funnel_nation[cols]

In [None]:
# 위 코드 실행 결과를 funnel_nation에 재할당합니다.
funnel_nation = funnel_nation[cols]

In [None]:
# funnel_nation의 열이름을 출력합니다.
funnel_nation.columns

In [None]:
# cart를 page로 나누고 100을 곱한 결과를 새 변수 page2cart 열에 할당합니다.
funnel_nation['page2cart'] = funnel_nation['cart'] / funnel_nation['page'] * 100

In [None]:
# vol을 cart로 나누고 100을 곱한 결과를 새 변수 cart2buy에 할당합니다.
funnel_nation['cart2buy'] = funnel_nation['vol'] / funnel_nation['cart'] * 100

In [None]:
# vol을 page로 나누고 100을 곱한 결과를 새 변수 page2buy에 할당합니다.
funnel_nation['page2buy'] = funnel_nation['vol'] / funnel_nation['page'] * 100

In [None]:
# funnel_nation을 출력합니다.
funnel_nation

In [None]:
# funnel_nation을 page2cart로 내림차순 정렬한 결과를 출력합니다.
# [힌트] sort_values() 함수의 ascending 매개변수에 False를 지정하세요.
funnel_nation.sort_values(by = ['page2cart'], ascending = False)

In [None]:
# funnel_nation을 cart2buy로 내림차순 정렬한 결과를 출력합니다.
funnel_nation.sort_values(by = ['cart2buy'], ascending = False)

In [None]:
# funnel_nation을 page2buy로 내림차순 정렬한 결과를 출력합니다.
funnel_nation.sort_values(by = ['page2buy'], ascending = False)

### 제품별 페이지 유입, 장바구니 담기 및 구매 건수 확인

In [None]:
# 아래 조건을 만족하는 피벗 테이블을 funnel_product에 할당합니다.
# [힌트] pd.pivot_table() 함수를 사용하세요.
# 데이터(data)는 rawdat, 
# 값(values)은 ['page', 'cart', 'vol'], 
# 행이름(index)은 ['category', 'subcategory'], 
# 열이름(columns)은 생략, 
# 집계함수(aggfunc)에 np.sum, 
# 정렬(sort)에 False를 지정하세요. 열 순서를 정렬하지 않습니다!
funnel_product = pd.pivot_table(
    data = rawdat, 
    values = ['page', 'cart', 'vol'],
    index = ['category', 'subcategory'],
    columns = None, 
    aggfunc = np.sum, 
    sort = False
)

In [None]:
# funnel_product의 행 개수를 확인합니다.
funnel_product.shape[0]

In [None]:
# funnel_product를 출력합니다.
# [참고] 열 순서를 열이름으로 오름차순 정렬하지 않습니다.
funnel_product

In [None]:
# funnel_product의 행이름을 출력합니다.
# [참고] index 매개변수에 두 개 이상의 범주형 변수를 지정하면 멀티인덱스가 됩니다.
funnel_product.index

In [None]:
# cart를 page로 나누고 100을 곱한 결과를 새 변수 page2cart 열에 할당합니다.
funnel_product['page2cart'] = funnel_product['cart'] / funnel_product['page'] * 100

In [None]:
# vol을 cart로 나누고 100을 곱한 결과를 새 변수 cart2buy에 할당합니다.
funnel_product['cart2buy'] = funnel_product['vol'] / funnel_product['cart'] * 100

In [None]:
# vol을 page로 나누고 100을 곱한 결과를 새 변수 page2buy에 할당합니다.
funnel_product['page2buy'] = funnel_product['vol'] / funnel_product['page'] * 100

In [None]:
# funnel_product를 출력합니다.
funnel_product

In [None]:
# funnel_product를 page2cart로 내림차순 정렬한 결과를 출력합니다.
funnel_product.sort_values(by = ['page2cart'], ascending = False)

In [None]:
# funnel_product를 cart2buy로 내림차순 정렬한 결과를 출력합니다.
funnel_product.sort_values(by = ['cart2buy'], ascending = False)

In [None]:
# funnel_product를 page2buy로 내림차순 정렬한 결과를 출력합니다.
funnel_product.sort_values(by = ['page2buy'], ascending = False)

### 국가별 판매수량와 판매금액 합계 계산

In [None]:
# 아래 조건을 만족하는 피벗 테이블을 sales_nation에 할당합니다.
# [힌트] pd.pivot_table() 함수를 사용하세요.
# 데이터(data)는 rawdat, 
# 값(values)은 ['vol', 'usd'], 
# 행이름(index)은 'country', 
# 열이름(columns)은 생략, 
# 집계함수(aggfunc)에 np.sum
# 정렬(sort)에 False를 지정하세요.
sales_nation = pd.pivot_table(
    data = rawdat, 
    values = ['vol', 'usd'],
    index = 'country',
    columns = None, 
    aggfunc = np.sum,
    sort = False
)

In [None]:
# sales_nation의 행 개수를 확인합니다.
sales_nation.shape[0]

In [None]:
# sales_nation을 출력합니다.
sales_nation

In [None]:
# usd를 vol로 나눈 결과를 새 변수 usd_avg에 할당합니다.
sales_nation['usd_avg'] = sales_nation['usd'] / sales_nation['vol']

In [None]:
# sales_nation을 vol로 내림차순 정렬한 결과를 출력합니다.
sales_nation.sort_values(by = ['vol'], ascending = False)

In [None]:
# sales_nation을 usd로 내림차순 정렬한 결과를 출력합니다.
sales_nation.sort_values(by = ['usd'], ascending = False)

In [None]:
# sales_nation을 usd_avg로 내림차순 정렬한 결과를 출력합니다.
sales_nation.sort_values(by = ['usd_avg'], ascending = False)

### 제품별 판매수량와 판매금액 합계 계산

In [None]:
# 아래 조건을 만족하는 피벗 테이블을 sales_product에 할당합니다.
# [힌트] pd.pivot_table() 함수를 사용하세요.
# 데이터(data)는 rawdat, 
# 값(values)은 ['vol', 'usd'], 
# 행이름(index)은 ['category', 'subcategory'], 
# 열이름(columns)은 생략, 
# 집계함수(aggfunc)에 np.sum
# 정렬(sort)에 False를 지정하세요.
sales_product = pd.pivot_table(
    data = rawdat, 
    values = ['vol', 'usd'],
    index = ['category', 'subcategory'],
    columns = None, 
    aggfunc = np.sum, 
    sort = False
)

In [None]:
# sales_product의 행 개수를 확인합니다.
sales_product.shape[0]

In [None]:
# sales_product를 출력합니다.
sales_product

In [None]:
# usd를 vol로 나눈 결과를 새 변수 usd_avg에 할당합니다.
sales_product['usd_avg'] = sales_product['usd'] / sales_product['vol']

In [None]:
# sales_product를 vol로 내림차순 정렬한 결과를 출력합니다.
sales_product.sort_values(by = ['vol'], ascending = False)

In [None]:
# sales_product를 usd로 내림차순 정렬한 결과를 출력합니다.
sales_product.sort_values(by = ['usd'], ascending = False)

In [None]:
# sales_product를 usd_avg로 내림차순 정렬한 결과를 출력합니다.
sales_product.sort_values(by = ['usd_avg'], ascending = False)

In [None]:
# 위 코드 실행 결과를 sales_product에 재할당합니다.
sales_product = sales_product.sort_values(by = ['usd_avg'], ascending = False)

In [None]:
# sales_product의 행이름을 초기화한 결과를 출력합니다.
# [힌트] reset_index() 함수를 사용하세요.
# [참고] 기존 행이름을 맨 처음 열로 추가합니다.
# [참고] drop = True를 추가하면 기존 행이름을 삭제합니다.
sales_product.reset_index()

### 제품별 국가의 판매수량와 판매금액 합계 계산

In [None]:
# 아래 조건을 만족하는 피벗 테이블을 sales_matrix에 할당합니다.
# [힌트] pd.pivot_table() 함수를 사용하세요.
# 데이터(data)는 rawdat, 
# 값(values)은 ['vol', 'usd'], 
# 행이름(index)은 ['category', 'subcategory'], 
# 열이름(columns)은 'country', 
# 집계함수(aggfunc)에 np.sum
# 정렬(sort)에 False를 지정하세요.
sales_matrix = pd.pivot_table(
    data = rawdat, 
    values = ['vol', 'usd'],
    index = ['category', 'subcategory'],
    columns = 'country', 
    aggfunc = np.sum, 
    sort = False
)

In [None]:
# sales_matrix의 행 개수와 열 개수를 확인합니다.
# [참고] 데이터프레임의 shape 속성은 행 개수와 열 개수를 튜플로 반환합니다.
sales_matrix.shape

In [None]:
# sales_matrix를 출력합니다.
sales_matrix

In [None]:
# sales_matrix의 열이름을 출력합니다.
# [참고] columns 매개변수에 범주형 변수를 지정하면 values 매개변수에 지정한 
# 변수와 함께 멀티인덱스가 됩니다.
sales_matrix.columns

**sales_matrix**에서 국가별로 'usd_avg' 열을 생성하는 것은 복잡해보입니다.<br>
국가를 지정하면 제품별 평균 가격을 반환하는 함수를 생성하는 것이 좋습니다.<br>
**sales_product**를 생성하는 코드에 국가를 지정하는 부분을 추가하면 됩니다.

### 지정한 국가의 제품별 평균 가격을 반환하는 함수 생성

In [None]:
# 국가명을 지정하면 제품별 평균 가격을 반환하는 함수를 생성합니다.
def getAvgPrice(data, nation):
    
    # data에서 country 열이 nation인 행을 선택합니다.
    data = data[data['country'].eq(nation)]
    
    # 피벗 테이블을 생성하고 sales_product에 할당합니다.
    sales_product = pd.pivot_table(
        data = data, 
        values = ['vol', 'usd'],
        index = ['category', 'subcategory'],
        columns = None, 
        aggfunc = np.sum, 
        sort = False
    )
        
    # usd를 vol로 나눈 결과를 새 변수 usd_avg에 할당합니다.
    sales_product['usd_avg'] = sales_product['usd'] / sales_product['vol']
    
    # sales_product를 usd_avg로 내림차순 정렬하고 sales_product에 재할당합니다.
    sales_product = sales_product.sort_values(by = ['usd_avg'], ascending = False)
    
    # sales_product의 행이름을 초기화하고 sales_product에 재할당합니다.
    sales_product = sales_product.reset_index()

    # 결과를 반환합니다.
    return sales_product

In [None]:
# 호주의 제품별 평균 가격을 출력합니다.
getAvgPrice(data = rawdat, nation = 'au')

In [None]:
# 브라질의 제품별 평균 가격을 출력합니다.
getAvgPrice(data = rawdat, nation = 'br')

In [None]:
# 독일의 제품별 평균 가격을 출력합니다.
getAvgPrice(data = rawdat, nation = 'de')

In [None]:
# 프랑스의 제품별 평균 가격을 출력합니다.
getAvgPrice(data = rawdat, nation = 'fr')

In [None]:
# 이탈리아의 제품별 평균 가격을 출력합니다.
getAvgPrice(data = rawdat, nation = 'it')

In [None]:
# 영국의 제품별 평균 가격을 출력합니다.
getAvgPrice(data = rawdat, nation = 'uk')

### 데이터 병합

특정 국가의 제품별 평균 가격을 병합합니다.<br>
외래키로 'category'와 'subcategory'를 사용합니다.<br>
두 범주형 변수를 갖는 데이터프레임 merged를 미리 생성하고<br>
for 반복문을 실행하면 간단하게 해결할 수 있습니다.

In [None]:
# category와 subcategory 열이름으로 리스트 cols에 할당합니다.
cols = ['category', 'subcategory']

In [None]:
# rawdat에서 cols로 인덱싱하고 빈도수를 출력합니다.
# [참고] 두 개 이상의 범주형 변수로 빈도수를 계산하면 모든 가능한
# 범주형 변수의 조합을 인덱스로 생성하고 빈도수를 내림차순 정렬합니다.
rawdat[cols].value_counts()

In [None]:
# 위 코드 실행 결과를 merged에 할당합니다.
merged = rawdat[cols].value_counts()

In [None]:
# merged의 행이름을 초기화한 결과를 출력합니다.
# [참고] 시리즈의 행이름을 초기화하면 데이터프레임을 반환합니다.
merged.reset_index()

In [None]:
# 위 코드 실행 결과를 merged에 재할당합니다.
merged = merged.reset_index()

In [None]:
# merged에서 열이름이 'count'인 열을 삭제하고 merged에 재할당합니다.
# [참고] pandas 최신 버전이 아니면 열이름을 'count' 대신 정수 0으로 생성합니다.
merged = merged.drop(columns = ['count'])

In [None]:
# merged의 처음 5행을 출력합니다.
merged.head()

In [None]:
# nation에 특정 국가명을 할당합니다.
# 알파벳 순으로 호주의 국가명을 지정합니다.
nation = 'au'

In [None]:
# 호주의 제품별 평균 가격 데이터를 sales_product로 생성합니다.
sales_product = getAvgPrice(data = rawdat, nation = nation)

In [None]:
# sales_product를 출력합니다.
sales_product

In [None]:
# sales_product의 일부 열이름을 아래와 같이 변경합니다.
# vol -> vol_au
# usd -> usd_au
# usd_avg -> avg_au
# [힌트] rename() 함수와 f-문자열을 사용하세요.
sales_product = sales_product.rename(columns = {
    'vol': f'vol_{nation}', 
    'usd': f'usd_{nation}', 
    'usd_avg': f'avg_{nation}'
})

In [None]:
# sales_product의 처음 5행을 출력합니다.
sales_product.head()

In [None]:
# merged와 sales_product를 외부병합한 결과를 출력합니다.
# [참고] 결측값(NaN)은 해당 국가에 관련 데이터가 없다는 것을 의미합니다.
pd.merge(
    left = merged, 
    right = sales_product, 
    how = 'outer', 
    on = ['category', 'subcategory']
)

In [None]:
# 반복문을 실행할 범위(국가명 리스트)를 nations에 할당합니다.
# [힌트] unique() 함수를 사용하세요.
nations = rawdat['country'].unique()

In [None]:
# nations을 출력합니다.
nations

In [None]:
# for 반복문으로 nations의 원소를 바꿔가면서 merged에 병합합니다.
for nation in nations:
    
    # nation의 제품별 평균 가격 데이터를 sales_product로 생성합니다.
    sales_product = getAvgPrice(data = rawdat, nation = nation)
    
    # sales_product의 일부 열이름을 변경합니다.
    sales_product = sales_product.rename(columns = {
        'vol': f'vol_{nation}', 
        'usd': f'usd_{nation}', 
        'usd_avg': f'avg_{nation}'
    })
    
    # merged와 sales_product의 제품별 평균 가격 데이터를 외부병합합니다.
    merged = pd.merge(
        left = merged, 
        right = sales_product, 
        how = 'outer', 
        on = ['category', 'subcategory']
    )

In [None]:
# merged를 출력합니다.
merged

In [None]:
# merged에서 category와 subcategory 열을 인덱스로 설정하고 merged에 재할당합니다.
# [힌트] set_index() 함수를 사용하세요.
merged = merged.set_index(keys = ['category', 'subcategory'])

### 데이터 결합

In [None]:
# merged의 열이름을 출력합니다.
merged.columns

In [None]:
# merged의 열이름에서 'vol'을 포함하는 원소만 남겨 col_vol에 할당합니다.
# [힌트] 리스트 컴프리헨션을 사용하세요.
col_vol = [col for col in merged.columns if 'vol' in col]

In [None]:
# col_vol을 출력합니다.
col_vol

In [None]:
# merged에서 열이름이 col_vol인 원소를 선택하여 merged_vol에 할당합니다.
merged_vol = merged[col_vol]

In [None]:
# merged_vol를 출력합니다.
merged_vol

In [None]:
# merged의 열이름에서 'usd'를 포함하는 원소만 남겨 col_usd에 할당합니다.
col_usd = [col for col in merged.columns if 'usd' in col]

In [None]:
# col_usd를 출력합니다.
col_usd

In [None]:
# merged에서 열이름이 col_usd인 원소를 선택하여 merged_usd에 할당합니다.
merged_usd = merged[col_usd]

In [None]:
# merged_usd를 출력합니다.
merged_usd

In [None]:
# merged의 열이름에서 'avg'를 포함하는 원소만 남겨 col_avg에 할당합니다.
col_avg = [col for col in merged.columns if 'avg' in col]

In [None]:
# col_avg를 출력합니다.
col_avg

In [None]:
# merged에서 열이름이 col_avg인 원소를 선택하여 merged_avg에 할당합니다.
merged_avg = merged[col_avg]

In [None]:
# merged_avg를 출력합니다.
merged_avg

In [None]:
# merged_vol, merged_usd, merged_avg를 열 방향으로 결합하고 merged에 할당합니다.
# [힌트] pd.concat() 함수를 사용하세요.
# [주의] axis 매개변수의 기본값은 0(행)이므로 1(열)을 지정해야 합니다.
merged = pd.concat(objs = [merged_vol, merged_usd, merged_avg], axis = 1)

In [None]:
# merged를 출력합니다.
merged

In [None]:
# merged를 인덱스로 오름차순 정렬한 결과를 출력합니다.
merged.sort_index()

In [None]:
# 위 코드 실행 결과를 merged에 재할당합니다.
merged = merged.sort_index()

### 외부 파일로 저장

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# 여러 객체를 하나의 압축 파일로 저장합니다.
# 파일명은 'Online_Mall_Prep.z'으로 지정하세요.
# [힌트] joblib.dump() 함수를 사용하세요.
%time joblib.dump(value = [rawdat, merged], filename = 'Online_Mall_Prep.z')

In [None]:
# rawdat를 xlsx 파일로 저장합니다.
# [참고] 데이터프레임의 인덱스를 추가하지 않도록 설정합니다.
%time rawdat.to_excel(excel_writer = 'Online_Mall_Rawdat.xlsx', index = False)

In [None]:
# merged를 xlsx 파일로 저장합니다.
# [참고] 데이터프레임의 인덱스를 추가하도록 설정합니다.
%time merged.to_excel(excel_writer = 'Online_Mall_Merged.xlsx', index = True)

In [None]:
# 작업 경로에 있는 폴더명과 파일명을 출력합니다.
sorted(os.listdir())

여기까지 실습하고 Kernel을 **Restart & Clear Output** 합니다.

## 데이터 시각화 실습

### 실습 데이터셋 안내

- 2022년 1~12월 간 lg.com의 마케팅 실적 데이터(rawdat)와 <br>
  국가의 제품별 평균 가격을 계산한 피벗 테이블(merged)을 읽습니다.<br><br>

- 위 데이터프레임으로 다양한 그래프를 그립니다.

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import joblib
import numpy as np
import pandas as pd

import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# 그래픽 파라미터를 설정합니다.
plt.rc(group = 'font', family = 'Gowun Dodum', size = 10)
plt.rc(group = 'figure', figsize = (8, 4), dpi = 100)
plt.rc(group = 'axes', unicode_minus = False)
plt.rc(group = 'legend', frameon = True, fc = '1', ec = '0')

### 실습 데이터셋 준비

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
sorted(os.listdir())

In [None]:
# rawdat를 생성합니다.
rawdat = pd.read_excel(io = 'Online_Mall_Rawdat.xlsx')

In [None]:
# rawdat의 정보를 확인합니다.
rawdat.info()

In [None]:
# rawdat의 처음 5행을 출력합니다.
rawdat.head()

In [None]:
# merged를 생성합니다.
merged = pd.read_excel(io = 'Online_Mall_Merged.xlsx')

In [None]:
# merged의 정보를 확인합니다.
merged.info()

In [None]:
# merged를 출력합니다.
merged

In [None]:
# category 열에 있는 결측값을 이전 값으로 채운 결과를 출력합니다.
# [힌트] fillna() 함수의 method 매개변수에 'ffill'을 지정하세요.
merged['category'].fillna(method = 'ffill')

In [None]:
# 위 코드 실행 결과를 category 열에 재할당합니다.
merged['category'] = merged['category'].fillna(method = 'ffill')

In [None]:
# merged에서 category와 subcategory 열을 인덱스로 설정하고 merged에 재할당합니다.
merged = merged.set_index(keys = ['category', 'subcategory'])

In [None]:
# merged를 출력합니다.
merged

### [참고] joblib 압축파일 호출

### 데이터 전처리

rawdat에서 subcategory 열이 TV인 행을 선택합니다.

In [None]:
# rawdat에서 subcategory 열이 TV인 행을 선택하여 raw_tv에 할당합니다.
raw_tv = rawdat[rawdat['subcategory'].eq('TV')]

In [None]:
# raw_tv의 행 개수를 확인합니다.
raw_tv.shape[0]

In [None]:
# raw_tv의 처음 5행을 출력합니다.
raw_tv.head()

### 히스토그램 시각화

usd의 분포를 확인합니다.

In [None]:
# raw_tv의 usd에 대한 기술통계량을 확인합니다.
# [참고] 히스토그램을 그리기 전에 연속형 변수의 최솟값과 최댓값을 확인합니다.
raw_tv['usd'].describe()[['min', 'max']]

In [None]:
# raw_tv의 usd로 히스토그램을 그립니다.
# [힌트] sns.histplot() 함수를 사용하세요.
# [참고] binrange와 binwidth 매개변수를 추가하면 계급을 지정할 수 있습니다.
# [참고] fc(채우기색) 및 ec(테두리색) 매개변수를 추가하면 색을 지정할 수 있습니다.
sns.histplot(data = raw_tv, x = 'usd', 
             binrange = (0, 400000), binwidth = 10000,
             fc = 'silver', ec = '0')

# 그래프 제목을 'TV의 매출금액(USD) 분포'로 지정합니다.
plt.title(label = 'TV의 매출금액(USD) 분포');

In [None]:
# 위 그래프에서 binrange의 오른쪽 끝값을 15000으로 설정합니다.
sns.histplot(data = raw_tv, x = 'usd', 
             binrange = (0, 150000), binwidth = 10000,
             fc = 'silver', ec = '0')
plt.title(label = 'TV의 매출금액(USD) 분포');

usd를 vol로 나눈 usd_avg의 분포를 확인합니다.

In [None]:
# raw_tv에서 usd를 vol로 나눈 결과를 새 변수 usd_avg에 할당합니다.
raw_tv['usd_avg'] = raw_tv['usd'] / raw_tv['vol']

In [None]:
# raw_tv의 usd_avg에 대한 기술통계량을 확인합니다.
raw_tv['usd_avg'].describe()[['min', 'max']]

In [None]:
# raw_tv의 usd_avg로 히스토그램을 그립니다.
sns.histplot(data = raw_tv, x = 'usd_avg', 
             binrange = (0, 30000), binwidth = 500,
             fc = 'silver', ec = '0')

# 그래프 제목을 'TV의 평균 가격 분포'로 지정합니다.
plt.title(label = 'TV의 평균 가격 분포');

In [None]:
# 위 그래프에서 binrange의 오른쪽 끝값을 10000으로 설정합니다.
sns.histplot(data = raw_tv, x = 'usd_avg', 
             binrange = (0, 10000), binwidth = 500,
             fc = 'silver', ec = '0')
plt.title(label = 'TV의 평균 가격 분포');

In [None]:
# 위 그래프에서 x축을 2000 기준으로 수직선을 추가합니다.
sns.histplot(data = raw_tv, x = 'usd_avg', 
             binrange = (0, 10000), binwidth = 500,
             fc = 'silver', ec = '0')
plt.title(label = 'TV의 평균 가격 분포')
plt.axvline(x = 2000, color = 'red', lw = 1, ls = '--');

연속형 변수를 구간화하여 범주형 변수를 생성하고 막대 채우기 색을 다르게 설정합니다.

In [None]:
# usd_avg가 2000 이상이면 'high', 아니면 'low'인 값을 새 변수 usd_grd에 할당합니다.
raw_tv['usd_grd'] = np.where(raw_tv['usd_avg'].ge(2000), 'high', 'low')

In [None]:
# 위 그래프에서 usd_grd 기준으로 채우기 색을 다르게 설정합니다.
sns.histplot(data = raw_tv, x = 'usd_avg', 
             binrange = (0, 10000), binwidth = 500, 
             hue = 'usd_grd', ec = '0')
plt.title(label = 'TV의 평균 가격 분포')
plt.axvline(x = 2000, color = 'red', lw = 1, ls = '--');

In [None]:
# 위 그래프에서 팔레트를 'Set1'으로 변경합니다.
sns.histplot(data = raw_tv, x = 'usd_avg', 
             binrange = (0, 10000), binwidth = 500, 
             hue = 'usd_grd', ec = '0', palette = 'Set1')
plt.title(label = 'TV의 평균 가격 분포')
plt.axvline(x = 2000, color = 'red', lw = 1, ls = '--');

In [None]:
# 사용자 팔레트를 생성합니다. 색은 'silver', 'red'로 설정합니다.
myPal = ['silver', 'red']

In [None]:
# 위 그래프에서 팔레트를 사용자 팔레트로 변경합니다.
sns.histplot(data = raw_tv, x = 'usd_avg', 
             binrange = (0, 10000), binwidth = 500, 
             hue = 'usd_grd', ec = '0', palette = myPal)
plt.title(label = 'TV의 평균 가격 분포')
plt.axvline(x = 2000, color = 'red', lw = 1, ls = '--');

In [None]:
# raw_tv로 country의 범주별 usd_avg의 분포를 히스토그램으로 그립니다.
sns.histplot(data = raw_tv, x = 'usd_avg', 
             binrange = (0, 5000), binwidth = 100, 
             hue = 'country', ec = '1');

In [None]:
# raw_tv로 country의 범주별 usd_avg의 분포를 커널 밀도 추정곡선으로 그립니다.
sns.kdeplot(data = raw_tv, x = 'usd_avg', hue = 'country', fill = True)
plt.xlim(-250, 5250);

### 상자 수염 그림 그리기

In [None]:
# raw_tv의 usd로 국가별 상자 수염 그림을 그립니다.
# [힌트] sns.boxplot() 함수를 사용하세요.
# [참고] x 매개변수에 범주형, y 매개변수에 연속형 변수를 지정합니다.
sns.boxplot(data = raw_tv, x = 'country', y = 'usd')

# 그래프 제목을 '국가별 TV 매출금액(USD) 분포 비교'로 지정합니다.
plt.title(label = '국가별 TV 매출금액(USD) 분포 비교');

In [None]:
# raw_tv의 usd_avg로 국가별 상자 수염 그림을 그립니다.
sns.boxplot(data = raw_tv, x = 'country', y = 'usd_avg')

# 그래프 제목을 '국가별 TV 평균 가격 분포 비교'로 지정합니다.
plt.title(label = '국가별 TV 평균 가격 분포 비교');

In [None]:
# 위 그래프에서 y축 범위를 0~7000으로 제한합니다.
sns.boxplot(data = raw_tv, x = 'country', y = 'usd_avg')
plt.title(label = '국가별 TV 평균 가격 분포 비교')
plt.ylim(0, 7000);

In [None]:
# 위 그래프에서 y축을 전체 중위수 기준으로 수평선을 추가합니다.
sns.boxplot(data = raw_tv, x = 'country', y = 'usd_avg')
plt.title(label = '국가별 TV 평균 가격 분포 비교')
plt.ylim(0, 7000)
plt.axhline(y = raw_tv['usd_avg'].median(), color = 'red', lw = 1, ls = '--');

### 막대 그래프 그리기

In [None]:
# merged를 출력합니다.
merged

In [None]:
# merged의 행이름에 'TV'를 포함하는 행이름을 lab_tv에 할당합니다.
# [힌트] 리스트 컴프리헨션을 사용하세요.
lab_tv = [index for index in merged.index if 'TV' in index]

In [None]:
# lab_tv를 출력합니다.
lab_tv

In [None]:
# merged에서 행이름이 lab_tv인 행을 선택하여 mgd_tv에 할당합니다.
# [주의] 행이름으로 인덱싱하려면 반드시 loc 인덱서를 사용해야 합니다!
mgd_tv = merged.loc[lab_tv, :]

In [None]:
# mgd_tv를 출력합니다.
mgd_tv

In [None]:
# mgd_tv의 열이름을 출력합니다.
mgd_tv.columns

In [None]:
# mgd_tv의 열이름에서 'avg'를 포함하는 열이름을 남겨 lab_avg에 할당합니다.
# [힌트] 리스트 컴프리헨션을 사용하세요.
lab_avg = [col for col in mgd_tv.columns if 'avg' in col]

In [None]:
# lab_avg를 출력합니다.
lab_avg

In [None]:
# mgd_tv의 열이름에서 'avg'를 포함하는 열만 선택한 결과를 출력합니다.
mgd_tv[lab_avg]

In [None]:
# mgd_tv의 열이름에서 'avg'를 포함하는 열을 Long Type으로 변환합니다.
# [힌트] melt() 함수를 사용하세요.
# [참고] 열이름으로 인덱싱할 때는 loc 인덱스를 생략할 수 있습니다.
mgd_tv[lab_avg].melt()

In [None]:
# 위 코드 실행 결과를 mgd_tv_avg에 할당합니다.
mgd_tv_avg = mgd_tv[lab_avg].melt()

In [None]:
# mgd_tv_avg의 열이름을 'country', 'usd_avg'로 변경합니다.
mgd_tv_avg.columns = ['country', 'usd_avg']

In [None]:
# mgd_tv_avg를 출력합니다.
mgd_tv_avg

In [None]:
# country 열의 원소에서 문자열 'avg_'를 삭제한 결과를 출력합니다.
# [힌트] str.replace() 함수를 사용하세요.
mgd_tv_avg['country'].str.replace(pat = 'avg_', repl = '')

In [None]:
# 위 코드 실행 결과를 country 열에 재할당합니다.
mgd_tv_avg['country'] = mgd_tv_avg['country'].str.replace(pat = 'avg_', repl = '')

In [None]:
# mgd_tv_avg를 출력합니다.
mgd_tv_avg

In [None]:
# mgd_tv_avg로 막대 그래프를 그립니다.
# [힌트] sns.barplot() 함수를 사용하세요.
# [참고] x 매개변수에 범주형, y 매개변수에 연속형 변수를 지정합니다.
sns.barplot(data = mgd_tv_avg, x = 'country', y = 'usd_avg', fc = 'silver')

# 그래프 제목을 '국가별 TV 평균 가격 비교'로 지정합니다.
plt.title(label = '국가별 TV 평균 가격 비교');

In [None]:
# 위 그래프에서 y축을 0 ~ 1800로 제한합니다.
sns.barplot(data = mgd_tv_avg, x = 'country', y = 'usd_avg', fc = 'silver')
plt.title(label = '국가별 TV 평균 가격 비교')
plt.ylim(0, 1800);

In [None]:
# 위 그래프에서 막대 위에 평균 가격을 텍스트로 추가합니다.
# [참고] f-문자열로 평균 가격을 소수점 둘째 자리까지 남기면 보기에 좋습니다.
sns.barplot(data = mgd_tv_avg, x = 'country', y = 'usd_avg', fc = 'silver')
plt.title(label = '국가별 TV 평균 가격 비교')
plt.ylim(0, 1800)
for i, v in enumerate(mgd_tv_avg['usd_avg']):
    plt.text(x = i, y = v, s = f'{v:,.2f}', ha = 'center', va = 'bottom')

In [None]:
# 사용자 팔레트를 생성합니다. 'silver'를 막대 개수만큼 반복합니다.
myPal = np.tile(A = 'silver', reps = 6)

In [None]:
# 세 번째(2번 인덱스) 막대를 'red'로 변경합니다.
myPal[2] = 'red'

In [None]:
# 위 그래프에서 팔레트를 사용자 팔레트로 변경합니다.
sns.barplot(data = mgd_tv_avg, x = 'country', y = 'usd_avg', palette = myPal)
plt.title(label = '국가별 TV 평균 가격 비교')
plt.ylim(0, 1800)
for i, v in enumerate(mgd_tv_avg['usd_avg']):
    plt.text(x = i, y = v, s = f'{v:,.2f}', ha = 'center', va = 'bottom')

In [None]:
# raw_tv의 처음 5행을 출력합니다.
raw_tv.head()

In [None]:
# raw_tv의 date에서 요일을 문자열로 추출하여 새 변수 day_name에 할당합니다.
raw_tv['day_name'] = raw_tv['date'].dt.strftime('%w-%a')

In [None]:
# raw_tv의 처음 5행을 출력합니다.
raw_tv.head()

In [None]:
# raw_tv의 day_name 범주별 usd의 평균을 계산하고 grp에 할당합니다.
grp = raw_tv.groupby(by = ['day_name'])['usd'].mean()

In [None]:
# grp를 출력합니다.
grp

In [None]:
# raw_tv의 day_name 범주별 usd 평균으로 막대 그래프를 그립니다.
sns.barplot(data = raw_tv, x = 'day_name', y = 'usd', fc = '0.3', 
            estimator = np.mean, errorbar = None, order = grp.index)
plt.ylim(0, 20000)
for i, v in enumerate(grp):
    plt.text(x = i, y = v - 500, s = f'{int(v):,}', 
             ha = 'center', va = 'top', color = 'white');

### 선 그래프 그리기

In [None]:
# raw_tv의 처음 5행을 출력합니다.
raw_tv.head()

In [None]:
# raw_tv의 month별 국가의 usd 평균을 선 그래프로 그립니다.
# [힌트] sns.lineplot() 함수를 사용하세요.
sns.lineplot(data = raw_tv, x = 'month', y = 'usd', 
             hue = 'country', estimator = np.mean, errorbar = None, 
             markers = True, style = 'country', lw = 0.5)

# 그래프 제목을 '월별 TV 매출금액(USD) 평균'으로 지정합니다.
plt.title(label = '월별 TV 매출금액(USD) 평균');

In [None]:
# 위 그래프에서 x축명을 '1월', '2월' 형태로 지정합니다.
sns.lineplot(data = raw_tv, x = 'month', y = 'usd', 
             hue = 'country', estimator = np.mean, errorbar = None, 
             markers = True, style = 'country', lw = 0.5)
plt.title(label = '월별 TV 매출금액(USD) 평균')
plt.xticks(ticks = range(1, 13), labels = [f'{i}월' for i in range(1, 13)]);

In [None]:
# 위 그래프에서 범례의 위치를 오른쪽 바깥으로 변경합니다.
sns.lineplot(data = raw_tv, x = 'month', y = 'usd', 
             hue = 'country', estimator = np.mean, errorbar = None, 
             markers = True, style = 'country', lw = 0.5)
plt.title(label = '월별 TV 매출금액(USD) 평균')
plt.xticks(ticks = range(1, 13), labels = [f'{i}월' for i in range(1, 13)])
plt.legend(loc = 'center left', bbox_to_anchor = [1, 0.5]);

## End of Document