## 데이터 전처리 실습

### 실습 데이터셋 안내

- 2022년 1~12월에 앱 사용성 내역입니다.<br>

- 변수(열)에 대한 간단한 설명입니다.

| 열이름 | 설명 | 특징 |
| :----- | :--- | :--- |
| country | 국가 코드 | KR: 한국, JP: 일본, AU: 호주, US: 미국, <br> BR: 브라질, GB: 영국, DE: 독일, FR: 프랑스 |
| product | webOS version | webOS6.0만 제공 |
| chipset | TV 칩셋 정보 | lm21a, lm21u, o20, e60F20, k7lp |
| inch | TV 화면 크기 | 43, 55, 65, 75 |
| app_name | 앱 이름 | app1 ~ app5로 가명 처리 |
| use_month | 앱 사용월 | 2022-1 ~ 2022-12 |
| use_tv_cnt | 해당 월에 해당 앱을 사용한 TV 대수 | 수치형 |
| total_use_count | 해당 월에 해당 앱을 실행한 전체 횟수 | 수치형 |
| total_use_hour | 해당 월에 해당 앱을 사용한 전체 시간 | 수치형 |
| monthly_avg_use_count | 해당 월에 평균 실행 횟수 | 수치형 |
| monthly_avg_use_hour | 해당 월에 평균 사용 시간 | 수치형 |

- 실습 데이터인 **'App_Usage.csv'** 파일은 data 폴더에 있습니다.
  - 구분자는 콤마(,)이고 인코딩 방식은 **ASCII**입니다.

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import os
import chardet
import numpy as np
import pandas as pd
import joblib

In [None]:
# Jupyter Notebook에서 실수를 소수점 셋째 자리까지 출력하도록 설정합니다.
%precision 3

In [None]:
# pandas 객체에서 실수 포맷을 설정합니다.
# [참고] 실수 포맷을 설정하면 과학적 표기법 적용을 해제합니다.
pd.options.display.float_format = lambda x: f'{x:.3f}'

### 작업 경로 확인 및 변경

In [None]:
# 현재 작업 경로를 확인합니다.
os.getcwd()

In [None]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# 현재 작업 경로에 있는 폴더명과 파일명을 출력합니다.
os.listdir()

### 문자 인코딩 방식 확인

In [None]:
# csv 파일명을 변수에 할당합니다. 여러 번 재사용하기 위함입니다.
fileName = 'App_Usage.csv'

In [None]:
# csv 파일을 bytes 문자열로 읽고 text에 할당합니다.
# [힌트] with 문, open() 및 read() 함수를 사용하세요.
with open(file = fileName, mode = 'rb') as file:
    text = file.read()

In [None]:
# 바이너리 텍스트의 인코딩 방식을 확인합니다.
# [힌트] chardet.detect() 함수를 사용하세요.
chardet.detect(text)

### 실습 데이터셋 준비

In [None]:
# 링크를 읽고 데이터프레임 rawdat를 생성합니다.
# [힌트] pd.read_csv() 함수를 사용하세요.
# [참고] 문자 인코딩 방식이 ASCII와 UTF-8이면 encoding 매개변수를 생략할 수 있습니다.
rawdat = pd.read_csv(filepath_or_buffer = fileName)

In [None]:
# rawdat의 정보를 확인합니다.
# [힌트] info() 함수를 사용하세요.
rawdat.info()

In [None]:
# rawdat의 처음 5행을 출력합니다.
# [힌트] head() 함수를 사용하세요.
rawdat.head()

In [None]:
# rawdat의 마지막 5행을 출력합니다.
# [힌트] tail() 함수를 사용하세요.
rawdat.tail()

### 실습 데이터셋 전처리

In [None]:
# inch 열의 자료형을 문자열로 변환합니다.
rawdat['inch'].astype(str)

In [None]:
# 위 코드 실행 결과를 inch 열에 재할당합니다.
rawdat['inch'] = rawdat['inch'].astype(str)

In [None]:
# use_month 열에 일(day)을 추가한 결과를 출력합니다.
# [참고] 시리즈의 모든 원소가 문자열이면 결합할 수 있습니다.
rawdat['use_month'] + '-1'

In [None]:
# use_month 열에 일(day)을 추가한 결과를 출력합니다.
# [참고] 시리즈의 map() 함수를 사용하면 원소마다 반복 실행합니다.
# [참고] 람다 표현식에 익숙해지면 없는 함수를 만들어 사용할 수 있습니다.
rawdat['use_month'].map(arg = lambda x: x + '-1')

In [None]:
# 위 코드 실행 결과를 새 변수 use_date 열에 할당합니다.
rawdat['use_date'] = rawdat['use_month'].map(arg = lambda x: x + '-1')

In [None]:
# use_date 열을 날짜시간형으로 변환한 결과를 출력합니다.
# [힌트] astype() 함수에 'datetime64[ns]'을 지정하세요.
rawdat['use_date'].astype('datetime64[ns]')

In [None]:
# 위 코드 실행 결과를 use_date 열에 할당하여 변경합니다.
rawdat['use_date'] = rawdat['use_date'].astype(str).astype('datetime64[ns]')

In [None]:
# use_date 열에서 'yyyy년 mm월' 형태의 문자열을 추출한 결과를 출력합니다.
# [힌트] dt.strftime() 함수의 date_format 매개변수에 날짜 포맷을 지정하세요.
rawdat['use_date'].dt.strftime(date_format = '%Y년 %m월')

In [None]:
# 위 코드 실행 결과를 use_month 열에 할당합니다.
rawdat['use_month'] = rawdat['use_date'].dt.strftime(date_format = '%Y년 %m월')

In [None]:
# rawdat의 처음 5행을 출력합니다.
rawdat.head()

### 기술통계량 확인

In [None]:
# rawdat의 수치형(정수 또는 실수) 변수의 기술통계량을 확인합니다.
# [힌트] describe() 함수를 사용하세요.
rawdat.describe()

In [None]:
# rawdat의 범주형 변수의 기술통계량을 확인합니다.
# [힌트] describe() 함수의 include 매개변수에 자료형을 지정하세요.
rawdat.describe(include = object)

In [None]:
# country 열의 빈도수를 인덱스로 정렬하여 출력합니다.
# [힌트] value_counts()와 sort_index() 함수를 사용하세요.
rawdat['country'].value_counts().sort_index()

In [None]:
# chipset 열의 빈도수를 인덱스로 정렬하여 출력합니다.
rawdat['chipset'].value_counts().sort_index()

In [None]:
# inch 열의 빈도수를 인덱스로 정렬하여 출력합니다.
rawdat['inch'].value_counts().sort_index()

In [None]:
# app_name 열의 빈도수를 인덱스로 정렬하여 출력합니다.
rawdat['app_name'].value_counts().sort_index()

In [None]:
# use_month 열의 빈도수를 인덱스로 정렬하여 출력합니다.
rawdat['use_month'].value_counts().sort_index()

### 실습 항목 예시

1. 국가(index)별 칩셋(columns)에 따른 use_tv_cnt(values)의 합계와 평균(aggfunc)
1. 국가(index)별 인치(columns)에 따른 use_tv_cnt(values)의 합계와 평균(aggfunc)
1. 국가(index)별 App(columns)에 따른 use_tv_cnt(values)의 합계와 평균(aggfunc)

이외에 관심 있는 내용을 직접 확인해보세요.

## 데이터 시각화 실습

- rawdat으로 다양한 그래프를 그립니다.

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# 그래픽 파라미터를 설정합니다.
plt.rc(group = 'font', family = 'Gowun Dodum', size = 10)
plt.rc(group = 'figure', figsize = (8, 4), dpi = 100)
plt.rc(group = 'axes', unicode_minus = False)
plt.rc(group = 'legend', frameon = True, fc = '1', ec = '0')

### 실습 항목 예시

1. use_month(x축)별 use_tv_cnt(y축)의 변화량 비교
1. use_month(x축)별 use_tv_cnt(y축)의 국가(hue)별 변화량 비교
1. use_month(x축)별 use_tv_cnt(y축)의 칩셋(hue)별 변화량 비교
1. use_month(x축)별 use_tv_cnt(y축)의 인치(hue)별 변화량 비교
1. use_month(x축)별 use_tv_cnt(y축)의 App(hue)별 변화량 비교

이외에 관심 있는 내용을 직접 확인해보세요.

## End of Document