# **사전준비 for windows**
window 기본 폰트인 맑은고딕으로 설정한다. 
window에 설치된 jupyter notebook kernel에서 실행할 때 사용한다.
(colab으로 진행할 경우에는 '사전준비 for colab' 만 실행하면 된다

In [None]:
# 관련 라이브러리 임포트
import matplotlib.font_manager as fm  # 폰트 관련 
import matplotlib.pyplot as plt   # 그래프 내 설정
import matplotlib as mpl  # 기본 설정 


In [None]:
# 폰트의 경로를 통해 사용할 폰트 (맑은고딕)를 지정한다.

path = r'C:\Windows\Fonts\malgun.ttf'
font_name = fm.FontProperties(fname=path, size=10).get_name()
print(font_name)
mpl.rc('font', family=font_name)    # 맑은고딕으로 설정
mpl.rcParams['axes.unicode_minus'] = False  # - 부호 오류 보정

# **사전준비 for colab**
matplotlib 그래프 내 한글 글꼴 표시를 위한 설치 및 런타임 다시 시작과 폰트 설정 작업을 단계별로 수행한다.

## [1] 폰트 설치 (나눔글꼴) 및 폰트매니저 재구성

In [None]:
####  없어도 됨 [폰트개수 확인용]
# 시스템내 최초 설치된 폰트개수 확인 - 처음에는 기본 폰트만 설치됨

import matplotlib.font_manager as fm  # 폰트 관련 용도
sys_font=fm.findSystemFonts()
print(f"sys_font number: {len(sys_font)}")

nanum_font = [f for f in sys_font if 'Nanum' in f]
print(f"nanum_font number: {len(nanum_font)}")

In [None]:
# 나눔고디 폰트 설치

!apt-get update -qq
!apt-get install fonts-nanum* -qq

In [None]:
####  없어도 됨 [폰트개수 확인용]
# 설치 후  폰트 개수 확인,  늘어 난 것을 알 수 있다.

import matplotlib.font_manager as fm  # 폰트 관련 용도
sys_font=fm.findSystemFonts()
print(f"sys_font number: {len(sys_font)}")

nanum_font = [f for f in sys_font if 'Nanum' in f]
print(f"nanum_font number: {len(nanum_font)}")

In [None]:
# 폰트 매니저 재설정을 위한 명령문 수행 : fm._rebuild()
import matplotlib.font_manager as fm
fm._rebuild()

## [2] 폰트 인식을 위한  '런타임 다시시작'
  - '런타임' - '런타임 다시 시작' 
  - 또는 'Ctrl-M'

## [3] 런타임 재시작 이후 
   - 폰트  설정 및 마이너스 부호 오류 처리
   - **시작 이후에는 본 셀 이후 부터 실행한다.**

In [None]:
# 관련 라이브러리 임포트
import matplotlib.font_manager as fm  # 폰트 관련 
import matplotlib.pyplot as plt   # 그래프 내 설정
import matplotlib as mpl  # 기본 설정 

In [None]:
####  없어도 됨 [폰트개수 확인용]
# 런타임 다시 시작 이후, 설치 된 폰트 개수가 증가 한 상태임을 알 수 있다. 
sys_font=fm.findSystemFonts()
print(f"sys_font number: {len(sys_font)}")

nanum_font = [f for f in sys_font if 'Nanum' in f]
print(f"nanum_font number: {len(nanum_font)}")

In [None]:
# 폰트의 경로를 통해 사용할 폰트 (나눔고딕)를 지정한다.
path = '/usr/share/fonts/truetype/nanum/NanumGothic.ttf'  # 설치된 나눔글꼴중 사용할 폰트의 전체 경로를 가져오자
font_name = fm.FontProperties(fname=path, size=10).get_name()
print(font_name)
plt.rc('font', family=font_name)
# 마이너스 부호 처리에 오류가 있는 경우를 방지 하기 위한 설정
mpl.rcParams['axes.unicode_minus'] = False

# **분석 주요 라이브러리 임포트**

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import seaborn as sns

# **0. 한국 코로나 발생현황 (복습)**

## **0.1 문제정의**
한국에서의 코로나 발생 추이를 그래프로 관찰해보자.

## **0.2 데이터 수집**
* 국가통계포털사이트 KOSIS에서 코로나 19 --> 일별확진자 추이로 부터 수집
* https://kosis.kr/statHtml/statHtml.do?orgId=101&tblId=DT_COVID19_005_D

![KOSIS_covid](https://github.com/sagelab4data/images/blob/main/kosis_covid_kr.png.jpg?raw=true)

2일차 수업에서는 KOSIS의 데이터의 가공이 상당히 필요하여,  선생님이 약간 변경한 데이터로 부터 가공을 시작 했었습니다. 

![KOSIS_covid](https://github.com/sagelab4data/images/blob/main/covid_kr_day2_excel.png?raw=true)

In [None]:
# 0.2.1 데이터 읽어들이기
corona_kr = pd.read_csv('https://github.com/sagelab4data/HyundaiHigh_1/blob/main/Day2_corona_cases_SK.csv?raw=true', 
                     encoding='euc-kr')
corona_kr

## **0.3 데이터 가공**


1.   인덱스로 지정 ( 'A' 컬럼을 인덱스로 지정)
2.   컬럼 표제 줄 (columns의 자료형을 문자에서 날자로 변경)
3.   행과 열을 바꾸기



In [None]:
# 0.3.1 가공하여 읽어 들이기 단계 복습
# 1.인덱스로 지정 
corona_kr = corona_kr.set_index('상태별')
corona_kr.index.name = '일자'    # 인덱스의 이름을 '상태별' 에서 '일자'로 변경

# 2. 컬럼표제줄의 데이터 형 변경 
corona_kr.columns = pd.to_datetime(corona_kr.columns)

# 3. 행과 열 바꾸기
corona_kr = corona_kr.T

# 데이터 확인 : 앞부분은 누락값이 있어서, 뒤 10개 확인
corona_kr.tail(10)   


### [] 정돈된 데이터란

![정돈된 데이터](https://github.com/sagelab4data/images/blob/main/Tidy_data.png?raw=true)

## **0.4 & 5 데이터 모델링(분석) 및 시각화**


In [None]:
# 0.4.1 시간대별로 그래프로 그려보자
corona_kr.plot(figsize = (10,5), title = '국내 covid 발생 추이');

4월 초까지는 국내발생과 해외유입을 구분하지 않았었다.

In [None]:
# 0.4.2 박스플롯도  그려서 발생자 분포를 살펴보자
corona_kr.plot(kind = 'box', figsize = (10,5), title = '국내 covid 발생 분포');

### [] 정돈된 데이터와 그래프

![정돈된 데이터와 그래프](https://github.com/sagelab4data/images/blob/main/tidy_w_graph.png?raw=true)

# **1.미국 코로나 발생현황**

## **1.1 문제정의** 




* 미국 코로나와 한국 코로나는 서로 영향이 있을까?
* 미국 코로나와 한국 코로나는 발생 진행 양상이 비슷할까? 


## **1.2 데이터 수집**

* New York Times 에서 github에 코로나 발생 현황 정보를 취합하여 공유 : https://github.com/nytimes/covid-19-data

* 다양한 분석결과를 보려면 'Covid in the U.S.: Latest Map and Case Count' : 
 https://www.nytimes.com/interactive/2020/us/coronavirus-us-cases.html

![US covid raw](https://github.com/sagelab4data/images/blob/main/covid_us_raw.png?raw=true)

## **1.3 데이터 가공** 

In [None]:
# 1.3.1 미국 코로나 정보를 뉴욕타임스에서 github에 공유한 파일을 읽어 들인다 (파일명 :us.csv )
corona_us = pd.read_csv('https://github.com/nytimes/covid-19-data/blob/master/us.csv?raw=true')
corona_us.tail()

In [None]:
# 1.3.2  corona_us의 자료형 확인
corona_us.info()

In [None]:
# 1.3.3  읽어들이면서 날자형으로 변환 : parse_dates = ['date']



In [None]:
# 1.3.4 날자형으로 읽어들인 corona_us의 자료형 확인 (date 가 datetime64[ns]로 변경됨 )


In [None]:
# 1.3.5 읽어들이면서 date를 인덱스로 지정 : index_col = ['date']
corona_us = pd.read_csv('https://github.com/nytimes/covid-19-data/blob/master/us.csv?raw=true',
                        parse_dates = ['date'], 
                        index_col = ['date'])
corona_us.tail()

In [None]:
# 1.3.6 date를 인덱스로 지정한 corona_us의 자료형 확인
corona_us.info()

In [None]:
# 1.3.7 corona_us가 정상적으로 읽혔는지, 그래프로 확인해본다.
corona_us.plot()

'# 1.3.7' 의 그림을 보면 계속해서 값이 커지고만 있다.  누적값으로 데이터가 적혀 있는 듯 하다. 

In [None]:
# 1.3.8 corona_us 데이터가 누적 값인지 다시 한 번 살펴 본다.
corona_us

### [] 누적값의 해결

시리즈 Series의 바로 위(앞) 칸과의 차이를 찾아 주는 메소드 
* Series.diff()

In [None]:
# 1.3.9.1   예제를 위한 임시 Series s 생성
s = pd.Series([1,10,100, 200])
s

In [None]:
# 1.3.9.2    s.diff() 를 적용하여 바로 윗칸과의 차이 값을 구한다.


In [None]:
# 1.3.9.3   가장 앞 칸이 누락값 NaN 이 되어 버린다. 
#          이를 매꾸기 위해 .fillna(0)를 연결한다. 


In [None]:
# 1.3.9.4  실수(float) 형이 되어버린 데이터를 .astype('int')를 연결하여 정수형으로 만든다. 
s.diff().fillna(0).astype('int')

In [None]:
# 1.3.10 미국 코로나 발생건수에 해당하는 corona_us의 case에 대해서 차이를 구해보자
corona_us['cases'].diff().fillna(0).astype('int')


11월 8일이 11월 7일 보다 작은 것으로 보아 정상적으로 가공한 것 같다.

In [None]:
# 1.3.11 그래프로 확인해보자. 
corona_us['cases'].diff().fillna(0).astype('int').plot()

In [None]:
# 1.3.12  발생건수 'cases'와 사망자수 'deaths'에 대해서 각각 '발생건수'와 '사망자수'  컬럼으로 저장한다. 
corona_us['발생건수'] = corona_us['cases'].diff().fillna(0).astype('int')
corona_us['사망자수']= corona_us['deaths'].diff().fillna(0).astype('int')
corona_us

In [None]:
# 1.3.13 정상적으로 가공 되었는지,  그래프로 확인해 본다. 
corona_us[['발생건수','사망자수']].plot(figsize = (12,6));

## **1.4 & 5 데이터 모델링 (분석) 및 시각화**
한국 코로나 발생 현황과 비교해 볼 수 있도록 한국 코로나 발생 현황 데이터 (2 일차 수업에서 사용)를 읽어 들이고, 두 개의 그래프를 X축을 기준으로 나란히 그려서 비교 한다. 

In [None]:
#1.4.1  미국 코로나 발생 정보와 한국 코로나 발생 정보를 나란히 그려서 해석해 본다. 

#  위 아래 2개의 차트(2행 1열), X 축을 같은 눈금으로 한다.
fig, ax = plt.subplots(2,1, figsize = (12,8), sharex= True) 

# 위 차트 : 미국 코로나 건수
corona_us['발생건수'].plot(ax = ax[0], title = 'US corona_daily')

# 아래 차트 : 한국 코로나 발생 건수
corona_kr['신규'].plot(ax = ax[1], title = 'Korea corona_daily') ;

* Q1. 보다 주 단위 주기가 명확하게 나타나는 데이터는?
* Q2. 한국과 미국이 서로 영향을 주고 있다고 보이는가?

# **2.감기 질병**

## **2.1 문제정의**
* 코로나가 발생하면서 감기 환자는 줄었다는데 사실일까?
- 보건의료 빅데이터 시스템에서 제공하는  감기로 처방된 건수를 다른 연도와 비교해 보자. (원천정보 : 건강보험심사평가원)

## **2.2 데이터 수집**
* 보건의료 빅데이터 개방 시스템 (https://opendata.hira.or.kr/home.do)
* 의료통계정보 --> 의약품통계 내 **'질병별 의약품 통계'** 
* 질병코드 조회 클릭 --> '감기' 로 검색 --> '급성비임두염' 선택
* 기간구분 : 진료년월 ,  2018년1월 ~ 2020년 11월 까지로 조회
* 다운로드 받은 엑셀 데이터 가공

![감기정보](https://github.com/sagelab4data/images/blob/main/hira_flue_excel.png?raw=true)

## **2.3 데이터 가공**

In [None]:
# 2.3.1 엑셀 데이터를 읽어 들인다. 
flue = pd.read_excel('https://github.com/sagelab4data/HyundaiHigh_1/blob/main/flue_medcine.xls?raw=true',
                     skiprows = 6,   #앞의 여섯 줄을 생략한다. 
                     header = [0,1], # 읽어들인 시트 중 첫번째, 두번째를 컬럼 제목으로 한다. 
                     index_col = [0,1], # 첫 번째와 두 번째 컬럼('A','B')을 인덱스로 지정한다. 
                     thousands = ',')  # 천 단위마다 있는 쉼표 ','를 지우고 읽어들인다.  
flue

In [None]:
# 2.3.2.1  인덱스를 조회해 본다. 
flue.index

In [None]:
# 2.3.2.2  인덱스를 하나로 정리한다. 
flue.index = flue.index.levels[1]
flue.index

In [None]:
# 2.3.3 컬럼을 조회해본다. 
flue.columns

### [] 특정 컬럼만 행열전환 : stack / unstack

![stack](https://github.com/sagelab4data/images/blob/main/stack_concept.png?raw=true)

In [None]:
# 2.3.4  연도별로 조회하기 위해서 '기간명' 을 행 방향으로 전환한다.
#    stack 이라는 메소드를 사용한다. 
flue_monthly = flue.stack('기간명')
flue_monthly.index = flue_monthly.index.levels[1]  # 인덱스의 레벨을 조정한다. 
flue_monthly.head()

### [] 한글 날자 표기의 형변환 : format 속성 이용

![한글포맷](https://github.com/sagelab4data/images/blob/main/datetime_format.png?raw=true)

In [None]:
# 2.3.5.1 날자형 읽어 들이기 실험 (영어)
pd.to_datetime('Jul, 2019')

In [None]:
# 2.3.5.2 날자형 읽어들이기 실험 (한글) --> 오류 발생
# pd.to_datetime('2019년 7월')

In [None]:
# 2.3.5.3 포맷을 지정하고 한글 변환 
#         %Y - 4자리 연도   , %m - 숫자 월
pd.to_datetime('2019년 7월', format= '%Y년 %m월')

In [None]:
# 2.3.5.4  flue 데이터 프레임의 인덱스 부분을 날자형 datetime 으로 변환
flue_monthly.index = pd.to_datetime(flue_monthly.index, format = '%Y년 %m월')
flue_monthly.head()

In [None]:
# 2.3.6 flue 데이터로 차트를 그려서 데이터가 잘 정돈 되었는지 확인
flue_monthly['수량'].plot(figsize = (12,6))

데이터는 정상적인 듯 하고 예년보다 줄어든 양상인 것을 확인할 수 있다. 
같은 월끼리 비교 해보면 보다 정확하게 판단이 가능하겠다. 

## **2.4 데이터 모델링(분석)**

월별로 그래프를 그리기 위해 '월'을 인덱스로 하고 '연도'를 컬럼으로 하는 데이터로 정돈해 보자. 

### [] 날자형 데이터로 부터 연도, 월 뽑아내기
* .year,  .month

In [None]:
# 2.4.1.1 날자 인덱스의 확인
flue_monthly.index

In [None]:
# 2.4.1.2 연도 추출하기 


In [None]:
# 2.4.1.3 월 추출하기


In [None]:
# 2.4.2 연도와 월 컬럼을 생성한다. 
flue_monthly['year'] = flue_monthly.index.year
flue_monthly['month'] = flue_monthly.index.month
flue_monthly.head()

In [None]:
# 2.4.3 월별 연도별 통계가 되도록 진료에 대한 수량을 집계한 flue_pivot을 생성한다. 
flue_pivot = flue_monthly.pivot( index  = 'month', columns = 'year', values = '수량')
flue_pivot

In [None]:
# 2.4.4.1  한국 코로나 발생 현황도 비교 할 수 있도록 월별로 집계한다.
# 우선 월에 해당하는 month 컬럼을 추가한다.  
corona_kr['month'] = corona_kr.index.month
corona_kr

In [None]:
# 2.4.4.2 월별로 groupby 를 이용해서 집계한다.
corona_kr_monthly = corona_kr.groupby('month')['신규'].sum()
corona_kr_monthly

## **2.5 시각화**
각 연도별 같은 월끼리 비교한 그래프를 그려본다. 

In [None]:
# 2.5.1 flue_pivot을 시각화 하여 본다. 
flue_pivot.plot(figsize = (8,3));

In [None]:
# 2.5.2 감기와 코로나 발생을 위/아래 2개의 차트로 작성하여 월별로 비교하여 본다. 
fig, ax = plt.subplots(2, figsize = (8,6 ), sharex= True)

# flue 정보
flue_pivot.plot( ax = ax[0], title = 'flue')

# corona 월별 집계
corona_kr_monthly.plot(ax= ax[1], title = 'corona_kr');


In [None]:
# 2.5.3 연도별 월별 감기인원 분포를 살펴보자.
#  동일한 조건이 될 수 있도록 9월까지의 데이터만 활용한다. .loc[:9]
flue_pivot.loc[:9].plot(kind= 'box')

* 전반적으로 3월 이후 2017년/18년 보다 낮아진 것을 확인 할 수 있다. 
* 특히 사회적 거리두기가 강하게 시행되었던 4월은 이전 년도에서 감기가 증가하는 것에 비해, 오히려 줄어 든것을 확인 할 수 있다. 
* 9월 또한 다른 연도의 급격한 증가가 나타나는 것에 비해 급격하게 떨어진 것을 확인 할 수 있는데,  이 때에도 사회적 거리두기가 시행 되었었다. 
* 코로나 발생 건수가 치솟는다 --> 사회적 거리두기가 강화된다. --> 감기가 줄어든다라는 현상을 데이터로 확인 할 수 있었다.

# **3. 온라인 판매 데이터 분석**

## **3.1 문제정의**
코로나로 인해서 온라인 판매가 증가 하였다고 한다. 


1.   모든 상품의 판매가 증가한 것일까? (배달음식은 늘어났을 것 같은데, 콘서트 티켓은 줄었을 것 같다.)
2.   인터넷 쇼핑보다는 모바일 쇼핑이 증가하고 있을 것 같다.



## **3.2 데이터 수집**
KOSIS 국가 통계 포털에서 '온라인쇼핑몰 판매매체별/상품군별거래액' 에서 데이터를 다운로드 받는다. 
* KOSIS는 데이터를 다운로드 받기 전에 형태를 수정 할 수 있다.  이를 활용하여 정돈된 데이터 형태로 변환 하여 다운로드 받는다. 

https://kosis.kr/statHtml/statHtml.do?orgId=101&tblId=DT_1KE10051&conn_path=I2

![온라인판매엑셀](https://github.com/sagelab4data/images/blob/main/online_excel.png?raw=true)



1.   불필요한 상품군별 **합계** /판매매체별 **계** 항목 제외
2.   행렬 전환으로 컬럼 방향으로 펼쳐진 시간축을 행(인덱스 방향으로 변경)
3.   데이터 수집 기간을 변경 (2017.1~2020.9)
4.   엑셀에서 시점에 붙어 있는 '2020.08 p)' 의 'p)'의 처리
   - 홈 - 찾기 및 선택 - 바꾸기 (또는 Ctrl - H) 
   - 찾을 내용:  p),  바꿀 내용 : *(공백)*  --> 모두 바꾸기 수행





In [None]:
# 3.2.1 KOSIS에서 정돈한 형태의 데이터를 읽어 들인다. 
online = pd.read_excel('https://github.com/sagelab4data/HyundaiHigh_1/blob/main/Online_Channel_Product_Sales.xlsx?raw=true')
online.tail(10)

## **3.3 데이터 가공**


**online 판매 데이터 항목 분석**
  - 판매매체별 : 2개 채널
    *   '모바일쇼핑', '인터넷쇼핑'
  - 상품군별 : 23개 상품군
    *  'e쿠폰서비스', '가구', '가방', '가전·전자·통신기기', '기타', '기타서비스',
       '농축수산물','문화 및 레저서비스', '사무·문구', '생활용품', '서적', 
       '스포츠·레저용품', '신발', '아동·유아용품','애완용품', '여행 및 교통서비스', 
       '음·식료품', '음식서비스', '의복', '자동차 및 자동차용품',
       '컴퓨터 및 주변기기', '패션용품 및 액세서리', '화장품'
  - 판매연월 : 45개월
    * 2017년 1월~ 2020년 9월  



In [None]:
# 3.3.1  online 데이터 형태의 확인
online.shape

In [None]:
# 3.3.2 online  데이터의 자료형 확인
online.info()

In [None]:
# 3.3.3 시점 데이터를 날자형으로 변경
online['시점'] = pd.to_datetime(online['시점'])
online.info()

In [None]:
# 3.3.4 정돈된 데이터
online.head(10)

## **3.4 데이터 모델링 (분석)**



1.   시점별 판매량 분석
2.   상품군별 시점별 판매량 분석
3.   매체별 시점별 판매량 분석
4.   상품군별 매체별 시점별 판매량 분석



![온라인판매분석](https://github.com/sagelab4data/images/blob/main/online_pivot.png?raw=true)

### 3.4.1 시점별 판매량 분석



![온라인판매분석_1](https://github.com/sagelab4data/images/blob/main/online_pivot_1.png?raw=true)

In [None]:
# 3.4.1.1 '시점' 별로 '데이터'를 합산한다. 

online_by_time = online.groupby('시점').sum()
online_by_time.tail()

In [None]:
# 3.4.1.2 데이터 건수 확인 (2017.01~2020.09 : 12*3 + 9 = 45 행)
online_by_time.shape

In [None]:
# 3.4.1.3 데이터 자료형 확인
online_by_time.info()

### 3.4.2 상품군별 시점별 판매량 분석



![온라인판매분석_2](https://github.com/sagelab4data/images/blob/main/online_pivot_2.png?raw=true)

#### [] 피봇테이블 : 데이터 집계 수행


```
데이터프레임. pivot_table(index = ‘행으로 만들 컬럼’, 
                         columns = ＇열방향으로 만들 컬럼’,
                         values= ＇집계할 값’ 컬럼,
                         aggfunc = ‘집계함수’)
```



![피봇테이블](https://github.com/sagelab4data/images/blob/main/pivot_table.png?raw=true)

In [None]:
# 3.4.2.1 상품군별 시점별로 피봇 테이블을 구성
online_by_time_prod = online.pivot_table(index = '시점',
                                         columns = '상품군별',
                                         values = '데이터', 
                                         aggfunc = 'sum')
online_by_time_prod.head()

In [None]:
# 3.4.2.2 데이터 건수 확인 ( 45행 x 23열 (상품군 개수))
online_by_time_prod.shape

In [None]:
# 3.4.2.3 데이터 자료형 확인
online_by_time_prod.info()

### 3.4.3 매체별 시점별 판매량 분석



![온라인판매분석_3](https://github.com/sagelab4data/images/blob/main/online_pivot_3.png?raw=true)

In [None]:
# 3.4.3.1 판매매체별 시점별로 피봇 테이블을 구성
online_by_time_channel = online.pivot_table(index = '시점', 
                                            columns = '판매매체별', 
                                            values = '데이터', 
                                            aggfunc = 'sum')
online_by_time_channel.tail()

In [None]:
# 3.4.3.2 데이터 건수 확인 ( 45행 x 2열 (판매매체 개수))
online_by_time_channel.shape

In [None]:
# 3.4.3.3 데이터 자료형 확인
online_by_time_channel.info()

### 3.4.4 상품군별 시점별 판매량 분석



![온라인판매분석_4](https://github.com/sagelab4data/images/blob/main/online_pivot_4.png?raw=true)

In [None]:
# 3.4.4.1 상품군별 시점별로 피봇 테이블을 구성
online_by_time_prod_channel = online.pivot_table(index = '시점', 
                                                 columns = ['상품군별','판매매체별' ], 
                                                 values = '데이터', aggfunc = 'sum')
online_by_time_prod_channel.tail()

In [None]:
# 3.4.4.2 데이터 건수 확인 ( 45행 x 46열 (상품군 23 * 매체 2))
online_by_time_prod_channel.shape

In [None]:
# 3.4.4.3 데이터 자료형 확인
online_by_time_prod_channel.info()

In [None]:
# 3.4.4.4 pivot 을 이용해서도 동일하게 생성할 수 있다. (중복되는 행이 없어서)
online.pivot(index = '시점', 
             columns = ['상품군별','판매매체별' ], 
             values = '데이터')

## **3.5 시각화**
1.   시점별 판매량 시각화 ( online_by_time)
2.   상품군별 시점별 판매량 시각화 (online_by_time_prod)
3.   매체별 시점별 판매량 시각화 (online_by_time_channel)
4.   상품군별 매체별 시점별 판매량 시각화 (online_by_time_prod_channel)

### 3.5.1 시점별 판매량 시각화 (online_by_time)

In [None]:
# 3.5.1.1 온라인 판매량 합계 추이를 꺾은선 그래프로 나타내고 관찰한다. 





In [None]:
# 3.5.1.2 온라인 판매량 합계 추이에 연도별 세로 선을 그어 주기를 관찰해보자.
online_by_time.plot(kind = 'line', figsize = (12,4));

# 연도를 표현하는 세로선의 위치 지정
x18 = np.datetime64('2018-01-01') 
x19 = np.datetime64('2019-01-01')
x20 = np.datetime64('2020-01-01')

# 세로선의 하단과 상단 지정 (최소 최대값)
ymin = online_by_time.min()
ymax = online_by_time.max()

# 3 개의 가로선 긋기
plt.vlines(x = [x18, x19, x20], ymin = ymin, ymax= ymax, color = 'gray', linestyle = '--');

* 증가 추세가 관찰 되기는 하나, 2017~2019년 대비 급격하게 증가하는 느낌을 받지는 못한다. 

### 3.5.2 상품군별 시점별 판매량 시각화 (online_by_time_prod)

In [None]:
# 3.5.2.1 상품군별로 시각화하기에 앞서, 색상을 지정해 둔다.

# 상품군별 색상
prod_colors = ['yellow', 'greenyellow', 'yellowgreen','darkslategray','limegreen',
               'lime', 'forestgreen','darkgreen', 'darkcyan','darkblue',
               'teal', 'blue','mediumblue','olivedrab','purple',
                'darkkhaki','tan', 'maroon', 'orange','crimson',
               'sienna', 'tomato', 'darksalmon']

# 판매매체별 색상
channel_colors = [ 'red', 'blue']

In [None]:
# 3.5.2.2 온라인 판매량의 추이를 꺾은선 그래프로 나타내고 관찰한다. 


online_by_time_prod.plot(kind = 'line', figsize = (12,4), 
                         color = prod_colors) # color = prod_colors 로 색상지정
plt.legend(loc='center left', bbox_to_anchor=(1, 0.5))  # 범례 위치 조정


# 연도가 바뀌는 위치에서 3개의 세로선을 긋는다. (X변수는 재지정 할 필요 없음)
# 세로선의 하단과 상단 지정 (최소 최대값)
ymin = online_by_time_prod.min().min()
ymax = online_by_time_prod.max().max()

# 3 개의 가로선 긋기
plt.vlines(x = [x18, x19, x20], ymin = ymin, ymax= ymax, color = 'gray', linestyle = '--');


* 뚝 떨어지는 올리브색 (여행 및 교통 서비스) 을 비롯하여 저조해지는 상품군이 관찰되고
* 베이지색의 상승 되는 모습이 보이지만
* 전체적으로 엉켜서 현상이 잘 관찰 되지 않는다. 

#### [] for 문 연습




```
# 목록의 값을 차례로 변수로 받아 실행한다. 
for 변수 in 목록 : 
    실행문1
    실행문2
```

```
# 숫자 1,2,3 목록에서 차례로 a 의 값이 변하여 전달 되고 그 값이 출력된다. 
for a in [1,2,3] : 
    print (a)
    print (a*a)
```


```
# enumerate는 목록의 항목값과 함께, 순차적인 번호를 부여한다. 
for i, v in enumerate (['a','b','c']):
    print ( n, v)

```


In [None]:
# 3.5.2.3.1 for문 연습1
# 숫자 1,2,3 목록에서 차례로 a 의 값이 변하여 전달 되고 그 값이 출력된다.


In [None]:
# 3.5.2.3.2 for문 연습2
# enumerate는 목록의 항목값과 함께, 순차적인 번호를 부여한다. 
for i, v in enumerate (['a','b','c']):
    print ( i, v)

In [None]:
# 3.5.2.3.3 for문 연습 3 - 차트 그릴 때 사용할 for 문
for i, col in enumerate (online_by_time_prod.columns) :
  print (i,col)

In [None]:
# 3.5.2.4  서브플롯을 이용해서 각각의 상품군별로 추이를 살펴보자

# 23개의 상품군별이므로 12행 2열 24개의 그래프 생성
fig, ax = plt.subplots(12 ,2 , figsize = (16, 25))
plt.subplots_adjust(hspace=0.7) # 그래프 간 세로 여백을 좁게 조정

# 24개의 ax 를 순차적으로 작성하기 위해 for 문을 사용하여 반복 한다.
axe = ax.flat # 24개의 ax를 한 줄로 세우기
for i, col in enumerate (online_by_time_prod.columns) :
    online_by_time_prod[col].plot(ax = axe[i], title = str(i+1) + '.'+ col, color = prod_colors[i])
    axe[i].xaxis.label.set_visible(False) # x 축이름 숨기기

    # 세로선 긋기 위한 상한/하한 지정 및 선 긋기
    ymin = online_by_time_prod[col].min()
    ymax = online_by_time_prod[col].max()
    axe[i].vlines(x = [x18, x19, x20], ymin = ymin, ymax= ymax, color = 'gray', linestyle = '--')

plt.show()

*   상품군별 판매 동향 추이
  - Q1. 코로나 이후 급격하게 성장한 제품군은?
  - Q2. 코로나로 인하여 제품 판매가 현저하게 줄어든 제품군은?
  - Q3. 원래 부터 성장세였던 제품군은?
  - Q4. 계절성이 있는 제품군은?
  - Q5. 21.컴퓨터 및 주변 기기에 판매동향에 대해서 해석해보라.
  - Q6. 14.아동유아용품, 19.의복 과 22.패션용품 및 액세서리 에서 나타나는 현상의 공통점과 차이점을 논해보라


In [None]:
# 3.5.2.5 상자 그래프로 상품군별 판매량의 분포를 표현하고 그 크기의 차이를 이해해보자.

online_by_time_prod.plot(kind = 'box', figsize = (12,6))
plt.xticks(rotation=90);

### 3.5.3 매체별 시점별 판매량 시각화 (online_by_time_channel)

In [None]:
# 3.5.3.1 판매매체별 온라인 판매량 합계 추이에 연도별 세로 선을 그어 주기를 관찰해보자.
online_by_time_channel.plot(kind = 'line', figsize = (12,4), color = channel_colors);


# 세로선의 하단과 상단 지정 (최소 최대값)
ymin = online_by_time_channel.min().min()
ymax = online_by_time_channel.max().max()

# 3 개의 가로선 긋기
plt.vlines(x = [x18, x19, x20], ymin = ymin, ymax= ymax, color = 'gray', linestyle = '--');

* 모바일 쇼핑과 인터넷 쇼핑이 주기 (등락:오르고 내리고) 관점에서 비슷하게 나타나지만, 모바일 쇼핑이 보다 빠르게 성장하고 있는 것으로 보인다. 

### 3.5.4.   상품군별 매체별 시점별 판매량 시각화 (online_by_time_prod_channel)

In [None]:
online_by_time_prod_channel.columns.levels[0]

In [None]:
# 3.5.4.1  서브플롯을 이용해서 각각의 상품군별로 추이를 살펴보자

# 23개의 상품군별이므로 12행 2열 24개의 그래프 생성
fig, ax = plt.subplots(12 ,2 , figsize = (16, 25))
plt.subplots_adjust(hspace=0.7) # 그래프 간 세로 여백을 좁게 조정

# 24개의 ax 를 순차적으로 작성하기 위해 for 문을 사용하여 반복 한다.
axe = ax.flat # 24개의 ax를 한 줄로 세우기
for i, col in enumerate (online_by_time_prod_channel.columns.levels[0]) :
    online_by_time_prod_channel[col].plot(ax = axe[i], title = str(i+1) + '.'+ col, color = channel_colors)
    axe[i].xaxis.label.set_visible(False) # x 축이름 숨기기

    # 세로선 긋기 위한 상한/하한 지정 및 선 긋기
    ymin = online_by_time_prod_channel[col].min()
    ymax = online_by_time_prod_channel[col].max()
    axe[i].vlines(x = [x18, x19, x20], ymin = ymin, ymax= ymax, color = 'gray', linestyle = '--')

plt.show()

In [None]:
# 3.5.4.2  상자 그래프로 상품군별 판매량의 분포를 표현하고 그 크기의 차이를 이해해보자.

online_by_time_prod_channel.plot(kind = 'box', figsize = (12,6))
plt.xticks(rotation=90);

#### [] seaborn library 그래프 맛보기
* 약자는 sns


```
# import seaborn as sns
```


* 데이터 가공을 seaborn library에서 수행한다.

In [None]:
# 3.5.4.3  유사한 그래프를 seaborn library의 상자 그래프로 작성해보자
plt.figure(figsize = (12,6))
sns.boxplot(data = online, x='상품군별', y = '데이터', hue = '판매매체별');
plt.xticks(rotation=90);

### 3.5.5 상품군 별 매체분포
상품군과 매체만의 관계를 살펴보자

In [None]:
# 3.5.5.1  상품군별 매체분포를  원 그래프로 작성해보자

# 데이터를 상품군별 매체별로 집계

online_by_channel_prod = online.pivot_table(index = '판매매체별', columns = '상품군별',
                                            values = '데이터', aggfunc= 'sum')


# 23개의 상품군별이므로 5행 5열 25개의 그래프 생성
fig, ax = plt.subplots(5 ,5 , figsize = (16, 16))
plt.subplots_adjust(hspace=0.7) # 그래프 간 세로 여백을 좁게 조정


# 25개의 ax 를 순차적으로 작성하기 위해 for 문을 사용하여 반복 한다.
axe = ax.flat # 24개의 ax를 한 줄로 세우기
for i, col in enumerate (online_by_channel_prod.columns) :
    online_by_channel_prod[col].plot.pie( ax = axe[i], 
                                         y=col, 
                                         title = str(i+1) + '.'+ col,
                                         colors = channel_colors,
                                         ylabel = "")
    

    
plt.show()

* 대체로 모바일 쇼핑의 비중이 크다.
* 상대적으로 인터넷 쇼핑이 큰 종목을 골라서 그 이유를 생각해보자

In [None]:
# 3.5.5.2  매체별 상품군 분포를 원 그래프를 작성해보자

# 데이터를 상품군별 매체별로 집계

online_by_prod_channel = online.pivot_table(index = '상품군별', columns = '판매매체별', values = '데이터', aggfunc= 'sum')


# 2개의 매체별이므로 2 열 2개의 그래프 생성
fig, ax = plt.subplots(1 ,2 , figsize = (12, 6))


for i, col in enumerate (online_by_prod_channel.columns) :
    online_by_prod_channel[col].plot.pie( ax = ax[i], 
                                         y=col, 
                                         title = str(i+1) + '.'+ col,
                                         colors = prod_colors,
                                         ylabel = "")

모바일에서 음식 서비스의 비중이 인터넷 대비 큰 것을 확인 할 수 있다.  