## 코로나전후 색조화장품의 생산량은 어떻게 변화했을까? Plotly를 통해 알아보기
* 식품의약품안전처,「화장품산업현황」, 화장품 유형별 책임판매업체 생산실적
    * https://kosis.kr/statHtml/statHtml.do?orgId=145&tblId=DT_145011_A013&conn_path=I2
 
* Plotly는 Python을 비롯한 다양한 프로그래밍 언어에서 대화형 그래프를 생성할 수 있는 강력한 데이터 시각화 라이브러리입니다. 특히 Plotly는 웹 기반의 대화형 그래프를 쉽게 만들 수 있는 기능을 제공하여, 데이터 분석 및 시각화 작업에 널리 사용됩니다.

### plotly
* https://plotly.com/python/
* https://plotly.com/python-api-reference/plotly.express.html

Plotly Express는 Plotly 라이브러리의 하위 모듈로, 간단하고 직관적인 인터페이스를 제공하여 빠르게 그래프를 생성할 수 있게 해줍니다. px로 축약하여 사용하며, 다양한 시각화 기능을 단 몇 줄의 코드로 구현할 수 있습니다. Plotly Express는 기본적인 차트부터 고급 차트까지 다양한 유형의 시각화를 지원합니다. 예를 들어, 히스토그램, 막대 그래프, 선 그래프, 산점도, 트리맵 등이 있습니다.

Plotly의 주요 특징 중 하나는 대화형 그래프를 생성할 수 있다는 점입니다. 사용자는 생성된 그래프에서 데이터를 확대, 축소하거나, 마우스 오버를 통해 상세 정보를 확인하는 등 다양한 상호작용을 할 수 있습니다. 

In [None]:
# 필요한 라이브러리 설치 및 임포트
# !pip install -Uq plotly

In [None]:
import pandas as pd
import plotly.express as px

## 데이터 준비 및 기초 기술 통계 확인

In [None]:
df = pd.read_csv("data/kosis-cosmetic-production.csv", encoding="cp949")
df.shape

In [None]:
df.head()

In [None]:
df.columns = ['유형', '연도', '억원']
df.head()

In [None]:
df.info()

In [None]:
df.describe()

## plotly express를 활용한 데이터 시각화 

In [None]:
px.histogram(df, x='억원')

In [None]:
# histnorm="density" 사용시 y 축의 값이 밀도로 변경됨
px.histogram(df, x='억원', histnorm="density")

In [None]:
# histnorm="density" 사용시 y 축의 값이 밀도로 변경됨
px.histogram(df, x='억원', histnorm="density", marginal="violin")

In [None]:
# 빈도 시각화
px.histogram(df, x='유형')

In [None]:
# histfunc 으로 연산 기능 
px.histogram(df, x='유형', y="억원", histfunc="avg", title="평균 생산량 억원 단위")

In [None]:
px.histogram(df, x='유형', y="억원", histfunc="sum", title="합계 생산량 억원 단위")

In [None]:
# 연간 생산량 막대 그래프
px.bar(df, x='연도', y='억원', title='연간 생산량 (억원)', color='유형')

## 코로나 전후의 연간 생산량 변화 분석

In [None]:
df.loc[df["연도"] > 2019, "코로나전후"] = "후"
df.loc[df["연도"] <= 2019, "코로나전후"] = "전"

In [None]:
df["코로나전후"].value_counts()

In [None]:
df.groupby(["연도", "유형"])["억원"].mean().unstack()

In [None]:
df.groupby(["연도", "유형"])["억원"].mean().unstack().style.background_gradient()

In [None]:
px.histogram(df, x='유형', y="억원", histfunc="avg", barnorm="fraction", 
             color="코로나전후", title="평균 생산량 억원 단위")

## 서브플롯을 통한 시각화

In [None]:
# 연간 생산량 선 그래프
px.line(df, x='연도', y='억원', title='연간 생산량 (억원)', color='유형')

In [None]:
# 연간 생산량 선 그래프
px.line(df, x='연도', y='억원', title='연간 생산량 (억원)', color='유형', 
        facet_col="유형", facet_col_wrap=4, height=500)

In [None]:
# 연간 생산량 선 그래프
px.line(df, x='연도', y='억원', title='연간 생산량 (억원)', color='유형', 
        facet_col="유형", facet_col_wrap=4, height=500, log_y=True)

## 로그 스케일을 통한 유형별 변화량 비교

In [None]:
# 데이터 정렬 및 그룹화
df = df.sort_values(by=['유형', '연도'])
df['누적금액'] = df.groupby('유형')['억원'].cumsum()  # 누적 금액

In [None]:
# 누적 생산량 선 그래프
px.line(df, x='연도', y='누적금액', title='누적 생산량 (억원)', color='유형')

In [None]:
# 누적 생산량 로그 그래프
px.line(df, x='연도', y='누적금액', title='누적 생산량 (억원)', color='유형', log_y=True)

In [None]:
px.treemap(df, path=['유형'], values='억원',
                 title='유형별 생산량 Treemap')

In [None]:
px.sunburst(df, path=['유형'], values='억원',
                 title='유형별 생산량 Treemap')