# Plotly

- 대화형 데이터 시각화를 위한 오픈 소스 라이브러리
- 웹 기반의 대화형 그래프를 만들 수 있는 강력한 도구
- Python, R, MATLAB, Julia 등의 언어에서 사용할 수 있으며, 특히 Python에서는 데이터 과학과 분석 작업에서 많이 사용
- https://plotly.com/python/
- 설치
    ```bash
    pip install plotly
    ```


# Plotly의 주요 특징
- 대화형 그래프
    - Plotly는 대화형 그래프를 쉽게 만들 수 있음
    - 사용자가 그래프 위에 마우스를 올리면 세부 정보를 확인하거나, 그래프의 일부를 확대하거나 축소하는 등의 기능을 제공
- 다양한 차트 유형 지원
    - Plotly는 기본적인 바(bar) 차트, 라인(line) 차트, 스캐터(scatter) 차트 등부터 고급 차트인 3D 그래프, 지도 시각화, 히트맵, 금융 차트까지 다양한 차트를 지원
- 웹 기반 시각화
    - Plotly의 그래프는 HTML, CSS, JavaScript로 렌더링되어 웹 브라우저에서 직접 실행
    - 웹 기반의 데이터 대시보드나 리포트에 매우 적합
    - Plotly는 대화형 그래프를 만들기 위한 HTML 코드를 자동으로 생성하며, 이를 간단하게 웹 페이지에 임베드할 수 있음

In [1]:
import pandas as pd
import numpy as np

In [2]:
# from google.colab import drive
# drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
DATA_PATH = "data/"
df = pd.read_csv(f"{DATA_PATH}customer_train.csv")
df.shape

(4930, 21)

In [3]:
df.head()

Unnamed: 0,ID,성별,고령자여부,기혼여부,부양가족여부,가입기간,집전화이용여부,다중회선여부,인터넷이용방식,인터넷보안서비스사용여부,...,기기방화벽서비스사용여부,인터넷기술지원서비스사용여부,스트리밍TV여부,스트리밍영화여부,약정기간,지로여부,지불방법,한달요금,총지불요금,이탈여부
0,train_0,1,0,0,0,23,1,0,광,0,...,0,1,0,0,0,0,메일,79.1,1783.75,0
1,train_1,1,0,0,0,1,1,0,디지털,0,...,0,0,0,0,0,0,메일,45.4,45.4,1
2,train_2,0,0,0,0,23,1,1,광,0,...,1,1,1,1,0,0,메일,104.05,2470.1,1
3,train_3,1,0,0,0,11,1,0,디지털,0,...,1,1,0,1,1,1,신용카드,64.9,697.25,0
4,train_4,1,0,0,0,5,1,1,광,0,...,0,0,1,0,0,0,전자,85.2,474.8,1


In [4]:
df.isnull().sum()

ID                   0
성별                   0
고령자여부                0
기혼여부                 0
부양가족여부               0
가입기간                 0
집전화이용여부              0
다중회선여부               0
인터넷이용방식           1071
인터넷보안서비스사용여부         0
인터넷백업서비스사용여부         0
기기방화벽서비스사용여부         0
인터넷기술지원서비스사용여부       0
스트리밍TV여부             0
스트리밍영화여부             0
약정기간                 0
지로여부                 0
지불방법                 0
한달요금                 0
총지불요금                0
이탈여부                 0
dtype: int64

In [5]:
df["인터넷이용방식"] = df["인터넷이용방식"].fillna("UNK")
df.isnull().sum().sum()

np.int64(0)

# plotly.express 모듈의 함수들의 주요 파라미터
- `data_frame`
    - 첫번째 파라미터로 데이터프레임 전달
- `x`
    - x축의 데이터를 지정
    - 열 이름을 문자열로 전달
- `y`
    - y축의 데이터를 지정
    - 열 이름을 문자열로 전달
- `color`
    - 데이터를 색상으로 구분하는 데 사용
    - 파라미터에 지정된 데이터는 차트에서 색상 차이를 통해 카테고리 또는 값의 차이를 시각적으로 강조
    - 열 이름을 문자열로 전달
- `size`
    - 점 크기를 데이터에 따라 조정할 수 있는 파라미터
    - 주로 산점도에서 점의 크기를 다르게 표현하여 추가적인 차원을 시각화할 때 유용
    - 열 이름을 문자열로 전달
- `facet_row`, `facet_col`
    - 데이터를 행(facet_row) 또는 열(facet_col)로 분할하여 서브플롯을 생성
    - 각 서브플롯은 해당 카테고리별로 분리됨
    - 열 이름을 문자열로 전달
- `title`
    - 차트의 제목을 설정
- `text_auto`
    - `True` 를 전달할 경우 그래프에 수치가 표시됨

In [6]:
import plotly.express as px

# histogram

In [7]:
px.histogram(df, x="총지불요금", text_auto=True, color="인터넷이용방식")

In [8]:
px.histogram(df, x="총지불요금", text_auto=True, facet_row="인터넷이용방식")

- y축에 다른 컬럼의 통계치를 볼 수 있다.
    - histfunc 파라미터
        - "sum", "count", "avg", "min", "max"

In [9]:
px.histogram(df, x="한달요금", y="이탈여부", text_auto=True, histfunc="avg")

# scatter

In [12]:
px.scatter(df, x="가입기간", y="총지불요금", size="약정기간", color="인터넷이용방식", trendline="ols", trendline_color_override="black")

In [13]:
px.scatter_3d(df, x="가입기간", y="총지불요금", z="한달요금")

# boxplot

In [14]:
px.box(df, y="총지불요금")

In [15]:
px.box(df, x="지불방법", y="총지불요금")

# violin plot

In [16]:
px.violin(df, y="총지불요금", box=True)

In [17]:
px.violin(df, y="총지불요금", box=True, x="약정기간")

# heatmap

In [18]:
tmp = df.corr(numeric_only=True)
tmp.head()

Unnamed: 0,성별,고령자여부,기혼여부,부양가족여부,가입기간,집전화이용여부,다중회선여부,인터넷보안서비스사용여부,인터넷백업서비스사용여부,기기방화벽서비스사용여부,인터넷기술지원서비스사용여부,스트리밍TV여부,스트리밍영화여부,약정기간,지로여부,한달요금,총지불요금,이탈여부
성별,1.0,0.005642,-0.003771,-0.017294,-0.021193,0.00629,-0.007213,0.004376,-0.000903,-0.008541,0.004849,-0.000948,-0.000927,-0.001928,-0.008551,-0.010693,-0.023037,0.004276
고령자여부,0.005642,1.0,0.024385,-0.203255,0.015344,0.024957,0.134592,-0.033504,0.054349,0.05241,-0.057495,0.092524,0.107242,-0.148492,-0.159635,0.217791,0.10239,0.137868
기혼여부,-0.003771,0.024385,1.0,0.440688,0.375783,0.011966,0.139193,0.142199,0.144606,0.156419,0.120794,0.140714,0.124045,0.289407,0.012524,0.095741,0.315795,-0.161695
부양가족여부,-0.017294,-0.203255,0.440688,1.0,0.147628,-0.011888,-0.028237,0.078742,0.037277,0.020647,0.056616,0.001017,-0.039518,0.22963,0.106744,-0.112608,0.058838,-0.167431
가입기간,-0.021193,0.015344,0.375783,0.147628,1.0,-0.0018,0.321895,0.328522,0.366343,0.36576,0.326558,0.29247,0.284871,0.66749,-0.002098,0.243609,0.825025,-0.356049


In [19]:
px.imshow(tmp, width=1000, height=1000, text_auto=True)

# pie chart

In [20]:
px.pie(df, names="지불방법")

In [21]:
df.groupby("지불방법")["총지불요금"].sum()

지불방법
메일      1209010.50
신용카드    3356358.60
자동이체    3386110.15
전자      3435978.45
Name: 총지불요금, dtype: float64

In [22]:
px.pie(df, names="지불방법", values="총지불요금")

# bar
- 전처리 필요

In [26]:
# 지불방법별 count
tmp = df["지불방법"].value_counts().reset_index()
tmp

Unnamed: 0,지불방법,count
0,전자,1632
1,메일,1138
2,신용카드,1084
3,자동이체,1076


In [27]:
px.bar(tmp, x="지불방법", y="count", text_auto=True) # px.bar(tmp, x=tmp.index, y=tmp) / reset_index() 안할경우

In [28]:
# 각 인터넷이용방식에 대한 지불방법별 count
tmp = df.groupby(["인터넷이용방식", "지불방법"])["ID"].count().reset_index()
tmp

Unnamed: 0,인터넷이용방식,지불방법,ID
0,UNK,메일,520
1,UNK,신용카드,238
2,UNK,자동이체,222
3,UNK,전자,91
4,광,메일,184
5,광,신용카드,436
6,광,자동이체,448
7,광,전자,1106
8,디지털,메일,434
9,디지털,신용카드,410


In [29]:
px.bar(tmp, x="인터넷이용방식", y="ID", text_auto=True, color="지불방법")

# line

In [30]:
px.line(df.sort_values("가입기간"), x="가입기간", y="총지불요금")

# 여러 개 axes 그리기
- make_subplots 함수
    - 여러 개의 axes 를 담을 수 있는 figure 객체를 반환
    - 주요 파라미터
        - rows: 행 개수
        - cols: 열 개수
        - subplot_titles: 각 axes의 타이틀

In [31]:
from plotly.subplots import make_subplots
fig = make_subplots(2,2,subplot_titles=["histogram", "scatter", "box", "violin"])

In [32]:
fig.add_trace(
    px.histogram(df, x="총지불요금")["data"][0], row=1, col=1
)
fig.add_trace(
    px.scatter(df, x="가입기간", y="총지불요금")["data"][0], row=1, col=2
)
fig.add_trace(
    px.box(df, y="총지불요금")["data"][0], row=2, col=1
)
fig.add_trace(
    px.violin(df, y="총지불요금")["data"][0], row=2, col=2
)

# 레이아웃 업데이트
fig.update_layout(height=800, title="서브플롯 예시")