# Plotly

- 대화형 데이터 시각화를 위한 오픈 소스 라이브러리
- 웹 기반의 대화형 그래프를 만들 수 있는 강력한 도구
- Python, R, MATLAB, Julia 등의 언어에서 사용할 수 있으며, 특히 Python에서는 데이터 과학과 분석 작업에서 많이 사용
- https://plotly.com/python/
- 설치
    ```bash
    pip install plotly
    ```


# Plotly의 주요 특징
- 대화형 그래프
    - Plotly는 대화형 그래프를 쉽게 만들 수 있음
    - 사용자가 그래프 위에 마우스를 올리면 세부 정보를 확인하거나, 그래프의 일부를 확대하거나 축소하는 등의 기능을 제공
- 다양한 차트 유형 지원
    - Plotly는 기본적인 바(bar) 차트, 라인(line) 차트, 스캐터(scatter) 차트 등부터 고급 차트인 3D 그래프, 지도 시각화, 히트맵, 금융 차트까지 다양한 차트를 지원
- 웹 기반 시각화
    - Plotly의 그래프는 HTML, CSS, JavaScript로 렌더링되어 웹 브라우저에서 직접 실행
    - 웹 기반의 데이터 대시보드나 리포트에 매우 적합
    - Plotly는 대화형 그래프를 만들기 위한 HTML 코드를 자동으로 생성하며, 이를 간단하게 웹 페이지에 임베드할 수 있음

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd
import plotly.express as px
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [6]:
df=pd.read_csv('/content/drive/MyDrive/data_lion/customer_train.csv')
df

Unnamed: 0,ID,성별,고령자여부,기혼여부,부양가족여부,가입기간,집전화이용여부,다중회선여부,인터넷이용방식,인터넷보안서비스사용여부,...,기기방화벽서비스사용여부,인터넷기술지원서비스사용여부,스트리밍TV여부,스트리밍영화여부,약정기간,지로여부,지불방법,한달요금,총지불요금,이탈여부
0,train_0,1,0,0,0,23,1,0,광,0,...,0,1,0,0,0,0,메일,79.10,1783.75,0
1,train_1,1,0,0,0,1,1,0,디지털,0,...,0,0,0,0,0,0,메일,45.40,45.40,1
2,train_2,0,0,0,0,23,1,1,광,0,...,1,1,1,1,0,0,메일,104.05,2470.10,1
3,train_3,1,0,0,0,11,1,0,디지털,0,...,1,1,0,1,1,1,신용카드,64.90,697.25,0
4,train_4,1,0,0,0,5,1,1,광,0,...,0,0,1,0,0,0,전자,85.20,474.80,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4925,train_4925,0,0,0,0,24,1,0,광,0,...,1,1,0,0,0,0,전자,85.95,2107.15,0
4926,train_4926,0,1,1,0,72,0,0,디지털,1,...,1,1,1,1,2,0,자동이체,63.10,4685.55,0
4927,train_4927,0,0,1,1,25,1,0,,0,...,0,0,0,0,1,1,전자,19.90,505.45,0
4928,train_4928,0,0,1,0,48,1,1,광,1,...,1,0,1,0,2,0,자동이체,96.90,4473.45,0


In [7]:
df.head()

Unnamed: 0,ID,성별,고령자여부,기혼여부,부양가족여부,가입기간,집전화이용여부,다중회선여부,인터넷이용방식,인터넷보안서비스사용여부,...,기기방화벽서비스사용여부,인터넷기술지원서비스사용여부,스트리밍TV여부,스트리밍영화여부,약정기간,지로여부,지불방법,한달요금,총지불요금,이탈여부
0,train_0,1,0,0,0,23,1,0,광,0,...,0,1,0,0,0,0,메일,79.1,1783.75,0
1,train_1,1,0,0,0,1,1,0,디지털,0,...,0,0,0,0,0,0,메일,45.4,45.4,1
2,train_2,0,0,0,0,23,1,1,광,0,...,1,1,1,1,0,0,메일,104.05,2470.1,1
3,train_3,1,0,0,0,11,1,0,디지털,0,...,1,1,0,1,1,1,신용카드,64.9,697.25,0
4,train_4,1,0,0,0,5,1,1,광,0,...,0,0,1,0,0,0,전자,85.2,474.8,1


In [8]:

df.isnull().sum() # 결측치 확인

Unnamed: 0,0
ID,0
성별,0
고령자여부,0
기혼여부,0
부양가족여부,0
가입기간,0
집전화이용여부,0
다중회선여부,0
인터넷이용방식,1071
인터넷보안서비스사용여부,0


In [11]:
# 결측치 태우고 가겠다 -> 인터넷이용방식
df['인터넷이용방식']=df['인터넷이용방식'].fillna('UNK')
# 잘 채워졌는지 확인
df.isnull().sum().sum()

0

# plotly.express 모듈의 함수들의 주요 파라미터
- `data_frame`
    - 첫번째 파라미터로 데이터프레임 전달
- `x`
    - x축의 데이터를 지정
    - 열 이름을 문자열로 전달
- `y`
    - y축의 데이터를 지정
    - 열 이름을 문자열로 전달
- `color`
    - 데이터를 색상으로 구분하는 데 사용
    - 파라미터에 지정된 데이터는 차트에서 색상 차이를 통해 카테고리 또는 값의 차이를 시각적으로 강조
    - 열 이름을 문자열로 전달
- `size`
    - 점 크기를 데이터에 따라 조정할 수 있는 파라미터
    - 주로 산점도에서 점의 크기를 다르게 표현하여 추가적인 차원을 시각화할 때 유용
    - 열 이름을 문자열로 전달
- `facet_row`, `facet_col`
    - 데이터를 행(facet_row) 또는 열(facet_col)로 분할하여 서브플롯을 생성
    - 각 서브플롯은 해당 카테고리별로 분리됨
    - 열 이름을 문자열로 전달
- `title`
    - 차트의 제목을 설정
- `text_auto`
    - `True` 를 전달할 경우 그래프에 수치가 표시됨

In [12]:
import plotly.express as px

In [14]:
df.columns

Index(['ID', '성별', '고령자여부', '기혼여부', '부양가족여부', '가입기간', '집전화이용여부', '다중회선여부',
       '인터넷이용방식', '인터넷보안서비스사용여부', '인터넷백업서비스사용여부', '기기방화벽서비스사용여부',
       '인터넷기술지원서비스사용여부', '스트리밍TV여부', '스트리밍영화여부', '약정기간', '지로여부', '지불방법',
       '한달요금', '총지불요금', '이탈여부'],
      dtype='object')

## histogram

In [16]:
px.histogram(df, x='총지불요금')

In [15]:
# 텍스트를 다 달아줘
px.histogram(df, x='총지불요금',text_auto=True)

In [17]:
# 이번엔 칼라 옵션
px.histogram(df, x='총지불요금',text_auto=True,color='인터넷이용방식')

## 옆에 범례 누르면 그것만 볼 수 있다

In [18]:
px.histogram(df, x='총지불요금',text_auto=True, facet_col='인터넷이용방식')

In [19]:
px.histogram(df, x='총지불요금',text_auto=True, facet_row='인터넷이용방식')

In [20]:
# y축에 column명을 지정하여
px.histogram(df, x='한달요금',text_auto=True,y='이탈여부', histfunc='avg')
# y에 대한 평균

## 정리
## y축에 다른 컬럼의 통계치를 본다
### histfunc parameter
### ; sum, count, avg, min, max 정도만 가능

## scatterplot


In [22]:
df.columns

Index(['ID', '성별', '고령자여부', '기혼여부', '부양가족여부', '가입기간', '집전화이용여부', '다중회선여부',
       '인터넷이용방식', '인터넷보안서비스사용여부', '인터넷백업서비스사용여부', '기기방화벽서비스사용여부',
       '인터넷기술지원서비스사용여부', '스트리밍TV여부', '스트리밍영화여부', '약정기간', '지로여부', '지불방법',
       '한달요금', '총지불요금', '이탈여부'],
      dtype='object')

In [21]:
px.scatter(df, x='가입기간', y='총지불요금')

In [25]:
# 추가 파라미터
## 약정기간에 따라서 점 사이즈 다르게

px.scatter(df, x='가입기간', y='총지불요금', size='약정기간')

## 인터넷이용방식에 따라 색 다르게
px.scatter(df, x='가입기간', y='총지불요금', size='약정기간',color='인터넷이용방식')

## 직선까지 추가
px.scatter(df, x='가입기간', y='총지불요금', size='약정기간',color='인터넷이용방식'
, trendline='ols', trendline_color_override='black')


In [28]:
## 3D는 z까지 지정
px.scatter_3d(df, x='가입기간', y='총지불요금', z='한달요금')

## boxplot

In [29]:
df.columns

Index(['ID', '성별', '고령자여부', '기혼여부', '부양가족여부', '가입기간', '집전화이용여부', '다중회선여부',
       '인터넷이용방식', '인터넷보안서비스사용여부', '인터넷백업서비스사용여부', '기기방화벽서비스사용여부',
       '인터넷기술지원서비스사용여부', '스트리밍TV여부', '스트리밍영화여부', '약정기간', '지로여부', '지불방법',
       '한달요금', '총지불요금', '이탈여부'],
      dtype='object')

In [30]:
px.box(df, y='총지불요금')

In [31]:
# 지불방법별로
px.box(df, y='총지불요금', x='지불방법')

## violin plot

In [32]:
px.violin(df, y='총지불요금')

In [34]:
# boxplot 같이 넣고 싶다
px.violin(df, y='총지불요금', box=True )

In [35]:
# 약정기간별로 따로따로 보자
px.violin(df, y='총지불요금', box=True , x='약정기간')

## heatmap

In [36]:
tmp = df.corr(numeric_only=True)

In [38]:
# data 전체 frame만 넣어주면됨
px.imshow(tmp)

# 사이즈 늘려주자 + 텍스트도 넣어주자
px.imshow(tmp, height=1000, width=1000, text_auto=True)

## piechart

In [39]:
# x축, y축 개념이 아닌
# 지불방법별로 파이플랏
px.pie(df, names='지불방법')

In [41]:
df.groupby('지불방법')['총지불요금'].sum()

Unnamed: 0_level_0,총지불요금
지불방법,Unnamed: 1_level_1
메일,1209010.5
신용카드,3356358.6
자동이체,3386110.15
전자,3435978.45


In [42]:
# 다른 컬럼에 값을 비교하고싶다.
px.pie(df, names='지불방법', values='총지불요금')

## barchart
* seaborn 이랑은 다르다

In [46]:
# 지불방법별 count를 막대차트로 돌리고 싶다

# 처리를 하고나서 넣어줘야해
tmp = df['지불방법'].value_counts().reset_index()
tmp

Unnamed: 0,지불방법,count
0,전자,1632
1,메일,1138
2,신용카드,1084
3,자동이체,1076


In [48]:
px.bar(tmp, x='지불방법', y='count', text_auto=True)

In [50]:
df.columns

Index(['ID', '성별', '고령자여부', '기혼여부', '부양가족여부', '가입기간', '집전화이용여부', '다중회선여부',
       '인터넷이용방식', '인터넷보안서비스사용여부', '인터넷백업서비스사용여부', '기기방화벽서비스사용여부',
       '인터넷기술지원서비스사용여부', '스트리밍TV여부', '스트리밍영화여부', '약정기간', '지로여부', '지불방법',
       '한달요금', '총지불요금', '이탈여부'],
      dtype='object')

In [56]:
# 각 인터넷 이용방식에 대하여 / 지불방법별 counting

## 전처리 먼저 해주고 시작 ## 결측치 없는 ID
df.groupby(['인터넷이용방식','지불방법'])['ID'].count()

## index 부분을 column으로
tmp = df.groupby(['인터넷이용방식','지불방법'])['ID'].count().reset_index()
tmp

Unnamed: 0,인터넷이용방식,지불방법,ID
0,UNK,메일,520
1,UNK,신용카드,238
2,UNK,자동이체,222
3,UNK,전자,91
4,광,메일,184
5,광,신용카드,436
6,광,자동이체,448
7,광,전자,1106
8,디지털,메일,434
9,디지털,신용카드,410


In [58]:
px.bar(tmp, x='인터넷이용방식', y='ID', text_auto=True, color='지불방법')

## 여러개 axes 그릭기
* make_sumplots 함수
   - 여러개의 axes를 담을 수 있는 figure객체를 반환
   - 주요 파라미터 ; rows, cols, subplot_titles(행갯수, 열갯수, 각 axes 타이틀)
   - 타이틀은 리스트에 담아서 변환

In [60]:
from plotly.subplots import make_subplots

# 2행 2열
fig = make_subplots(2,2,subplot_titles=['histogram', 'scatter', 'box', 'violin'])


In [61]:
fig.add_trace(px.histogram(df, x='총지불요금')['data'][0], row=1, col=1, #1행1열

              )
fig

In [65]:
fig.add_trace(px.histogram(df, x='총지불요금')['data'][0], row=1, col=1, #1행1열

              )
fig.add_trace(px.scatter(df, x='총지불요금')['data'][0], row=1, col=2, #1행2열

              )
fig.add_trace(px.box(df, x='총지불요금')['data'][0], row=2, col=1, #2행1열

              )
fig.add_trace(px.violin(df, x='총지불요금')['data'][0], row=2, col=2, #2행2열

              )

In [67]:
# 레이아웃 업데이트
fig.update_layout(height=800, title='서브플롯 예시')