# 데이터 시각화

## 그래프의 구성 요소 및 특징

- Figure : 여러 개의 그래프들이 들어갈 수 있는 공간
- axes : figure에 그래프를 그리기 위한 컷

## Scatterplot

### matplotlib, seaborn

- Figure와 ax 생성
    
    import matplotlib.pyplot as plt
    
    import seaborn as sns
    
    import pandas as pd
    
    fig, ax = plt.subplots()
    
- sactterplot 그리기
    
    sns.scatterplot(x=’Year’, y=’No. of Internet Users’, data=df, ax=ax)
    
- hue 인자  → scatter 색 나눠서 그래프 그리기
    - palette 인자 → 색 조절 가능
    
    df.Entity.unique() ← 고유값 확인
    
    entities = [’China’, ‘India’, ‘Finland’] ← 3가지만 선택
    
    df = df.query(’Entity.isin(@entities)’)
    
    fig, ax = plt.sublots()
    
    sns.scatterplot(x=’Year’, y=’No of Internet Users’, dtat=df, ax=ax, hue=’Entity’, palette=’bright’)
    
- hue_order 인자 활용 → lengend(범례)의 순서 조절 가능
    
    sns.scatterplot(x=’Year’, y=’No of Internet Users’, data=df, ax=ax, hue=’Entity’, palette=’bright’, hue_order=[’India’, ‘Finland’, ‘China])
    
- style 인자 → 색 대신 scatter의 형태를 구분하여 변수 데이터 구분
    - makers 인자 → scatter의 형태 지정 가능
    - s인자 → scatter의 크기 조절 가능
    
    sns.scatterplot(x=’Year’, y=’No of Internet Users’, data=df, ax=ax, style=’Entity’, markers=[’o’,’^’,’X’], s=100)
    
- size → 데이터 그룹별로 size 구분
    - sizes → size의 최솟값, 최댓값 지정 가능
    
    sns.scatterplot(x=’Year’, y=’No of Internet Users’, data=df, ax=ax, size=’Entity’, sizes=(40, 200)
    
- hue, style, size 혼합사용 가능
    
    df = sns.load_dataset(’tips’)
    
    fig, ax = plt.subplots()
    
    sns.scatterplot(x=’total_bill’, y=’tip’, data=df, ax=ax, hue=’smoker’, style=’time’, size=’size’)

### Plotly

- Plotly express Scatterplot
    
    import [plotly.express](http://plotly.express) as px
    
    import pandas as pd
    
    fig = px.scatter(data_frame=df, x=’Year’, y=’No of Internet Users’, width =400, height=400)
    
    fig.show()

- color 인자 ← 색 나눠줌 (=seaborn의 hue)
    - color_descrete_map, color_descrete_sequence 를 통해 색 조절 가능
    
    entities = [’China’, ‘India’, ‘Finland’]
    
    df = df.loc[df[’Entity’].isin(entities)]
    
    fig = px.scatter(data_frame=df, x=’Year’, y=’No of Internet Users’, width=400, height=400, color=’Entity’, coplor_discrete_sequence=[’blue’,’black’,’red’])
    
    아니면 color_dicrete_map = {’China’ : ‘blue’, ‘Finland’ : ‘black’, ‘India’ : ‘red’}
    
    fig.show()
    
- symbol 인자 ← 모양으로 나눠줌 (=seaborn의 style)
    - symbol_sequence 인자를 활용하여 scatter의 형태 커스터마이징 가능
    
    fig = px.scatter(data_frame = df, x=’Year’, y=’No of Internet Users’, width = 400, height = 400, symbol=’Entity’, symbol_sequence=[’star’,’arrow’,’cross’])
    
- size인자 ← y값 따라서 크기 조절 가능 (seaborn과 사용법 약간 다름)
    
    fig = px.scatter(data_frame = df, x=’Year’, y=’No of Internet Users’, width = 400, height = 400, size = ‘No of Internet Users’)
    
- color, symbol, size 인자 혼합해서 사용 가능
    
    fig = px.scatter(data_frame = df, x=’total_bill’, y=’tips’, color=’smoker’, size=’size’, symbol=’time’, width=600, height=400)

## Regression Plot

### matplotlip, seaborn

- ci : confidence interval ← 95% 신뢰구간
    - ci=None 으로 없앨 수 있음
- hue인자 사용 불가능
    - scatter 인자에 False를 전달하여 regression 그래프만 표현 가능

df = sns.load_dataset(’tips’)

fig, ax= plt.subplots()

sns.regplot(x=’total_bill’, y=’tip’, data=df, ax=ax)

- order 인자 ← regression 다항식 차수 조절 가능
    
    import numpy as np
    
    x = np.arrange(0, 10, 1)
    
    y = x**3 - 9*x**2 + x + 4
    
    fig, ax = plt.subplots()
    
    sns.regplot(x=x, y=y, ax=ax, order=3) ← 3차식 그래프 생성 가능
    
- scatter_kws ← 사이즈 조절 가능(s → size)
- line_kws ←색 과 선 모양 조절 가능
    
    sns.regplot(x=x, y=y, ax=ax, order=3, scatter_kws={’s’ : 80}, line_kws={’color’:’red’ , ‘linestyle’:’- -’})

### plotly

- Plotly express의 scatter 함수에서 trendline 인자로 활용 가능 trendline=’ols’
- color인자 사용시 color 별로 회귀선 도출 가능(Seaborn 에서는 불가능)
- trendline_scope ← 전체에 대한 regression 가능 trendline_scope=’overall’
    
    df = sns.load_dataset(’tips’)
    
    fig = px.scatter(data_frame=df, x=’total_bill’, y=’tip’, width=400, height=400, color=’smokers’, trendline=’ols’)
    

## Line plot

### matplotlib & Seaborn

- scatter 대신 line으로 표현
- scatterplot과 동일하게 사용
- hue, style 사용 가능
    
    fig, ax = plt.subplots()
    
    sns.lineplot(x=’Year’, y=’No of Internet Users’, data=df, ax=ax, hue=’Entity’)
    
- scatterplot과 겹쳐 그리기 가능
    
    fig, ax = plt.subplots()
    
    sns.lineplot(x=’Year’, y=’No of Internet Users’, data=df, ax=ax, hue=’Entity’)
    
    sns.scatterplot(x=’Year’ y=’No of Internet Users’, data=df, ax=ax, hue=’Entity’, legend=False)
    

### Plotly

- Plotly scatter 과 동일하게 그림
- color 인자 사용 가능
- symbol 대신 line_dash 인자 사용
    
    fig = px.line(data_frame=df, x=’Year’, y=’No of Internet Users’, width=400, height=400, color=’Entity’, line_dash=’Entity’)
    
- symbol 인자 추가하여 scatter 동시에 표현 가능
    
    fig = px.line(data_frame=df, x=’Year’, y=’No of Internet Users’, width=400, height=400, color=’Entity’, line_dash=’Entity’, symbol=’Entity’)
    

## Boxplot

### Matplotlib & Seaborn

- IQR = Q3 - Q1
- 범위 : Q3 + 1.5IQR ~ Q1 - 1.5IQR
- scatterplot 과 유사한 방식으로 그림
    
    fig, ax = plt.subplots()
    
    sns.boxplot(x=’weekday’, y=’kwhTotal’, data=df, ax=ax)
    
- stripplot, swarmplot
    
    boxplot으로는 확인할 수 없는 통계량 표현해줌
    
    stipplot 의 그림 겹침을 분산시켜 놓은게 swarmplot
    
    sns.stipplot(x=’weekday’, y=’kwhTotal’, data=df, ax=ax, color=’grey’, alpha=0.4) → alpha : 투명도
    
    sns. boxplot(x=’weekday’, y=kwhTotal’, data=df, ax=ax)
    
    sns.swarmplot(x=’weekday’, y=’kwhTotal’, data=df, ax=ax, color=’grey’, alpha=0.4) → alpha : 투명도
    
    sns. boxplot(x=’weekday’, y=kwhTotal’, data=df, ax=ax)
    
- order 메서드 ← boxplot 순서 정렬 가능 cf) stipplot, swarmplot 적용시 똑같이 order 적용해야함
    
    weekday_order = [’Mon’, ‘Tue’, ‘Wed’, ‘Thr’, ‘Fri’, ‘Sat’, ‘Sun’] ← 리스트형태
    
    sns.boxplot(x=’weekday’, y=’kwhTotal’, data=df, ax=ax, order=weekday_order)
    
- hue 메서드 사용 가능

### Plotly

- scatter와 유사
    
    fig = px.box(data_frame=df, x=’weekday’, y=’kwhTotal’, width=500, height=400)
    
- points 인자를 통해 boxplot+stripplot 표현 가능
    
    fig = px.box(data_frame=df, x=’weekday’, y=’kwhTotal’, width=500, height=400, points=’all’)
    
- category_orders 인자를 통해 x축 변수 순서 조절 가능
    
    weekday_order = {’weekday’ : [’Mon’, ‘Tue’, ‘Wed’, ‘Thr’, ‘Fri’, ‘Sat’, ‘Sun’]} ← 딕셔너리 형태
    
    fig = px.box(data_frame=df, x=’weekday’, y=’kwhTotal’, width=500, height=400, category_orders=weekday_order)
    
- color 인자를 통해 그룹별로 box나눠표현 가능
    
    fig = px.box(data_frame=df, x=’weekday’, y=’kwhTotal’, width=500, height=400, color=’platform’)