# 6\. Visualization

## 6.1 matplotlib

reference: https://matplotlib.org/stable/plot_types/index.html

#### Scatter Plots
데이터가 어떻게 분포하고 있는지 확인할 때 사용

```python
import matplotlib.pyplot as plt
import numpy as np

# make the data
x = 4 + np.random.normal(0, 2, 24)
y = 4 + np.random.normal(0, 2, len(x))

# size and color:
sizes = np.random.uniform(15, 80, len(x))
colors = np.random.uniform(15, 80, len(x))

# plot
fig, ax = plt.subplots()
ax.scatter(x, y, s=sizes, c=colors, vmin=0, vmax=100)

ax.set(
  xlim=(0, 8), xticks=np.arange(1, 8),
  ylim=(0, 8), yticks=np.arange(1, 8)
  )

plt.show()
```

#### Bar Charts
범주별 빈도를 확인할 때 사용

```python
import matplotlib.pyplot as plt
import numpy as np

# make data:
x = 0.5 + np.arange(8)
y = np.random.uniform(2, 7, len(x))

# plot
fig, ax = plt.subplots()

ax.bar(x, y, width=1, edgecolor="white", linewidth=0.7)

ax.set(
  xlim=(0, 8), xticks=np.arange(1, 8),
  ylim=(0, 8), yticks=np.arange(1, 8)
  )

plt.show()
```

#### Line Chart
시간의 흐름에 따른 변화를 보고자할 때 사용

```python
import matplotlib.pyplot as plt
import numpy as np

# make data
x = np.linspace(0, 10, 100)
y = 4 + 2 * np.sin(2 * x)

# plot
fig, ax = plt.subplots()

ax.plot(x, y, linewidth=2.0)

ax.set(
  xlim=(0, 8), xticks=np.arange(1, 8),
  ylim=(0, 8), yticks=np.arange(1, 8)
  )

plt.show()
```

#### Box Plots
변수의 이상치 및 특징을 파악하기 위해 사용

```python
import matplotlib.pyplot as plt
import numpy as np

plt.style.use('_mpl-gallery')

# make data:
data = np.random.normal((3, 5, 4), (1.25, 1.00, 1.25), (100, 3))

# plot
fig, ax = plt.subplots()
box_plot = ax.boxplot(
  data, 
  positions=[2, 4, 6], 
  widths=1.5, patch_artist=True,
  showmeans=False, showfliers=False,
  medianprops={"color": "white", "linewidth": 0.5},
  boxprops={
    "facecolor": "C0", "edgecolor": "white", "linewidth": 0.5},
  whiskerprops={"color": "C0", "linewidth": 1.5},
  capprops={"color": "C0", "linewidth": 1.5}
  )

plt.show()
```

#### Pie Charts
카테고리별 비율을 시각화하기 위해 사용

```python
import matplotlib.pyplot as plt

# Pie chart, where the slices will be ordered and plotted counter-clockwise:
labels = 'Frogs', 'Hogs', 'Dogs', 'Logs'
sizes = [15, 30, 45, 10]
explode = (0, 0.1, 0, 0)  # only "explode" the 2nd slice

fig1, ax1 = plt.subplots()
ax1.pie(
  sizes, 
  explode=explode, 
  labels=labels, 
  autopct='%1.1f%%',
  shadow=True, 
  startangle=90
  )
ax1.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

plt.show()
```

#### Histograms
데이터의 분포를 확인하기 위해 사용

```python
import matplotlib.pyplot as plt
import numpy as np

# make data
x = 4 + np.random.normal(0, 1.5, 200)

# plot:
fig, ax = plt.subplots()

ax.hist(x, bins=8, linewidth=0.5, edgecolor="white")

ax.set(
  xlim=(0, 8), xticks=np.arange(1, 8),
  ylim=(0, 56), yticks=np.linspace(0, 56, 9))

plt.show()
```

## 6.2 seaborn

reference: https://seaborn.pydata.org

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
sns.set_theme(style="whitegrid")

### Scatter Plots
x가 continous한 값이라면 산점도 <br>
x가 categorical 값이라면 jitter <br>
<br>
args
  - hue: 그룹 별 다른 색상으로 plot
  - style: 카테고리별 다른 그림으로 plot
  - col: 해당 컬럼의 값을 기준으로 분할하여 plot
  - row: 해당 컬럼의 값을 기준으로 분할하여 plot

```python
tips = sns.load_dataset("tips")

sns.relplot(
    data=tips,
    x="total_bill", y="tip", hue="smoker", style="time",
)
```

### Bar Charts
args
  - hue: 그룹 별 다른 색상으로 plot
  - x: x를 쓰면 일반적인 수직 그래프
  - y: y를 쓰면 수평 그래프
  - kind='count': 빈도 계산
  - palette='pastel': 다양한 색상을 입힘
  - col: 해당 컬럼의 값을 기준으로 분할하여 plot
  - row: 해당 컬럼의 값을 기준으로 분할하여 plot

```python
titanic = sns.load_dataset("titanic")

sns.catplot(
    data=titanic, 
    x="deck", hue="class", kind="count",
    palette="pastel",
)
```

### Line Charts

>  
x가 continous한 값이라면 일반적 시계열 모양 <br>
x가 중복된 값을 가지고 있으면 95% 신뢰구간을 표현 <br>
<br>
args
  - errorbar
    - None: 신뢰구간 제거
    - sd: 표준편차 신뢰구간
  - hue: 그룹 별 다른 색상으로 plot
  - style: 카테고리별 다른 그림으로 plot
  - col: 해당 컬럼의 값을 기준으로 분할하여 plot
  - row: 해당 컬럼의 값을 기준으로 분할하여 plot

```python
dowjones = sns.load_dataset("dowjones")
sns.relplot(data=dowjones, x="Date", y="Price", kind="line")

fmri = sns.load_dataset("fmri")
sns.relplot(data=fmri, x="timepoint", y="signal", kind="line")
```

### Box Plots
>  
args
  - hue: 그룹 별 다른 색상으로 plot
  - col: 해당 컬럼의 값을 기준으로 분할하여 plot
  - row: 해당 컬럼의 값을 기준으로 분할하여 plot

```python
tips = sns.load_dataset("tips")
sns.catplot(data=tips, x="day", y="total_bill")                           # 점도표
sns.catplot(data=tips, x="day", y="total_bill", kind="box")               # boxplot
sns.catplot(
  data=tips, x="total_bill", y="day", hue="sex", 
  kind="violin", split=True
  ) # violin
```

### Histograms
>  
args
  - binwidth: 구간 범위 설정
  - hue: 그룹 별 다른 색상으로 plot
  - multiple: 다른 그룹을 어떻게 표현할지 설정
    - stack: 합하여 출력
    - dodge: 분리하여 출력
  - col: 해당 컬럼의 값을 기준으로 분할하여 plot
  - row: 해당 컬럼의 값을 기준으로 분할하여 plot
  - stats: 어떤 통계지표로 출력할지 출력
    - density: 밀도 출력
    - probability: 확률 출력

```python
penguins = sns.load_dataset("penguins")
sns.displot(penguins, x="flipper_length_mm", binwidth=3, hue='species', multiple='dodge', stats='density')
```

### Distplots
>args
  - kind: 어떤 타입을 출력할지 설정
    - kde: 커널 분포 출력
    - ecdf: 누적 분포 출력
  - hue: 그룹 별 다른 색상으로 plot
  - multiple: 다른 그룹을 어떻게 표현할지 설정
    - stack: 합하여 출력
    - dodge: 분리하여 출력
  - fill: bool: 면적을 채울지 설정

```python
sns.displot(penguins, x="flipper_length_mm", kind="kde")
```
<br>


**joint plot**
```python
sns.jointplot(data=penguins, x="bill_length_mm", y="bill_depth_mm")

sns.jointplot(
    data=penguins,
    x="bill_length_mm", y="bill_depth_mm", hue="species",
    kind="kde"
)

```

### Heatmaps
> 
args
- cmap: colormap 설정
  - Blues
  - Reds
  - YlGnBu

```python
normal_data = np.random.randn(10, 12)
ax = sns.heatmap(normal_data)
```

### Model
>
args
- y_jitter: y값의 출력 옵션 설정
- hue: 그룹 별 다른 색상으로 plot
- markers: 어떤 모양으로 표현할지 설정
- logistic: bool
  - True: logistic regression plot
- lowess
  - True: nonparametric regression by lowess
- col: 해당 컬럼의 값을 기준으로 분할하여 plot
- row: 해당 컬럼의 값을 기준으로 분할하여 plot

```python
tips = sns.load_dataset("tips")
sns.lmplot(x="total_bill", y="tip", data=tips)

tips["big_tip"] = (tips.tip / tips.total_bill) > .15
sns.lmplot(x="total_bill", y="big_tip", data=tips, y_jitter=.03, logistic=True)
```
<br>

**joint plot**
```python
sns.jointplot(x="total_bill", y="tip", data=tips, kind="reg");
```

**pair plot**
```python
sns.pairplot(tips, x_vars=["total_bill", "size"], y_vars=["tip"],
             hue="smoker", height=5, kind="reg");
```