# 08. Seaborn
---
* 날짜:
* 이름:



**참고사이트**
> * [판다스](https://pandas.pydata.org/)


pandas는 데이타 분석(Data Analysis)을 위해 널리 사용되는 파이썬 라이브러리 패키지입니다. 이번 시간에는 pandas의 기본적인 개념과 가장 자주 쓰이는 몇가지 함수를 알아보도록 합니다.

```
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# seaborn
import seaborn as sns
```







```
plt.rcParams["figure.figsize"] = (6, 4)
plt.rcParams["font.size"] = 15 
```

## **개념정리**



---
### **(1) 기본 제공 데이터셋**
---

Seaborn에서는 기본적인 데이터셋을 제공합니다.

데이터의 종류는 `tips`, `car_crashes`, `dots`, `fmri`, `penguins`, `planets`, `taxis` 등이 있습니다.

####**데이터 불러오기**

```
tips = sns.load_dataset("tips")
```

---
### **(2) 기본 사용법**
---

####**1.플롯 그리기**

* `data`: DataFrame, array, or list of arrays 
* `x, y, hue`: names of variables in data or vector data, optional

```
sns.countplot(tips['day'])
plt.show()
```



####**2.DataFrame 기반 그리기**

* `data`: DataFrame, array, or list of arrays 
* `x, y`: names of variables in data or vector data, optional

```
sns.countplot(data = tips, x='day')
plt.title('countplot')
plt.show()
```



* `hue`: names of variables in data or vector data, optional

```
sns.countplot(data = tips, x='day', hue='smoker')
plt.title('countplot')
plt.show()
```


---
### **(3) 스타일**
---

####**1.그래프 배경 설정**

* `whitegrid`: white background + grid
* `darkgrid`: dark background + grid
* `white`: white background (without grid)
* `dark`: dark background (without grid)


```
sns.set_style('darkgrid')
sns.countplot(data = tips, x='day')
plt.show()
```



####**2.컬러 팔레트**

더 많은 컬러팔레트를 [Seaborn 공식문서](https://chrisalbon.com/code/python/data_visualization/seaborn_color_palettes/)에서 볼수 있습니다.

```
sns.palplot(sns.color_palette("Set3", 10))
sns.palplot(sns.color_palette("PuBu", 10))
sns.palplot(sns.color_palette("muted", 10))
```



`pallette` 옵션으로 스타일을 지정합니다.

```
sns.set_style('darkgrid')
sns.countplot(data = tips, x='day', palette='muted')
plt.show()
```

---
### **(4) 여러가지 플롯 - `Distribution plot`**
---

####**1. `displot()`**

기본적으로 y축은 해당 feature의 개수로, 분포와 밀도를 시각화 합니다.

```
sns.displot(tips['tip'])
plt.show()
```

####**2. `kde`**

**kernel density**는 부드러운 형태의 분포곡선을 보여줍니다.

```
sns.displot(tips['tip'], kde=True)
plt.show()
```

####**3. Numeric & Numeric**

수치형 데이터와 수치형 데이터간 분포를 확인할 수 있습니다.

```
sns.displot(x = 'tip', y='total_bill', data=tips)
plt.show()
```

####**4. Numeric & Categorical**



수치형 데이터와 범주형 데이터간 분포를 확인할 수 있습니다.

```
sns.displot(x = 'day', y='total_bill', data=tips)
plt.show()
```

####**5. Categorical & Categorical**




범주형과 범주형 간 분포를 확인할 수 있습니다.

```
sns.displot(x = 'day', y='smoker', data=tips)
plt.show()
```

---
### **(5) 여러가지 플롯 - `Hit map`**
---



#### **1. `heatmap()`**
heatmap은 2차원 데이터셋을 시각화 합니다. 

* `data` : 2차원 데이터셋
* `cmap` : matplotlib 컬러맵
* `annot`: 값 표시 `True`/`False`
* `linewidths` : 선의 굵기


```
a = [[1,2],
      [2,1]]
sns.heatmap(a, annot=True)
plt.show()
```


#### **2. 상관관계(correlation)**

보통 두개의 feature 간 상관관계를 시각화 하기 위해 사용합니다.

```
plt.title('heatmap')
sns.heatmap(tips.corr(), annot=True)
plt.show()
```

---
### **(6) 여러가지 플롯 - Box plot**
---


범주형자료형과 수치형 자료형을 함께 표시할 때 사용합니다.

 범주형 자료형의 데이터 분포를 확인 할 수 있으며 5가지 숫자요약 (Five-number summary)를 위한 시각화 도구입니다.


<p align='center'>
<img src=https://upload.wikimedia.org/wikipedia/commons/thumb/f/fa/Michelsonmorley-boxplot.svg/1920px-Michelsonmorley-boxplot.svg.png width=300>
</p>


####**1. `boxplot()`**

* `data`: DataFrame, array, or list of arrays 
* `x, y, hue`: names of variables in data or vector data, optional
* `width` 
* `color`
* `palette`
* `linewidth`

```
sns.boxplot(x="day", y="tip", data=tips)
plt.show()
```

Seaborn의 `boxplot`은 5가지 숫자요약과 이상치를 시각화 합니다.

---
### **(7) 여러가지 플롯 - Violin plot**
---

박스 플롯과 마찬가지로 범주형자료형과 수치형 자료형을 함께 표시할 때 사용합니다.

중앙값과 사분위 및 KDE 플롯도 함께 시각화 합니다.

바이올린 플롯은 KDE 플롯과 Box 플롯을 하나로 합쳐놓은 형태라고 생각하면 됩니다.




####**1. `violinplot()`**

* `data`: DataFrame, array, or list of arrays 
* `x, y, hue`: names of variables in data or vector data, optional
* `width` 
* `color`: matplotlib color, optional
* `palette`
* `split`

```
sns.violinplot( x="day", y="tip", data=tips)
plt.show()
```

중심선 대칭인 선은 **KDE** 플롯이며

가운데 흰색 점은 **중앙값**(median)을 나타냅니다. 

바이올린 중앙의 두꺼운 선은 **사분위**를 나타내며 

얇은 선은 **신뢰 구간**을 나타냅니다. 


---
### **(8) 여러가지 플롯 - Relation plot**
---

두 수치형 데이터 간의 선형관계를 확인하기에 용이한 차트입니다.

####**1. `relplot()`**

```
sns.relplot( x="total_bill", y="tip", data=tips,
             hue="day")
plt.show()
```



####**2. `col`**

열 방향으로 feature를 추가햐여 그래프를 분할 합니다.  

```
sns.relplot( x="total_bill", y="tip", data=tips,
             hue="day",
             col="sex")
plt.show()
```

####**3. `row`**

행 방향으로 feature를 추가하여 데이터를 분할합니다.

```
sns.relplot( x="total_bill", y="tip", data=tips,
             hue="day",
             col="sex",
             row="time")
plt.show()
```

---
### **(9) 여러가지 플롯 - Joint plot**
---

두 수치형 feature간의 산점도와 분포를 동시에 그려줍니다.

####**1. `jointplot()`**

```
sns.jointplot( x="total_bill", y="tip", data=tips)
plt.show()
```



####**2. `hue`**

`hue` 옵션을 통해 카테고리 별 데이터 분포를 확인 할 수 있습니다.

```
sns.jointplot( x="total_bill", y="tip", data=tips,
               hue='sex')
plt.show()
```



####**3. `kind`**

`kind` 옵션을 통해 여러가지 옵션으로 시각화 할 수 있습니다.

옵션은 ` scatter, kde, hist` 가 있습니다.

```
sns.jointplot( x="total_bill", y="tip", data=tips,
               hue='sex',
               kind='hist')
plt.show()
```



---
### **(10) 여러가지 플롯 - Pair plot**
---

데이터프레임에 있는 모든 수치형 feature들의 분포와 선형관계를 시각화 합니다.

####**1.`pairplot()`**


```
sns.pairplot(tips)
plt.show()
```



####**2.`hue`**

```
sns.pairplot(tips, hue='day')
plt.show()
```

## **예제**


Seaborn 에서 제공하는 데이터셋 중 `penguins` 데이터셋을 시각화 합니다.

0. `penguins`를 가져옵니다.
1. 각 feature 의 특징을 잘 반영하여 시각화 해야 합니다.
2. 각 feature 에 대한 시각화 플롯을 적어도 한개씩 그려야 합니다.
3. 두개 이상의 feature들의 관계를 보여주는 플롯을 적어도 두개 그립니다.
4. 작성한 플롯에 대한 설명을 간단하게라도 작성합니다.