<a href="https://colab.research.google.com/github/sudonglee/pymldg-rev/blob/master/14_%EB%8D%B0%EC%9D%B4%ED%84%B0%EC%8B%9C%EA%B0%81%ED%99%94_(%EB%AC%B8%EC%A0%9C).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **데이터 시각화 (Data Visualization)**
  
- 작성자: 이수동 (울산대학교 산업경영공학부 | sudonglee@ulsan.ac.kr)
- 최종 업데이트: 2021-10-06

데이터 시각화를 위한 대표적인 python 라이브러리로는 `matplotlib`과  `seaborn`이 있습니다.
- `matplotlib`: 가장 대표적인 library로 `pandas`, `numpy` 등과 호환이 가능하며 널리 사용됩니다.
- `seaborn`: `matplotlib`을 기반으로 다양한 색, 테마, 차트 기능을 추가한 라이브러리입니다. 

## __Matplotlib__

In [None]:
import matplotlib.pyplot as plt 

In [None]:
## 데이터 시각화 라이브러리 실행 시 출력되는 경고 메시지를 숨겨줍니다.
import warnings
warnings.filterwarnings('ignore') 

# matplotlib으로 출력되는 그림을 노트북 안에 출력합니다. 
%matplotlib inline

### Figure와 Axes (Image Source | [Blog 어쩐지 오늘은](https://zzsza.github.io/development/2018/08/24/data-visualization-in-python/) )
- Figure는 말 그대로 *그림*입니다. 그림 파일을 열었을 때 보이는 그림의 틀을 생각하시면 됩니다.  
- Axes는 각 plot이 그려지는 공간입니다.

<img src="https://www.dropbox.com/s/2n4hgu3db5t8twq/%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%83%B7%202018-08-24%2017.45.14.png?raw=1" width="400">


### Figure의 구성요소 (Image Source | [Blog 어쩐지 오늘은](https://zzsza.github.io/development/2018/08/24/data-visualization-in-python/) )

<img src="https://www.dropbox.com/s/oqc1qxb12m8e9hi/%EC%8A%A4%ED%81%AC%EB%A6%B0%EC%83%B7%202018-08-24%2017.03.16.png?raw=1" width="400">


### figure 생성하기

In [None]:
fig = plt.figure()

In [None]:
plt.title('Figure Title') # 현재 작성 중인 figure의 제목을 입력
plt.show() # 현재 작성 중인 figure를 출력

In [None]:
plt.figure(figsize=(14,7)) # figure의 크기를 지정합니다. 
plt.title("Figure Title") # figure의 제목을 입력합니다. 

plt.xlabel("X") # figure의 x축 label을 입력합니다. 
plt.ylabel("Y") # figure의 y축 label을 입력합니다. 
plt.show() # figure를 출력합니다. 

In [None]:
plt.title('한글 제목')
plt.show()

In [None]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf
# 설치 후 런타임 재시작

In [None]:
import matplotlib.pyplot as plt
plt.rc('font', family='NanumBarunGothic')

In [None]:
plt.title('한글 제목')
plt.show()

### **`matplotlib.pyplot.plot()`**

In [None]:
plt.plot([1, 2, 3, 4])

In [None]:
plt.plot([10,20,30,40], [1,2,3,4])

In [None]:
x = [1, 2, 3, 4]
y = [2, 4, 6, 8]

In [None]:
plt.plot(x, y, color='r')

In [None]:
plt.plot(x, y, 'r')

In [None]:
plt.plot(x, y, 'o')

In [None]:
plt.plot(x, y, 'o', color='r')

In [None]:
plt.plot(x, y, 'ro')

In [None]:
plt.plot(x, y, 'o-', color='r')

`matplotlib.pyplot.plot()`에 관한 보다 자세한 내용은 [링크](https://matplotlib.org/2.1.1/api/_as_gen/matplotlib.pyplot.plot.html)를 참고하세요.

### **`matplotlib.pyplot.subplots()`**

In [None]:
fig, ax = plt.subplots(2, 2, figsize=(8,5))
plt.suptitle('Figure')

ax[0][0].plot([1, 2, 3, 4], 'ro-')
ax[0][0].title.set_text('Figure 1')
ax[0][1].plot([1, 2, 3, 4], 'bo--')
ax[0][1].title.set_text('Figure 2')
ax[1][0].plot([1, 2, 3, 4], 'k*')
ax[1][0].title.set_text('Figure 3')
ax[1][1].plot([3, 5], [3, 5], 'bo:')
ax[1][1].plot([3, 7], [5, 4], 'kx')
ax[1][1].title.set_text('Figure 4')
plt.subplots_adjust(hspace=.5)
plt.show()

### `savefig()`

In [None]:
# matplotlib으로 작성된 그림을 로컬 파일로 저장할 수 있다. 
fig.savefig('subplots.png')

## __Seaborn__

In [None]:
import seaborn as sns
%matplotlib inline

### __데이터 불러오기__

### **타이타닉 데이터 소개: Data Dictionary**

| Variable | Definition	| Description |
| :-: | :-: | :-: |
| PassengerId | 승객 ID | |
| Survived |	생존 여부	| 0 = 사망, 1 = 생존 |
| Pclass	| 티켓 등급 |	1 = 1st, 2 = 2nd, 3 = 3rd |
| Name | 성명 | |
| Sex |	성별 | |
| Age |	나이 |  |
| SibSp |	승선한 형제자매(siblings) 및 배우자(spouses)의 수 |
| Parch | 승선한 부모(parents) 및 자식(children)의 수 |
| Ticket |	티켓 번호	|
| Fare | 티켓 가격	|
| Cabin	| 객실 번호	|
| Embarked	| 승선 항구 |	C = Cherbourg, Q = Queenstown, S = Southampton |

In [None]:
import pandas as pd
!gdown --id 1J9k6l2kzJ_VoWt9Epqy1qlKnMJ_mcTnR # 데이터 다운로드
titanic_data = pd.read_csv('train.csv')

In [None]:
titanic_data.head()

### __히스토그램__(Histogram)

`seaborn`의 `countplot`을 활용하여 카테고리별 빈도수를 나타내는 히스토그램을 작성합니다. 

In [None]:
f = sns.countplot(x='Survived', data=titanic_data)

#### ___Exercise #1___
타이타닉호에 탑승한 남자와 여자의 수를 나타내는 히스토그램을 그려보세요.


In [None]:
## 코드 작성


`hue` 옵션을 활용하면 여러 계열에 대한 히스토그램을 작성할 수 있습니다.

In [None]:
f = sns.countplot(x='Pclass', hue='Survived', data=titanic_data)

#### ___Exercise #2___
성별에 따른 생존자 수를 나타내는 히스토그램을 그려보세요.

In [None]:
## 코드 작성


### __Figure 편집하기__

`matplotlib.pyplot`의 다양한 옵션을 활용하여 figure를 원하는 대로 편집할 수 있습니다. 

In [None]:
f = plt.figure(figsize=(5,3))
plt.title('Pclass vs. Survived', fontsize=10)
sns.countplot(x='Pclass', hue='Survived', data=titanic_data)
plt.show()

In [None]:
f = sns.countplot(x='Embarked', hue='Pclass', data=titanic_data)

#### ___Exercise #3___
성별에 따른 생존자 수를 나타내는 히스토그램을 그려보세요.
- Figure 크기: (16, 8)
- 제목: "Sex vs. Survived" (폰트 사이즈: 15)

In [None]:
## 코드 작성


### __파이 차트(Pie Chart)__

`pandas` `DataFrame`의 `plot` 기능을 활용하여 범주별 빈도수의 비율을 나타내는 파이 차트를 작성합니다. 

In [None]:
titanic_data['Survived'].value_counts()

In [None]:
titanic_data['Sex'].value_counts()

In [None]:
f = titanic_data['Survived'].value_counts().plot.pie(autopct='%.1f%%')

#### ___Exercise #4___
타이타닉호 탑승객의 남녀 성비를 나타내는 파이 차트를 그려보세요. 

In [None]:
## 코드 작성


### __막대 그래프(Bar Chart)__

`seaborn`의 `barplot`을 활용하여 막대 그래프를 작성합니다. 

In [None]:
print(titanic_data.columns)

In [None]:
f = sns.barplot(x='PassengerId', y='Age', data=titanic_data.head())

#### ___Exercise #5___
`titanic_data`의 맨 위 8명의 승객의 `PassengerId`와 `Fare`를 순서대로 나타내는 막대 그래프를 그려보세요.

In [None]:
## 코드 작성


### __팩터 플랏(Factor Plot)__

`seaborn`의 `catplot`을 활용하여 변수 간 관계를 나타내는 팩터 플랏을 작성합니다. 

In [None]:
f = sns.catplot(x='Pclass', y='Survived', hue='Sex', kind='point', data=titanic_data)

#### ___Exercise #6___
탑승 항구(`Embarked`)와 생존여부(`Survived`) 간의 관계를 성별(`Sex`)로 나누어 나타내는 팩터 플랏을 그려보세요.


In [None]:
## 코드 작성


### __바이올린 도표(Violin Plot)__


`seaborn`의 `violinplot`을 활용하여 여러 분포의 밀도를 효과적으로 시각화할 수 있는 바이올린 도표를 작성합니다. 

In [None]:
f = sns.violinplot(x='Pclass', y='Age', hue='Survived', data=titanic_data, split=True)

#### ___Exercise #7___
성별(`Sex`)과 나이(`Age`)에 따른 생존자와 사망자의 분포를 나타내는 바이올린 도표를 그려보세요. 

In [None]:
## 코드 작성


### __히트맵(Heatmap)__

In [None]:
f = sns.heatmap(titanic_data.corr())