# Matplotlib

Matplotlib은 Python에서 사용할 수 있는 시각화 라이브러리로 주로 2D 그래프를 위한 패키지입니다.

파이썬에서 매트랩과 유사한 인터페이스를 지원하기 위해  시작되었고, IPython과 협력으로 대화형 시각화를 지원합니다.

### 라이브러리 import

In [None]:
import matplotlib.pyplot as plt
import numpy as np

### 간략하게 graph 그려보기

In [None]:
data = np.arange(10)
plt.plot(data)
plt.show()

### figure와 subplot

matplotlib에서 그래프는 figure라는 큰 틀에 ax라는 subplot을 추가해서 만듭니다.

In [None]:
# figure instance 생성
fig = plt.figure()
plt.show()

In [None]:
# 빈 subplot 생성
fig = plt.figure()
ax = fig.add_subplot()
plt.show()

In [None]:
# figure size 조정하기
fig = plt.figure(figsize=(10,5))
ax = fig.add_subplot()
plt.show()

In [None]:
# 여러개의 subplot 만들기
fig = plt.figure()
ax1 = fig.add_subplot(2,2,1)
ax2 = fig.add_subplot(2,2,2)
ax3 = fig.add_subplot(2,2,3)
plt.show()

In [None]:
fig = plt.figure()
ax1 = fig.add_subplot(221)
ax2 = fig.add_subplot(222)
ax3 = fig.add_subplot(223)
plt.show()

### plt로 graph 그리기

In [None]:
fig = plt.figure()
ax = fig.add_subplot()

data = np.array([1, 2, 3])

plt.plot(data)
plt.show()

In [None]:
# 2개의 graph를 순차적으로 그리기
fig = plt.figure()

x = [1, 2, 3]
y1 = [1, 2, 3]
y2 = [3, 2, 1]

ax1 = fig.add_subplot(211)
plt.plot(x, y1)

ax2 = fig.add_subplot(212)
plt.plot(x, y2)

plt.show()

In [None]:
# 같은 graph를 subplot 객체 ax에 그리기
fig = plt.figure()

x = [1, 2, 3]
y1 = [1, 2, 3]
y2 = [3, 2, 1]

ax1 = fig.add_subplot(211)
ax2 = fig.add_subplot(212)

ax1.plot(x, y1)
ax2.plot(x, y2)

plt.show()

### plot 종류별 사용법

#### bar plot
bar plot은 ax.bar와 같이 사용하며 다음과 같은 인자를 받습니다
- x: x축에 사용될 값
- height: y축에 사용될 값
- width: 각 bar의 width
- bottom: y축의 base 값
- align: 정렬(center or edge)

In [None]:
# bar plot
fig = plt.figure()
ax = fig.add_subplot()
ax.bar([0, 1, 2, 3, 4], [3, 2, 5, 4, 6])
plt.show()

In [None]:
# width 조정
fig = plt.figure()
ax = fig.add_subplot()
ax.bar([0, 1, 2, 3, 4], [3, 2, 5, 4, 6], width=0.5)
plt.show()

In [None]:
# bottom 조정
fig = plt.figure()
ax = fig.add_subplot()
ax.bar([0, 1, 2, 3, 4], [3, 2, 5, 4, 6], bottom=2)
plt.show()

In [None]:
# align 조정
fig = plt.figure()
ax = fig.add_subplot()
ax.bar([0, 1, 2, 3, 4], [3, 2, 5, 4, 6], align='edge')
plt.show()

#### histogram plot

histogram은 data의 분포를 나타낼 때 사용하며, 주로 다음과 같은 인자를 사용합니다.
- x: 입력 data
- bins: histogram을 나타낼 x축의 구간(정수 입력시 구간의 갯수, list와 같은 sequence 입력시는 sequence 값이 구간으로 설정됨)
- range: x축 범위 (x.min, x.max)로 표현
- density: 확률 분포로 나타낼 것인지 여부

In [None]:
# histogram
np.random.seed(1111)

fig = plt.figure()
ax = fig.add_subplot()
ax.hist(np.random.randn(500))
plt.show()

In [None]:
# bins 
np.random.seed(1111)

fig = plt.figure()
ax = fig.add_subplot()
ax.hist(np.random.randn(500), bins=50)
plt.show()

In [None]:
# bins 
np.random.seed(1111)

fig = plt.figure()
ax = fig.add_subplot()
ax.hist(np.random.randn(500), [-3,-2,-1,0,1,2,3])
# ax.hist(np.random.randn(500), np.linspace(-2, 2, num=40))
plt.show()

In [None]:
# range 
np.random.seed(1111)

fig = plt.figure()
ax = fig.add_subplot()
ax.hist(np.random.randn(500), bins=40, range=(-2,2))
plt.show()

In [None]:
# density
np.random.seed(1111)

fig = plt.figure()
ax = fig.add_subplot()
ax.hist(np.random.randn(500), bins=40, range=(-2,2), density=True)
plt.show()

#### line plot

line plot은 가장 기본적인 plot으로 x, y data의 관계를 선으로 표시해주는 graph입니다.
- x: x data
- y: y data
- fmt: 색상, 마커, 선 스타일 등 설정(자세한 내용은 아래 링크 참조)

https://matplotlib.org/stable/gallery/color/named_colors.html

https://matplotlib.org/stable/api/markers_api.html

https://matplotlib.org/stable/gallery/lines_bars_and_markers/linestyles.html


In [None]:
!pip install -U finance-datareader -q

In [None]:
import FinanceDataReader as fdr

In [None]:
df = fdr.DataReader('005930')
df.head()

In [None]:
fig = plt.figure(figsize=(20,5))
ax = fig.add_subplot()
ax.plot(df['Close'][-200:])
plt.show()

In [None]:
# format 변경
fig = plt.figure(figsize=(20,5))
ax = fig.add_subplot()
ax.plot(df['Close'][-200:], 'mo--')
plt.show()

#### scatter plot

scatter plot은 line plot과 유사하게 x, y data의 관계를 점으로 표시해줍니다.

scatter plot은 data 간의 유사도와 같은 상관관계를 파악할 때 많이 사용됩니다.

[붓꽃 데이터셋](https://www.kaggle.com/uciml/iris)을 이용하여 scatter plot을 그려봅시다.

링크에 접속하여 iris.csv 파일을 다운받고 현재 directory에 복사합니다. colab을 사용하는 경우에는 iris.csv 파일을 upload합니다.

In [None]:
import pandas as pd

In [None]:
iris_df = pd.read_csv('./Iris.csv')
iris_df.head()

In [None]:
fig = plt.figure(figsize=(7,7))

ax = fig.add_subplot()
ax.scatter(x=iris_df['PetalLengthCm'],
           y=iris_df['PetalWidthCm'])

plt.show()

### 한 subplot에 여러개 graph 그리기



In [None]:
# 3개의 graph 동시에 그리기
fig = plt.figure()

ax = fig.add_subplot()
ax.plot([1, 1.5, 2])
ax.plot([1, 2, 3])
ax.plot([1, 2.5, 4])

plt.show()

In [None]:
# line plot과 bar plot 동시에 그리기
fig = plt.figure()

ax = fig.add_subplot()
ax.plot([1, 2, 3], [1, 2, 3])
ax.bar([1, 2, 3], [1, 2, 3])

plt.show()

In [None]:
fig = plt.figure(figsize=(7,7))

ax = fig.add_subplot()

for species in iris_df['Species'].unique():
  iris_sub = iris_df[iris_df['Species']==species]
  ax.scatter(x=iris_sub['PetalLengthCm'],
             y=iris_sub['PetalWidthCm'])
  
plt.show()

### 여러개 subplot 한번에 만들기

In [None]:
# plt.subplots 활용
fig, axes = plt.subplots(2, 3, figsize=(10,5))
axes[0, 1].plot([1, 2, 3])
axes[1, 2].plot([3, 2, 1])
plt.show()

In [None]:
np.random.seed(1111)

fig, axes = plt.subplots(2, 2, figsize=(10,5))
axes[0,0].hist(np.random.randn(200), bins=20)
axes[0,1].bar(np.arange(10), np.random.randn(10)*10+10)
axes[1,0].scatter(np.arange(30), np.arange(30)+3 * np.random.randn(30))
axes[1,1].plot(np.random.randn(50).cumsum()*5+20)

plt.show()

In [None]:
# 축 눈금 공유
np.random.seed(1111)

fig, axes = plt.subplots(2, 2, figsize=(10,5), sharey=True)
axes[0,0].hist(np.random.randn(200), bins=20)
axes[0,1].bar(np.arange(10), np.random.randn(10)*10+10)
axes[1,0].scatter(np.arange(30), np.arange(30)+3 * np.random.randn(30))
axes[1,1].plot(np.random.randn(50).cumsum()*5+20)

plt.show()

In [None]:
# subplot 간격 조정
np.random.seed(1111)

fig, axes = plt.subplots(2, 2, figsize=(10,5), sharex=True, sharey=True)
for i in range(2):
  for j in range(2):
    axes[i,j].hist(np.random.randn(500), bins=50)    

plt.subplots_adjust(wspace=0, hspace=0)

plt.show()

### 색상 지정하기

In [None]:
np.random.seed(1111)

fig, axes = plt.subplots(2, 2, figsize=(10,5), sharey=True)
axes[0,0].hist(np.random.randn(200), bins=20, color='r')
axes[0,1].bar(np.arange(10), np.random.randn(10)*10+10, color='seagreen')
axes[1,0].scatter(np.arange(30), np.arange(30)+3 * np.random.randn(30), color='#0000ff')
axes[1,1].plot(np.random.randn(50).cumsum()*5+20, color='brown')

plt.show()

### label 지정하기

In [None]:
fig = plt.figure(figsize=(7,7))

ax = fig.add_subplot()

for species in iris_df['Species'].unique():
  iris_sub = iris_df[iris_df['Species']==species]
  ax.scatter(x=iris_sub['PetalLengthCm'],
             y=iris_sub['PetalWidthCm'],
             label=species)
  
plt.legend()  
plt.show()

### 제목, 축이름, 눈금 설정하기

In [None]:
fig = plt.figure(figsize=(7,7))

ax = fig.add_subplot()

for species in iris_df['Species'].unique():
  iris_sub = iris_df[iris_df['Species']==species]
  ax.scatter(x=iris_sub['PetalLengthCm'],
             y=iris_sub['PetalWidthCm'],
             label=species)
  
ax.set_title('Iris')
xticks = np.arange(1, 7.5, 0.5)
ax.set_xticks(xticks)
ax.set_xlabel('PetalLengthCm')
ax.set_ylabel('PetalWidthCm')
  
plt.legend()  
plt.show()

### Image data visualization

Image data는 plt.imshow()를 이용하여 화면에 출력 가능합니다.
- X: image data, gray scale의 경우는 2차원 RGB나 RGBA의 경우는 3차원의 data가 필요함 이 때 data의 shape은 (height, width, channel) 순서입니다.
- cmap: colormap (아래 링크 참조)

https://matplotlib.org/stable/tutorials/colors/colormaps.html

임의의 image를 가져와서 화면에 출력해봅시다. 

image 파일명이 image.jpg라고 가정하면,

In [None]:
from PIL import Image

In [None]:
image = Image.open('./image.jpg')

fig = plt.figure()

ax = fig.add_subplot()
ax.imshow(image)

plt.show()

Oxford IIIT Pet dataset을 다운받아서 화면에 출력해봅시다.

In [None]:
import os
import random
import xml.etree.ElementTree as et
from matplotlib.patches import Rectangle

In [None]:
## google drive에서 압축된 dataset download
import gdown
url = 'https://drive.google.com/uc?id=1dIR9ANjUsV9dWa0pS9J0c2KUGMfpIRG0'
fname = 'oxford_pet.zip'
gdown.download(url, fname, quiet=False)

In [None]:
## 압축풀기
!unzip -q oxford_pet.zip -d oxford_pet

In [None]:
cur_dir = os.getcwd()
data_dir = os.path.join(cur_dir, 'oxford_pet')
image_dir = os.path.join(data_dir, 'images')
bbox_dir = os.path.join(data_dir, 'annotations', 'xmls')
seg_dir = os.path.join(data_dir, 'annotations', 'trimaps')

In [None]:
image_files = [fname for fname in os.listdir(image_dir) if os.path.splitext(fname)[-1] == '.jpg']
bbox_files = [fname for fname in os.listdir(bbox_dir) if os.path.splitext(fname)[-1] == '.xml']
seg_files = [fname for fname in os.listdir(seg_dir) if os.path.splitext(fname)[-1] == '.png']

In [None]:
rnd_idx = random.randint(1, len(bbox_files))

bbox_name = bbox_files[rnd_idx]
bbox_path = os.path.join(bbox_dir, bbox_name)
tree = et.parse(bbox_path)

width = float(tree.find('./size/width').text)
height = float(tree.find('./size/height').text)
xmin = float(tree.find('./object/bndbox/xmin').text)
xmax = float(tree.find('./object/bndbox/xmax').text)
ymin = float(tree.find('./object/bndbox/ymin').text)
ymax = float(tree.find('./object/bndbox/ymax').text)

rect_x = xmin
rect_y = ymin
rect_w = xmax-xmin
rect_h = ymax-ymin

fname = os.path.splitext(bbox_name)[0]+'.jpg'
fpath = os.path.join(image_dir, fname)
image = Image.open(fpath)
# image = np.array(image)

bbox_name = os.path.splitext(fname)[0]+'.xml'

fig, ax = plt.subplots(1, 1)
rect = Rectangle((rect_x, rect_y), rect_w, rect_h, fill=False, color='red')
ax.add_patch(rect)
ax.imshow(image)
plt.show()

In [None]:
sname = os.path.splitext(bbox_name)[0]+'.png'
spath = os.path.join(seg_dir, sname)
seg = Image.open(spath)

fig, ax = plt.subplots(1, 2, figsize=(15,8))
ax[0].imshow(image)
ax[1].imshow(seg)
plt.show()

In [None]:
fig = plt.figure()
ax = fig.add_subplot()
ax.imshow(image)
ax.imshow(seg, alpha=0.5)
plt.show()