# 2. Matplotlib란?

![image.png](attachment:image.png)

matplotlib은 다양한 데이터를 많은 방법으로 도식화 할 수 있도록 하는 파이썬 라이브러리로써, 우리는 matplotlib의 pyplot을 이용하게 됩니다.
이는 mathworks에서 개발한 매트랩(MATLAB)과 비슷한 형태를 가지고 있습니다.<br>
matplotlib을 이용하면 우리가 이전에 알아본 numpy나 pandas에서 사용되는 자료구조를 쉽게 시각화 할 수 있습니다.<br>
matplotlib을 사용하기 위해서는 먼저 matplotlib을 설치하고 아래와 같이 import를 해주어야 합니다.<br>


import matplotlib
import matplotlib.pyplot as plt

또한 jupyter notebook에서 그래프를 제대로 확인하기 위해서는 아래와 같은 매직 커맨드를 작성해주셔야 합니다.<br>

%matplotlib inline

이러한 매직커맨드는 맨 뒤에 inline 이외에도 우리가 아래에서 사용하는 nbagg 등의 다양한 속성이 있습니다.

In [None]:
import matplotlib
import matplotlib.pyplot as plt
%matplotlib inline
#위와 같은 것이 %로 시작하는 것을 jupyter notebook의 magic command라고 한다.\

import numpy as np
import pandas as pd

# 2. Plot의 종류

## 2.1 Line plot 그리기

In [None]:
# Series를 통한 line plot 그리기
s = pd.Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10))
s

In [None]:
# 위에서 정의한 s라는 시리즈에 대해서 line plot을 그리고 싶다면?
s.plot()

s 라는 Series에서의 index와 value를 통해 그래프가 그려졌다.<br>
그래프 우측상단의 전원버튼을 누르기 전까지 우리는 해당 그래프를 interactive하게 조작할 수 있다.

In [None]:
# DataFrame을 통한 line plot 그리기
df = pd.DataFrame(np.random.randn(10, 4).cumsum(axis=0),
                  columns=["A", "B", "C", "D"],
                  index=np.arange(0, 100, 10))
df

In [None]:
df.plot()

In [None]:
# 하나의 열에 대해서만 보고 싶다면?
df['B'].plot()

## 2.2 Bar plot 그리기

In [None]:
s2 = pd.Series(np.random.rand(16), index=list("abcdefghijklmnop"))
s2

In [None]:
s2.plot(kind='bar')

In [None]:
# 가로방향의 bar plot그리기
s2.plot(kind='barh')

In [None]:
df2 = pd.DataFrame(np.random.rand(6, 4), 
                   index=["one", "two", "three", "four", "five", "six"],
                   columns=pd.Index(["A", "B", "C", "D"], name="Genus"))
df2

In [None]:
df2.plot(kind='bar')

In [None]:
# 아래와 같이 Stacked 속성을 True로 설정하면, 하나의 인덱스에 대한 각 열의 값을 한줄로 쌓아서 나타내준다.

df2.plot(kind='barh', stacked=True)

## 2.3 Histgram 그리기

In [None]:
# histogram은 index가 필요없다.
s3 = pd.Series(np.random.normal(0, 1, size=200))
s3

In [None]:
s3.hist()

x 축의 구간 개수를 bin이라고 한다.<br>
이를 직접 설정할 수도 있다

In [None]:
s3.hist(bins=50)

In [None]:
s3.hist(bins=100, density=True)
# density 속성을 True로 설정하면, 각 bin에 속하는 개수를 전체 개수로 나눈 비율, 즉 정규화 한 값을 bar의 높이로 사용하게 된다.

## 2.4 산점도(Scatter plot) 그리기
산점도의 경우에는 서로 다른 두 개의 독립변수에 대해 두 변수가 어떤 관계가 있는지 살펴보기 위해 사용된다.

In [None]:
x1 = np.random.normal(1, 1, size=(100, 1))
x2 = np.random.normal(-2, 4, size=(100, 1))
X = np.concatenate((x1, x2), axis=1)
X

In [None]:
df3 = pd.DataFrame(X, columns=["x1", "x2"])
df3

In [None]:
plt.scatter(df3['x1'], df3['x2']) # x1이 x축, x2가 y축

# 3. Plot 모양 변형하기

In [None]:
%matplotlib nbagg
fig = plt.figure()
# 비어있는 figure가 생성된다.

In [None]:
# subplot 추가하기, add_subplot 에는 총 3가지 인자가 들어간다.

In [None]:
ax1 = fig.add_subplot(2, 2, 1)

첫번째 숫자와 두번째 숫자 : 우리가 figure를 어떤 크기로 나눌지에 대한 값이다. <br>
즉 위의 같은 경우는 2,2 이므로 우리의 figure를 2x2로 나눈다는 뜻.<br>
세번째 숫자 : 첫번째, 두번째 숫자로 나눈 figure에서 좌측상단으로 우측방향으로 숫자가 붙는다. <br>
이때 우리가 add하고자 하는 subplot이 몇번째에 들어가는지를 나타낸다.<br>
즉, 위와 같은 경우 figure는 다음과 같이 나누어진다.<br>
1  2<br>
3  4<br>
이때 우리는 1위치에 subplot을 추가하고 해당 subplot을 ax1이라는 변수로 반환받는다.

In [None]:
ax2 = fig.add_subplot(2,2,2)

In [None]:
ax3 = fig.add_subplot(2,2,3)

In [None]:
plt.plot(np.random.randn(50).cumsum())
# 위치를 지정하지 않고 plot을 그리니 맨마지막에 그림이 그려진다.
# figure에 추가된 subplot상 맨 마지막에 위치한 곳에 그려지는 것이 아니라, 제일 마지막에 추가한 subplot에 그려진다.
# 2 -> 3 -> 1 순으로 subplot을 추가하여 테스트 해보면 1번 요소에 그려진다.

In [None]:
plt.plot(np.random.randn(200).cumsum())
# 한번더 위치 지정 없이 그리면 그 전의 요소에 그려진다고 했는데,
# 실제로 진행해보면 그냥 위의 것과 똑같이 제일 마지막에 추가한 subplot에 중복되서 그려진다.

In [None]:
# 그럼 우리가 원하는 위치에 그림을 그리기 위해서는?
# 위에서 add_subplot 을 할때 변수명을 지정하여 반환값을 받았다.
# 해당 변수를 통해 plot을 그리면 된다.
ax1.hist(np.random.randn(100), bins = 20) # bins는 x축 bar의 개수

In [None]:
ax2.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))

In [None]:
# 또 다른 방법
fig, axes = plt.subplots(2,3)
# 위와 같이 만들면 2x3 subplot들을 가지는 figure를 만드는 것
# 이때 반환되는 값은 2개로써, figrue 자체와, 축

In [None]:
# 반환받은 axes에는 우리가 위에서 설정한 크기와 같은 shape의 리스트로 각 요소에는 subplot 객체가 들어있다.
axes

# 3-1. Plot 꾸미기

In [None]:
plt.plot(np.random.randn(50), color = 'g', marker='o', linestyle='--')

### color
    값 색상
    "b" blue
    "g" green
    "r" red
    "c" cyan
    "m" magenta
    "y" yellow
    "k" black
    "w" white

### marker
    값 마킹
    "." point
    "," pixel
    "o" circle
    "v" triangle_down
    "^" triangle_up
    "<" triangle_left    
    ">" triangle_right
    "8" octagon
    "s" square    
    "p" pentagon
    "*" star
    "h" hexagon
    "+" plus
    "x" x
    "D" diamond

### line style
    값 라인 스타일
    "-" solid line
    "--" dashed line
    "-." dash-dotted line
    ":" dotted line
    "None" draw nothing

In [None]:
# 굳이 각각에 대해서 언급해주지 않고, 아래와 같이 연속적으로 나타내줘도 된다.
plt.plot(np.random.randn(30), 'k.-')

In [None]:
fig, axes = plt.subplots(2,1)

In [None]:
data = pd.Series(np.random.rand(16), index=list('abcdefghijklmnop'))

In [None]:
data.plot(kind='bar', ax=axes[0], color='k', alpha=0.7) #plot 함수를 그릴때, figure에서 원하는 위치를 지정하기 위해 ax 속성을 사용

In [None]:
data.plot(kind='barh', ax=axes[1], color='g', alpha=0.3)

우리가 만들 plot의 눈금, 레이블, 범위 등을 지정 및 수정할 수 있다.

In [None]:
fig = plt.figure()

In [None]:
ax = fig.add_subplot(1,1,1)

In [None]:
ax.plot(np.random.randn(1000).cumsum())

이때 그래프에서 나타내는 눈금을 tick이라고 한다.<br>
즉, 위의 그래프의 x tick은 200이고 y tick은 10이다.

In [None]:
ax.set_xticks([0, 250, 500, 750, 1000])

In [None]:
# 눈금을 문자로 하기 위해서는?
labels = ax.set_xticklabels(['one', 'two', 'three', 'four', 'five'], rotation = 30, fontsize='small')

In [None]:
# 제목 입력하기
ax.set_title('random walk plot')

In [None]:
# 라벨 입력하기
ax.set_xlabel('Stages')
ax.set_ylabel('Values')

In [None]:
fig = plt.figure()
ax = fig.add_subplot(1,1,1)

In [None]:
ax.plot(np.random.randn(1000).cumsum(), 'k', label='one')
ax.plot(np.random.randn(1000).cumsum(), 'b--', label='two')
ax.plot(np.random.randn(1000).cumsum(), 'r.', label='three')

In [None]:
# 범례 표시하기
ax.legend(loc='best')
# loc는 범례가 위치할 곳을 의미한다. best를 주게 되면 현재 그래프에서 최적의 위치를 자동으로 찾는다.

**x축 범위 및 y축 범위 수정하기**

In [None]:
ax.get_xlim()
# 현재 그래프의 x축 범위를 가져온다.

In [None]:
# 이를 변경하려면,
ax.set_xlim([100,900])

In [None]:
ax.set_ylim([-100,100])

# 3. Matplotlib을 이용한 데이터시각화 맛보기

In [None]:
battles = pd.read_csv('game-of-thrones/battles.csv', sep=',')
deaths = pd.read_csv('game-of-thrones/character-deaths.csv', sep=',')

In [None]:
battles.head()

In [None]:
battles.columns

In [None]:
battles.shape

In [None]:
deaths.shape

In [None]:
deaths.columns

In [None]:
deaths.head()

In [None]:
book_nums_to_death_count = deaths['Book of Death'].value_counts().sort_index()
book_nums_to_death_count

In [None]:
ax1 = book_nums_to_death_count.plot(color = 'k', marker='o', linestyle='--')

In [None]:
# 모양 가다듬기
ax1.set_xticks(np.arange(1,6))

In [None]:
ax1.set_xlim([0,6])
ax1.set_ylim([0,120])

In [None]:
battles = battles.set_index(['name'])

In [None]:
battles.head()

In [None]:
large_battle_mask = battles['attacker_size'] + battles['defender_size'] > 10000

In [None]:
large_battles = battles.loc[large_battle_mask, ['attacker_size', 'defender_size']]

In [None]:
large_battles.shape

In [None]:
large_battles

In [None]:
ax2 = large_battles.plot(kind='barh', stacked=True, fontsize=8)

In [None]:
large_battles['attacker_pcts'] = large_battles['attacker_size'] / (large_battles['attacker_size'] + large_battles['defender_size'])

In [None]:
large_battles['defender_pcts'] = large_battles['defender_size'] / (large_battles['attacker_size'] + large_battles['defender_size'])

In [None]:
large_battles

In [None]:
ax3 = large_battles[['attacker_pcts', 'defender_pcts']].plot(kind='barh', stacked=True, fontsize=8)

In [None]:
battles

In [None]:
col_names = battles.columns[4:12]
col_names

In [None]:
# 각 가문이 얼마나 전투에 참여했는지 보기위해 먼저 col_names를 가져왔다.
# 이에 대해서 unique 처리를 하려고하는데, 이때 NaN값이 있으면 오류가 발생하므로 이를 먼저 처리한다.
# NaN을 None이라는 문자열로 대체할 것
house_names = battles[col_names].fillna("None").values

In [None]:
house_names[:5]

In [None]:
house_names = np.unique(house_names)
house_names

In [None]:
house_names = np.unique(house_names)
house_names

In [None]:
house_names = house_names[house_names != 'None']
house_names

In [None]:
houses_to_battle_counts = pd.Series(0, index=house_names)
houses_to_battle_counts

In [None]:
for col in col_names:
    houses_to_battle_counts = houses_to_battle_counts.add(battles[col].value_counts(), fill_value = 0)

In [None]:
houses_to_battle_counts

In [None]:
ax4 = houses_to_battle_counts.hist(bins=10)

In [None]:
ax4