# 시각화 기본 패키지 - Matplotlib

In [None]:
'''
# 데이터를 차트(chart) 또는 플롯(plot)으로 시각화하는 기본 패키지
# 여러 다양한 시각화 기능을 제공
# line plot, scatter plot, bar chart, histogram ..

# Matplotlit를 통해서 그려내는 그래프는 Figure 객체, Axes 객체, Axis 객체로 구성
# Figure 객체 : 플롯이 그려지는 캔버스
# Figure 객체는 한 개 이상의 Axes 객체 (각각의 플롯)를 포함할 수 있다.
# 각 Axes 객체는 2개 이상의 Axis (x축, y축) 객체를 포함할 수 있다.

# 기본적으로 플롯을 생성하면 하나의 Figure 객체, 하나의 Axes 는 자동으로 생성
# 더 필요하면(여러 개의 플롯 객체를 더 배치하고 싶다면) 서브플롯(subplot) 함수를 사용
 - subplot(행, 열, 위치)
'''

In [None]:
import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np

### **[line plot]**

In [None]:
plt.plot([1, 5, 8, 15])
plt.grid()
plt.show()

In [None]:
# x축, y축 모두 데이터 지정하고 line plot 그리기
# 스타일 지정 : '색상(color), 마커(marker), 선종류(line style)'

x = [100, 200, 300, 400]
y = [1, 4, 10, 17]

#plt.plot(x, y, 'rs--')
plt.plot(x, y, 'm+--')
plt.grid()
plt.show()

In [None]:
'''
# np.linspace(start, stop, num, endpoint, retstep, dtype)
 - start : 시작값
 - stop : 끝 값 (endpoint가 True인 경우에 끝 값)
 - num : 생성할 샘플 수, 기본값 50, 음수는 지정할 수 없음
 - endpoint : 끝나는 지점 여부 (T/F) - default : True
 - retstep : 샘플간 간격을 설정할 수 있는 step을 반환
 - dtype : datatype
'''

In [None]:
np.linspace(2.0, 3.0, num=5)

In [None]:
np.linspace(2.0, 3.0, num=5, endpoint=False)

In [None]:
np.linspace(2.0, 3.0, num=5, endpoint=False, retstep=True)

In [None]:
# plot
N = 8
y = np.zeros(N)

y

In [None]:
x1 = np.linspace(0, 10, N, endpoint=True)
x2 = np.linspace(0, 10, N, endpoint=False)

In [None]:
plt.plot(x1, y, 'o')
plt.show()

In [None]:
plt.plot(x2, y, 'o')
plt.show()

In [None]:
# 위 두 그래프를 한 객체에 그리기
plt.plot(x1, y, 'ro')
plt.plot(x2, y, 'o')
plt.grid()
plt.show()

In [None]:
plt.plot(x1, y, 'ro')
plt.plot(x2, y+0.2, 'o')
plt.grid()
plt.show()

In [None]:
'''
# ylim() : y축 범위 지정
# xlim() : x축 범위 지정
'''

In [None]:
plt.plot(x1, y, 'ro')
plt.plot(x2, y+0.2, 'o')
plt.ylim([-0.3, 0.5])
plt.grid()
plt.show()

In [None]:
'''
# tick : 플롯이나 차트에서 각 축상의 위치 표시 지점
#      : tick에 쓰여진 숫자나 글자를 tick label(틱 라벨)이라고 하고
         일반적으로 matplotlib가 자동으로 정해줌

# 사용자 정의 tick
 : xticks(), yticks() 로 수동 지정 가능
# 수학기호를 표시하고 싶으면 LaTex 수학 문자식도 지원 ($기호 사이에 지정)

'''

In [None]:
X = np.linspace(-np.pi, np.pi, 256)
C = np.cos(X)

# tick 변경
plt.yticks([-1, 0, 1], ['min', '0', 'max'])
plt.xticks([-np.pi, -np.pi/2, 0, np.pi/2, np.pi], ['$-\pi$', '$-\pi/2$', '$0$', '$+\pi/2$', '$+\pi$'])
plt.grid()
plt.plot(X, C)
plt.show()

### **[bar chart]**

* 막대 높이의 상대적 길이 차이를 통해 값의 크고 작음을 설명

In [None]:
'''
# 막대 그래프 - bar(세로 방향), barh(가로방향)
# bar(x, y)
'''

In [None]:
x = np.arange(3)
y = [2, 3, 1]
xlabel = ['2020', '2021', '2022']

plt.bar(x, y)
plt.xticks(x, xlabel)
plt.grid()
plt.show()

In [None]:
# 막대 그래프 - 가로방향
np.random.seed(0)

yLabel = ['2020','2021','2022','2023']
yPos = np.arange(4)
yValue = 2+10*np.random.rand(4)

plt.barh(yPos, yValue, alpha=0.2)    # alpha : 불투명도 (0~1사이의 실수) - 1이 가장 불투명
plt.yticks(yPos, yLabel)
plt.grid()
plt.show()

### **[histogram]**

* 변수가 하나뿐인 단변수 데이터의 빈도수를 (막대)그래프로 표현

In [None]:
np.random.seed(0)

data = np.random.randn(1000)

plt.hist(data, bins=10)
plt.show()

### **[Pie]**

In [None]:
'''
# pie(ratio[비율], explode[간격], labels, colors, autopct[소수점자리수], shadow, startangle[시작각])
'''

In [None]:
labels = ['2020', '2021', '2022', '2023']

ratio = [10, 30, 40, 20]       # 비율 총합 : 100
color = ['red', 'skyblue', 'yellowgreen', 'pink']
explode = (0, 0.1, 0, 0)

plt.pie(ratio, explode=explode, labels=labels, colors=color, shadow=True,
        autopct='%1.1f%%', startangle=90)

plt.axis('equal')     # 원의 형태 유지
plt.show()

### **[Scatter plot]**

* 두 개의 실수 데이터 집합의 상관관계를 살펴볼 때 많이 사용하는 차트

In [None]:
np.random.seed(0)

# np.nandom.normal(평균, 표준편차, 샘플수) - 정규분포
x = np.random.normal(0, 0.1, 100)
y = np.random.normal(0, 0.1, 100)

plt.scatter(x, y)
plt.grid()
plt.show()

### **[Bubble Chart]**

* 데이터가 2차원이 아닌 3차원 이상인 경우에도 2차원의 공간에서 표현하고 싶을 때 사용하는 차트

* 점 하나의 크기 또는 컬러를 다르게 해서 표현

In [None]:
np.random.seed(0)

n = 30

x = np.random.randn(n)
y = np.random.randn(n)

z1 = np.random.randn(n)
z2 = np.pi * (15 * np.random.randn(n))**2

plt.scatter(x, y, c=z1, s=z2)    # c : color, s : size
plt.grid()
plt.show()

## **[2개의 y축을 갖는 그래프]**

* 북한의 전년대비 발전량 증감율과 수력, 화력 추이

In [None]:
import pandas as pd

In [None]:
# 데이터 로딩
df = pd.read_excel('./남북한발전전력량.xlsx')

df.head(10)

In [None]:
# 필요한 데이터만 추출
df_north = df.iloc[5:8]
df_north

In [None]:
df_north = df_north.drop('전력량 (억㎾h)', axis='columns')
df_north

In [None]:
# 발전전력별 컬럼을 행 인덱스로 선언
df_north = df_north.set_index('발전 전력별')
df_north

In [None]:
df_north.info()

In [None]:
df_north = df_north.astype('float')
df_north.info()

In [None]:
df_north

In [None]:
# 합계 -> 총발전량 수정
df_north = df_north.rename({'합계' : '총발전량'})
df_north

In [None]:
# 전치
df_north = df_north.T
df_north.head()

In [None]:
# 전년대비 증감율(변동율) 계산
df_north['전년도총발전량'] = df_north.총발전량.shift(1)

df_north['증감율'] = ((df_north['총발전량'] / df_north['전년도총발전량'])-1) * 100

df_north.head()

In [None]:
# [참고] 사용 가능한 스타일 서식
plt.style.available

In [None]:
!pip install koreanize-matplotlib

In [None]:
import koreanize_matplotlib

In [None]:
# 스타일 서식 지정
plt.style.use('ggplot')

# 2개의 y축을 갖는 그래프 그리기
ax1 = df_north[['수력', '화력']].plot(kind='bar', figsize=(18, 10), width=0.7, stacked=True)
ax2 = ax1.twinx()

ax2.plot(df_north.index, df_north.증감율, ls='--', marker='o', markersize='15', color='olive',
         label='전년대비 증감율(%)')

ax1.set_ylim(0, 500)
ax2.set_ylim(-70, 50)

ax1.set_xlabel('기간(연도)', size=15)
ax1.set_ylabel('발전량(억kWh)')
ax2.set_ylabel('전년 대비 증감율(%)')

plt.title('북한 전력 발전량(1990~2016)', size=18)

plt.show()