# Matplotlib

## Data 시각화

### matplotlib 로 그래프 그리기

- 파이썬에서 데이터를 효과적으로 시각화하는 라이브러리
- Matlab 의 시각화 기능을 모델링해서 만들어 짐
- 몇 줄의 코드로 간단하게 2차원 선그래프, 산점도, 막대그래프, 히스토그램, 파이그래프를 그릴 수 있음

```python
%matplotlib inline
%matplotlib qt
```

In [None]:
import matplotlib as mpl
import matplotlib.pylab as plt

In [None]:
%matplotlib inline

### 선그래프

- 선 그래프를 그리기 위해서는 x, y 시퀀스의 길이가 같아야 함
- x 는 주어지지 않아도 됨 (주어지지 않는다면 0, 1, 2, ...)
- fmt 는 다양한 형식으로 그래프를 그릴 수 있는 옵션

```python
plt.plot([x,] y [,fmt])
```

In [None]:
data1 = [10, 14, 19, 20, 25]

In [None]:
plt.plot(data1)

In [None]:
plt.plot(data1)
plt.show() # 객체 정보를 지우고 싶을 때

In [None]:
import numpy as np

In [None]:
x = np.arange(-4.5, 5, 0.5)

In [None]:
x

In [None]:
y = 2*x**2
y

In [None]:
[x, y]

In [None]:
plt.plot(x, y)
plt.show()

### 여러 그래프 그리기

#### 하나의 창에 여러 그래프를 표시하는 방법

- 방법1


```python
plt.plot([x1,]y1[,fmt1])
plt.plot([x2,]y2[,fmt2])
plt.plot([x3,]y3[,fmt3])
```

- 방법2
```python
plt.plot(x1, y1 [,fmt1], x2, y2 [,fmt2], ...)
```

#### 여러 창에 각각 그래프 표시하는 방법

```python
plt.plot(x, y1) # 첫 번째 그래프 그리기
plt.figure() # 새로운 창 생성
plt.plot(x, y2) # 두 번째 그래프 그리기
plt.show() # 그래프 창에 출력 --> 두 개의 창 각각 출력
```

#### 하나의 창에 여러 그래프 창으로 그리기

```python
plt.subplot(m, n, p)
```

In [None]:
x = np.arange(-4.5, 5, 0.5)

In [None]:
y1 = 2*x**2
y2 = 5*x + 30
y3 = 4*x**2 + 10

In [None]:
plt.plot(x, y1)

In [None]:
plt.plot(x, y2)

In [None]:
plt.plot(x, y3)

In [None]:
plt.plot(x, y1)
plt.plot(x, y2)
plt.plot(x, y3) # 하나의 그림 창 안에 세 개의 그래프 같이 그려진다. 

In [None]:
plt.plot(x, y1, x, y2, x, y3)
plt.show()

In [None]:
plt.plot(x, y1)
plt.figure() # 새로운 그래프 창을 생성한다
plt.plot(x, y2) # 새롭게 생성된 그래프 창에 그래프를 그린다

plt.show()

In [None]:
x = np.arange(-10, 10, 1)
y1 = x**2 - 2
y2 = 20*np.cos(x)**2

In [None]:
plt.figure(1) # 1번 그래프 창을 생성한다 
plt.plot(x, y1) # 지정된 그래프 창에 그래프를 그린다 

plt.figure(2) # 2번 그래프 창을 생성한다
plt.plot(x, y2) # 지정된 그래프 창에 그래프를 그린다

plt.figure(1) # 이미 생성된 1번 그래프 창을 지정한다 
plt.plot(x, y2) # 지정된 그래프 창에 그래프를 그린다

plt.figure(2) # 이미 생성된 2번 그래프 창을 지정한다
plt.clf() # 2번 그래프 창에 그려진 모든 그림을 지운다
plt.plot(x, y1) # 지정된 그래프 창에 그래프를 그린다

plt.show()

In [None]:
x = np.arange(0, 10, 0.2)
y1 = 0.4*(x-5)**2 + 2
y2 = -1.7*x + 4
y3 = np.sin(x)**2
y4 = 15*np.exp(-x) + 1

In [None]:
# 2 by 2 로 창을 쪼갠다

plt.subplot(2, 2, 1)
plt.plot(x, y1)

plt.subplot(2, 2, 2)
plt.plot(x, y2)

plt.subplot(2, 2, 3)
plt.plot(x, y3)

plt.subplot(2, 2, 4)
plt.plot(x, y4)

plt.show()

### 그래프의 출력 범위 지정하기

- 그래프의 x축과 y축 좌표 범위를 지정하여
- 전체 그래프 중 관심 영역만 그래프로 그릴 수 있음

```python
plt.xlim(xmin, xmax)
plt.ylim(ymin, ymax)
```

- x, y축 좌표 범위를 가져오는 방버

```python
[xmin, xmax] = plt.xlim()
[ymin, ymax] = plt.ylim()
```

In [None]:
x = np.linspace(-4, 4, 100) # [-4, 4] 범위에서 100개의 값 생성
y1 = x**3
y2 = 10*x**2 - 2

In [None]:
plt.plot(x, y1, x, y2)
plt.show()

In [None]:
plt.plot(x, y1, x, y2)
plt.xlim(-1, 1)
plt.ylim(-3, 3)
plt.show()

## 그래프 꾸미기

- 그래프의 축 라벨, 제목, 격자, 문자열을 추가하는 방법
- fmt 옵션을 이용하면 그래프의 컬러, 선의 스타일, 마커를 지정할 수 있음

```python
fmt = '[color][line_style][marker]'
```

|컬러 약어|컬러|
|--|--|
|b|파란색|
|g|녹색|
|r|빨간색|
|c|청녹색|
|m|자홍색|
|y|노란색|
|k|검은색|
|w|흰색|

|선 스타일 약어|선 스타일|
|--|--|
|-|실선(solide line)|
|--|파선(dashed line)|
|:|점선(dotted line)|
|-.|파선 점선 혼합선(dash-dot line)|

|마커 약어|컬러|
|--|--|
|o|원 모양|
|^, v, <, >|삼각형 위쪽, 아래쪽, 왼쪽, 오른쪽 방향|
|s|사각형|
|p|오각형|
|h, H|육각형1, 육각형2|
|* |별 모양|
|+ |더하기|
|x, X| x, 채워진 X|
|D, d|다이아몬드, 얇은 다이아몬드|

- plt.legend() 에서 사용되는 loc 옵션을 통해 범례의 위치 지정

|범례 위치|위치 문자열|위치 코드|
|--|--|--|
|최적 위치 자동 선정|Best|0|
|상단 우측|upper right|1|
|상단 좌측|upper left|2|
|하단 좌측|lower left|3|
|하단 우측|lower right|4|
|우측|right|5|
|중앙 좌측|center left|6|
|중앙 우측|center right|7|
|하단 중앙|lower center|8|
|상단 중앙|upper center|9|
|중앙|center|10|

- 그래프 한글 표시법
matplotlib 에서 사용하는 폰트를 한글 폰트로 지정해야 함

```python
import matplotlib
Matplotlib.rcParams['font.family']
```

- 폰트 변경법

```python
Matplotlib.rcParams['font.family'] = '폰트 이름'
```

- 한글 폰트 지정 후 그래프에서 마이너스 폰트가 깨지는 문제 해결

```python
Matploblib.rcParams['axes.Unicode_minus'] = False
```

In [None]:
import numpy as np
x = np.arange(0, 10, 1)
y1 = x
y2 = x + 2
y3 = x + 4
y4 = x + 6

In [None]:
# 선의 색깔 옵션 적용

plt.plot(x, y1, 'm', x, y2, 'y', x, y3, 'k', x, y4, 'c')
plt.show()

In [None]:
plt.plot(x, y1, '-', x, y2, '--', x, y3, ':', x, y4, '-.')
plt.show()

In [None]:
plt.plot(x, y1, 'o', x, y2, '^', x, y3, 's', x, y4, 'd')
plt.show()

In [None]:
plt.plot(x, y1, '>--r', x, y2, 's-g', x, y3, 'd:b', x, y4, '-.Xc')
plt.show()

In [None]:
x = np.arange(-4.5, 5, 0.5)
y = 2*x**3

In [None]:
plt.plot(x, y)
plt.xlabel('X-axios')
plt.ylabel('Y-axios')
plt.show()

In [None]:
plt.plot(x,y)
plt.xlabel('X-axis')
plt.ylabel('Y-axis')
plt.title('Graph Title')
plt.grid(True)
plt.show()

In [None]:
import numpy as np
x = np.arange(0, 5, 1)
y1 = x
y2 = x + 1
y3 = x + 2
y4 = x + 3

In [None]:
plt.plot(x, y1, '>--r', x, y2, 's-g', x, y3, 'd:b', x, y4, '-.Xc')
plt.legend(['data1', 'data2', 'data3', 'data4'], loc='lower right')
plt.show()

In [None]:
import matplotlib

matplotlib.rcParams['font.family'] = 'Malgun Gothic'
matplotlib.rcParams['axes.unicode_minus'] = False

In [None]:
plt.plot(x, y1, '>--r', x, y2, 's-g', x, y3, 'd:b', x, y4, '-.Xc')
plt.legend(['데이터1', '데이터2', '데이터3', '데이터4'], loc='best')
plt.xlabel('X 축')
plt.ylabel('Y 축')
plt.title('그래프 제목')
plt.grid(True)
plt.show()

In [None]:
plt.plot(x, y1, '>--r', x, y2, 's-g', x, y3, 'd:b', x, y4, '-.Xc')
plt.text(0, 6, '문자열 출력1')
plt.text(0, 4, '문자열 출력2')
plt.text(3, 1, '문자열 출력3')
plt.text(3, 0, '문자열 출력4')
plt.show()

## 산점도

- 산점도는 두 개의 요소로 이뤄진 데이터 집합의 관계를 그림으로 표현한 것

```python
plt.scatter(x, y)
```

In [None]:
import matplotlib.pyplot as plt

In [None]:
height = [178, 165, 188, 180, 187, 185, 165, 176]
weight = [72, 67, 65, 64, 90, 85, 53, 64]

In [None]:
plt.scatter(height, weight)
plt.xlabel('Height(cm)')
plt.ylabel('Weight(kg)')
plt.title('Height & Weight')
plt.grid(True)

In [None]:
plt.scatter(height, weight, s=500, c='r') # 마커 크기는 500, 컬러는 붉은색(red)
plt.grid(True)
plt.show()

In [None]:
size = 100 * np.arange(0, 8)
colors = ['r', 'g', 'b', 'c', 'm', 'k', 'y', 'k']
plt.scatter(height, weight, s=size, c=colors)
plt.show()

In [None]:
import numpy as np

city = ['서울', '인천', '대전', '대구', '울산', '부산', '광주']

In [None]:
# 위도(latitude)와 경도(longitude)

lat = [37.56, 37.45, 36.35, 35.87, 35.53, 35.18, 35.15]
lon = [126.97, 126.70, 127.38, 128.60, 129.31, 129.07, 126.85]

In [None]:
# 인구 밀도(명/km^2)

pop_den = [16154, 2751, 2839, 2790, 1099, 4454, 2995]

In [None]:
size = np.array(pop_den) * 0.2
colors = ['r', 'g', 'b', 'c', 'm', 'k', 'y']

In [None]:
plt.scatter(lon, lat, s=size, c=colors, alpha=0.5)
plt.xlabel('경도(longitude)')
plt.ylabel('위도(latitude)')
plt.title('지역별 인구 밀도(2017)')

for x, y, name in zip(lon, lat, city):
    plt.text(x, y, name)
    
plt.show()

## 막대 그래프

- 값을 막대의 높이로 나타내어 여러 항목의 수량 비교에 탁월함
- x의 값이 category인 경우

|옵션|내용|
|--|--|
|width|막대의 폭 조절, 입력하지 않으면 기본값인 0.8 입력|
|color|fmt 옵션의 컬러 지정 약어를 이용해 막대 그래프의 색 지정|
|tick_label|문자열 혹은 문자열 리스트를 입력해 막대 그래프 각각의 이름 지정, 지정하지 않으면 기본적으로 숫자로 라벨 지정|
|align|막대 그래프 위치를 가운데(center) 로 할지 한쪽으로(edge) 치우치게 할지 설정, 기본은 center|
|label|범례에 사용될 문자열 지정|
|barh|가로 막대 그래프를 그리는 방법(bar horizontal), width 옵션 이용 불가|

In [None]:
member_IDs = ['m1', 'm2', 'm3', 'm4'] # 회원 ID
before_ex = [45, 35, 42, 38] # 운동 시작 전 팔굽혀펴기 횟수
after_ex = [49, 42, 49, 37] # 운동 한 달 후 팔굽혀펴기 횟수

In [None]:
import matplotlib.pyplot as plt
import numpy as np

n_data = len(member_IDs)
index = np.arange(n_data)
plt.bar(index, before_ex)
plt.show()

In [None]:
# tick_label : 막대 그래프 각각의 이름을 지정

plt.bar(index, before_ex, tick_label=member_IDs)
plt.show()

In [None]:
colors = ['r', 'g', 'b', 'm']
plt.bar(index, before_ex, color=colors, tick_label=member_IDs)
plt.show()

In [None]:
plt.bar(index, before_ex, tick_label=member_IDs, width=0.3)

In [None]:
# 가로 막대 - barh() 모듈 사용

colors = ['r', 'g', 'b', 'm']
plt.barh(index, before_ex, color=colors, tick_label=member_IDs)
plt.show()

In [None]:
barWidth = 0.4
plt.bar(index, before_ex, color='c', align='edge', width = barWidth, label = 'before')
plt.bar(index + barWidth, after_ex, color='m', align='edge', width = barWidth, label = 'after')

plt.xticks(index + barWidth, member_IDs)
plt.legend()
plt.xlabel('회원 ID')
plt.ylabel('팔굽혀펴기 횟수')
plt.title('운동 시작 전과 후의 근지구력 변화 비교')
plt.show()

## 히스토그램

-  데이터의 분포를 파악할 때 주로 사용
- x는 연속형 데이터 (벡터를 사용)

```python
plt.hist(x, [,bins = bins_n 혹은 'auto'])
# x: 변량 데이터
# bin: 계급의 개수로 기본 10 / auto 의 경우 x 에 맞게 자동 입력
```

In [None]:
import matplotlib.pyplot as plt

stat = [76, 82, 84, 83, 90, 86, 85, 92, 72, 71, 100, 87, 81, 76, 94, 78, 81, 60, 79, 69, 74, 87, 82, 68, 79]
plt.hist(stat)

In [None]:
# bins 지정

plt.hist(stat, bins=8)
plt.show()

In [None]:
plt.hist(stat, bins=8)
plt.xlabel('시험 점수')
plt.ylabel('도수(frequency)')
plt.title('수학 시험의 히스토그램')
plt.grid()
plt.show()

## 파이그래프

- 전체 데이터에서 각 항목의 비율을 비교할 때 활용

```python
plt.pie(x, [labels=label_seq, autopct='비율 표시 형식', shadow=False(기본), explode=explode_seq, counterclokc=True(기본), startangle=각도(기본0)])
```

|옵션|내용|
|--|--|
|labels|x데이터 항목 수와 같은 문자열 시퀀스(리스트, 튜플)를 지정 파이 그래프의 각 부채꼴마다 문자열을 표시|
|autopct|각 부채꼴 부분에 표시되는 숫자의 형식 지정|
|shadow|그림자 효과 지정. 기본값은 효과를 지정하지 않는 것|
|explode|부채꼴 부분이 원에서 돌출되는 효과 → 특정 부채꼴 부분을 강조|
|counterclock|x데이터에서 부채꼴 부분이 그려지는 순서가 반시계방향(True)인지 시계방향(False)인지 지정. 기본값은 True|
|startangle|제일 처음 부채꼴 부분이 그려지는 각도. x축을 중심으로 반시계방향으로 증가. 기본값은 0|

In [None]:
fruit = ['사과', '바나나', '딸기', '오렌지', '포도']
result = [6, 7, 4, 2, 1]

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(5, 5)) # 차트 사이즈 조절
plt.pie(result)
plt.show()

In [None]:
plt.figure(figsize=(5, 5))
plt.pie(result, labels=fruit, autopct='%.1f%%')
plt.show()

In [None]:
# startangle, counterclock=False

plt.figure(figsize=(5, 5))
plt.pie(result, labels=fruit, autopct='%.1f%%', startangle=90, counterclock=False)
plt.show()

In [None]:
# 특정 부채꼴 강조
explode_value = (0.1, 0, 0, 0, 0) # 첫 번째 0.1 씩 떨어짐

plt.figure(figsize=(5, 5))
plt.pie(result, labels=fruit, autopct='%.1f%%', startangle=90, counterclock=False, explode=explode_value, shadow=True)
plt.show()

## 그래프 저장

- 그래프를 이미지 파일로 저장하여 다른 자료에서 활용 가능

```python
plt.savefig(file_name, [dpi=dpi_n(기본은 72)])
```

In [None]:
import matplotlib as mpl
mpl.rcParams['figure.figsize']

In [None]:
mpl.rcParams['figure.dpi']

In [None]:
import numpy as np
import matplotlib.pyplot as plt

x = np.arange(0, 10, 1)
y1 = x
y2 = x + 1
y3 = x + 2
y4 = x + 3

In [None]:
plt.plot(x, y1, x, y2, x, y3, x, y4)
plt.grid(True)
plt.xlabel('x')
plt.ylabel('y')
plt.title('Saving a figure')
# 그래프를 이미지 파일로 저장. dpi 는 100으로 설정
plt.savefig('C:/Users/kkobu/Desktop/saveFigTest1.png', dpi=100)
plt.show()

In [None]:
import matplotlib.pyplot as plt
fruit = ['사과', '바나나', '딸기', '오렌지', '포도']
result = [7, 6, 3, 2, 2]

In [None]:
explode_value = (0.1, 0, 0, 0, 0)
plt.figure(figsize=(5, 5)) # 그래프 크기 지정
plt.pie(result, labels=fruit, autopct='%.1f%%', startangle=90, counterclock=False, explode=explode_value, shadow=True)
plt.savefig('C:/Users/kkobu/Desktop/saveFigTest2.png', dpi=200)

## Pandas 에서 그래프 그리기

|Kind 옵션|의미|
|--|--|
|line|선 그래프(기본)|
|scatter|산점도(DataFrame 데이터만 가능)|
|bar|수직 바 그래프|
|barh|수평 바 그래프|
|hist|히스토그램|
|pie|파이 그래프|

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

s1 = pd.Series([1,2,3,4,5,6,7,8,9,10])
s1

In [None]:
s1.plot()

In [None]:
s2 = pd.Series([1,2,3,4,5,6,7,8,9,10], index=pd.date_range('2020-01-01', periods=10))
s2

In [None]:
s2.plot(grid=True)
plt.show()

In [None]:
df_kbo = pd.read_csv("C:/Users/kkobu/Desktop/200224_특화/이러닝/kbo.csv", index_col="연도")

In [None]:
df_kbo

In [None]:
import matplotlib
matplotlib.rcParams['font.family'] = 'Malgun Gothic'
matplotlib.rcParams['axes.unicode_minus'] = False

df_kbo.plot()
plt.show()

In [None]:
kbo_plot = df_kbo.plot(grid=True, style=['r--*', 'g-o', 'b:*', 'm-.p'])
kbo_plot.set_xlabel('연도')
kbo_plot.set_ylabel('승률')
kbo_plot.set_title('KBO 프로야구 구단 승률')
plt.show()

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

temperature = [25.2, 27.4, 22.9, 26.2, 29.5, 33.1, 30.4, 36.1, 34.4, 29.1]
ice_cream_sales = [236500, 357500, 203500, 365200, 446600, 574200, 453200, 675400, 598400, 463100]

In [None]:
dict_data = {'기온':temperature, '아이스크림 판매량':ice_cream_sales}
df_ice_cream = pd.DataFrame(dict_data, columns=['기온', '아이스크림 판매량'])
df_ice_cream

In [None]:
df_ice_cream.plot.scatter(x='기온', y='아이스크림 판매량', grid=True, title='최고 기온과 아이스크림 판매량')
plt.show()

In [None]:
grade_num = [5, 14, 12, 3]
students = ['A', 'B', 'C', 'D']

df_grade = pd.DataFrame(grade_num, index=students, columns=['Students'])
df_grade

In [None]:
grade_bar = df_grade.plot.bar(grid=True)
grade_bar.set_xlabel("학점")
grade_bar.set_ylabel("학생수")
grade_bar.set_title("학점별 학생 수 막대 그래프")
plt.show()

In [None]:
fruit = ['사과', '바나나', '딸기', '오렌지', '포도']
result = [7, 6, 3, 2, 2]

df_fruit = pd.Series(result, index=fruit, name='선택한 학생 수')
df_fruit

In [None]:
df_fruit.plot.pie()
plt.show()

## 실습

### 1번 문제

실선스타일의 sin 그래프와 파선스타일의 cos 그래프를 생성하라

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
x = np.linspace(0, 10, 100)

In [None]:
x

In [None]:
y1 = np.sin(x)
y2 = np.cos(x)

In [None]:
y1

In [None]:
y2

In [None]:
plt.figure()# 새로운 그래프 창 생성
plt.plot(x, y1, '-', x, y2, '--')
plt.show()

### 2번 문제

`subplot()` 을 활용하여 sin 그래프와 cos 그래프 그려보시오

In [None]:
plt.figure()
plt.subplot(2, 1, 1)
plt.plot(x, y1)

plt.subplot(2, 1, 2)
plt.plot(x, y2)
plt.show()

### 3번 문제

한 학급에서 30명 학생들이 5개의 영화 장르(로맨스, 코미디, 액션, 판타지, 스릴러) 중 좋아하는 장르를 선택하라고 했을 때 장르 별로 선택한 학생 수(10, 6, 4, 12, 8)를 파이그래프로 표현하시오.

In [None]:
genre=['로맨스', '코미디', '액션', '판타지', '스릴러']
student=[10, 6, 4, 12, 8]
plt.pie(student, labels=genre)
plt.show()

In [None]:
df_genre=pd.Series(result, index=genre, name='favorites')
df_genre.plot.pie()
plt.show()