# 3. 다양한 그래프 그리기 & 그래프 저장하기

## (1) 산점도

- 산점도(scatter 그래프)는 두 개의 요소로 이뤄진 데이터 집합의 관계를 그림으로 표현하는 것
- 산점도는 x와 y 사이의 관계를 나타내는 것이기 때문에 x, y는 필수적으로 있어야 함

```python
plt.scatter(x, y [,s=size_n, c=colors, marker='marker_string', alpha=alpha_f])
```

In [None]:
import matplotlib.pyplot as plt

In [None]:
height = [178, 165, 188, 160, 187, 186, 165]
weight = [72, 67, 65, 64, 90, 85, 53]

In [None]:
plt.scatter(height, weight)
plt.xlabel('Height[m]')
plt.ylabel('Weight[kg]')
plt.title('Height & Weight')
plt.grid(True)

In [None]:
plt.scatter(height, weight, s=100, c='r')
plt.show()

In [None]:
plt.scatter(height, weight, s=30, c='g', marker='x')
plt.show()

In [None]:
import numpy as np

In [None]:
size = 100 * np.arange(1, 8)  # 데이터별로 마커의 크기 지정
colors = ['r', 'g', 'b', 'c', 'm', 'k', 'y']  # 데이터별로 마커의 컬러 지정

plt.scatter(height, weight, s=size, c=colors)
plt.show()

In [None]:
# 도시(city)
city = ['서울', '인천', '대전', '대구', '울산', '부산']

# 위도(latitude)와 경도(longitude)
lat = [37.56, 37.45, 36.35, 35.87, 35.53, 35.18]
lon = [126.97, 126.70, 127.38, 128.60, 129.31, 129.07]

In [None]:
# 인구 밀도(명/km^2) : 2017년 통계청 자료
pop_den = [16154, 2751, 2837, 2790, 1099, 4454]

In [None]:
size = np.array(pop_den) * 0.2  # 마커의 크기 지정
colors = ['r', 'g', 'b', 'c', 'm', 'k']  # 마커의 컬러 지정

In [None]:
import matplotlib
matplotlib.rcParams['font.family'] = 'Malgun Gothic'  # 한글 폰트 사용

In [None]:
plt.scatter(lon, lat, s=size, c=colors, alpha=0.5)
plt.xlabel('경도(longitude)')
plt.ylabel('위도(latitude)')
plt.title('지역별 인구 밀도(2017)')

for x, y, name in zip(lon, lat, city):
    plt.text(x, y, name)  # 위도 경도에 맞게 도시 이름 출력

plt.show()

## (2) 막대그래프

- 막대 그래프 사용 : 하나의 변수의 속성값들 혹은 여러 변수들의 값을 비교하기 위해 막대그래프를 사용
- 값을 막대의 높이로 나타내어 여러 항목의 수량 비교에 탁월함

```python
plt.bar(x, height [,width=width_f, color=colors, tick_label=tick_labels, align='center'(기본) 혹은 'edge', label=labels]) # 여기서 height는 막대 그래프 이름
```

- 막대그래프의 옵션
<table>
    <thead>
        <tr>
            <td><center><b>옵션</b></center></td>
            <td><center><b>내용</b></center></td>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td><center>width</center></td>
            <td><center>막대의 폭 조절, 입력하지 않으면 기본값인 0.8 입력</center></td>
        </tr>
        <tr>
            <td><center>color</center></td>
            <td><center>fmt 옵션의 컬러 지정 약어를 이용해 막대 그래프의 색 지정</center></td>
        </tr>
        <tr>
            <td><center>tick_label</center></td>
            <td><center>문자열 혹은 문자열 리스트를 입력해 막대 그래프 각각의 이름 지정, 지정하지 않으면 기본적으로 숫자로 라벨 지정</center></td>
        </tr>
        <tr>
            <td><center>align</center></td>
            <td><center>막대 그래프 위치를 가운데(center)로 할지 한쪽으로(edge) 치우치게 할지 설정, 기본은 center</center></td>
        </tr>
        <tr>
            <td><center>label</center></td>
            <td><center>범례에 사용될 문자열 지정</center></td>
        </tr>
        <tr>
            <td><center>barh</center></td>
            <td><center>가로 막대 그래프를 그리는 방법, width 옵션 이용 불가</center></td>
        </tr>
    </tbody>
</table>

In [None]:
member_IDs = ['m1', 'm2', 'm3', 'm4']  # 회원 ID
before_ex = [45, 35, 42, 38]  # 운동 시작 전 팔굽혀펴기 횟수
after_ex = [49, 42, 49, 37]  # 운동 한 달 후 팔굽혀펴기 횟수

In [None]:
n_data = len(member_IDs)  # 회원이 네 명이므로 전체 데이터 수는 4
index = np.arange(n_data)  # Numpy를 이용해 배열 생성 [0, 1, 2, 3]
plt.bar(index, before_ex)  # bar(x, height)에서 x=index, height = before_ex 로 지정
plt.show()

In [None]:
plt.bar(index, before_ex, tick_label = member_IDs)
plt.show()

In [None]:
colors = ['r', 'g', 'b', 'm']
plt.bar(index, before_ex, color=colors, tick_label=member_IDs)
plt.show()

In [None]:
plt.bar(index, before_ex, color=colors, tick_label=member_IDs, width=0.5)
plt.show()

In [None]:
plt.barh(index, before_ex, color=colors, tick_label=member_IDs)
plt.show()

In [None]:
bar_width = 0.4
plt.bar(index, before_ex, color='c', align='edge', width=bar_width, label='before')
plt.bar(index + bar_width, after_ex, color='m', align='edge', width=bar_width, label='after')
plt.show()

In [None]:
bar_width = 0.4
plt.bar(index, before_ex, color='c', align='edge', width=bar_width, label='before')
plt.bar(index + bar_width, after_ex, color='m', align='edge', width=bar_width, label='after')

plt.xticks(index + bar_width, member_IDs)
plt.legend()
plt.xlabel('회원 ID')
plt.ylabel('윗몸일으키기 횟수')
plt.title('운동 시작 전과 후의 근지구력(복근) 변화 비교')
plt.show()

## (3) 히스토그램

- 막대그래프는 범주형 데이터의 분포 파악하는데 용이하고, 히스토그램은 연속형 데이터의 분포를 파악하는데 용이하다.
- 데이터의 분포를 파악할 때 주로 사용

```python
plt.hist(x, [,bins = bins_n 혹은 'auto'])  # x = 변량 데이터, bin = 계급의 개수로 기본 10, auto의 경우 x에 맞게 자동으로 입력
```

In [None]:
score = [76, 80, 90, 91, 86, 81, 82, 83, 77, 100, 86, 79, 67, 99, 94, 92, 86, 88, 82, 78, 79, 95, 73, 74]
plt.hist(score)

In [None]:
plt.hist(score, bins=8)
plt.show()

In [None]:
plt.hist(score, bins=8)
plt.grid()
plt.show()

## (4) 파이그래프

- 전체 데이터에서 각 항목이 차지하는 비율을 비교할 때 활용

```python
plt.pie(x [,label=label_seq, autopct='비율 표시 형식(ex:%.1f%)', shadow=False(기본) 혹은 True, explode=explode_seq, counterclock=True(기본) 혹은 False, startangle=각도(기본은 0)])
```

- 파이그래프의 옵션
<table>
    <thead>
        <tr>
            <td><center><b>옵션</b></center></td>
            <td><center><b>내용</b></center></td>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td><center>labels</center></td>
            <td><center>x 데이터 항목의 수와 같은 문자열 시퀀스(리스트, 튜플)를 지정해 파이그래프의 각 부채꼴 부분에 문자열을 표시</center></td>
        </tr>
        <tr>
            <td><center>autopct</center></td>
            <td><center>각 부채꼴 부분에 항목의 비율이 표시되는 수자의 형식 지정</center></td>
        </tr>
        <tr>
            <td><center>shadow</center></td>
            <td><center>그림자 효과 지정, 기본값은 효과를 지정하지 않는 것</center></td>
        </tr>
        <tr>
            <td><center>explode</center></td>
            <td><center>부채꼴 부분이 원에서 돌출되는 효과를 주어 특정 부채꼴 부분을 강조</center></td>
        </tr>
        <tr>
            <td><center>counterclock</center></td>
            <td><center>x 데이터에서 부채꼴 부분이 그려지는 순서가 반시계방향(True)인지 시계방향(False)인지를 지정, 기본값은 True</center></td>
        </tr>
        <tr>
            <td><center>startangle</center></td>
            <td><center>제일 처음 부채꼴 부분이 그려지는 각도로 x축을 중심으로 반시계방향으로 증가, 기본값은 0</center></td>
        </tr>
    </tbody>
</table>

In [None]:
fruit = ['사과', '바나나', '딸기', '오렌지', '포도']
result = [6, 7, 4, 2, 1]

In [None]:
plt.pie(result)
plt.show()

In [None]:
plt.figure(figsize=(5, 5))
plt.pie(result)
plt.show()

In [None]:
plt.figure(figsize=(5, 5))
plt.pie(result, labels=fruit, autopct='%.1f%%')
plt.show()

In [None]:
plt.figure(figsize=(5, 5))
plt.pie(result, labels=fruit, autopct='%.1f%%', startangle=90, counterclock=False)
plt.show()

In [None]:
explode_value = (0.2, 0, 0, 0, 0)

plt.figure(figsize=(5, 5))
plt.pie(result, labels=fruit, autopct='%.1f%%', startangle=90, counterclock=False, explode=explode_value, shadow=True)
plt.show()

## (5) 그래프 저장하기

- 그래프를 이미지 파일로 저장하여 다른 자료에서 활용 가능

```python
plt.savefig(file_name [,dpi=dpi_n(기본은 72)])
```

In [None]:
import matplotlib as mpl
print(mpl.rcParams['figure.figsize'])  # 기본 그래프 사이즈
print(mpl.rcParams['figure.dpi'])  # 기본 그래프 dpi

In [None]:
x = np.arange(0, 10, 1)
y1 = x
y2 = x + 1
y3 = x + 2
y4 = x + 3

In [None]:
plt.plot(x, y1, x, y2, x, y3, x, y4)
plt.grid(True)
plt.xlabel('x')
plt.ylabel('y')
plt.title('Savefig graph')
plt.savefig('./saveFigure1.png', dpi=100)
plt.show()

In [None]:
plt.figure(figsize=(5, 5))
plt.title('과일 판매 비율')
plt.pie(result, labels=fruit, autopct='%.1f%%', startangle=90, counterclock=False, explode=explode_value, shadow=True)
plt.savefig('./saveFigure2.png', dpi=200)
plt.show()