# Chapter 13. Visualization


:::{admonition} 학습목표와 기대효과
:class: info  
- 학습목표
  - 배열, 데이타프레임 데이터를 활용하여 다양한 그래프를 그려보자.


- 기대효과
  - 그래프를 통해 데이터를 시각적으로 나타내어 분석, 처리하거나 효과적으로 설명하는데 사용할 수 있다.

:::

데이터 분석 또는 분석 결과를 설명하기 위한 방법중 하나가 데이터 시각화이다. 파이썬 언어를 이용한 데이터 시각화는 matplotlib과 seaborn 라이브러리를 활용하여 가능하다. matplotlib과 seaborn은 다양한 그래프 함수를 제공한다. 이러한 함수를 이용하여 데이터를 시각화하는 것은 어렵지 않지만, 데이터에 적합한 시각화를 이끌어 내는 것이 매우 중요하고 어렵다.  


**Matplotlib**는 데이터를 시각화하는데 사용되는 라이브러리이다.
선, 산포도, 막대 그래프, 면적그래프, 히스토그램, 파이차트, 박스플롯 등 다양한 그래프를 그릴 수 있도록 한다.
- 이번 장에서는 numpy데이터인 array(배열)과 pandas 데이터인 DataFrame을 활용하여 그래프를 그리는 방법을 익힌다.
- 아래의 링크를 통해 다양한 그래프를 그리는 방법과 옵션을 학습할 수 있다.
  - matplotlib 공식 사이트 : https://matplotlib.org/stable/index.html
  - seaborn 공식 사이트 : https://seaborn.pydata.org/
  - 문제해결 방법 : https://stackoverflow.com/
  

## Matplotlib: numpy 데이터 활용
- numpy 데이터를 활용하여 그래프를 그려보자. 필요한 모듈을 먼저 불러온다.
- matplotlib.pyplot 모듈은 보통 plt라는 별칭을 사용한다.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

### 선그래프: .plot()
- **선 그래프**는 수량을 점으로 표시하고 점과 점 사이의 거리를 직선으로 연결한 그래프이다.
- 시간에 따른 데이터의 변화 추세를 파악하는데 유용하다.
```
plt.plot(x, y, ...)
```
- 선그래프에 사용될 수 있는 다양한 옵션이 있다.

|글자|색  |    |    글자| 선/마커 모양  |      |  옵션명| 옵션값  |
|:-:|:----:|:----:|:--:|:-----:|:-----:|:-----:|:-----:|
|'b'|Blue|    |'-'| Solid line|   |label| '라벨명'|
|'g'|Green|   |'--'| Dashed line |   |color/c| '선색'|
|'r'|Red|   |'-.'| Dash-dot line |   |linewidth/lw| 선굵기|
|'c'|Cyan| |':'|Dotted lin|   |linestyle/ls| '선모양'|
|'m'|Magenta| |'.'|Point marker|   |marker| '마커모양'|
|'y'|Yellow||','|Pixel marker|   |markerfacecolor/mfc| '마커색'|
|'k'|Black||'o'|Circle marker|   |markersize/ms| 마커크기|
|'w'|White|| | |   || |

😄 배열 x, y에 대한 선그래프를 그려보자.

In [None]:
x = np.arange(0, 10)
y = 2 * x**2 - 3 * x + 1
plt.plot(x, y, 'r-.') # 'ob', 'r-.', 'g+'
#plt.plot(x, y, color = 'green', linestyle = 'dashed', marker = 'o', mfc = 'blue', ms = 12)
plt.show()
#plt.savefig('line.png') #.show()를 주석처리하고 파일로 저장해야 한다.

### 다중 선그래프
- 여러 개의 그래프를 하나의 도화지에 그리고 싶을 때에는 그래프를 먼저 그리고 가장 마지막에 plt.show()하면 된다.

In [None]:
x = np.arange(0, 10, 0.1)
y1 = np.sin(x)
y2 = np.cos(x)
plt.plot(x,y1, label = 'sin')
plt.plot(x,y2, label = 'cos')
plt.title('Example of sinewave') # 제목
plt.legend() # 범례
plt.xlabel('Time')        # x축 라벨
plt.ylabel('Amplitude')   # y축 라벨
plt.show()

### 산포도(산점도) 그래프: .scatter()
- **산포도그래프**는도표 위에 두 변수 x와 y 값이 만나는 지점을 표시한다.
- 이 그래프를 통해 두 변수 사이의 관계를 알 수 있다.

```
plt.scatter(x, y, ...)
```

- 산포도 그래프에 사용되는 옵션은 다음과 같다.

|옵션명|옵션값|
|:-----:|:-----:|
|color/c/facecolor/facecolors|'마커색'(하나의 색 대신 데이터 지정 가능)|
|cmap|colormap|
|marker| 'o', '+', '*', '.', '>'|
|alpha|투명도|
|s|마커크기|

https://matplotlib.org/tutorials/colors/colormaps.html

😄 배열 x,y에 대해 산포도 그래프를 그려보자.

In [None]:
x = np.random.randint(0, 100, 200)
y = np.random.randint(0, 100, 200)
            #TODO

plt.show()

### 칼라바가 있는 산포도 그래프: .colorbar()
- color를 데이터와 연동시킬 수 있다.
- 연동시킨 데이타가 colorbar의 색깔로 나타난다.
```
plt.scatter(x,y,c=data)
plt.colorbar()
```

😄 배열 x,y에 대해 칼라바가 있는 산포도 그래프를 그려보자.

In [None]:
x = np.random.randint(0, 100, 20)
y = np.random.randint(0, 100, 20)
             #TODO
plt.show()

### 세로 막대그래프: .bar()
- 막대 그래프는 각 항목의 크기를 비교할 수 있도록 보여주는 그래프이다.

```
plt.bar(x, y)
```
😄 배열 x, 리스트 y에 대해 세로 막대 그래프를 그려보자.

In [None]:
x = np.arange(1, 6)
y = [10, 5, 25, 3, 22]
             #TODO
plt.show()

### 가로 막대그래프: .barh()
```
plt.barh(x, y)
```
😄 배열 x, 리스트 y에 대해 가로 막대 그래프를 그려보자.

In [None]:
x = np.arange(1, 6)
y = [10, 5, 25, 3, 22]
             #TODO
plt.show()

## Matplotlib: 판다스 데이터 활용

### 한글 폰트 설치 및 설정

In [None]:
#1. 현재 셀 실행
#2. 런타임 -> 런타임 다시 시작
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

In [None]:
import matplotlib.pyplot as plt
import numpy as np

plt.rc('font', family='NanumBarunGothic')

In [None]:
plt.text(0.3, 0.3, '한글', size=100)
plt.show()

In [None]:
import pandas as pd
scores = [[84, 87, 78], [21, 15, 84], [87, 84, 76], [100, 87, 99], [59, 99, 59], [46, 77, 56]]
names = ['철수', '영이', '길동', '미영', '순이', '철이']
lectures = ['국어', '영어', '수학']
df=pd.DataFrame(scores, index=names, columns=lectures)
df

In [None]:
df.index

In [None]:
df.columns

### 데이터프레임으로 그래프 그리기
- 데이터프레임으로 그래프를 그리는 방법은 다음과 같이 두 가지를 사용할 수 있다.
  - 첫 번째는 plt.그래프함수명(x, y)와 같이 앞서 설명했던 방법으로 그리는 것이다.
    - 예) plt.plot(df.index, df['국어'])
  - 두 번째는 데이터프레임명.plot(kind='그래프종류')와 같이 데이터프레임명을 .앞에 사용하는 것이다.
    - 예) df['국어'].plot(kind='line')
  - kind 옵션은 다음과 같다.
    - 'line': 선그래프
    - 'bar': 수직막대그래프
    - 'barh': 수평막대그래프
    - 'pie': 원그래프
    - 'box': 박스그래프
    - 'kde': 커널밀도그래프

### 선그래프: kind='line'

In [None]:
df['국어'].plot(kind='line', marker='*', markersize='10', markerfacecolor='red')
#plt.plot(df.index, df['국어'], marker='*', markersize='10', markerfacecolor='red')
plt.title('국어성적')
plt.xlabel('이름')
plt.ylabel('점수')
plt.show()

### 여러개 그래프 나타내기
- 여러 개의 그래프를 하나의 도화지에 나타내보자.
- plt.figure(figsize = (12,3)) : 도화지의 사이즈를 가로 12, 세로 3 인치로 설정한다.
- plt.subplot(row, column, index): 하나의 도화지를 row와 column으로 나누고 그래프가 들어갈 위치 즉, index를 적어준다.

In [None]:
plt.figure(figsize=(12,3))
for i in range(3):
  plt.subplot(1,3,i+1)
  df[lectures[i]].plot(kind='line')
  #plt.plot(names,df[lectures[i]])
  plt.title(lectures[i]+'성적')
plt.show()

### 세로 막대그래프: kind='bar'

In [None]:
df['국어'].plot(kind='bar')
#plt.bar(df.index, df['국어'])
plt.title('학생들의 성적')
plt.ylabel('점수')
plt.xlabel('이름')
plt.show()

In [None]:
df.plot(kind='bar')
plt.title('학생들의 성적')
plt.ylabel('점수')
plt.xlabel('이름')
plt.show()

### 정렬한 세로 막대그래프

In [None]:
sorted_math=df.sort_values(by='수학')
sorted_math

In [None]:
sorted_math['수학'].plot(kind='bar')
plt.title('수학성적')
plt.ylabel('이름')
plt.xlabel('점수')
plt.show()

### 가로 막대그래프: kind='barh'

In [None]:
df.plot(kind='barh', stacked = True)
plt.title('학생들의 성적')
plt.ylabel('이름')
plt.xlabel('점수')
plt.show()

### 파이 그래프: kind='pie'
- autopct : 파이조각을 백분율로 나타낸다.
- startangle: 첫 번째 파이의 시작 각도
- explode: 특정 조각을 돌출시킨다.

```
# df에 '성별' 열을 추가하세요.
gender = ['남','여','남','여','여','남']
# Todo

df
```

```
# mean을 사용하여 '평균' column을 추가하세요.
# Todo

df['평균']=df['평균'].astype(int)
df
```

```
df['S/U'] = ["S" if s >=75 else "U" for s in df['평균']]
df
```

```
df['count']=1
df
```

```
d3=df.groupby(['성별','S/U']).sum()
d3
```

```
explode = [0.0, 0.1, 0.0, 0.0]
d3['count'].plot(kind='pie',
                 figsize=(7,5),
                 autopct='%.1f%%',
                 startangle=0,
                 explode = explode,
                 colors=['chocolate','bisque','cadetblue','yellow'])
plt.show()
```

## Seaborn
Matplotlib을 기반으로 다양한 색상 테마와 통계용 차트 등의 기능을 확장한 파이썬 시각화 도구의 고급 버전 라이브러리이다.

<div align="center"><img src="https://haesunbyun.github.io/common/images/graph.png" height=300 style="width:600px;"></div>

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

### 선그래프: .lineplot()
😄 lineplot()으로 과목별 선그래프를 그려보자.

In [None]:
sns.lineplot(data=df)
plt.show()

### 히트맵 그래프: .heatmap()
색상으로 표현할 수 있는 다양한 데이터를 매트릭스 형태로 보여주는 그래프이다.
```
sns.heatmap(data)
```
  - annot : 각 셀에 값을 나타낸다.
  - fmt : 정수로 값을 나타낸다.
  - cmap: 컬러맵을 적어준다. https://matplotlib.org/tutorials/colors/colormaps.html

😄 학생과 과목별 히트맵그래프를 그려보자.

In [None]:
sns.heatmap(df.loc[:, '국어':'수학'],annot=True, fmt='d', cmap='YlGnBu', linewidth=0.5)
plt.show()

### 박스플롯 그래프: .boxplot()
**박스플롯**은 수염상자, 봉, 캔들 등 다양한 이름을 가진 그래프이다.
데이터의 분포와 이상치를 동시에 보여줘서 서로 다른 데이터군을 쉽게 비교할 수 있도록 최솟값, 최댓값, 제1사분위수(Q1), 제2사분위수(Q2, 중앙값), 제3사분위수(Q3) 등 다섯가지 통계로 데이터를 나타낸다.

😄 성별별로 국어점수에 대해 박스플롯을 그려보자.

In [None]:
df['성별']=['남','여','남','여','여','남']
sns.boxplot(x='성별', y='국어', data=df)
plt.show()

### 바이올린 그래프: .violinplot()
- **바이올린그래프**는 커널 밀도 곡선(Kernel Density Curve)와 박스 플롯을 합친 형태의 그래프이다.
- 하나의 변수의 연속형 데이터의 분포를 설명하기 위해 사용되는 그래프이며, 카테고리값에 전체 형상을 보여준다.

😄 성별별로 국어점수에 대한 바이올린 그래프를 그려보자.

In [None]:
sns.violinplot(x='성별', y='국어', data=df)
plt.show()

## 마무리
- 선그래프:
  - plt.plot()
  - dt.plot(kind='line')
- 산포도그래프:
  - plt.scatter()
  - dt.plot(kind='scatter')
- 칼라바: plt.colorbar()
- 세로막대 그래프:
  - plt.bar()
  - dt.plot(kind='bar')
- 가로막대 그래프:
  - plt.barh()
  - dt.plot(kind='barh')
- 히스토그램: dt.plot(kind='hist')
- 파이차트: dt.plot(kind='pie')
- 히트맵: sns.heatmap()
- 이변수그래프: sns.pairplot()
- 회귀선이 있는 산포도: sns.regplot()
- 카테고리별 회귀선이 있는 산포도: sns.lmplot()
- 히스토그램: sns.histplot()
- 막대그래프: sns.barplot()
- 빈도그래프: sns.countplot()
- 박스플롯그래프: sns.boxplot()
- 바이올린그래프: sns.violinplot()
- 화면 그리드로 분할하기:
sns.FacetGrid()
