### 학습 목표
- 파이썬 라이브러리(Pandas, Matplotlib, Seaborn)를 이용해서 여러 가지 그래프를 그리는 법을 학습합니다.
- 실전 데이터셋으로 직접 시각화해보며 데이터 분석에 필요한 탐색적 데이터 분석(EDA)을 하고 인사이트를 도출해 봅니다.
---
### 학습 목차
1. 파이썬으로 그래프를 그린다는 건?
1. 간단한 그래프 그리기
1. 그래프 4대 천왕: 막대그래프, 선그래프, 산점도, 히스토그램
1. 시계열 데이터 시각화하기
1. Heatmap

### 파이썬으로 그래프를 그린다는 건?

시각화는 데이터를 파악하는 데 매우 중요한 도구입니다. 파이썬은 Pandas, Matplotlib, Seaborn 등 여러 가지 시각화 라이브러리를 제공합니다. Matplotlib와 Seaborn 역시 Pandas와 동일하게 pip를 이용해 설치하시면 됩니다. 클라우드 환경에는 이미 설치가 되어 있으니 잘 설치되어 있는지 확인해 봅시다.
```bash
$ pip list | grep matplotlib 
$ pip list | grep seaborn
```

In [2]:
import matplotlib.pyplot as plt
%matplotlib inline

# 그래프 데이터 
subject = ['English', 'Math', 'Korean', 'Science', 'Computer']
points = [40, 90, 50, 60, 100]

# 축 그리기
fig = plt.figure()
ax1 = fig.add_subplot(1,1,1)

# 그래프 그리기
ax1.bar(subject, points)

# 라벨, 타이틀 달기
plt.xlabel('Subject')
plt.ylabel('Points')
plt.title("Yuna's Test Result")

# 보여주기
plt.savefig('./barplot.png')  # 그래프를 이미지로 출력
plt.show()                    # 그래프를 화면으로 출력

## 막대그래프 그려보기

### 데이터 정의
우선 모듈을 import 하고 그래프로 그릴 데이터를 정의해 줍니다.

In [3]:
import matplotlib.pyplot as plt
%matplotlib inline

# 그래프 데이터 
subject = ['English', 'Math', 'Korean', 'Science', 'Computer']
points = [40, 90, 50, 60, 100]

`%matplotlib inline`은 IPython에서 사용하는 매직 메서드에요.     
Rich output에 대한 표현 방식인데요, 그래프와 같은 그림, 소리, 애니메이션과 같은 결과물을 Rich output 이라고 해요. IPython과 비슷한 환경인 Jupyter Notebook에서 이 명령어를 입력하면 그래프가 바로 출력됩니다.

- 매직 명령어 정리
https://studymake.tistory.com/601

### 축 그리기
그래프를 그리는 순서는 우선 하나의 그림(figure) 객체를 만들고 그 안에 하위 그래프(subplot)를 추가합니다. 도화지에 축을 그리는 과정이에요

In [5]:
# 축 그리기
fig = plt.figure() #도화지(그래프) 객체 생성
ax1 = fig.add_subplot(1,1,1) #figure()객체에 add_subplot 메서드를 이용해 축을 그려준다.

In [6]:
fig = plt.figure()

축이 없어 그려지는 것이 없지만 figure 객체가 생성되었습니다.

figure()라는 객체는 도화지(그래프)입니다. 이 figure() 객체에 `add_subplot` 메서드를 이용해 축을 그려줍니다. `figsize` 인자 값을 주어 그래프의 크기를 정할 수 있어요.

그런데 이런 사실은 어디서 알 수 있냐고요? 라이브러리마다 공식 API 문서가 있습니다. API 문서에는 라이브러리를 사용하는 사람들이 참고해야 할 사항이 자세히 적혀 있습니다. 가끔은 내부 동작까지도 적혀 있기도 합니다.

matplotlib의 공식 문서는 여기에 있습니다. (https://matplotlib.org/stable/api/index.html)    
공식 API 문서를 읽어보는 것은 프로그래밍에서 필수 사항입니다. 꼭 시간을 들여 문서를 읽어보세요. 지금 다루고 있는 메서드 figure()에 대한 정보는 여기 있습니다. (https://matplotlib.org/stable/api/figure_api.html?highlight=figure#module-matplotlib.figure)
`figsize`를 포함해 매우 많은 정보가 들어 있다는 것을 알 수 있네요!

In [7]:
fig = plt.figure(figsize=(5,2))
ax1 = fig.add_subplot(1,1,1)

도화지 안에는 축을 여러 개 그릴 수 있습니다. 즉, 그래프를 여러 개 그릴 수 있단 뜻이죠. add_subplot의 인자로 조정해 줍니다.

그런데 과연 괄호 속에 적힌 1, 1, 1의 의미는 무엇일까요? 역시 API 문서를 찾아야 합니다. 여기에 있습니다. 숫자를 연달아 세 개만 적으면 차례로 nrows, ncols, index에 해당한다는 것을 알 수 있네요. 어떻게 그려지는지 아래처럼 설명되어 있네요.

> Three integers (nrows, ncols, index). The subplot will take the index position on a grid with nrows rows and ncols columns. index starts at 1 in the upper left corner and increases to the right.

In [8]:
fig = plt.figure()
ax1 = fig.add_subplot(2,2,1)
ax2 = fig.add_subplot(2,2,2)
ax3 = fig.add_subplot(2,2,4)

In [9]:
fig2 = plt.figure()
ax1 = fig2.add_subplot(231)
ax2 = fig2.add_subplot(234)
ax3 = fig2.add_subplot(235)
ax4 = fig2.add_subplot(236)

### 그래프 그리기
`bar()` 메서드를 이용해 막대그래프를 그립니다. 그리고 인자에 위에서 정의한 데이터들을 x, y순으로 넣어 줍니다.

In [10]:
# 그래프 데이터 
subject = ['English', 'Math', 'Korean', 'Science', 'Computer']
points = [40, 90, 50, 60, 100]

# 축 그리기
fig = plt.figure()
ax1 = fig.add_subplot(1,1,1)

# 그래프 그리기
ax1.bar(subject,points)

### 그래프 요소 추가
<b>label, title</b>

x라벨, y라벨, 제목을 추가하기 위해서는 `xlabel()` 메서드와 `ylabel()` 메서드 `title()` 메서드를 이용합니다.

In [12]:
# Q. 아래 코드의 빈칸을 채워주세요.
# 그래프 데이터
subject = ['English', 'Math', 'Korean', 'Science', 'Computer']
points = [40, 90, 50, 60, 100]

# 축 그리기
fig = plt.figure()
ax = fig.add_subplot(111)

# 그래프 그리기
ax.bar(subject, points)

# 라벨, 타이틀 달기
plt.xlabel('Subject')
plt.ylabel('Points')  
plt.title("Yuna's Test Result") 

## 선 그래프 그려보기
이번에는 matplotlib을 이용해 선(line) 그래프를 그려보겠습니다.

### 데이터 정의
우선 모듈을 import 하고 그래프로 그릴 데이터를 정의해 줍니다. 사용할 데이터는 과거 아마존 주가 데이터입니다.

- https://finance.yahoo.com/quote/AMZN/history?p=AMZN     
터미널에서 클라우드에 미리 저장된 파일에 심볼릭 링크를 걸어 데이터를 사용할 수 있도록 합니다.

자 이번엔 주석(annotation) 등 좀 더 고급 기법을 활용하여 그래프를 그려 볼까요?

In [14]:
from datetime import datetime
import pandas as pd
import os

# 그래프 데이터 
csv_path = os.getenv("HOME") + "/aiffel/data_visualization/data/AMZN.csv"
data = pd.read_csv(csv_path, index_col=0, parse_dates=True)
price = data['Close']

# 축 그리기 및 좌표축 설정
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
price.plot(ax=ax, style='black')
plt.ylim([1600, 2200])
plt.xlim(['2019-05-01', '2020-03-01'])

# 주석달기
important_data = [(datetime(2019, 6, 3), "Low Price"), (datetime(2020, 2, 19), "Peak Price")]
for d, label in important_data:
    ax.annotate(label, xy=(d, price.asof(d)+10), # 주석을 달 좌표(x,y)
                xytext=(d, price.asof(d)+100), # 주석 텍스트가 위치할 좌표(x,y)
                arrowprops=dict(facecolor='red')) # 화살표 추가 및 색 설정

# 그리드, 타이틀 달기
plt.grid()
ax.set_title('StockPrice')

# 보여주기
plt.show()

### Pandas Series 데이터 활용
Pandas의 Series는 선 그래프를 그리기에 최적의 자료구조를 갖추고 있습니다. 위 예시 코드에서는 `price = data['Close']`가 바로 Pandas의 Series입니다. 다음 스텝에서 좀 더 설명하겠지만, Pandas도 자체적인 선 그래프 그리기 기능을 제공합니다. 위 예시 코드에서는 `price.plot(ax=ax, style='black')`에서 Pandas의 plot을 사용하면서, matplotlib에서 정의한 subplot 공간 ax를 사용한 것을 볼 수 있습니다.

### 좌표축 설정
`plt.xlim()`, `plt.ylim()`을 통해 x, y 좌표축의 적당한 범위를 설정해 줄 수 있습니다.

### 주석
그래프 안에 추가적으로 글자나 화살표 등 주석을 그릴 때는 `annotate()` 메서드를 이용합니다. 주석달기는 그래프 그리기의 고급 기법입니다. 복잡하지만 위 예시 코드를 잘 살펴봐 주세요.

### 그리드
`grid()` 메서드를 이용하면 그리드(격자눈금)를 추가할 수 있어요.

In [38]:
# Q. 날짜별 종가(Close)가 아닌 최고가(High) 데이터를 이용해서 위와 같은 그래프를 그려보세요!

# 그래프 데이터 
csv_path = os.getenv("HOME") + "/aiffel/data_visualization/data/AMZN.csv"
data = pd.read_csv(csv_path, index_col=0, parse_dates=True)
price = data['High']

# 축 그리기 및 좌표축 설정
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
price.plot(ax=ax, style='black')
plt.ylim([1600, 2200])
plt.xlim(['2019-05-01','2020-03-01'])

# 날짜 정보를 python datetime 자료형으로 변환
min_date = price.idxmin().to_pydatetime()
max_date = price.idxmax().to_pydatetime()

# 주석달기
important_data = [(min_date, "Low Price"), (max_date, "Peak Price")]
for d, label in important_data: # d : 최소값의 날짜, label은 글자
    ax.annotate(label, xy=(d, price.asof(d)+10), # 주석을 달 좌표(x,y)
                xytext=(d, price.asof(d)+100),  # 주석 텍스트가 위치할 좌표(x,y)
                arrowprops=dict(facecolor='red')) # 화살표 추가 및 색 설정

# 그리드, 타이틀 달기
plt.grid()
ax.set_title('StockPrice')

# 보여주기
plt.show()

## plot 사용법 상세
plt.plot()로 그래프 그리기

앞에서 figure() 객체를 생성하고 add_subplot()으로 서브플롯을 생성한 다음 plot을 그린다고 했습니다.
이 2가지 과정을 생략할 수도 있는데요, plt.plot() 함수로 그래프를 그리면 matplotlib은 가장 최근의 figure 객체와 그 서브플롯을 그립니다.
만약 서브플롯이 없으면 서브플롯 하나를 생성합니다.

plt.plot()의 인자로 x 데이터, y 데이터, 마커 옵션, 색상 등을 지정할 수 있고,

In [39]:
import numpy as np

# 0에서 10까지 균등한 간격으로 100개의 숫자를 만들라는 뜻입니다.
x = np.linspace(0, 10, 100)

plt.plot(x, np.sin(x), 'o')
plt.plot(x, np.cos(x), '--', color='black') 
plt.show()

In [40]:
x = np.linspace(0, 10, 100)

plt.subplot(2,1,1)
plt.plot(x, np.sin(x), 'o', color='orange')

plt.subplot(2,1,2)
plt.plot(x, np.cos(x), 'orange') 
plt.show()

### linestyle, marker 옵션
라인 스타일은 plot()의 인자로 들어가는데요, 아래와 같이 다양한 방법으로 표기할 수 있습니다.

In [41]:
x = np.linspace(0, 10, 100) 

plt.plot(x, x + 0, linestyle='solid') 
plt.plot(x, x + 1, linestyle='dashed') 
plt.plot(x, x + 2, linestyle='dashdot') 
plt.plot(x, x + 3, linestyle='dotted')
plt.plot(x, x + 0, '-g') # solid green 
plt.plot(x, x + 1, '--c') # dashed cyan 
plt.plot(x, x + 2, '-.k') # dashdot black 
plt.plot(x, x + 3, ':r'); # dotted red
plt.plot(x, x + 4, linestyle='-') # solid 
plt.plot(x, x + 5, linestyle='--') # dashed 
plt.plot(x, x + 6, linestyle='-.') # dashdot 
plt.plot(x, x + 7, linestyle=':'); # dotted

In [42]:
# Q. y=log(x)의 그래프를 그려봅시다.
# 라인 스타일은 dashdot, 색상은 'm'(magenta)으로 지정해주세요!
x = np.linspace(1, 10, 100)
y = np.log(x)

plt.plot(x, y, '-.m')
plt.show()

### Pandas로 그래프 그리기
Pandas도 plot() 메서드를 통해 여러 가지 그래프를 그릴 수 있습니다.
matplotlib과 연계해 사용하면 좋은데요, 아래에 각 메서드의 기능을 정리하였습니다.

#### pandas.plot 메서드 인자
    label: 그래프의 범례 이름
    ax: 그래프를 그릴 matplotlib의 서브플롯 객체
    style: matplotlib에 전달할 'ko--'같은 스타일의 문자열
    alpha: 투명도 (0 ~1)
    kind: 그래프의 종류: line, bar, barh, kde
    logy: Y축에 대한 로그 스케일
    use_index: 객체의 색인을 눈금 이름으로 사용할지의 여부
    rot: 눈금 이름을 로테이션(0 ~ 360)
    xticks, yticks: x축, y축으로 사용할 값
    xlim, ylim: x축, y축 한계
    grid: 축의 그리드 표시할지 여부
    
#### pandas의 data가 DataFrame 일 때 plot 메서드 인자
    subplots: 각 DataFrame의 칼럼(column)을 독립된 서브플롯에 그립니다.
    sharex: subplots=True면 같은 X축을 공유하고 축의 범위와 눈금을 연결합니다.
    sharey: subplots=True면 같은 Y축을 공유합니다.
    figsize: 그래프의 크기를 지정합니다. (튜플)
    title: 그래프의 제목을 지정합니다. (문자열)
    sort_columns: 칼럼을 알파벳 순서로 그립니다.

예제로 막대그래프를 그려 볼게요.
막대그래프의 경우, kind에 bar 옵션을 주어 그릴 수 있습니다.

In [44]:
fig, axes = plt.subplots(2, 1)
data = pd.Series(np.random.rand(5), index=list('abcde'))
data.plot(kind='bar', ax=axes[0], color='blue', alpha=1)
data.plot(kind='barh', ax=axes[1], color='red', alpha=0.3)
plt.show()

In [45]:
df = pd.DataFrame(np.random.rand(6,4), columns=pd.Index(['A','B','C','D']))
df.plot(kind='line')
plt.show()

## 정리
그래프를 그리는 과정을 다시 정리해 봅시다.

1. fig = plt.figure(): figure 객체를 선언해 '도화지를 펼쳐'줍니다.
1. ax1 = fig.add_subplot(1,1,1): 축을 그립니다.
1. ax1.bar(x, y) 축 안에 어떤 그래프를 그릴지 메서드를 선택한 다음, 인자로 데이터를 넣어줍니다.
1. 그래프 타이틀 축의 레이블 등을 plt의 여러 메서드 grid, xlabel, ylabel 을 이용해서 추가해 주고
1. plt.savefig 메서드를 이용해 저장해줍니다.

어떤가요? 현실 세계에서 그래프를 그리는 순서와 유사하지 않나요? 꽤 직관적입니다.     
파이썬 기반의 시각화 라이브러리인 Pandas, Matplotlib, Seaborn 모두 이런 식으로 그래프를 그립니다.
    
아래 그림은 각 그래프 요소별 명칭입니다. 눈에 익혀 두세요.
![img](data/visualization.png)

## 데이터 준비
앞에서 그래프 그리는 방법에 대한 큰 틀을 배웠습니다! 이제 자주 사용되는 그래프를 직접 그려보며 연습해 봅시다.

### 데이터 준비
#### 1) 데이터 불러오기
Seaborn의 load_dataset() 메서드를 이용하면 API를 통해 손쉽게 유명한 예제 데이터를 다운로드할 수 있습니다.
참고로, 아래 repo의 데이터는 모두 csv 파일로 되어있어 연습용으로 좋아요.

- https://github.com/mwaskom/seaborn-data    

메서드를 실행하면 home directory에 자동으로 seaborn-data라는 폴더가 생성되어 다운로드한 데이터가 내부에 저장됩니다.

- default directory: ~/seaborn-data/ (~(물결표시)는 home directory를 의미합니다.😃)

In [47]:
import pandas as pd
import seaborn as sns

tips = sns.load_dataset("tips")

여기서는 tips 데이터를 불러왔어요.     
이 데이터는 종업원들이 tip을 얼마 받았는지에 대한 데이터가 있는 파일입니다.

- https://github.com/mwaskom/seaborn-data/blob/master/tips.csv

#### 2) 데이터 살펴보기 (EDA)
Pandas의 dataframe을 이용해서 데이터가 어떻게 구성되어 있는지 확인하겠습니다.
실행 후 결과를 살펴볼까요?

In [48]:
# dataframe의 처음 다섯 줄을 보여줍니다.
df = pd.DataFrame(tips)
df.head()

In [49]:
# dataframe의 shape(row, column의 개수)
df.shape

In [50]:
# 데이터의 통계량 정보를 보여줍니다. (평균, 표준편차, 사분위수 등)
df.describe()

In [51]:
# 각 column의 정보를 보여줍니다. (데이터 크기와 자료형 등)
df.info()

본 데이터에는 결측 값이 없어서 결측 값 처리가 따로 필요하지 않네요.
데이터 변수들 중에서 sex, smoker, day, time이 범주(category)형 데이터고 tips, total_bill, size는 수치형 데이터입니다. 그러나 size는 테이블 인원을 의미하니까 범주형 데이터로 봐야겠네요.

범주형 변수의 카테고리별 개수를 알아볼까요?

In [52]:
# Q. 다음 코드의 빈칸을 채워주세요.

# 'sex' 변수의 카테고리별 개수
print(df['sex'].value_counts())
print("===========================")

# 'time' 변수의 카테고리별 개수
print(df['time'].value_counts())
print("===========================")

# 'smoker' 변수의 카테고리별 개수
print(df['smoker'].value_counts())
print("===========================")

# 'day' 변수의 카테고리별 개수
print(df['day'].value_counts())
print("===========================")

# 'size' 변수의 카테고리별 개수
print(df['size'].value_counts())
print("===========================")

## 범주형 데이터
데이터가 준비되었으니 그래프를 그려보겠습니다.

앞서 데이터를 살펴본 결과, 범주형 변수와 수치형 변수가 있다는 것을 알 수 있었는데요.
변수 데이터를 시각화할 때 데이터 종류에 따라 사용하는 그래프가 다르다는 걸 알고 계시나요?
지금부터 범주형, 수치형 순으로 총 4개의 그래프를 살펴보겠습니다.

### 범주형 데이터
범주형 데이터는 주로 막대그래프를 사용하여 수치를 요약합니다. 일반적으로 가로, 세로, 누적, 그룹화된 막대그래프를 사용합니다.
tips 데이터에서 범주형 변수는 `sex`, `smoker`, `day`, `time`, `size`입니다.

#### 1) 막대그래프(bar graph)
##### 1-1) Pandas와 Matplotlib를 활용한 방법
우선 조금 복잡한 방법부터 알아보겠습니다.

matplotlib에 데이터를 인자로 넣기 위해선 pandas 데이터를 바로 이용할 수는 없습니다. 데이터를 x에 series 또는 list, y에 list 형태로 각각 나눠주어야 합니다.

In [53]:
# df의 첫 5행을 확인해봅시다. 
df.head()

In [54]:
grouped = df['tip'].groupby(df['sex'])

In [55]:
grouped.mean() # 성별에 따른 팁의 평균

In [56]:
grouped.size() # 성별에 따른 데이터 량(팁 횟수)

In [57]:
import numpy as np
sex = dict(grouped.mean()) #평균 데이터를 딕셔너리 형태로 바꿔줍니다.
sex

In [58]:
x = list(sex.keys())  
x

In [59]:
y = list(sex.values())
y

In [60]:
import matplotlib.pyplot as plt

plt.bar(x = x, height = y)
plt.ylabel('tip[$]')
plt.title('Tip by Sex')

In [61]:
# Q. 요일(day)에 따른 평균 tip의 그래프를 그려보세요.
grouped = df['tip'].groupby(df['day'])
sex = dict(grouped.mean()) #평균 데이터를 딕셔너리 형태로 바꿔줍니다.
x = list(sex.keys())
y = list(sex.values())

#### 1-2) Seaborn과 Matplotlib을 활용한 간단한 방법
Seaborn을 이용하면 더 쉽게 나타낼 수 있습니다.
sns.barplot의 인자로 df를 넣고 원하는 컬럼을 지정해 주면 아래와 같이 성별에 대한 tip 평균을 볼 수 있습니다.

In [62]:
sns.barplot(data=df, x='sex', y='tip')

In [63]:
plt.figure(figsize=(10,6)) # 도화지 사이즈를 정합니다.
sns.barplot(data=df, x='sex', y='tip')
plt.ylim(0, 4) # y값의 범위를 정합니다.
plt.title('Tip by sex') # 그래프 제목을 정합니다.

In [64]:
plt.figure(figsize=(10,6))
sns.barplot(data=df, x='day', y='tip')
plt.ylim(0, 4)
plt.title('Tip by day')

In [65]:
fig = plt.figure(figsize=(10,7))

ax1 = fig.add_subplot(2,2,1)
sns.barplot(data=df, x='day', y='tip', palette="ch:.25")

ax2 = fig.add_subplot(2,2,2)
sns.barplot(data=df, x='sex', y='tip')

ax3 = fig.add_subplot(2,2,4)
sns.violinplot(data=df, x='sex', y='tip')

ax4 = fig.add_subplot(2,2,3)
sns.violinplot(data=df, x='day', y='tip', palette="ch:.25")

In [67]:
sns.catplot(x="day", y="tip", jitter=False, data=tips)
# jitter 옵션을 추가하면 데이터포인트를 일렬로 그릴 수 있음

In [68]:
# Q. 시간대(time)에 따른 tips의 그래프를 catplot으로 표현해보세요!
sns.catplot(x='time', y='tip', data=tips)

- 추가 참고 : https://www.snugarchive.com/blog/python-data-visualization-seaborn-advanced/

## 수치형 데이터
### 수치형 데이터
수치형 데이터를 나타내는 데 가장 좋은 그래프는 산점도 혹은 선 그래프입니다. 전체 음식 가격(total_bill)에 따른 tip 데이터를 시각화하며 산점도와 선 그래프를 배워봅시다.

### 2) 산점도(scatter plot)
hue인자에 'day'를 주어 요일(day)에 따른 tip과 total_bill의 관계를 시각화해 봅시다

In [69]:
sns.scatterplot(data=df, x='total_bill', y='tip', palette="ch:r=-.2,d=.3_r")

In [70]:
sns.scatterplot(data=df, x='total_bill', y='tip', hue='day')

### 3) 선 그래프(line graph)
plot의 기본은 선 그래프입니다.
tips 예제로는 선 그래프 설명이 어려워서, numpy를 이용하여 데이터를 생성 후 그래프를 그려보겠습니다.

In [72]:
# np.random.randn 함수는 표준 정규분포에서 난수를 생성하는 함수입니다.
# cumsum()은 누적합을 구하는 함수입니다.
plt.plot(np.random.randn(50).cumsum())
plt.show()

In [73]:
x = np.linspace(0, 10, 100) 
plt.plot(x, np.sin(x), 'o')
plt.plot(x, np.cos(x)) 
plt.show()

In [74]:
sns.lineplot(x=x, y=np.sin(x))
sns.lineplot(x=x, y=np.cos(x))

### 4) 히스토그램
먼저 히스토그램의 개념 정리 한 번 하도록 할게요.    
히스토그램은 도수분포표를 그래프로 나타낸 것입니다. 히스토그램의 용어는 다음과 같습니다.

    ↔ 가로축

    - 계급: 변수의 구간, bin (or bucket)
    
    ↕ 세로축

    - 도수: 빈도수, frequency
    전체 총량: n

다음과 같은 데이터의 히스토그램을 만들어보겠습니다.

x1은 평균은 100이고 표준편차는 15인 정규분포를 따릅니다.    
x2는 평균은 130이고 표준편차는 15인 정규분포를 따릅니다.    
도수를 50개의 구간으로 표시하며, 확률 밀도가 아닌 빈도로 표기합니다.

In [76]:
#그래프 데이터
mu1, mu2, sigma = 100, 130, 15
x1 = mu1 + sigma*np.random.randn(10000)
x2 = mu2 + sigma*np.random.randn(10000)

# 축 그리기
fig = plt.figure()
ax1 = fig.add_subplot(1,1,1)

# 그래프 그리기
patches = ax1.hist(x1, bins=50, density=False)  # bins는 x값을 총 50개 구간으로 나눈다는 뜻입니다.
patches = ax1.hist(x2, bins=50, density=False, alpha=0.5)
ax1.xaxis.set_ticks_position('bottom')  # x축의 눈금을 아래 표시 
ax1.yaxis.set_ticks_position('left')  # y축의 눈금을 왼쪽에 표시

# 라벨, 타이틀 달기
plt.xlabel('Bins')
plt.ylabel('Number of Values in Bin')
ax1.set_title('Two Frequency Distributions')

# 보여주기
plt.show()

### 예제 데이터의 히스토그램
조금 복습이 되셨나요? 다시 예제의 tips 데이터로 돌아가서 tips 데이터의 total_bill과 tips에 대해 히스토그램을 만들어 보겠습니다.

In [78]:
sns.histplot(df['total_bill'], label="total_bill")

# legend()를 이용하여 label을 표시해줍니다.
sns.histplot(df['tip'], label="tip").legend()

전체 결제 금액 대비 팁의 비율을 나타내는 히스토그램을 그려보겠습니다.

In [80]:
df

In [81]:
# Q. pyplot을 이용해서 그려봅시다.
# bin의 개수는 50개로 지정해주세요.
df['tip_pct'] = df.tip / df.total_bill
plt.hist(df['tip_pct'], bins = 50)

In [82]:
# Q. 이번에는 seaborn을 이용해서 그려봅시다.

# legend()를 이용하여 label을 표시해줍니다.
sns.histplot(df['tip_pct'], label="Tip over Total bill").legend()

In [83]:
df['tip_pct'].plot(kind='kde')

kind='kde'로 확률 밀도 그래프로 나타내 보았습니다.

- 밀도 그래프: 연속된 확률분포를 나타냅니다.
    - 일반적으로는 kernels메서드를 섞어서 이 분포를 근사하는 식으로 그립니다.
    - 이것은 좀 더 단순하고 우리에게 친숙한 정규분포(가우시안)로 나타낼 수 있습니다.
    - 위 밀도 그래프는 KDE(Kernel Density Estimate) 커널 밀도 추정 그래프입니다.
    - KDE에 대한 설명 참고(https://darkpgmr.tistory.com/147#:~:text=Kernel%20Density%20Estimation%20(%EC%BB%A4%EB%84%90%20%EB%B0%80%EB%8F%84%20%EC%B6%94%EC%A0%95)%20%EB%B0%A9%EB%B2%95%EC%9D%80%20non%2D,%EC%9D%84%20%EA%B0%9C%EC%84%A0%ED%95%9C%20%EB%B0%A9%EB%B2%95%EC%9D%B4%EB%8B%A4.)

막대그래프(bar graph), 꺾은선 그래프(line graph), 산점도(scatter plot), 히스토그램(histogram)은 정말 많이 쓰이는 그래프기 때문에 그래프 4대 천왕이라는 이름을 붙여 봤습니다. 수치형 데이터인지, 범주형 데이터인지에 따라 어떤 plot을 사용하는게 좋을지 한번 고민해 보세요!

## 시계열 데이터 시각화하기
우리 주위에는 시계열 데이터가 정말 많습니다.
이번에는 1949년-1960년도별 탑승객 예제 데이터를 가지고 시계열 데이터를 다루어 보도록 하겠습니다

### 1) 데이터 가져오기
클라우드에 업로드되어있는 데이터를 이용하셔도 좋고 Seaborn의 load_dataset() 메서드를 이용하셔도 좋습니다.

In [84]:
csv_path = os.getenv("HOME") + "/aiffel/data_visualization/data/flights.csv"
data = pd.read_csv(csv_path)
flights = pd.DataFrame(data)
flights

### 2) 그래프 그리기

In [86]:
# seaborn barplot
sns.barplot(data=flights, x='year', y='passengers')

In [87]:
# Q. seaborn pointplot을 그려봅시다.
sns.pointplot(data=flights, x='year', y='passengers')

In [88]:
# Q. seaborn lineplot을 그려봅시다.
sns.lineplot(data=flights, x='year', y='passengers')

달별로 나누어 보기 위해 hue 인자에 'month'를 할당합니다.

In [89]:
sns.lineplot(data=flights, x='year', y='passengers', hue='month', palette='ch:.50')
plt.legend(bbox_to_anchor=(1.03, 1), loc=2) #legend 그래프 밖에 추가하기

In [90]:
sns.histplot(flights['passengers'])

## Heatmap

Heatmap은 방대한 양의 데이터와 현상을 수치에 따른 색상으로 나타내는 것으로, 데이터 차원에 대한 제한은 없으나 모두 2차원으로 시각화하여 표현합니다.

예제 데이터의 연도와 달에 대해 탑승객 수를 heatmap으로 나타내보겠습니다.

>❗ 잠깐만! pivot
> Heatmap을 그리기 위해 데이터를 pivot 해야 하는 경우가 있습니다.
pivot이란 어떤 축, 점을 기준으로 바꾸다란 뜻입니다. 데이터 표를 재배치할 때도 pivot이라는 단어를 사용합니다. (엑셀, Database에도 등장하는 용어입니다.)

pandas의 dataframe의 `pivot()` 메서드를 사용합니다.
flights(DataFrame)을 탑승객 수를 year과 month로 pivot 해보겠습니다.

In [91]:
pivot = flights.pivot(index='year', columns='month', values='passengers')
pivot

In [92]:
sns.heatmap(pivot)

In [93]:
sns.heatmap(pivot, linewidths=.2, annot=True, fmt="d")

- heatmap cell 사이의 간격을 0.2로 지정합니다. (linewidths=.2)
- heatmap cell 안에 데이터 값을 넣고 (annot=True)
- 데이터 값의 형식을 정수로 지정합니다. (fmt="d")

In [94]:
# Q. cmap 인자를 "YlGnBu"로 지정하여 heatmap을 그려보세요!
sns.heatmap(pivot, linewidths=.2, annot=True, fmt="d", cmap='YlGnBu')

## 종합퀴즈

In [95]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

tips = sns.load_dataset("tips")

In [97]:
# Q. 시간대(time)에 따른 tip과 total_bill의 관계를 scatter plot으로 시각화해봅시다.
sns.scatterplot(data=tips, x='tip', y='total_bill', hue='time')

In [96]:
# Q. seaborn jointplot의 문서를 참고하여 아래와 같은 그래프를 그려보세요!
sns.jointplot(data=tips, x='tip', y='total_bill', hue='time')

- jointplot 공식문서 : https://seaborn.pydata.org/generated/seaborn.jointplot.html