# Pandas 시각화
판다시 자체적으로 matplotlib 를 기반으로 한 시각화기능을 지원한다.    
Series나 DataFrame에 plot() 함수나 plot accessor를 사용한다.
- https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html

- 기본구문
  1. `(Series, DataFrame).plot(kind="그래프의 종류", 추가 설정)`
  2. plot accessor를 이용
     - `(Series, DataFrame).plot.그래프 그리는 함수(설정)`
     - 그래프 그리는 함수의 이름은 `kind`와 동일

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## plot() 
- kind 매개변수에 지정한 값에 따라 다양한 그래프를 그릴 수 있다.
- kind : 그래프 종류 지정
    - 'line' : line plot (default)
    - 'bar' : vertical bar plot
    - 'barh' : horizontal bar plot
    - 'hist' : histogram
    - 'box' : boxplot
    - 'kde' : Kernel Density Estimation plot
    - 'pie' : pie plot
    - 'scatter' : scatter plot

In [None]:
d = {
	'No1' : range(100),
	'No2' : range(100, 200)
}

df = pd.DataFrame(d)
df.head(3)

In [None]:
# 선 그래프 그리기
df.No1.plot(kind='line')			# x축 : index, y축 : value

plt.show()

In [None]:
df.No2.plot.line()

plt.show()

In [None]:
df.plot()				# DataFrame으로 그릴 경우 각 column별로 그린다.

matplotlib를 이용해 여러 설정들 가능

In [None]:
df.No1.plot(title='제목',
			color='r', 
			figsize=(5, 5),
			linestyle='--',
			grid=True)

In [None]:
plt.figure(figsize=(3, 3))
df.No1.plot()
plt.title('title')
plt.grid(True)
plt.show()

In [None]:
plt.figure(figsize=(5, 5))

ax = df.No1.plot()

ax.set_title('title')
ax.set_xlabel('X ticks')
plt.show()

## 막대 그래프
- index가 무슨 값인지를 가리키는 축으로 사용된다.

In [None]:
tips = pd.read_csv('data/tips.csv')
print(tips.shape)
print(tips.columns)

In [None]:
tips.smoker.value_counts()

In [None]:
# series/dataframe의 index가 x축(항목), y축(개수)
tips.smoker.value_counts().plot(kind='bar',
								title='흡연여부별 손님 수',
								xlabel='흡연여부',
								ylabel='손님수',
								color=['indianred', '#312C6A'],
								rot=0)							# rot로 xticks를 기울일 수 있다. (45도 많이 사용)

plt.show()

In [None]:
tips.day.value_counts().plot(kind='barh')
plt.title('요일별 손님 수')
plt.xlabel('손님 수')
plt.ylabel('요일')

plt.show()

### DataFrame.pivot_table()
 - excel의 pivot table 기능을 제공하는 method
 - 두 개 이상의 범주형 columns을 그룹으로 묶어서 집계하는 경우 사용
   - 하나의 columns은 행(index)로 다른 하나는 열(column)으로 위치시키고 value는 집계값을 보여준다.
 - 두 개 이상의 column을 그룹으로 묶어서 집계하는 경우 `groupby()`하는 경우 보다결과를 읽는 것이 편하다.

- 두개의 분류 별로 그리기
    - 여러개의 컬럼일 경우 수평 누적 막대그래프를 그린다.


In [None]:
# index : 그룹핑할 feature 중 행(x축)에 놓을 것
# columns : 그룹핑할 feature 중 열(y축)에 놓을 것
# value : 집계대상 feature
# aggfunc : 집계함수(default:mean)
agg = tips.pivot_table(index='smoker', columns='sex', values='tip', aggfunc='mean')
agg

In [None]:
agg.plot(kind='bar',
		title='흡연/성별 tip의 평균',
		width=0.3)

plt.show()

In [None]:
# 요일/흡연자별 손님의 인원수
result = tips.pivot_table(index='day', columns='smoker', values='size', aggfunc='sum')
result.plot(kind='barh',
		title='요일/흡연자별 손님의 인원 수',
		xlabel='인원 수',
		width=0.5,
		figsize=(9, 3)
		)

plt.show()

## 파이차트

In [None]:
tips.day.value_counts().plot(kind='pie',
							figsize=(5, 5),
							autopct='%.2f%%',
							shadow=True,
							explode=[0, 0, 0, 0.2])

plt.show()

In [None]:
# 점심, 저녁(time)의 tip 비율
tips.groupby('time')['tip'].mean().plot(kind='pie',
										figsize=(5, 5),
										autopct='%.2f%%')

plt.show()

## 히스토그램, KDE(밀도그래프)

In [None]:
tips.tip.plot(kind='hist',
			bins=20)

plt.show()

In [None]:
import scipy as sc

tips.tip.plot(kind='kde')

plt.show()

In [None]:
tips[['total_bill', 'tip']].plot(kind='hist', bins=30, alpha=0.5)

plt.show()

In [None]:
tips[['total_bill', 'tip']].plot(kind='kde', alpha=0.5)

plt.show()

## Boxplot (상자그래프)

In [None]:
# tips.tip.plot(kind='box');
tips.tip.plot(kind='box',
			whis=3)				# whis : 정상범위 조절 값 (default : 1.5)

plt.show()

In [None]:
tips[[ 'tip', 'total_bill']].plot(kind='box')

plt.show()

## scatter plot (산점도) 

In [None]:
# Dataframe을 이용해서만 그린다.
tips.plot(kind='scatter', x='total_bill', y='tip')

plt.show()

In [None]:
# 실수는 연속형, 정수는 범주 or 연속형 -> 정수는 갯수를 통해 파악
tips.plot(kind='scatter', x='size', y='tip')

plt.show()

In [None]:
tips[['size', 'tip']].corr()