### 단변량 그래프 그리기 - 히스토그램

In [1]:
import seaborn as sns

In [2]:
tips = sns.load_dataset('tips')

In [3]:
%matplotlib notebook
import matplotlib.pyplot as plt

#### histogram 도수분포표를 그래프로 나타낸 것 보통 x축이 계급이고 y축이 도수이다.

In [4]:
ax = plt.subplots()
ax = sns.histplot(tips['total_bill'], kde=True)
ax.set_title('Total Bill Histogram with Density Plot''Total Bill Histogram with Density Plot')
ax.set_ylabel('Freuency')
ax.set_xlabel('Total Bill')

<IPython.core.display.Javascript object>

Text(0.5, 0, 'Total Bill')

In [5]:
ax = plt.subplots()
ax = sns.kdeplot(tips['total_bill'])
ax.set_title('Total Bill Histogram with Density Plot''Total Bill Histogram with Density Plot')
ax.set_ylabel('Unit Probability')
ax.set_xlabel('Total Bill')

<IPython.core.display.Javascript object>

Text(0.5, 0, 'Total Bill')

#### rugplot은 양탄자 그래프라고 하며 그래프의 축에 동일한 길이의 직선을 붙여 데이터의 밀집 정도를 표현한 것이다.

In [6]:
ax = plt.subplots()
ax = sns.histplot(tips['total_bill'], kde=True)
ax = sns.rugplot(tips['total_bill'])
ax.set_title('Total Bill Histogram with Density Plot''Total Bill Histogram with Density Plot')
ax.set_ylabel('Freuency')
ax.set_xlabel('Total Bill')

<IPython.core.display.Javascript object>

Text(0.5, 0, 'Total Bill')

In [7]:
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [8]:
ax = plt.subplots()
ax = sns.countplot('day', data=tips)
ax.set_title('Count of days')
ax.set_xlabel('Day of the Week')
ax.set_ylabel('Frequency')

<IPython.core.display.Javascript object>



Text(0, 0.5, 'Frequency')

### 다양한 종류의 이변량 그래프 그리기

In [9]:
ax = plt.subplots()
# regplot 회귀 선과 함께 산점도 그래프가 그려진다. fit_reg 인자로 회귀선 유무를 결정할 수 있다.
ax = sns.regplot(x='total_bill', y='tip', data=tips)
ax.set_title('Scatterplot of Total Bill and Tip')
ax.set_xlabel('Total_Bill')
ax.set_ylabel('Tip')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Tip')

In [10]:
ax = plt.subplots()
# regplot 회귀 선과 함께 산점도 그래프가 그려진다. fit_reg 인자로 회귀선 유무를 결정할 수 있다.
ax = sns.regplot(x='total_bill', y='tip', data=tips, fit_reg=False)
ax.set_title('Scatterplot of Total Bill and Tip')
ax.set_xlabel('Total_Bill')
ax.set_ylabel('Tip')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Tip')

#### jointplot 산점도 그래프와 히스토그래 그래프를 한 번에 그린다.

In [11]:
joint = sns.jointplot(x='total_bill', y='tip', data=tips)
joint.set_axis_labels(xlabel='Total_Bill', ylabel='Tip')
joint.fig.suptitle('Joint Plot of Total Bill and Tip', fontsize=10, y=1.03) # 제목이 왜 안나오지?
joint.fig.tight_layout()

<IPython.core.display.Javascript object>

In [12]:
joint = sns.jointplot(x='total_bill', y='tip', data=tips, kind='hex') # 기존 산점도 그래프를 보완하여 가시성을 높임
joint.set_axis_labels(xlabel='Total_Bill', ylabel='Tip')
joint.fig.suptitle('Joint Plot of Total Bill and Tip', fontsize=10, y=1.03) # 제목이 왜 안나오지?
joint.fig.tight_layout()

<IPython.core.display.Javascript object>

#### 이차원 밀집도 그래프 그리기

In [13]:
ax = plt.subplots()
ax = sns.kdeplot(x=tips['total_bill'],
                y=tips['tip'],
                shade=True)
ax.set_title('Kernal Density Plot of Total Bill and Tip')

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Kernal Density Plot of Total Bill and Tip')

#### 바 그래프 그리기
- 지정한 변수의 평균을 계산하여 그림

In [14]:
ax = plt.subplots()
ax = sns.barplot(x='time', y='total_bill', data=tips)
ax.set_title('Bar plot of average totla bill for time of day')
ax.set_xlabel('Time of day')
ax.set_ylabel('Average total bill')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Average total bill')

#### 박스 그래프 그리기
- 박스 그래프는 최소값, 1분위수, 중간값, 3분위수, 최댓값, 이상치 등 다양한 통계량을 한 번에 표현하는 그래프입니다.

In [15]:
ax = plt.subplots()
ax = sns.boxplot(x='time', y='total_bill', data=tips)
ax.set_title('Boxplot of total bill by time of day')
ax.set_xlabel('Time of day')
ax.set_ylabel('Total Bill')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Total Bill')

#### 바이올린 그래프
- 박스 그래프에서 데이터 분산이 모호한 것을 대신하는? 그래프

In [16]:
ax = plt.subplots()
ax = sns.violinplot(x='time', y='total_bill', data=tips)
ax.set_title('Boxplot of total bill by time of day')
ax.set_xlabel('Time of day')
ax.set_ylabel('Total Bill')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Total Bill')

#### 관계 그래프 그리기

In [17]:
fig = sns.pairplot(tips)

<IPython.core.display.Javascript object>

In [18]:
pair_grid = sns.PairGrid(tips)
pair_grid = pair_grid.map_upper(sns.regplot)
pair_grid = pair_grid.map_lower(sns.kdeplot)
pair_grid = pair_grid.map_diag(sns.distplot, rug=True)
# pair_grid = pair_grid.map_diag(sns.kdeplot)
# pair_grid = pair_grid.map_diag(sns.histplot)
# pair_grid = pair_grid.map_diag(sns.rugplot)
plt.show()

<IPython.core.display.Javascript object>



### 다변량 그래프 그리기

In [19]:
ax = plt.subplots()
ax = sns.violinplot(x='time', y='total_bill', hue='sex', data=tips, split=True)

<IPython.core.display.Javascript object>

In [50]:
scatter = sns.lmplot(x='total_bill', y='tip', data=tips, hue='sex', fit_reg=False)

<IPython.core.display.Javascript object>

In [21]:
fig = sns.pairplot(tips, hue='sex')

<IPython.core.display.Javascript object>

#### 산점도 그래프의 크기와 모양 조절하기
- 책에서는 sns.lmplot()의 scatter_kws = dictionary 형태의 인자를 사용하여 마커의 크기를 조절하였지만 스칼라 값이 아니라는 에러가 발생하였다. 
- 스칼라 값은 int, float, None, bool 4가지 타입을 말하는데 size는 int 값 임에도 에러가 해결이 안되어 scatterplot의 size 인자를 활용하여 대체하였다.

In [51]:
scatter = sns.scatterplot(x='total_bill', y='tip', hue='sex', size='size', data=tips)
scatter

<IPython.core.display.Javascript object>

<AxesSubplot:xlabel='total_bill', ylabel='tip'>

#### 그룹별로 다른 기호로 표기하기
- 책에서 처럼 markers 인자를 활용해 라스트, 딕셔너리를 전달해보았지만 적용에 실패하였다
- 아래의 style 인자를 활용해서 해결하였다.

In [67]:
scatter = sns.scatterplot(x='total_bill', y='tip', hue='sex', size='size', markers={'o','^'}, data=tips)
scatter

<IPython.core.display.Javascript object>

<AxesSubplot:xlabel='total_bill', ylabel='tip'>

In [68]:
scatter = sns.scatterplot(x='total_bill', y='tip', hue='sex', size='size', style='sex', data=tips)
scatter

<IPython.core.display.Javascript object>

<AxesSubplot:xlabel='total_bill', ylabel='tip'>

#### lmplot 메서드로 4개의 데이터 그룹에 대한 그래프 한 번에 그리기

In [69]:
anscombo = sns.load_dataset("anscombe")

In [72]:
anscombo.head()

Unnamed: 0,dataset,x,y
0,I,10.0,8.04
1,I,8.0,6.95
2,I,13.0,7.58
3,I,9.0,8.81
4,I,11.0,8.33


In [70]:
anscombo_plot = sns.lmplot(x='x', y='y', data=anscombo, fit_reg=False)

<IPython.core.display.Javascript object>

In [75]:
# col = 기준 값, col_wrap = 그래프를 그릴 열의 최댓값
anscombo_plot = sns.lmplot(x='x', y='y', data=anscombo, fit_reg=False, col='dataset', col_wrap=2)

<IPython.core.display.Javascript object>

#### FaceGrid 그래프로 그룹별 그래프 그리기

In [77]:
tips.head(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3


In [80]:
facet = sns.FacetGrid(tips, col='time')
facet.map(sns.distplot, 'total_bill', rug=True)

<IPython.core.display.Javascript object>



<seaborn.axisgrid.FacetGrid at 0x2774b2ff580>

In [82]:
facet = sns.FacetGrid(tips, col='day', col_wrap=2, hue='sex')
facet = facet.map(plt.scatter, 'total_bill', 'tip')
facet = facet.add_legend()

<IPython.core.display.Javascript object>

In [85]:
facet = sns.FacetGrid(tips, col='time', row='smoker', hue='sex')
facet.map(plt.scatter, 'total_bill', 'tip')

<IPython.core.display.Javascript object>

<seaborn.axisgrid.FacetGrid at 0x2775bc6ff70>