In [1]:
from IPython.display import display, HTML
display(HTML("""
<style>
div.container{width:99% !important;}
div.cell.code_cell.rendered{width:100%;}
div.input_prompt{padding:0px;}
div.CodeMirror {font-family:Consolas; font-size:22pt;}
div.text_cell_render.rendered_html{font-size:18pt;}
div.output {font-size:22pt; font-weight:bold;}
div.input {font-family:Consolas; font-size:22pt;}
div.prompt {min-width:70px;}
div#toc-wrapper{padding-top:120px;}
div.text_cell_render ul li{font-size:22pt;padding:5px;}
table.dataframe{font-size:22px;}
</style>
"""))

<b><font size="6" color="red">ch12. 데이터 시각화</font></b>

In [None]:
# 패키지 import
import matplotlib.pyplot as plt
import seaborn as sns
# 그래프 저장시 해상도 높게
%config InlineBackend.figure_format = 'retina'
# 한글설정(windows mac)
plt.rc('font', family='Malgun Gothic') # 윈도우즈
# plt.rc('font', family='AppleGothic') # mac
plt.rc('axes', unicode_minus=False) # 축의 - 깨짐 방지
# warning 안보이게
import warnings
warnings.filterwarnings(action='ignore') # warning 안 보이게

# 2절 seaborn
- matplotlib을 기반으로 만든 고수준 그래픽 라이브러리
    * 공식 사이트 : https://seaborn.pydata.org/
    * 그래프 API : https://seaborn.pydata.org/api.html
- Seaborn으로 그래프 그리기 위한 단계
    1. 데이터 준비
    2. 미적속성 설정
    3. 함수를 이용해서 그래프 그리기(관계형=수치형, 범주형, 쌍관계, 밀도, 회귀, 다중그래프)
    4. 그래프 출력(show), 저장(savefig)
## 2.1 데이터 준비하기
- iris, titanic

In [None]:
iris = sns.load_dataset('iris')
iris.shape

In [None]:
iris.info() # dtype, 전체행수, 결측치를제외한데이터수, 메모리사용량

In [None]:
titanic = sns.load_dataset('titanic')
titanic.head()
# pclass : 티켓class
# sibsp: 통승한 형제나 배우자 / parch:동승한부모/자식수/embarked:탑승지
# deck : 데크

In [None]:
titanic.info()

## 2.2 미적 속성 설정하기(style, context, palette, figsize,...)
### 1) 그래프 스타일 지정
- white, whitegrid, darkgrid, dark, ticks
### 2) 컨텍스트 지정(배율)
- notebook(기본값 1.0), paper(0.8), talk(1.3), poster(1.8)
### 3) 컬러팔레트
- https://matplotlib.org/stable/tutorials/colors/colormaps.html (colormap) 21, 54page
- https://seaborn.pydata.org/generated/seaborn.color_palette.html#seaborn.color_palette
- https://seaborn.pydata.org/tutorial/color_palettes.html

https://stackoverflow.com/questions/30490740/move-legend-outside-figure-in-seaborn-tsplot : 범례사용

In [None]:
# 기본 미적 속성 설정
sns.set(style='darkgrid', 
        context='notebook',
        palette='Set2',
        rc={'figure.figsize':(10,3)})
plt.rc('font', family='Malgun Gothic') # 윈도우즈
plt.rc('axes', unicode_minus=False) # 축의 - 깨짐 방지

ax = sns.scatterplot(data=iris, x='petal_length', y='petal_width', hue='species',
               palette='hsv')
sns.move_legend(ax, "upper left", bbox_to_anchor=(1, 1))
ax.set(title='상관관계가 높은 두 변수',
      ylabel='꽃잎너비')
ax.set_xlabel('꽃잎 길이', fontsize=20)
ax.set_xticks([1, 3, 5, 7])
plt.show()

In [None]:
# 기본 미적 속성 설정
sns.set(style='darkgrid', 
        context='notebook',
        palette='Set2',
        rc={'figure.figsize':(10,3)}) 
plt.rc('font', family='Malgun Gothic') # 윈도우즈
plt.rc('axes', unicode_minus=False) # 축의 - 깨짐 방지

## 2.3 seaborn 함수로 그래프 그리기
### 1) 관계형 그래프
- scatterplot, lineplot, relplot(서브플롯제공) : x가 수치형

In [None]:
# 종별 다른색상과 다른 스타일로 scatter
sns.scatterplot(data=iris, x='petal_length', y='petal_width', hue='species',
               style='species', palette='Set1')
plt.show()

In [None]:
# 종별 다른색상과 다른 스타일로 lineplot
sns.lineplot(data=iris, x='petal_length', y='petal_width', hue='species',
               style='species', palette='Set1')
plt.show()

In [None]:
# 종별 lineplot을 서브플롯으로
sns.relplot(data=iris, x='petal_length', y='petal_width', hue='species',
           kind='line', # 서브플롯으로 그려질 그래프 종류(기본값:scatter)
           col='species', # col단위로 서브플롯 표현
           #col_wrap=2,    # 한줄에 표현될 서브플롯 수 
           #facet_kws={'sharey':False} # 축공유
           )
plt.show()

In [None]:
# 종별 scatterplot을 서브플롯으로
g = sns.relplot(data=iris, x='petal_length', y='petal_width', hue='species',
           kind='scatter', # 서브플롯으로 그려질 그래프 종류(기본값:scatter)
           col='species', # col단위로 서브플롯 표현
           #col_wrap=2,    # 한줄에 표현될 서브플롯 수 
           #facet_kws={'sharey':False} # 축공유
           )
# 크기 조정
g.fig.set_size_inches(10,3)
plt.show()

In [None]:
# ax[0]에는 scatter, ax[1]에는 line
fig, ax = plt.subplots(ncols=2)
sns.scatterplot(data=iris, x='petal_length', y='petal_width', hue='species', ax=ax[0])
sns.lineplot(data=iris, x='petal_length', y='petal_width', hue='species', ax=ax[1])
plt.show()

### 2) 범주형 그래프
- stripplot(무작위로 흩뿌림), swarmplot(겹치지않음) - 점도표
- barplot, pointplot(막대대신 marker가 있는 선)
- countplot(bar는 y의 평균값이높이, count는 x의 빈도수 높이)
- boxplot, violinplot, boxenplot => catplot(서브플롯)

In [None]:
# x축이 범주형일때의 산점도
sns.stripplot(data=iris, x='species', y='petal_width', hue='species', palette='Set1')
plt.show()

In [None]:
# x축이 범주형일때의 산점도(중첩되지 않게)
sns.swarmplot(data=iris, x='species', y='petal_width', hue='species', palette='Set1')
plt.show()

In [None]:
# 내림차순으로 정렬된 iris 범주형 산점도
sns.swarmplot(data=iris.sort_values('petal_width', ascending=False),
             x='species', y='petal_width', hue='species', palette='Set1')
plt.show()

In [None]:
# x축의 순서를 임의로 정할 수 있음
sns.swarmplot(data=iris,
             x='species', y='petal_width', hue='species', palette='Set1',
             order=['versicolor','setosa','virginica'])
plt.show()

In [None]:
# barplot : 각 범주별 평균값과 그에 대한 신뢰구간(신뢰구간제외:errorbar=None)
sns.barplot(data=iris, x='species', y='sepal_width',
           errorbar=None)
sns.lineplot(data=iris, x='species', y='sepal_width', color='k')
plt.show()

In [None]:
sns.pointplot(data=iris, x='species', y='sepal_width')
plt.show()

In [None]:
titanic.head()

In [None]:
# 성별 평균 생존율을 막대그래프
sns.barplot(data=titanic, x='sex', y='survived',
           order=['female','male'],
           palette='Pastel2')
plt.show()

In [None]:
# 남여 데이터 수
titanic.groupby('sex')['survived'].count()

In [None]:
# 남여 데이터 수 (정렬)
titanic['sex'].value_counts()

In [None]:
# class별 생존률
sns.barplot(data=titanic, x='sex', y='survived', hue='class')

In [None]:
# class 별 성별 생존률을 서브플롯
g = sns.catplot(data=titanic,
               x='sex',
               y='survived',
               hue='class',
               kind='bar', # 기본값은 strip
               col='class',
               facet_kws={'sharex':False})
g.fig.set_size_inches(10,3)

In [None]:
# deck별 데이터수를 막대그래프로(countplot)
sns.countplot(data=titanic, x='deck')
plt.show()

In [None]:
# deck별 갯수
titanic['deck'].value_counts()

In [None]:
# deck별 데이터수를 막대그래프로(countplot)
sns.countplot(data=titanic, x='deck', order=titanic['deck'].value_counts().index)
plt.show()

In [None]:
# boxplot
sns.boxplot(data=titanic, x='sex', y='age')
plt.show()

In [None]:
sns.violinplot(data=titanic, x='sex', y='age')
plt.show()

In [None]:
sns.boxenplot(data=titanic, x='sex', y='age')
plt.show()

### 3) 쌍관계 그래프
- pairplot : 모든 수치형 변수 쌍에 대해 산점도와 히스토그램을 보여줌

In [None]:
sns.pairplot(data=iris, hue='species')
plt.show()

### 4) 밀도그래프

In [None]:
import numpy as np
x = np.random.randn(10000) # 평균0, 표준편차1인 정규분포를 이루는 10000개 데이터
sns.histplot(x, kde=False) # kde=False분포를 매끄럽게
plt.show()

In [None]:
sns.distplot(x)
plt.show()

### 5) 회귀 그래프

In [None]:
corr = iris.corr(numeric_only=True)
corr

In [None]:
sns.heatmap(corr, vmin=-1, vmax=1, annot=True, fmt='.3f', cmap='Greens', cbar=False)
plt.show()

In [None]:
np.ones_like(corr, dtype=bool) # corr과 구조가 같은 1로 채워진 배열

In [None]:
sns.set(style='white')

mask = np.triu(np.ones_like(corr, dtype=bool) )
sns.heatmap(corr, vmin=-1, vmax=1, annot=True, fmt='.3f', cmap='Greens', mask=mask)
plt.show()

In [None]:
# 회귀그래프 : regplot(hue사용불가), lmplot(hue사용가능)
sns.regplot(data=iris, x='petal_length', y='petal_width')
plt.show()

In [None]:
g = sns.lmplot(data=iris, x='petal_length', y='petal_width', hue='species',
          col='species')
g.fig.set_size_inches(10,3)
plt.show()

## 2.4 다중그래프를 위한 FacetGrid

In [None]:
g = sns.FacetGrid(iris, col='species', hue='species')
g.map(sns.scatterplot, 'petal_length', 'petal_width')
plt.show()

In [None]:
g = sns.relplot(iris, x='petal_length', y='petal_width', hue='species', col='species')
g.fig.set_size_inches(10,3)
plt.show()