# Seaborn
- 참조 사이트 : https://seaborn.pydata.org
- matplotlib을 기반으로 하는 Python 데이터 시각화 라이브러리
- 매력적이고 유익한 통계 그래픽을 그리기 위한 고급 인터페이스를 제공
- 업데이터 : conda install seaborn (관리자 모드에서 설치)
- 표현 가능 그래프 : 관계형, 카테고리, 분포, 회귀분석, 멀티-플롯, 스타일, 색상 등

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

sns.set(style='whitegrid')

%matplotlib inline

In [None]:
from matplotlib import rc, font_manager
# 한글 처리를 위해 폰트 설정
font_name=font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font',family=font_name)
#그림 크기
plt.rcParams['figure.figsize']=(12,9)

In [None]:
# titanic 데이터 로드
titanic=sns.load_dataset('titanic')
print(titanic.shape)
titanic.head()

# titanic field
- survived: 생존여부
- pclass: 좌석등급
- sex: 성별
- age: 나이
- sibsp: 형제자매 + 배우자 숫자
- parch: 부모자식 숫자
- fare: 요금
- embarked: 탑승 항구
- class: 좌석등급 (영문)
- who: 사람 구분
- deck: 데크
- embark_town: 탑승 항구 (영문)
- alive: 생존여부 (영문)
- alone: 혼자인지 여부

In [None]:
# tips 데이터 셋 load
tips=sns.load_dataset('tips')
print(tips.shape)
tips.head()

In [None]:
sns.get_dataset_names() # seaborn의 데이터 셋 확인

# tips 데이터 셋 필드
- total_bill: 총 합계 요금표
- tip: 팁
- sex: 성별
- smoker: 흡연자 여부
- day: 요일
- time: 식사 시간
- size: 식사 인원

# 1. countplot()
- 항목의 갯수를 세어줌
- 알아서 column을 구성하고 있는 value들을 구분하여 보여즘

In [None]:
sns.countplot(x="class", hue='who', data=titanic)
plt.show()

In [None]:
sns.countplot(y="class", hue='who', data=titanic)
plt.show()

In [None]:
sns.countplot(x="class", data=titanic)
plt.show()

In [None]:
sns.countplot(x="class", hue='who', palette='YlGn', data=titanic)
#palette 값 입력 오류시 사용가능한 palette명 표시 , 예:  palette='Accent1111111111'
plt.show()

In [None]:
# seaborn color palette 사용 
#참조사이트 :https://www.geeksforgeeks.org/seaborn-color-palette/
current_palette = sns.color_palette()
#sns.palplot(current_palette)

#sns.palplot(sns.color_palette("Greys"))
sns.palplot(sns.color_palette("terrain_r", 7))
#sns.palplot(sns.color_palette("deep", 10))
#sns.palplot(sns.color_palette("muted", 10))
#sns.palplot(sns.color_palette("bright", 10))
#sns.palplot(sns.color_palette("dark", 10))
color = ["Blue", "White", "Red", "Yellow", "Green", "Grey"]
sns.set_palette('deep')
#sns.palplot(sns.color_palette())

# 2. relplot
- 두 comumn간의 상관관계를 보여줌

In [None]:
#sns.relplot(x='x축으로 사용할 필드', y='y축으로 사용할 필드', data='dataFrame')
print(tips.total_bill.corr(tips.tip))
sns.relplot(x='total_bill', y='tip', data=tips)
#sns.scatterplot(x='total_bill', y='tip', data=tips) # 

In [None]:
tips

In [None]:
sns.scatterplot(x='total_bill', y='tip', data=tips, hue='smoker')

In [None]:
# hue 색상 : 범주형 데이터
sns.relplot(x='total_bill', y='tip', data=tips, hue='smoker')

In [None]:
sns.relplot(x="total_bill", y="tip", hue="day", data=tips)
plt.show()

In [None]:
tips

In [None]:
# hue 색상 : 수치형 데이터
sns.relplot(x='total_bill', y='tip', data=tips, hue='size')

In [None]:
#style & hue
sns.relplot(x='total_bill', y='tip', data=tips, style='smoker', hue='size')

In [None]:
sns.relplot(x='total_bill', y='tip', data=tips, palette='husl', hue='size')

In [None]:
#마크의 크기 설정
sns.relplot(x='total_bill', y='tip', data=tips, palette='terrain_r', 
            size='size' , hue='size')

In [None]:
# row와 column에 표기할 데이터 column 선택하여 표현 가능
sns.relplot(x="total_bill", y="tip", hue="smoker", col="day", data=tips)
plt.show()

In [None]:
# row와 column에 표기할 데이터 column 선택하여 표현 가능
sns.relplot(x="total_bill", y="tip", hue="day", row="sex", col="time", 
            data=tips)
plt.show()

In [None]:
# rel plot로 line 그래프 그리기
df=pd.DataFrame(dict(time=np.arange(500), value=np.random.randn(500).cumsum()))
df

In [None]:
plt.rcParams['axes.unicode_minus']=False
sns.relplot(x='time', y='value', data=df, kind='line')

In [None]:
fmri=sns.load_dataset('fmri')
print(fmri.shape)
fmri

In [None]:
# 95% 신뢰구간 보여줌

sns.relplot(x='timepoint', y='signal', data=fmri, kind='line')

In [None]:
sns.relplot(x='timepoint', y='signal', data=fmri, kind='line', ci=None)

In [None]:
sns.relplot(x='timepoint', y='signal', data=fmri, kind='line', ci=50)

In [None]:
sns.relplot(x='timepoint', y='signal', data=fmri, kind='line', ci="sd")

In [None]:
sns.relplot(x='timepoint', y='signal', data=fmri, kind='line', 
            hue='region', style='event')

# 3.distplot
– matplotlib의 hist 그래프와 kdeplot(ked : Kernel Density Estimation)을 통합한 그래프 이며, 분포와 밀도를 확인할 수 있다.

In [None]:
# histplot을 구현하기 위한 샘플 데이터를 생성
x = np.random.randn(100)
x

In [None]:
sns.distplot(x)
plt.show()

In [None]:
sns.distplot(x, rug=True, hist=True, kde=True)
plt.show()

In [None]:
sns.kdeplot(x)

In [None]:
plt.hist(x)

In [None]:
# rugplot
# rug는 rugplot이라고도 불리우며, 데이터 위치를 x축 위에 **작은 선분(rug)으로 나타내어
# 데이터들의 위치 및 분포**를 보여준다.
sns.distplot(x, rug=True, hist=False, kde=True)
plt.show()

In [None]:
# kde(kernel density)plot
# kde는 histogram보다 부드러운 형태의 분포 곡선을 보여주는 방법
sns.distplot(x, rug=False, hist=False, kde=True)
plt.show()

In [None]:
# 가로로 표현하기
sns.distplot(x, vertical=True)

In [None]:
# 컬러 변경하기 color : r,g,b,c,m,y 가능
sns.distplot(x, color="c") 
plt.show()

In [None]:
#histplot() 사용
sns.histplot(data=x, kde=True)
sns.rugplot(x=x)
plt.show()

In [None]:
sns.histplot(data=tips.total_bill, kde=True)
sns.rugplot(x=tips.total_bill)
plt.show()

# 4. heatmap
– 색상으로 표현할 수 있는 다양한 정보를 일정한 이미지위에 열분포 형태의 비쥬얼한 그래픽으로 출력 가능하다.

In [None]:
# 기본 heatmap
heatmap_data = np.random.rand(10, 12)
sns.heatmap(heatmap_data, annot=True) #annot=True로 해야 수치 표현도 가능
plt.show()

- pivot table을 활용해서 heatmap을 그릴 수 있다.
- 위에서 블러왔던 tips 데이터를 pivot table 형태로 가공 후 heatmap으로 표현해보자.

In [None]:
pivot = tips.pivot_table(index='day', columns='size', values='tip')
pivot

In [None]:
sns.heatmap(pivot, cmap='Blues', annot=True) #cmap으로 전체적인 컬러 조정 가능
plt.show()

In [None]:
# 상관관계를 표시할 때도 heatmap을 유용하게 사용할 수 있다.
# corr() 함수는 데이터의 상관관계를 보여준다.
titanic.corr()

In [None]:
sns.heatmap(titanic.corr(), annot=True, cmap="YlGnBu")
plt.show()