<img src='https://seaborn.pydata.org/_static/logo-wide-lightbg.svg' width=500/>

# 06과 seaborn 다양한 차트들

## 1. 환경준비

* 라이브러리 불러오기

In [None]:
# anaconda 를 설치하게 되면, 다양한 패키지들이 함께 설치 됩니다.
# 그러나 이후에 패키지 업데이트를 위해서는 아래와 같은 작업이 필요합니다.

!pip install -U seaborn

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

* 데이터 불러오기 : 다음의 예제 데이터를 사용합니다.
> ① 타이타닉 생존자  
② 아이리스 꽃 분류  
③ 보스톤 시, 타운별 집값   
④ 뉴욕 공기오염도 조사

In [None]:
# 타이타닉 데이터
titanic = pd.read_csv('https://bit.ly/3FsgwkJ')
titanic.head()

In [None]:
# 아이리스 꽃 분류
iris = pd.read_csv('https://bit.ly/3JiY7ZZ')
iris.head()

In [None]:
# 보스톤 집값 데이터
boston = pd.read_csv('https://bit.ly/3EuWvZw')
boston.head()

In [None]:
# 뉴욕시 공기 오염도 데이터
air = pd.read_csv('https://bit.ly/3qmthqZ')
air['Date'] = pd.to_datetime(air['Date'])
air['Month'] = air.Date.dt.month
air['Weekday'] = air.Date.dt.weekday
air.head()

## 2. seaborn 다양한 차트들

### 1) 기본 차트들

* histogram : sns.histplot


https://seaborn.pydata.org/generated/seaborn.histplot.html

In [None]:
sns.histplot(data = titanic, x='Age', bins = 16)
plt.show()

In [None]:
sns.histplot(data = titanic, x='Age', bins = 16, hue = 'Survived')
plt.show()

* densityplot : sns.kdeplot

https://seaborn.pydata.org/generated/seaborn.kdeplot.html

In [None]:
sns.kdeplot(data = titanic, x = 'Age')
plt.show()

In [None]:
sns.kdeplot(data = titanic, x = 'Age', hue = 'Survived', common_norm = False)
plt.show()

* boxplot

https://seaborn.pydata.org/generated/seaborn.boxplot.html

In [None]:
sns.boxplot(data = titanic, y = 'Age')
plt.show()

In [None]:
sns.boxplot(data = titanic, y = 'Age', x = 'Survived')
plt.show()

#### 연습

* titanic의 Fare에 대해서, Pclass 별로 비교하는 차트를 그려봅시다.
    * histplot()
    * kdeplot()
    * boxplot()

In [None]:
# histplot


In [None]:
# kdeplot


In [None]:
# boxplot


### 2) distplot : histogram + density plot

https://seaborn.pydata.org/generated/seaborn.distplot.html

* hist_kws = dict() : 히스토그램을 꾸미기 위한 옵션, 딕셔너리 형태로 입력.
* 히스토그램과 밀도함수 그래프를 겹쳐서 표현



In [None]:
sns.distplot(titanic['Age'], bins = 16, hist_kws = dict(edgecolor='grey'))
plt.show()

###  3) jointplot : scatter + histogram(혹은 density plot)

https://seaborn.pydata.org/generated/seaborn.jointplot.html

* 두 숫자형 변수의 분포를 한꺼번에 비교하여 보여줍니다.
* Seaborn 그래프의 가장 큰 특징은 hue 옵션으로 범주 차원을 추가해서 볼 수 있습니다.


In [None]:
sns.jointplot(x='Petal.Length', y='Petal.Width', data = iris)
plt.show()

In [None]:
sns.jointplot(x='Petal.Length', y='Petal.Width', data = iris, hue = 'Species')
plt.show()

### 4) pairplot : scatter + histogram(혹은 density plot) 확장

https://seaborn.pydata.org/generated/seaborn.pairplot.html


* 모든 숫자형 변수들에 대해서 서로 비교하는 산점도 표시
* 각 변수에 대해서는 히스토그램(혹은 density plot) 표시
* 단점 : 시간이 오래 걸린다!



In [None]:
sns.pairplot(iris, hue = 'Species')
plt.show()

### 5) countplot : 집계 + bar plot

https://seaborn.pydata.org/generated/seaborn.countplot.html

* Matplotlib에서는 bar plot을 그릴때, 반드시 집계가 선행되어야 합니다.
* 그러나 seaborn.countplot 은 집계를 포함하여 barplot을 그려줍니다.


In [None]:
sns.countplot(x="Embarked", data=titanic)
plt.show()

In [None]:
sns.countplot(x="Embarked", data=titanic, hue = 'Survived')
plt.show()

### 6) barplot : 평균비교 bar plot + error bar

https://seaborn.pydata.org/generated/seaborn.barplot.html

* seaborn.barplot 은 일반적인 barplot이 아닙니다.
* 범주별(x), 숫자(y)의 평균을 비교하는 그래프 입니다.(중요!)
* 가운데 직선은, 신뢰구간을 의미합니다.


In [None]:
sns.barplot(x="Embarked", y="Fare", data = titanic)
plt.show()

### 7) heatmap : 두 범주 집계 시각화

https://seaborn.pydata.org/generated/seaborn.heatmap.html

* 두 범주를 집계한 결과를 색의 농도로 표현해주는 그래프입니다.
* 집계(groupby)와 피봇(pivot)을 먼저 만들어 줘야 합니다.
* 여러 범주를 갖는 변수 비교 시 유용합니다.


In [None]:
temp1 = titanic.groupby(['Embarked','Pclass'], as_index = False)['PassengerId'].count()
temp2 = temp1.pivot('Embarked','Pclass', 'PassengerId')
print(temp2)

sns.heatmap(temp2, annot = True)
plt.show()

In [None]:
# 값을 정수로, 구간 간격을 살짝 벌려서 그리자.
sns.heatmap(temp2, annot = True, fmt = 'd', linewidth = .2)
plt.show()

* 추가 : pivot
    * pivot 함수를 이용하여 집계된 데이터를 재구성할 수 있습니다.
    * 문법 : dataframe.pivot(index, colums, values)


<img src='https://github.com/DA4BAM/image/blob/main/pivot.png?raw=true' width=600/>

In [None]:
# zn2별, chas별, 평균 medv

temp1 = boston.groupby(['zn2', 'chas'], as_index = False)['medv'].mean()
temp1.pivot('zn2', 'chas', 'medv')

# 종합실습

## 1.환경준비

* 라이브러리 불러오기

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

* 데이터 불러오기 : 다음의 예제 데이터를 사용합니다.
> ① 타이타닉 생존자  
② 아이리스 꽃 분류  
③ 보스톤 시, 타운별 집값   
④ 뉴욕 공기오염도 조사  
⑤ 코스피지수

In [None]:
# 타이타닉 데이터
titanic = pd.read_csv('https://bit.ly/3FsgwkJ')
titanic.head()

In [None]:
# 아이리스 꽃 분류
iris = pd.read_csv('https://bit.ly/3JiY7ZZ')
iris.head()

In [None]:
# 보스톤 집값 데이터
boston = pd.read_csv('https://bit.ly/3EuWvZw')
boston.head()

In [None]:
# 뉴욕시 공기 오염도 데이터
air = pd.read_csv('https://bit.ly/3qmthqZ')
air['Date'] = pd.to_datetime(air['Date'])
air['Month'] = air.Date.dt.month
air['Weekday'] = air.Date.dt.weekday
air.head()

In [None]:
# 코스피 지수
stock = pd.read_csv('https://raw.githubusercontent.com/DA4BAM/dataset/master/KOSPI.csv')
stock['Date'] = pd.to_datetime(stock['Date'])
stock['Year'] = stock.Date.dt.year
stock['Month'] = stock.Date.dt.month
stock['Weekday'] = stock.Date.dt.weekday
stock.head()

## 2.seaborn 다양한 차트들

### 1) 기본 차트들

① iris의 Petal.Length 에 대해서, Species 별로 비교하는 차트를 그려봅시다.
    * histplot()
    * kdeplot()
    * boxplot()

* histogram : sns.histplot

* densityplot : sns.kdeplot

* boxplot

### 2) distplot : histogram + density plot

① titanic['Fare'] 에 대해서 distplot을 그려 봅시다.
* bin의 개수를 10 ~ 50 사이에서 조절해 봅시다.
* 히스토그램을 꾸며 봅시다. hist_kws = {'edgecolor':'grey'}


② boston['medv'] 에 대해서 distplot을 그려 봅시다.

* bin의 개수를 10 ~ 50 사이에서 조절해 봅시다.
* 히스토그램을 꾸며 봅시다. hist_kws = {'edgecolor':'grey'}

###  3) jointplot : scatter + histogram(혹은 density plot)

① titanin['Age']와 titanic['Fare']에 대해 join plot을 그려봅시다.

② titanin['Age']와 titanic['Fare']에 대해 join plot을 그려봅시다. 단, 생존여부(Survived) 별로 구분.

### 4) pairplot : scatter + histogram(혹은 density plot) 확장


① air 데이터셋에 대해서 pairplot을 그려 봅시다.

② air 데이터셋에 대해서 pairplot을 그릴 때, 월별로 구분해서)

### 5) countplot : 집계 + bar plot

① boston['chas'] 에 대해 countplot을 그려 봅시다.

② titanic['Survived']에 대해 countplot을 그려 봅시다.

③ titanic['Survived']에 대해 성별 별로 구분하여 countplot을 그려 봅시다.

### 6) barplot : 평균비교 bar plot + error bar

① boston['chas'] 별 boston['medv']의 평균을 비교해 봅시다.

② air['Month'] 별 air['Ozone']의 평균을 비교해 봅시다.

### 7) heatmap : 두 범주 집계 시각화

① [groupby] stock 데이터를 이용하여 year별, month별 평균 주가(close)를 집계하시오.

② [pivot]  'Year','Month', 'Close' 으로 피봇시키시오.

③ heatmap을 그리시오.