In [None]:
# 라이브러리 로드
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# os에 따라 시각화 폰트 설정하기
import os

if os.name == 'nt':
    font_family = "Malgun Gothic"
else:
    font_family = "AppleGothic"
    
sns.set(font=font_family, rc={"axes.unicode_minus" : False })

In [None]:
# retina 를 지원하는 디스플레이에서 폰트가 선명하게 보이기 위함
from IPython.display import set_matplotlib_formats

set_matplotlib_formats("retina")

In [None]:
# csv 파일 로드
df = pd.read_csv("bd_kma_weather.csv")
df.shape

In [None]:
pd.options.display.max_columns = 65

In [None]:
df.head()

### 히스토그램 시각화

In [None]:
# 전체 수치 변수에 대한 히스토그램

h = df.hist(figsize=(24, 24))

### 개별 변수 시각화와 bin의 갯수

In [None]:
fig, axes = plt.subplots(1, 3, figsize=(15, 4))
df["평균기온(°C)"].hist(bins=1, ax=axes[0])
df["평균기온(°C)"].hist(bins=10, ax=axes[1])
df["평균기온(°C)"].hist(bins=100, ax=axes[2])

In [None]:
# 일강수량(mm)

df["일강수량(mm)"].hist(bins=10)

### 왜도(비대칭도)

확률 이론 및 통계학에서, 비대칭도(非對稱度, skewness) 또는 왜도(歪度)는 실수 값 확률 변수의 확률 분포 비대칭성을 나타내는 지표이다. 왜도의 값은 양수나 음수가 될 수 있으며 정의되지 않을 수도 있다. 왜도가 음수일 경우에는 확률밀도함수의 왼쪽 부분에 긴 꼬리를 가지며 중앙값을 포함한 자료가 오른쪽에 더 많이 분포해 있다. 왜도가 양수일 때는 확률밀도함수의 오른쪽 부분에 긴 꼬리를 가지며 자료가 왼쪽에 더 많이 분포해 있다는 것을 나타낸다. 평균과 중앙값이 같으면 왜도는 0이 된다.

In [None]:
# skew 를 통해 왜도 구하기 
df["평균기온(°C)"].skew()

In [None]:
df["평균기온(°C)"].hist(bins=10)

In [None]:
df["평균 풍속(m/s)"].skew()

In [None]:
df["평균 풍속(m/s)"].hist()

### 첨도

* 첨도(尖度, 영어: kurtosis 커토시스)
* 확률분포의 뾰족한 정도를 나타내는 척도
* 관측치들이 어느 정도 집중적으로 중심에 몰려 있는가를 측정할 때 사용
* 첨도 값(K)의 해석
    * 3에 가까우면 산포도가 정규분포에 가까움
    * 3보다 작을 경우에는(K<3) 정규분포보다 더 완만하게 납작한 분포로 판단할 수 있음
    * 3보다 큰 양수이면(K>3) 산포는 정규분포보다 더 뾰족한 분포로 생각할 수 있음

In [None]:
# 3보다 작을 경우에는(K<3) 정규분포보다 더 완만하게 납작한 분포로 판단할 수 있음
df["평균 전운량(1/10)"].kurt()

In [None]:
df["평균 전운량(1/10)"].hist()

In [None]:
# 3보다 큰 양수이면(K>3) 산포는 정규분포보다 더 뾰족한 분포로 생각할 수 있음
df["일강수량(mm)"].kurt()

In [None]:
df["일강수량(mm)"].hist(bins=10)