# Base Settings

## Library

In [None]:
# Library import

## pandas
import pandas as pd


## numpy
import numpy as np
from numpy import linalg

## matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
import matplotlib.patches as mpatches
from matplotlib import cm
from matplotlib.ticker import LinearLocator


## scipy
from scipy import stats
from scipy.stats import skew, kurtosis
from scipy.cluster.hierarchy import dendrogram, linkage
from scipy.cluster.hierarchy import cut_tree
from scipy.misc import derivative

## statsmodels
import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from statsmodels.stats.multicomp import pairwise_tukeyhsd
from statsmodels.graphics.factorplots import interaction_plot

## scikit-learn
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn import datasets
from sklearn.model_selection import train_test_split


import missingno as msno
import urllib
import re
import random
import seaborn as sns
import math
from openpyxl import load_workbook
from datetime import datetime
from IPython.display import Image


import sympy
# Juypter 노트북에서 수학식의 LaTeX 표현을 위해 필요함
sympy.init_printing(use_latex='mathjax')


# from vega_datasets import data
# from tabulate import tabulate

#ignore warnings
import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

## Google Drive

In [None]:
# Google drive mout
from google.colab import drive
drive.mount('/content/drive')

## Path

In [None]:
# 경로 설정
# 기본 디렉토리 경로지정
path_base = '/content/drive/Shareddrives/coding/Colab_git_Public/'

# 데이터 디렉토리 경로지정
path_data = path_base + 'data/'

# 결과 디렉토리 경로지정
path_results = path_base + 'results/'

## 기타 설정

In [None]:
# 그래프 한글폰트 개선
# plt.rcParams['font.family'] ='Malgun Gothic'
# plt.rcParams['axes.unicode_minus'] =False
# plt.rc('font', family='NanumGothic')

In [None]:
# 그래프 한글폰트 개선
# !apt -qq -y install fonts-nanum > /dev/null
 
# fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
# font = fm.FontProperties(fname=fontpath, size=10)
# fm._rebuild()
 
# # 그래프에 retina display 적용
# %config InlineBackend.figure_format = 'retina'
 
# # Colab 의 한글 폰트 설정
# plt.rc('font', family='NanumBarunGothic') 

In [None]:
plt.style.use('seaborn')
# plt.style.use('default')
# sns.set(font_scale=1)

# pandas loat format 설정
# pd.options.display.float_format = None                  # float 포멧 초기화
pd.options.display.float_format = '{:.2f}'.format      # 소수점 둘째자리까지 표시
# pd.options.display.float_format = '{:,.2f}'.format      # 천단위 콤마찍고, 소수점 둘째자리까지 표시

# EDA

- [sklearn.datasets.fetch_california_housing](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html#sklearn.datasets.fetch_california_housing)

Load the California housing dataset (regression).
- Samples total : 20640
- Dimensionality : 8
- Features : real
- Target : real 0.15 - 5.
  - Each value corresponds to the average house value in units of 100,000.


- 데이터 셋 조회
  - 빌트인 데이터셋은 sklearn.utils.Bunch 라는 자료구조를 활용합니다.

  - key-value 형식으로 구성되어 있으며, 사전(dict)형 타입과 유사한 구조를 가지고 있습니다.

- 공통 key는 다음과 같습니다.

  - data: 샘플 데이터, Numpy 배열로 이루어져 있습니다.
  - target: Label 데이터, Numpy 배열로 이루어져 있습니다.
  - feature_names: Feature 데이터의 이름
  - target_names: Label 데이터의 이름
  - DESCR: 데이터 셋의 설명
  - filename: 데이터 셋의 파일 저장 위치 (csv)

In [None]:
house  = datasets.fetch_california_housing()
print(house.DESCR)

In [None]:
features = house['data']
features[:2]

In [None]:
feature_names = house['feature_names']
feature_names

In [None]:
labels = house['target']
labels


In [None]:
df = pd.DataFrame(features, columns=feature_names)
df.head()

In [None]:
df['target'] = house['target']

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.isna().sum()

In [None]:
df.duplicated().sum()