# 탐색적 분석 (exploratory data analysis: EDA)  
- 데이터 분석의 첫 번째 단계로  
- 본격적인 데이터 분석을 수행하기에 전에 데이터의 전체적인 특성을 살펴보는 것
- 다양한 각도에서 데이터를 관찰하고 이해하는 과정    
- (수집한 데이터가 분석에 적절한지 알아보는 과정)  
- 그래프와 통계적 분석 방법을 활용하여 데이터 탐구 수행  
---
- 데이터의 양, 유형과 범위, 유효성, 비율, 분포 등 파악
- (분석하기에 데이터양이 적절한지, 쓸모있는 데이터인지 확인)
---
- 데이터 전처리를 같이 수행하기도 함
  - 데이터 클리닝 - 결측치 및 잘못된 값 처리
  - 스케일링 - 표준 스케일링, min-max 스케일링
  - 결측치/이상치 처리 - 결측치/이상치 탐지 및 제거/대체
  - 데이터 변환 - 로그 변환, 카테고리 인코딩 등


## 주택가격 데이터 탐색
- 사용 데이터 : 미국 아이오와 주의 에임즈(Ames) 지방의 주택 가격 정보 데이터
- 79개의 변수로 구성 

### 주택가격 데이터 탐색 수행 작업

- 데이터 특성 파악 : 기본 정보 확인
  - df.info() : 컬럼 확인
  - features(컬럼) 설명 자료 활용
  - 박스 플롯으로 기초 통계 분포 확인 
  - 히스토그램으로 발생 빈도수 확인
  - distplot() 으로 분포 확인 (왜도/첨도 확인)
    - 정규분포에서 많이 벗어나 있으면 로그변환 수행 필요

- 목적변수(타겟 변수)와 다른 입력 변수(피처)들 과의 관계 확인
  - 히트맵으로 상관관계 파악
  - pairplot()으로 확인
  - 산포도로 확인 : 관계 및 이상치 파악

- 카테고리 특성과의 관계 확인
  - 박스플롯  확인
    -- 예) 평점에 따른 가격 차이  
           연도별 주택가격 변화 추이 확인

- 결측치 확인
- 이상치 확인
  - 확률 분포에서 찾기 : distplot()
  - 산포도로 찾기


In [51]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

In [52]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

# 경고 메시지 무시 설정
import warnings
warnings.filterwarnings(action='ignore')

In [83]:
import seaborn as sns

In [54]:
# 주택가격 데이터 
data = pd.read_csv("./data/house_price.csv")
data.head(3)

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500


## 데이터 특성 파악
- 특성 설명 : features(컬럼) 설명 자료 필요함 (도메인지식이 분석에 아주 중요함)
---
SalePrice: 판매가격(달러), 목적변수(예측하려는 대상 변수)  
MSSubClass : 건물 클래스  
MSZoning : 일반 구역 분류  
LotFrontage : 부동산에 연결된 거리의 선형 피트  
LotArea : 평방 피트 단위의 부지 크기  
Street : 도로 접근 유형  
Alley : 골목 접근 방식  
LotShape : 속성의 일반적인 모양  
LandContour : 부동산의 평탄도  
Utilities : 사용 가능한 유틸리티 유형  
LotConfig : 로트 구성  
LandSlope : 속성의 기울기  
Neighborhood : Ames 시 경계 내의 물리적 위치  
Condition1 : 간선도로 또는 철도와 인접  
Condition2 : 간선도로 또는 철도와의 근접성(초가 있는 경우)  
BldgType : 주거 유형  
HouseStyle : 주거 스타일  
OverallQual : 전체재질 및 마감품질  
OverallCond : 전체 상태 등급  
YearBuilt : 원래 건설 날짜  
YearRemodAdd : 리모델링 날짜  
RoofStyle : 지붕 유형  
RoofMatl : 지붕 재료  
ExterQual1st : 주택의 외부 피복  
ExterQual2nd : 주택의 외부 덮음(하나 이상의 재료인 경우)  
MasVnrType : 석조 베니어 유형  
MasVnrArea : 석조 베니어판 면적(제곱피트)  
ExterQual : 외장재 품질  
ExterCond : 외장재의 현황  
Foundation : 기반의 종류  
BsmtQual : 지하실 높이  
BsmtCond : 지하실의 일반 상태  
BsmtExposure : 파업 또는 정원 수준의 지하 벽  
BsmtFinType1 : 지하실 마감 면적의 품질  
BsmtFinSF1 : 1종 제곱피트 완성  
BsmtFinType2 : 두 번째 완성 영역의 품질(있는 경우)  
BsmtFinSF2 : 유형 2 완성 평방 피트  
BsmtUnfSF : 지하실의 미완성 평방 피트  
TotalBsmtSF : 지하실의 총 평방 피트  
Heating : 난방의 종류  
HeatingQC : 난방 품질 및 상태  
CentralAir : 중앙 에어컨  
Electrical : 전기 시스템  
1stFlrSF : 1층 평방피트  
2ndFlrSF : 2층 평방피트  
LowQualFinSF : 저품질 마감 평방 피트(모든 층)  
GrLivArea : 지상(지상) 거실 면적 평방피트  
BsmtFullBath : 지하 전체 욕실  
BsmtHalfBath : 지하 반 화장실  
FullBath : 등급 이상의 전체 욕실  
HalfBath : 등급 이상의 반욕  
Bedroom : 지하층 이상의 침실 수  
kitchen : 주방 수  
KitchenQual : 주방 품질  
TotRmsAbvGrd : 등급 이상의 총 방(화장실 제외)  
Functional : 홈 기능 등급  
Fireplaces : 벽난로의 수  
FireplaceQu : 벽난로 품질  
GarageType : 차고 위치  
GarageYrBlt : 차고 건설 연도  
GarageFinish : 차고 인테리어 마감  
GarageCars : 차고의 차고 크기  
GarageArea : 평방 피트의 차고 크기  
GarageQual : 차고 품질  
GarageCond : 차고 상태  
PavedDrive : 포장된 차도  
WoodDeckSF : 평방 피트의 목재 데크 면적  
OpenPorchSF : 평방 피트의 오픈 베란다 영역  
EnclosedPorch : 평방 피트의 닫힌 베란다 영역  
3SsnPorch : 제곱피트의 3계절 베란다 면적  
ScreenPorch : 평방 피트의 스크린 베란다 면적  
PoolArea : 평방 피트의 수영장 면적  
PoolQC : 수영장 품질  
Fence : 울타리 품질  
MiscFeature : 다른 범주에서 다루지 않는 기타 기능  
MiscVal : 기타 기능의 $값  
MoSold : 월 판매  
YrSold : 판매 연도  
SaleType : 판매유형  
SaleCondition : 판매조건 

In [63]:
# 복사본 사용 
df = data.copy()

In [1]:
# 모양 : 행, 열 수 확인


In [65]:
# 기본 정보 확인
df.info()
# 컬럼(피처) 확인
# 빈 값 꽤 있음

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQual    1460 non-null   int64  
 18  OverallC

### 결측치 확인  

In [3]:
# Null 값 및 피처 확인 : top10 출력 
# to_frame() : 데이터프레임으로 변환
# null 값이 많은 순으로 내림차순 정렬


In [4]:
# 각 특성마다 결측치가 발생한 비율 추가 
# 결측치 수 / 전체행 수


In [5]:
# 삭제할 컬럼 인덱스 확인



In [6]:
#  결측치가 1개인 경우 행(샘플) 삭제


In [7]:
# 최종 null 값 확인


## 목적 변수 (타겟 값) 
- 주택 가격이므로 SalePrice가 목적변수 임
- 주택 가격 예측 

In [8]:
# 기초 통계값 확인 


In [9]:
# 박스 플롯으로 기초 통계 분포 확인


In [10]:
# 히스토그램 : 빈도수 확인


In [11]:
from scipy import stats
from scipy.stats import norm #science python 의 통계 패키지의 정규분포와 비슷한지 확인

# 확률 분포 확인
# 가장 가까운 정규 분포와 비교 


## 정규분포와 유사한지 확인  
- 데이터가 정규분포를 따르면 평균값, 분산 등을 예측하기 수월하기 때문에
- 정규분포에서 얼마나 벗어났는지 확인 
- skewness (왜도: 대칭성) 
- kurtosis (첨도: 끝부분의 모양)
- 왜도와 첨도 값들이 0에 가까울수록 정규분포와 유사 

In [13]:
# 실제 정규분포인 경우의 왜도와 첨도 확인
x = np.random.randn(1000)


In [14]:
# 주택 가격은 왼쪽으로 치우져 있는 것 확인
# 정규분포와 유사하게 변환 -> 로그 변환 수행
# 일반적으로 정규분포에서 벗어나 있는 경우 로그 변환 수행 



In [15]:
# 주택 가격의 왜도/첨도 확인 
# 로그변환 전


# 로그변환 후


## 목적변수(타겟 변수)와 다른 입력 변수(피처)들 과의 관계 확인  
- 상관관계 확인 (상관계수)

- 데이터 분석은 입력 변수를 사용하여 목적 변수를 예측하는 작업  
- 각 입력 변수와 목적 변수 사이의 상관계수를 보면 데이터의 연관성을 파악하는데 도움이 됨  
- 절대적이진 않음  
    - 예: 중고차 가격(타겟 변수) : 연식(입력 변수)이 오래되면 가격이 떨어짐
---
- 입력 변수(input)의 다른 이름
  - 특성 (features)
  - 설명 변수 (explanatory variable)
  - 독립 변수 (independent variable)
- 목적 변수(target variable) 의 다른 이름
  - 레이블 (label)
  - 출력 변수 (output)
  - 종속 변수 (dependent variable)

### 히트맵으로 상관관계 파악 

In [16]:
# 주의! - 열의 데이터 타입이 문자(object)인 열들은 제거


In [17]:
# 상관관계 매트릭스 출력 


In [18]:
# 상관관계 매트릭스를 heatmap으로 표시 


In [None]:
# pairplot() 사용해서 상관관계 확인
# top10_df.index

# sns.pairplot(df[top10_df.index])
cols = ['SalePrice', 'OverallQual', 'GrLivArea', 'GarageCars',
       'TotalBsmtSF', 'FullBath', 'YearBuilt']
sns.pairplot(df[cols])
plt.show()


### 산포도 확인
- 두 변수 사이의 관계 파악

### 카테고리 특성과의 관계 확인 
- sns 박스플롯으로 보기

In [None]:
# 범주형 변수인 OverallQual 확인

In [19]:
# boxplot으로 범주형 변수인 OverallQual 확인


In [21]:
# 범주형 변수인 YearBuilt의 영향 확인



## 이상치  확인

In [19]:
df = data.copy()
df

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1455,1456,60,RL,62.0,7917,Pave,,Reg,Lvl,AllPub,...,0,,,,0,8,2007,WD,Normal,175000
1456,1457,20,RL,85.0,13175,Pave,,Reg,Lvl,AllPub,...,0,,MnPrv,,0,2,2010,WD,Normal,210000
1457,1458,70,RL,66.0,9042,Pave,,Reg,Lvl,AllPub,...,0,,GdPrv,Shed,2500,5,2010,WD,Normal,266500
1458,1459,20,RL,68.0,9717,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2010,WD,Normal,142125


In [22]:
# 주택 가격 데이터를 distplot()으로 그려서 이상치 확인
from scipy import stats


In [23]:
# 주택 가격에 표준 스케일링 적용 후 

from sklearn.preprocessing import StandardScaler 


In [24]:
# 스케일링 한 주택 가격으로 상위10 추출


In [25]:
# 스케일링 한 주택 가격으로 하위10 추출


In [26]:
# 스케일링한 주택 가격으로 boxplot() 그려서 확인


In [27]:
# 로그 변환 전 주택 가격


In [28]:
# 로그 변환 후 확인
# 반드시 로그 변환을 해야 하는 것은 아니지만
# 정규분포에 가까우면 예측하기가 수월하기 때문에 로그변혼 수행


In [29]:
# SalePrice_log_sc 값으로 상위10 확인


In [30]:
# SalePrice_log_sc 하위10 확인


In [31]:
# 로그변환 후 스케일링한 주택 가격으로 boxplot() 그려서 확인


In [32]:
# 산포도(scatter())로 이상치 찾아서 제거
# 'GrLivArea', SalePrice
plt.scatter(data['GrLivArea'],data['SalePrice'])
plt.show()


In [33]:
# 삭제할 샘플(행)의 인덱스 확인


In [34]:
# 삭제할 샘플의 인덱스


In [35]:
# 이상치 삭제


In [36]:
# 이상치 제거하기 전/후 데이터 크기 비교


### df에 원-핫 인코딩 수행
- 판다스의 get_dummies() 이용
- pd.get_dummies(df['열'], prefix='문자', dtype=int)

In [37]:
# 원-핫 인코딩 수행


In [None]:
# 원-핫 인코딩 수행하면 컬럼 수 증가 