# Python-Data-Mining [2주차] 
## CH1. 데이터 마이닝 개요

### 1.데이터 마이닝 프로세스
목적 결정 > 데이터 수집 > 데이터 탐색 및 정제 > 데이터 마이닝 방법 결정 > 최종 모델 결정 > 성능 평가 > 적용

### 2. 지도학습과 비지도 학습
>지도 학습
- 단일대상 또는 결과 변수예측
- 모델링에 사용되는 데이터를 학습 데이터라 부름
- 분류 및 예측

>비지도 학습  >>>최근 더 많이 이용되는 추세
- 예측하거나 분류할 타깃(결과)변수 없이 입력 데이터 내부의 패턴을 스스로 학습
- 데이터 내 연관 규칙을 찾고, 비슷한 관측치끼리 군집하며, 차원을 축소하는데 사용
- 연관 규칙, 협업 필터, 데이터 축소 및 탐색, 시각화 


### 3. 분류 및 예측 
>분류
- 범주형 변수의 미래 값 예측
    (범주형 데이터는 ‘A’, ‘B’, ‘C’와 같이 종류를 표시하는 데이터를 말한다. 카테고리(category)데이터라고도 부른다. ex. 성별, 혈액형)
- ex. 제안 >> 응답/ 응답 안함 , 대출 >> 적시 상환/ 연체/ 파산 , 신용카드 거래 >> 정상/사기 등

>예측 Prediction *
- 숫자로 표현된 연속형 변수의 미래 값 예측
    즉, 숫자,문서,이미지 등의 여러가지 입력 데이터를 주면, 데이터 분석의 결과로 다른 데이터를 출력하는 분석 방법
- ex. 판매, 수익, 성과


### 4. 연관 규칙과 추천 시스템 
>연관 규칙 * 데이터정제시 가장 중요하다, 데이터 특징 feature할 경우의 point
- 상호 연관성이 높은 항목 집합들을 찾아내는 분석 방법
    - ex. 슈퍼마켓에서 제품간 연관성을 분석해 주간프로모션 쿠폰 발행, 비슷한 제품 비슷한 장소에 진열

>추천 시스템
- 아마존, 넷플릭스는 협업 필터링 기법을 사용함
- 협업 필터링은 개개인의 포괄적인 과거 구매 정보와 다른 사람들의 구매 정보를 이용해 개개인의 구매 성향을 예측하는 추천 시스템 기법으로, 모든 고객의 일반적인 패턴을 찾는 연관 규칙과는 달리 개개인 맞춤 패턴 찾을 수 있음


### 5. 데이터 축소와 자원 축소
>데이터 축소/차원축소(Dimension Reduction)  *많은 파라미터들 중 버릴것과 그룹화 할것을 구분해 축소하는 과정
- 많은 수의 관측치를 적은 수의 그룹으로 요약하는 과정 

>자원 축소
- 변수의 개수를 줄이는 과정
- 지도 학습 전, 예측 성능을 향상하고 해석을 용이하게 하기 위해 자원 축소 진행


### 6. 데이터 탐색과 시각화 
>데이터 탐색
- 데이터의 전반적인 패턴과 특이 패턴을 찾는 것
- 데이터를 탐색할 때 차트나 대시보드 등을 이용하는 것을 데이터 시각화 or 시각화 애널리틱스라고 함

>데이터 탐색에서의 데이터 시각화 
- 수치 변수의 경우 히스토그램이나 박스 플롯을 이용해 데이터의 분포를 파악하고 이상치 탐지
- 범주형 변수의 경우, 막대그래프 이용
- 산점도를 이용해 변수들 간 상관관계를 파악하고 이상치 발견 가능


### 7. 데이터 마이닝 수행 단계 
(1) 데이터 마이닝 프로젝트의 목적 정확히 설정
(2) 분석에 필요한 데이터셋 획득
(3) 데이터의 탐색, 정제, 전처리
(4) 필요시 데이터 축소
(5) 데이터 마이닝 문제 결정 - <분류, 예측, 군집>
(6) 데이터 분할하기 ~ 지도학습의 경우에만 해당함
(7) 사용할 데이터 마이닝 기법 선택 - 회귀 분석, 인공 신경망, 계층 군집 등
(8) 알고리즘 사용해 결과 해석
(9) 알고리즘 결과 해석
(10)모델 적용

## 웨스트 록스베리 지역의 주택 가치 예측
데이터셋(WestRoxbury.csv)
> https://github.com/reisanar/datasets/blob/master/WestRoxbury.csv
> 원데이터(Property Assessment FY2014) https://data.boston.gov/dataset/propertyassessment/resource/7190b0a4-30c4-44c5-911d-c34f60b22181

In [1]:
# 사용할 파이썬 라이브러리 불러오기 
import numpy as np
import pandas as pd
import sklearn as sk
from sklearn.model_selection import train_test_split  # 훈련/평가 분할
from sklearn.metrics import r2_score # 결정계수 함수 (이 통계 모델로 대상을 얼마나 잘 설명할 수 있는가를 숫자로 나타낸 것이 결정계수이다.)
from sklearn.linear_model import LinearRegression #선형 회귀 분석

In [2]:
#데이터로부터 데이터 셋(자료집합)을 생성하고 불러오는 코드
housing_df=pd.read_csv('/Users/shimyuna/Desktop/✳︎/Python-Data-Mining/datamining/WestRoxbury.csv')
housing_df

FileNotFoundError: [Errno 2] No such file or directory: '/Users/shimyuna/Desktop/✳︎/Python-Data-Mining/데이터마이닝 수업 정리/WestRoxbury.csv'

In [None]:
#데이터 프레임의 차원 확인
housing_df.shape

(5802, 14)

In [None]:
# 데이터의 일부분 중, 상단 부분만 출력하여 보여줌
housing_df.head(10)

Unnamed: 0,TOTAL VALUE,TAX,LOT SQFT,YR BUILT,GROSS AREA,LIVING AREA,FLOORS,ROOMS,BEDROOMS,FULL BATH,HALF BATH,KITCHEN,FIREPLACE,REMODEL
0,344.2,4330,9965,1880,2436,1352,2.0,6,3,1,1,1,0,
1,412.6,5190,6590,1945,3108,1976,2.0,10,4,2,1,1,0,Recent
2,330.1,4152,7500,1890,2294,1371,2.0,8,4,1,1,1,0,
3,498.6,6272,13773,1957,5032,2608,1.0,9,5,1,1,1,1,
4,331.5,4170,5000,1910,2370,1438,2.0,7,3,2,0,1,0,
5,337.4,4244,5142,1950,2124,1060,1.0,6,3,1,0,1,1,Old
6,359.4,4521,5000,1954,3220,1916,2.0,7,3,1,1,1,0,
7,320.4,4030,10000,1950,2208,1200,1.0,6,3,1,0,1,0,
8,333.5,4195,6835,1958,2582,1092,1.0,5,3,1,0,1,1,Recent
9,409.4,5150,5093,1900,4818,2992,2.0,8,4,2,0,1,0,


In [None]:
housing_df = housing_df.rename(columns={'TOTAL VALUE ' : 'TOTAL_VALUE'})
## housing_df = housing_df.rename(columns={'TOTAL VALUE ' : 'TOTAL_VALUE'}, inplace=True)와 같이 할 경우,원본데이터를 덮어씌울지를 물어보는 것이다.
housing_df.columns

Index(['TOTAL_VALUE', 'TAX', 'LOT SQFT ', 'YR BUILT', 'GROSS AREA ',
       'LIVING AREA', 'FLOORS ', 'ROOMS', 'BEDROOMS ', 'FULL BATH',
       'HALF BATH', 'KITCHEN', 'FIREPLACE', 'REMODEL'],
      dtype='object')

>rename 메서드 : Data Frame의 칼럼 &인덱스 이름 바꾸기

(1) pandas DataFrame의 칼럼 이름 바꾸기
    : df.columns = ['a', 'b']
    : df.rename(columns = {'old_nm' : 'new_nm'}, inplace = True)
    
(2) pandas DataFrame의 인덱스 이름 바꾸기
    : df.index = ['a', 'b']
    : df.rename(index = {'old_nm': 'new_nm'}, inplace = True)

In [None]:
housing_df.columns = [s.strip().replace(' ','_') for s in housing_df.columns]
housing_df.columns

Index(['TOTAL_VALUE', 'TAX', 'LOT_SQFT', 'YR_BUILT', 'GROSS_AREA',
       'LIVING_AREA', 'FLOORS', 'ROOMS', 'BEDROOMS', 'FULL_BATH', 'HALF_BATH',
       'KITCHEN', 'FIREPLACE', 'REMODEL'],
      dtype='object')

>함수정리 
- trip()함수
    - 제거할 문자가 지정되지 않은 경우 시작과 끝에서 공백이 제거된 원래 문자열입니다.
    - 문자열의 시작 또는 끝에 공백이 없는 경우 문자열을 있는 그대로 반환하고 원래 문자열과 일치시킵니다.
    - 문자 매개변수가 제공되고 문자가 일치하면 문자열의 시작 또는 끝에 있는 문자가 원래 문자열에서 제거되고 나머지 문자열이 반환됩니다.
    - 주어진 문자가 원래 문자열의 시작 또는 끝과 일치하지 않는 경우 문자열을 있는 그대로 반환합니다.
    https://www.entity.co.kr/entry/Python-String-strip-%ED%95%A8%EC%88%98-strip-%ED%95%A8%EC%88%98%EC%9D%98-%EC%A0%95%EC%9D%98

- replace()함수
    - replace(old, new, [count]) -> replace("찾을값", "바꿀값", [바꿀횟수])

In [None]:
# 데이터 표시 연습
housing_df.loc[0:3] 

Unnamed: 0,TOTAL_VALUE,TAX,LOT_SQFT,YR_BUILT,GROSS_AREA,LIVING_AREA,FLOORS,ROOMS,BEDROOMS,FULL_BATH,HALF_BATH,KITCHEN,FIREPLACE,REMODEL
0,344.2,4330,9965,1880,2436,1352,2.0,6,3,1,1,1,0,
1,412.6,5190,6590,1945,3108,1976,2.0,10,4,2,1,1,0,Recent
2,330.1,4152,7500,1890,2294,1371,2.0,8,4,1,1,1,0,
3,498.6,6272,13773,1957,5032,2608,1.0,9,5,1,1,1,1,


In [None]:
housing_df.iloc[0:4]
######## 이부분 왜 다른지 질문하기

Unnamed: 0,TOTAL_VALUE,TAX,LOT_SQFT,YR_BUILT,GROSS_AREA,LIVING_AREA,FLOORS,ROOMS,BEDROOMS,FULL_BATH,HALF_BATH,KITCHEN,FIREPLACE,REMODEL
0,344.2,4330,9965,1880,2436,1352,2.0,6,3,1,1,1,0,
1,412.6,5190,6590,1945,3108,1976,2.0,10,4,2,1,1,0,Recent
2,330.1,4152,7500,1890,2294,1371,2.0,8,4,1,1,1,0,
3,498.6,6272,13773,1957,5032,2608,1.0,9,5,1,1,1,1,


>데이터를 행단위로 가져오는 함수 loc, iloc

- loc[ ]함수
    -  라벨과 인덱스를 기준으로 행(row,가로) 데이터를 읽기
    -  만약 특정 행의 컬럼에 있는 값을 출력하기 원하는 경우, df.loc[행, 컬럼명]

- iloc[ ]함수
    - 행 번호를 기준으로 행의 데이터 읽기 
    - df.loc[]이 라벨을 사용한다면 df.iloc[]은 각 행렬의 순번을 사용하는 차이
    - [0:4]로치면 4-1(n-1)으로 마지막 값이 포함되지 않는 것이 차이

In [None]:
# TOTAL_VALUE 열의 처음 10개 값을 표시하는 다양한 방법

## 순서가 상관없다.
housing_df['TOTAL_VALUE'].iloc[0:10]
    ## 'TOTAL_VALUE'파라
housing_df.iloc[0:10]['TOTAL_VALUE']

# 컬럼(열) 이름에 공백이 없는 경우 []방식이 아니라 점표기법을 사용할 수 있다.
housing_df.iloc[0:10].TOTAL_VALUE

0    344.2
1    412.6
2    330.1
3    498.6
4    331.5
5    337.4
6    359.4
7    320.4
8    333.5
9    409.4
Name: TOTAL_VALUE, dtype: float64

In [None]:
# 처음 10개 열의 다섯 번째 행을 표시 
housing_df.iloc[4][0:10]
housing_df.iloc[4, 0:10]

TOTAL_VALUE    331.5
TAX             4170
LOT_SQFT        5000
YR_BUILT        1910
GROSS_AREA      2370
LIVING_AREA     1438
FLOORS           2.0
ROOMS              7
BEDROOMS           3
FULL_BATH          2
Name: 4, dtype: object

In [None]:
# 데이터 프레임 형식을 유지하려면 행에 슬라이스 사용
housing_df.iloc[4:5, 0:10]

Unnamed: 0,TOTAL_VALUE,TAX,LOT_SQFT,YR_BUILT,GROSS_AREA,LIVING_AREA,FLOORS,ROOMS,BEDROOMS,FULL_BATH
4,331.5,4170,5000,1910,2370,1438,2.0,7,3,2


In [None]:
# 전체 열
housing_df.iloc[:,0:1]
housing_df['TOTAL_VALUE']
housing_df['TOTAL_VALUE'][0:10]

0    344.2
1    412.6
2    330.1
3    498.6
4    331.5
5    337.4
6    359.4
7    320.4
8    333.5
9    409.4
Name: TOTAL_VALUE, dtype: float64

In [None]:
# 기술통계
print('Number of rows', len(housing_df['TOTAL_VALUE']))
print('Mean of TOAL_VALUE', housing_df['TOTAL_VALUE'].mean())

Number of rows 5802
Mean of TOAL_VALUE 392.6857149258877


>함수정리
- len() : 길이를 알아내는 함수
- mean(): 평균 계산
- std() : 표준편차 계산, standard의 약자
- describe() : 데이터 요약 메서드로 각종 통계량을 나타냄

In [None]:
housing_df['TOTAL_VALUE'].describe()
## 파라미터 안에 'TOTAL_VALUE'를 넣어, 해당 파라미터에 넣은 열(컬럼)의 값들을 불러온다. -> 즉 전체 데이터의 일부만을 불러온다.
### 출력값의 dtype:float64를 통해 자료형은 실수형 data로 나온다는 것을 확인할 수 있다.

count    5802.000000
mean      392.685715
std        99.177414
min       105.000000
25%       325.125000
50%       375.900000
75%       438.775000
max      1217.800000
Name: TOTAL_VALUE, dtype: float64

In [None]:
# 전체 데이터 요약
housing_df.describe()

Unnamed: 0,TOTAL_VALUE,TAX,LOT_SQFT,YR_BUILT,GROSS_AREA,LIVING_AREA,FLOORS,ROOMS,BEDROOMS,FULL_BATH,HALF_BATH,KITCHEN,FIREPLACE
count,5802.0,5802.0,5802.0,5802.0,5802.0,5802.0,5802.0,5802.0,5802.0,5802.0,5802.0,5802.0,5802.0
mean,392.685715,4939.485867,6278.083764,1936.744916,2924.842123,1657.065322,1.68373,6.994829,3.230093,1.296794,0.613926,1.01534,0.739917
std,99.177414,1247.649118,2669.707974,35.98991,883.984726,540.456726,0.444884,1.437657,0.846607,0.52204,0.533839,0.12291,0.565108
min,105.0,1320.0,997.0,0.0,821.0,504.0,1.0,3.0,1.0,1.0,0.0,1.0,0.0
25%,325.125,4089.5,4772.0,1920.0,2347.0,1308.0,1.0,6.0,3.0,1.0,0.0,1.0,0.0
50%,375.9,4728.0,5683.0,1935.0,2700.0,1548.5,2.0,7.0,3.0,1.0,1.0,1.0,1.0
75%,438.775,5519.5,7022.25,1955.0,3239.0,1873.75,2.0,8.0,4.0,2.0,1.0,1.0,1.0
max,1217.8,15319.0,46411.0,2011.0,8154.0,5289.0,3.0,14.0,9.0,5.0,3.0,2.0,4.0


In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split     ## 훈련 평가 분할
from sklearn.metrics import r2_score                     ## 결정 계수 함수
from sklearn.linear_model import LinearRegression        ## 선형 회귀 분석

### 8.데이터셋 샘플링

- 컴퓨터 용량과 소프트웨어의 한계로 인해 적은 데이터로도 모든 데이터를 사용했을 때와 비슷한 효과를 볼 수 있게 적절하게 샘플링하는 작업이 필요

- 분류 문제에서 희소사건에 대한 오버샘플링
    - 관심 데이터가 희귀할 경우 데이터 부족으로 모델 구축이 어려움 >> 샘플링 시 소수 클래스에 더 큰 가중치를 주어 불균형을 해결하거나 각 클래스의 오분류에 가중치를 주어 해결 
    - ex. 메일에 응답해 특정 상품을 구매하는 고객, 사기 카드 거래
    - 다수 클래스와 소수 클래스의 불균형을 고려하지 않은 모델의 경우, 전반적인 정확도는 높을 수 있으나 실제 문제에서 적용하기 어려움
    - 모델 구축시 클래스별 오분류의 중요도를 고려해 가중치를 다르게 부여하여 보다 중요한 클래스의 오분류를 줄이는 것이 중요함

### 9. 데이터 전처리와 데이터 정제

- 변수는 여러 기준으로 분류 가능
    - 숫자, 문자, 연속형 실수, 정수, 범주형 등 
    - 범주형의 경우, 숫자 혹은 문자로 표현
        - (혈액형)A,B,C,D//(지역)북아메리카,아시아,유럽 같이 특별한 순위 없는 경우를 명목형 변수라고 함
        - 큰 값, 작은 값 등 순위로 표현할 수 있는 경우를 순서형 변수라고 함
- 나이브베이즈분류기와 같이 범주형 변수만 사용하는 특별한 경우 제외하고, 대부분 연속형 변수를 예측 변수로 사용

### 데이터 전처리와 데이터 정제

In [None]:
# 판다스 활용 변수 특성 파악
# 변수 리스트 
housing_df.columns

Index(['TOTAL_VALUE', 'TAX', 'LOT_SQFT', 'YR_BUILT', 'GROSS_AREA',
       'LIVING_AREA', 'FLOORS', 'ROOMS', 'BEDROOMS', 'FULL_BATH', 'HALF_BATH',
       'KITCHEN', 'FIREPLACE', 'REMODEL'],
      dtype='object')

>참고
- 판다스에서는 문자열을 object라는 자료형으로 나타냅니다. 파이썬에서는 문자열을 string이라고 하지만, 판다스는 object라고 한다.

- Object 와 category 
    - category 형식은 가능한 값들의 범위가 고정되어있고, 한정적일 때 매우 사용한다
    - 일반적인 문자열을 갖는 칼럼은 object로 사용하고, 값이 종류가 제한적일 때 category를 사용
    
    - A string variable consisting of only a few different values. Converting such a string variable to a categorical variable will save some memory, see here.
    - The lexical order of a variable is not the same as the logical order (“one”, “two”, “three”). By converting to a categorical and specifying an order on the categories, sorting and min/max will use the logical order instead of the lexical order, see here.
    - As a signal to other Python libraries that this column should be treated as a categorical variable (e.g. to use suitable statistical methods or plot types).


In [None]:
#REMODEL 열은 factor 이므로, 데이터 타입을 변경 시켜준다.
print(housing_df.REMODEL.dtype)
housing_df.REMODEL = housing_df.REMODEL.astype('category')
print(housing_df.REMODEL.cat.categories)
# 왜 타입을 변환할까? 
# 데이터 분석 모형은 숫자만 입력으로 받을 수 있기 때문에 범주형 데이터는 숫자로 변환해야 한다. 범주형 데이터를 숫자로 변환하는 방법은 두가지다.
    # 더미변수화, 카테고리 임베딩

####여기서 굳이 cat.categories를 한 이유가 뭘까.... 왜 여기서 리스트를 오브젝트로 볼까...
    ### 정답은 공식문서에 있었다.. https://pandas.pydata.org/docs/reference/api/pandas.Series.cat.categories.html
print(housing_df.REMODEL.dtype) 

object
Index(['None', 'Old', 'Recent'], dtype='object')
category


In [None]:
housing_df.dtypes

TOTAL_VALUE     float64
TAX               int64
LOT_SQFT          int64
YR_BUILT          int64
GROSS_AREA        int64
LIVING_AREA       int64
FLOORS          float64
ROOMS             int64
BEDROOMS          int64
FULL_BATH         int64
HALF_BATH         int64
KITCHEN           int64
FIREPLACE         int64
REMODEL        category
dtype: object

>범주형 변수 처리

- 범주형 변수 값에 순위가 있는 경우, 연속형 변수로 간주한다.(ex. 연령구간, 신용등급 등)
- 범주에 순위가 없다면 범주를 가변수로 바꿔서 사용하기도 함
-  데이터 분석 모형은 숫자만 입력으로 받을 수 있기 때문에 범주형 데이터는 숫자로 변환해야 한다. 범주형 데이터를 숫자로 변환하는 방법은 두가지다.
- 더미변수화
- 카테고리 임베딩

https://hongl.tistory.com/89

In [None]:
# 판다스를 이용한 가변수 생성  -> 범주형 변수에 순위가 없다면, 범주를 가변수로 바꿔서 활용
# drop_first >> 첫 번째 더미 변수를 삭제함 
    # 데이터 프레임 명 = pd.get_dummies(데이터 프레임 명, columns=['수정하고싶은 컬럼'], prefix_sep='_', drop_first=True) 
    # ==> 이런식으로 하면, 지정한 컬럼에 대해서만 가변수로 바꿀 수 있음
    
    
housing_df = pd.get_dummies(housing_df, prefix_sep='_', drop_first = True)
    # prefix = 생성할 dummy variable에 이름 앞에 붙을 prefix값을 지정, profix_sep = profix와 범주 사이의 sparactor 분리기(?)로 '_'가 디폴트 값
housing_df.columns

Index(['TOTAL_VALUE', 'TAX', 'LOT_SQFT', 'YR_BUILT', 'GROSS_AREA',
       'LIVING_AREA', 'FLOORS', 'ROOMS', 'BEDROOMS', 'FULL_BATH', 'HALF_BATH',
       'KITCHEN', 'FIREPLACE', 'REMODEL_Old', 'REMODEL_Recent'],
      dtype='object')

In [None]:
#loc인덱서를 활용해 가변수 처리된 범위를 지정 및 일부 호출을 통해,가변수처리가 정상적으로 작동하였는지 확인해 본다. 

# loc 인덱서 : 라벨값 기반의 2차원 인덱싱 
    ## df.loc[행 인덱싱값] , df.loc[행 인덱싱값, 열 인덱싱값]
    ## 행 인덱싱값은 정수 또는 행 인덱스데이터이고, ''열 인덱싱값은 라벨 문자열''임
    
print(housing_df.loc[:, 'REMODEL_Old':'REMODEL_Recent'].head(5))

   REMODEL_Old  REMODEL_Recent
0            0               0
1            0               1
2            0               0
3            0               0
4            0               0


### 9. 데이터 전처리와 데이터 정제 (이어서)

> 변수 선택
- 신뢰성이 높은 모델을 구축하려면 꼭 필요한 변수만 사용하는것이 바람직함 
- 변수를 많이 사용할 경우 변수간의 상관관계를 고려해야 하고 더 많은 수의 관측치가 필요함
- 변수가 너무 많은 모델은 미래 값을 예측하는 데 데이터가 더 많이 필요하고 전처리 작업도 증가해 간건하지 않음


> 필요 변수와 관측치 수 
- 적절한 변수를 포함시키는 작업은 모델 구축시 매우 중요함
- 꼭 필요한 변수만 사용해야 간결한 모델 구축 가능하고, 간결한 모델이 결국 훌륭한 모델이 됨 
- 방대한 데이터에서 모델에 어떤 변수를 포함할지는 매우 중요
- 도메인 지식이 있는 사람한테서 얻는 정보 = 변수 포함 여부를 선택시 매우 중요, 모델의 정확도 높이고 오차 줄이는데 도움이 됨 -> 인간의 영역


> 이상치
- 측정 오류나 잘못된 입력으로 인해 이상치 발생 가능( 통계적으로 3σ(시그마)를 넘어가는 영역의 값은 이상치로 둠)
- 기존 데이터로부터 멀리 떨어진, 통상 평균으로부터 표준편차의 세배가 넘는 범위의 데이터
- 변수별 값들을 내림차순으로 정렬하고, 이들 중 가장 크거나 작은 수치들을 이상치로 판정하고, 군집 분석을 이용해 다른 데이터를 이상치로 판정함
- 이상치의 개수가 매우 적은 경우 [결측치]로 처리 가능


> 결측치
- 변수가 많을 경우, 결측치를 단순 삭제하면 결측치 데이터에서 차지하는 비율이 낮더라도 많은 관측치에 영향을 미칠 수 있음
- 결측치가 있는 관측치를 삭제하기  -> 기존 데이터를 이용해 대체 하는 것이 나음
- 간단한 결측치 대체값은 평균,중앙값 등을 쓰고, 좀 더 정교한 대체값은 회귀분석을 이용
- 데이터가 충분히 많을 경우, 복잡한 결측치 처리법보다는 간단한 방법 선호함
- 결측치가 많을 경우, 관측치 수 자체가 적어 대체 방법을 적용하는데에도 한계가 존재함 ->이 경우,  변수의 중요도를 측정해 해당 변수가 예측에 미치는 영향력이 미미하다면 그 변수를 삭제하고 그렇지 않다면 결측치가 적게 존재하는 변수의 정보를 이용해 결측치를 대체하는 것이 좋음 
- 중요한 변수의 결측치를 해결하는 근본적인 방법은 실제값을 얻는 것

In [None]:
#앞서 데이터 shape을 활용하여 차원 확인 및 행, 열 수 (5802, 14)를 확인하였다.
#
housing_df.isnull().sum() 

TOTAL_VALUE       0
TAX               0
LOT_SQFT          0
YR_BUILT          0
GROSS_AREA        0
LIVING_AREA       0
FLOORS            0
ROOMS             0
BEDROOMS          0
FULL_BATH         0
HALF_BATH         0
KITCHEN           0
FIREPLACE         0
REMODEL_Old       0
REMODEL_Recent    0
dtype: int64

In [None]:
# 데이터 전처리와 데이터 정제 - 변수 선택, 이상치 처리, 결측치 처리 
    ## 변수 선택(신뢰성 높은 모델을 위해, 적절한 변수만 포함) > 변수가 너무 많을 경우, 상관관계 파악을 위해 많은 관측치가 필요함
    ## 이상치 처리(3시그마)
    ## 결측치(missing Value): 결측치가 있는 관측치를 삭제하기보다 기존 데이터를 이용해 대체할 수 있음


print('Number of rows with BEDROOMS values before: ',housing_df['BEDROOMS'].count())
missingRows = housing_df.sample(10).index
housing_df.loc[missingRows,'BEDROOMS'] = np.nan
print('Number of rows with valid BEDROOMS values after setting to NAN: ',housing_df['BEDROOMS'].count())
housing_df['BEDROOMS'].count()

Number of rows with BEDROOMS values before:  5802
Number of rows with valid BEDROOMS values after setting to NAN:  5792


5792

> 데이터 정규화(표준화)와 리스케일링
- 정규화(표준화)가 필요한 이유 
    - 군집 분석은 각 관측치가 군집 평균으로부터 얼마만큼 떨어져있는지를 기준으로 하는데, 다변량 데이터의 경우 변수들의 단위가 서로 달라 단위가 큰 변수가 전체 처리 계산을 지배할 수 있고, 단위가 "일"인 변수를 "시간"이나 "달"의 단위로 바꾼다면, 분석 결과가 완전 달라지기 때문
    

> 정규화 방법
https://junklee.tistory.com/18
https://wooono.tistory.com/96
- z-score 값 구하기
    - 각 관측치에서 해당 변수의 평균값을 빼주고, 표준편차 값으로 나누기 

- scikit-learn 패키지에서 제공하는 StandardScalar() 함수 이용
    - 학습 데이터에는 fit() 혹은 fit_transform()을 사용하고, 검증 데이터에는 transform()을 사용
    - 모든 변수를 [0,1]의 스케일로 바꾸어 줌 
    - pandas에서는(df-df.min())/(df.max()-df.min())
    - scikit-learn 패키지에서는 MinMaxScaler 를 이용함

https://mkjjo.github.io/python/2019/01/10/scaler.html
- scikit-learn에서의 4가지 스케일러
    - StandardScaler	기본 스케일. 평균과 표준편차 사용
    - MinMaxScaler	최대/최소값이 각각 1, 0이 되도록 스케일링
    - MaxAbsScaler	최대절대값과 0이 각각 1, 0이 되도록 스케일링
    - RobustScaler	중앙값(median)과 IQR(interquartile range) 사용. 아웃라이어의 영향을 최소화

> 정리 
-  fit 피처 : 데이터에 담겨져 있는 값.
        - Standard Scaling 또는 MinMax Scaling을 하면 값의 범위들이 일정수준으로 맞춰지면서 비교, 분석을 할 수 있게 됨
- 표준화 (Standard Scaling) : 평균값(.mean())과 분산값(.var())을 구하기 위해 사용
        - 데이터를 평균이 0, 분산이 1인 정규분포로 만들어 주는 과정
        - 전처리 단계에서 스탠다드 스케일링을 하면 성능 향상에 좋음

- 정규화 (MinMax Scaling) : 피쳐 단위를 맞춰준 다음 최대값과 최소값을 구할 때 사용       - 사이킷런에서 제공하는 MinMaxScaler는 음수값이 없으면 0~1의 값으로 바뀜
        - 음수값이 있으면 -1 ~ 1 값으로 변환
        - 표준화가 가능하면 표준화를 하면되지만 아닐 때는 정규화를 하면됨. 하지만 둘 다 쓰는 경우가 많음



In [None]:
# 정규화 및 스케일 실행 코드 
## 정규화 및 표준화 준비 
from sklearn.preprocessing import StandardScaler, MinMaxScaler  
# StandardScaler(표준화),  MinMaxScaler(정규화)
df = housing_df.copy  # housing_df 데이터 프레임 전체를 깊은 복사해옴. 이 경우, 아예 값을 그대로 복사해 오고, index/데이터가 따로 저장 및 수정됨

# 표준화  StandarScaler
# pandas로 할 경우 
norm_df = (housing_df - housing_df.mean())/housing_df.std()

# scikit-learn으로 표준화 할 경우, 
scaler = StandardScaler()
norm_df = pd.DataFrame(scaler.fit_transform(housing_df), index = housing_df.index, columns = housing_df.columns)

# 정규화 MinMaxScaler
# pandas로 할 경우 
rescaled_df = (housing_df - housing_df.min())/ (housing_df.max()- housing_df.min())

# scikit- learn
scaler = MinMaxScaler()
rescaled_df = pd.DataFrame(scaler.fit_transform(housing_df), index=housing_df.index, columns=housing_df.columns)

### 10. 예측력과 과적합

> 과적합
 
- 모델은 반응 변수와 예측 변수 간의 상관관계를 잘 설명하고 미래 값을 정확히 예측해야 함
- 현재 데이터를 잘 설명하는 것도 중요하지만, 더 정확한 것은 미래 값에 대한 정확한 예측
- 현재 데이터에 '과하게 적합'된 것을 과적합이라고 함
- 현 데이터 성능만 고려해 불필요하게 포함된 변수들은 과적합을 유발 가능
- 관측치 수가 변수 개수보다 적을 경우 엉뚱한 관계가 모델에 반영될 수 있어 학습 데이터가 충분하지 않을 경우, 간단한 함수로 표현된 모델이 더 좋은 성능을 보일때가 많음
- 가장 좋은 성능이 좋은 모델을 선택하는 과정에서 너무 많은 모델을 사용할 때도 과적하이 발생 가능

### 11. 데이터 분할

> 모델의 성능이 좋은 경우 
- (1) 선택한 모델이 우수한 경우 
- (2) 선택 모델이 현재 사용한 데이터에 우연히 잘맞는 경우  -> 이 경우는 지양해야하고, 매우 심각한 문제 초래 가능

> 데이터를 학습, 검증, 테스트 데이터로 나누어 모델을 검증해야 함 
- 학습(훈련, Tranining) 데이터 : 모델 구축시 사용. 여러 모델을 비교할 경우, 동일한 학습 데이터를 사용

- 검증(Validation) 데이터: 학습 데이터로부터 구축된 여러 모델의 성능을 비교할 때 사용. 몇몇 알고리즘(의사결정 트리, k-최근접 이웃)에서는 검증 데이터를 이용해 모델의 하이퍼 파라미터를 결정하기도 함
     
- 테스트(평가,시험,Testing)데이터 : 구축된 모델이 향후 수집될 새로운 데이터에 대해 얼마만큼 예측/ 분류 성능을 보일지 평가할 때 쓰임 

> [n-fold cross validation] 위의 훈련, 검증, 테스트 데이터를 번갈아가면서 하는 방식으로 모든 데이터를 1회 이상 검증 학습 테스트를 반복한다.

In [None]:
# 데이터 분할
# 웨스트 록스베리 데이터를 학습/검증/시험 데이터로 분할

## ver1 모듈을 사용하는 방법
trainData= housing_df.sample(frac=0.6, random_state=1)

# 훈련 세트에 아직  없는 행을 검증에 할당
valiData = housing_df.drop(trainData.index)

print('traning: ', trainData.shape)
print('validation: ', valiData.shape)

traning:  (3481, 15)
validation:  (2321, 15)


In [None]:
## Scikit-learn을 사용하는 다른 방법(위와 같이 traning, validation 값만 나옴)

# train_test_split는 랜덤으로 train,test 값을 쪼개줌
from sklearn.model_selection import train_test_split
trainData,validData = train_test_split(housing_df, test_size=0.40, random_state=1)

print('traning: ', trainData.shape)
print('validation: ', valiData.shape)

traning:  (3481, 15)
validation:  (2321, 15)


In [None]:
# Scikit-learn을 사용하는 경우, 
# train/ validation 값만 설정되는데 다음과 같은 방법을 활용해 train,valid,test값으로 나눌 수 있음 

# 학습(train)을 위해 id의 50%를 무작위 샘플링
trainData = housing_df.sample(frac=0.5, random_state=1)

# 행 아이디의 30%를 검증 세트로 샘플링하여 레코드에서만 가져옴 
# 50%의 60%는 30%  ==> 검증 데이터로 활용 
validData = housing_df.drop(trainData.index).sample(frac = 0.6, random_state = 1)

## 나머지 20% 를 테스트 데이터로 활용 
testData = housing_df.drop(trainData.index).drop(valiData.index)

print('traning    : ', trainData.shape)
print('validation : ', valiData.shape)
print('Test       : ', testData.shape)
print()

traning    :  (2901, 15)
validation :  (2321, 15)
Test       :  (580, 15)



In [None]:
# Scikit-learn을 사용하는 경우, 
# train/ validation 값만 설정되는데 다음과 같은 방법을 활용해 train,valid,test값으로 나눌 수 있음 

# 학습(train)을 위해 id의 50%를 무작위 샘플링
trainData = housing_df.sample(frac=0.5, random_state=1)

# 행 아이디의 30%를 검증 세트로 샘플링하여 레코드에서만 가져옴 
# 50%의 60%는 30%  ==> 검증 데이터로 활용 
validData = housing_df.drop(trainData.index).sample(frac = 0.6, random_state = 1)

## 나머지 20% 를 테스트 데이터로 활용 
testData = housing_df.drop(trainData.index).drop(validData.index)

print('traning    : ', trainData.shape)
print('validation : ', validData.shape)
print('Test       : ', testData.shape)
print()

traning    :  (2901, 15)
validation :  (1741, 15)
Test       :  (1160, 15)



In [None]:
# sckit-learn을 사용하는 다른 방법

trainData, temp = train_test_split(housing_df, test_size= 0.5, random_state=1)
valiData,testData = train_test_split(temp, test_size=0.4,random_state=1)

print('traning    : ', trainData.shape)
print('validation : ', valiData.shape)
print('Test       : ', testData.shape)


traning    :  (2901, 15)
validation :  (1740, 15)
Test       :  (1161, 15)


### 모델 구축 : 선형 회기 분석을 이용한 예제 
> 모델링 과정
- 1. 목적 웨스트 록스베리 지역 주택 가격을 예측
- 2. 데이터셋 획득 2014년 웨스트 록스베리 주택 가격 데이터셋을 이용할 것이며, 전체 데이터의 수가 많지 않아 별도의 표본을 취하지 않았다. 
- 3. 데이터 탐색/ 정제/ 전처리 
- 4. 데이터 축소
- 5. 데이터 마이닝 문제 결정
- 6. 데이터 분할(지도 학습용)
- 7. 데이터 마이닝 기법 선택 
- 8. 알고리즘을 사용한 과제 수행


In [3]:
import dmba
import pandas as pd

no display found. Using non-interactive Agg backend


In [5]:
# 학습 데이터 일부에 대한 예측 
# 웨스트 록스베리 학습 데이터를 사용해 모델 구축

# 1. 데이터 불러오기 및 전처리 
# housing_df = dmba.load_data('WestRoxbury.csv')
## https://hongl.tistory.com/89

housing_df = dmba.load_data('WestRoxbury.csv')
housing_df.columns = [s.strip().replace(' ','_')for s in housing_df.columns]
housing_df = pd.get_dummies(housing_df, prefix_sep='_', drop_first=True)

excludeColumns = ('TOTAL_VALUE', 'TAX')
predictors = [s for s in housing_df.columns if s not in excludeColumns]
outcome = 'TOTAL_VALUE'