In [1]:
# 작성자 : 이민우
# 작성일 : 20181101
# 프로그램설명 : 머신러닝을 이용한 가격예측
import os 
import tarfile
import urllib.request
import pandas as pd
import numpy as np
from pandas.plotting import scatter_matrix
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import Imputer
from sklearn.preprocessing import OneHotEncoder
import matplotlib.pyplot as plt
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import FeatureUnion
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint
import warnings

warnings.filterwarnings('ignore')

class DataFrameSelector(BaseEstimator, TransformerMixin): # 데이터프레임을 다룰수 없어 numpy 배열로 전환하는 클래스
    def __init__(self, attribute_names):
        self.attribute_names = attribute_names 
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        return X[self.attribute_names].values # 주어진 attribute_name에 해당하는 값을 반환 
    
    
def load_housing_data(filename, test_path = "datasets"): # 주어진 filename 을 읽는 함수
    csv_path = os.path.join(test_path,filename)
    return pd.read_csv(csv_path)
    
if __name__ == "__main__":
    # 주어진 링크에서 all.zip 을 다운받아 압축을 푼 후 진행하였습니다.
    
    All_set = load_housing_data("who_suicide_statics")

    
    print(All_set.info())
    
    #All_set["Purchase"].hist(bins = 16)
    
    # 카테고리 개수 제한
    All_set["st"] = np.ceil(All_set["Purchase"]/5000)
    
    All_set["st"].where(All_set["st"] < 4, 4, inplace = True)
    
    All_set["st"].hist(bins = 16)
    
    train_set, test_set = train_test_split(All_set, test_size=0.2, random_state=42, stratify=All_set["st"])
    
    for set_ in (train_set, test_set):
        set_.drop("st", axis=1, inplace=True)
        
        
    train = train_set.drop("Purchase", axis=1)
    train_labels = train_set["Purchase"].copy()
    
    train_copy = train_set.copy()
  
    corr = train_copy.corr()
    print(corr["Purchase"].sort_values(ascending = False))
    
    print(train.info())
    
    
    
    num_attr = train.select_dtypes(exclude = 'object').columns.values.tolist()# object 형 제외 즉 수치형 특성의 column 값을 리스트로 반환
    cat_attr = train.select_dtypes(include = 'object').columns.values.tolist()# object 형 즉 범주형 특성의 column 값을 리스트로 반환
    templist = []
  
  
    # 수치형 파이프라인 
    num_pipeline = Pipeline([
                            ('selector', DataFrameSelector(num_attr)),
                            ('imputer', Imputer(strategy="median")),
                            ('std_scaler', StandardScaler()),
                            ])
    # 범주형 파이프라인 
    cat_pipeline = Pipeline([
                            ('selector', DataFrameSelector(cat_attr)),
                            ('cat_encoder', OneHotEncoder(sparse=False)),
                            ])
    # 수치형 + 범주형파이프라인 
    
    full_pipeline = FeatureUnion(transformer_list=[
            ("num_pipeline", num_pipeline),
            ("cat_pipeline", cat_pipeline),
        ])
 
    # 최종 정제된 데이터 
    train_prepared = full_pipeline.fit_transform(train)
    """
    # 선형모델 rmse 실험 
    lin_reg = LinearRegression() # 선형모델 생성 
    lin_reg.fit(train_prepared,train_labels) # 학습 
    lin_prediction = lin_reg.predict(train_prepared) # 선형모델로 예측한 값 
    lin_mse = mean_squared_error(train_labels, lin_prediction) # 예측한 값과 레이블의 차이
    lin_rmse = np.sqrt(lin_mse) # 차이에 root 
    print("선형모델 rmse : ",lin_rmse)
    
    # 결정트리 rmse 실험 
    tre_reg = DecisionTreeRegressor() # 결정트리모델 생성 
    tre_reg.fit(train_prepared,train_labels) # 학습 
    tre_prediction = tre_reg.predict(train_prepared) # 결정트리로 예측한 값 
    tre_mse = mean_squared_error(train_labels, tre_prediction) # 예측한 값과 레이블의 차이 
    tre_rmse = np.sqrt(tre_mse) 
    print("결정트리 rmse : ",tre_rmse)
    
    # 랜덤포레스트모델 (앙상블 기법)
    fo_reg = RandomForestRegressor() # 모델 생성 
    fo_reg.fit(train_prepared, train_labels) # 모델 학습 
    fo_prediction = fo_reg.predict(train_prepared) # 모델로 예측값 도출
    fo_mse = mean_squared_error(train_labels, fo_prediction) # mse 값 
    fo_rmse = np.sqrt(tre_mse) # rmse 값 
    print("랜덤모델 rmse : ",fo_rmse)
    
    
    # 교차검증을 사용한 평가. 
    # mse 가 아닌 nmse 를 사용 
    # 선형모델의 경우 2, 결정트리,랜덤포레스트 10 의 cv 를 사용 
    # 선형모델의 경우 교차검증 사용시 큰 값의 숫자가 출력되는데 이유는 찾지 못했습니다. 
    
    scores = cross_val_score(lin_reg, train_prepared, train_labels,scoring = "neg_mean_squared_error", cv = 2)
    lin_rmse_score = np.sqrt(-scores)
    display_score(lin_rmse_score)
    
    scores = cross_val_score(tre_reg,train_prepared, train_labels,scoring = "neg_mean_squared_error", cv = 10)
    tre_rmse_score = np.sqrt(-scores)
    display_score(tre_rmse_score)
    
    scores = cross_val_score(fo_reg,train_prepared, train_labels,scoring = "neg_mean_squared_error", cv = 10)
    fo_rmse_score = np.sqrt(-scores)
    display_score(fo_rmse_score)
    
    
    #모델이 정해진 후에 그에따른 가장 최적의 파라미터를 찾는다.
    
    # 그리드 탐색 총 90번의 탐색 진행 
    param_grid = [
        {'n_estimators':[3,10,30],'max_features':[2,4,6,8]},
        {'bootstrap':[False],'n_estimators':[3,10],'max_features':[2,3,4]},    
    ]
    
    grid_search = GridSearchCV(fo_reg, param_grid, cv = 5, scoring = 'neg_mean_squared_error',
                                return_train_score = True)
    grid_search.fit(train_prepared, train_labels)
    
    #랜덤 탐색 랜덤으로 탐색 진행 (크기가 클수록 효과적)
   
    param_dis = {
        'n_estimators':randint(low =1, high = 200),
        'max_features':randint(low = 1, high = 8),
    }
    
    rnd_search = RandomizedSearchCV(fo_reg,param_distributions = param_dis,
                                    n_iter = 10, cv = 5, scoring = 'neg_mean_squared_error',
                                    random_state = 42, n_jobs = -1)
    
    rnd_search.fit(train_prepared, train_labels)
    
    
    cvres = grid_search.cv_results_ # 그리드 탐색의 결과 
        
    print('-------------- 그리드 탐색 ---------------')
    for mean_score, params in zip(cvres["mean_test_score"],cvres["params"]): # score 와 params 출력
        print(np.sqrt(-mean_score),params)
        

    cvres = rnd_search.cv_results_ # 랜덤 탐색의 결과
    
    print('')
    print('-------------- 랜덤 탐색 ---------------')
        
    for mean_score, params in zip(cvres["mean_test_score"],cvres["params"]): # score 와 params 출력
        print(np.sqrt(-mean_score),params)
    
    
    final_model = rnd_search.best_estimator_ # ppt 는 grid search로 찾은 파라미터를 사용하였지만
    # 저는 random search 로 찾은 파라미터를 사용하였습니다. 
    
 
    
    test = test_set.copy() # 최종 test set 
    test['SalePrice'] = sample_set['SalePrice'] # test set 에 정답 레이블을 매칭시켜준다.
    
    
    num_attr = test.select_dtypes(exclude = 'object').columns.values.tolist() # 수치형 특성들만 리스트로 반환
    cat_attr = test.select_dtypes(include = 'object').columns.values.tolist() # 범부형 특성들만 리스트로 반환
    templist = []
    IDlist = []
    
    for temp in cat_attr:
        su = test[temp].isnull().sum() # 결측값의 합 
        
        if su> 500: # 결측값의 값이 500 이상 
            test = test.drop(temp, axis = 1) # 이면 쓸모 없는 특성이라 생각하고 특성  drop
            templist.append(temp)
    
    for temp in templist:
        cat_attr.remove(temp) # drop 된 특성들을 범주형 특성리스트에서도 지운다. 
        
    
        
    test=test.dropna(subset = cat_attr) # 마지막으로 범주형 특성중에 결측값이 있는 샘플 제거 
   
    test_labels = test['SalePrice'].copy() # 정답 레이블 분리 
    test = test.drop('SalePrice',axis = 1)
    
    print(cat_attr)
    # train_set 에서 데이터 정제를 하던 중 없어지는 특성이 있어 인코딩 할때 문제가 발생되는데
    # train.csv 파일에 다른 내용은 같고 없
    test_prepared = full_pipeline.transform(test) # 데이터 정제 
   
    final_predictions = final_model.predict(test_prepared) #최종 모델로 예측 
    
    final_mse = mean_squared_error(test_labels, final_predictions)
    final_rmse = np.sqrt(final_mse)
    
    print("최종 rmse", final_rmse) # 최종 rmse 값 일반적으로 교차검증을 사용할때보다 크게나옴 
    """
    

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 537577 entries, 0 to 537576
Data columns (total 12 columns):
User_ID                       537577 non-null int64
Product_ID                    537577 non-null object
Gender                        537577 non-null object
Age                           537577 non-null object
Occupation                    537577 non-null int64
City_Category                 537577 non-null object
Stay_In_Current_City_Years    537577 non-null object
Marital_Status                537577 non-null int64
Product_Category_1            537577 non-null int64
Product_Category_2            370591 non-null float64
Product_Category_3            164278 non-null float64
Purchase                      537577 non-null int64
dtypes: float64(2), int64(5), object(5)
memory usage: 49.2+ MB
None
Purchase              1.000000
Occupation            0.022176
User_ID               0.005239
Marital_Status        0.000299
Product_Category_3   -0.021352
Product_Category_2   -0.209204
Pr