## [데이터마이닝] 과제1 
ToyotaCorolla.csv 데이터에서
- fuel_type 변수와 color 변수(범주, 그중에서도 명목형 데이터)를 pandas를 활용하여 가변수(더미변수)로 변환하라

- 학습 50%, 검증 30%, 시험 20%로 분할하고 역할을 설명하라

>Addendum
- 본 데이터를 대상으로 본인이 현재까지 알고 있는 지식을 활용하여 데이터 마이닝적 관점에서 분석 및 해석
>경로
/Users/shimyuna/Desktop/✳︎/Python-Data-Mining/datamining/ToyotaCorolla.csv

In [1]:
# 사용할 파이썬 라이브러리 불러오기 
import numpy as np
import pandas as pd
import sklearn as sk
from sklearn.model_selection import train_test_split  # 훈련/평가 분할
from sklearn.metrics import r2_score # 결정계수 함수 (이 통계 모델로 대상을 얼마나 잘 설명할 수 있는가를 숫자로 나타낸 것이 결정계수이다.)
from sklearn.linear_model import LinearRegression #선형 회귀 분석

In [2]:
#데이터로부터 데이터 셋을 생성하고, 불러오는 코드
Toyota_df = pd.read_csv("/Users/shimyuna/Desktop/✳︎/Python-Data-Mining/datamining/ToyotaCorolla.csv")

In [3]:
# 데이터 차원 확인
Toyota_df.shape  # 몇행 몇열인지 반환

(1436, 38)

In [4]:
#상위 10개까지 뽑아 봐서, 38개의 열 이름이 무엇이 있고 어떤 데이터 들인지 확인하기 
Toyota_df.head(2)

Unnamed: 0,model,price,age_08_04,mfg_month,mfg_year,km,fuel_type,hp,met_color,color,...,powered_windows,power_steering,radio,mistlamps,sport_model,backseat_divider,metallic_rim,radio_cassette,parking_assistant,tow_bar
0,TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors,13500,23,10,2002,46986,Diesel,90,1,Blue,...,1,1,0,0,0,1,0,0,0,0
1,TOYOTA Corolla 2.0 D4D HATCHB TERRA 2/3-Doors,13750,23,10,2002,72937,Diesel,90,1,Silver,...,0,1,0,0,0,1,0,0,0,0


In [5]:
# fuel_type 변수와 color 변수의 제한적인 값을 카테고리로 바꿔, 효율적으로 데이터 프레임을 관리할 수 있게 함
Toyota_df.fuel_type = Toyota_df.fuel_type.astype('category')
Toyota_df.color = Toyota_df.color.astype('category')
# 확인용 코드print(Toyota_df.fuel_type.cat.categories)

In [6]:
# fuel_type 변수와 color 변수를 pandas를 활용하여 가변수로 변환
    #  범주형 변수에 순위가 없다면, 범주를 가변수로 바꿔서 활용하기도 함 
    # 데이터 프레임 명 = pd.get_dummies(데이터 프레임 명, columns=['수정하고싶은 컬럼'], prefix_sep='_', drop_first=True) 
    # ==> 이런식으로 하면, 지정한 컬럼에 대해서만 가변수로 바꿀 수 있음

Toyota_df = pd.get_dummies(Toyota_df, columns=['fuel_type','color'],prefix_sep='_', drop_first=True)
Toyota_df.columns

Index(['model', 'price', 'age_08_04', 'mfg_month', 'mfg_year', 'km', 'hp',
       'met_color', 'automatic', 'cc', 'doors', 'cylinders', 'gears',
       'quarterly_tax', 'weight', 'mfr_guarantee', 'bovag_guarantee',
       'guarantee_period', 'abs', 'airbag_1', 'airbag_2', 'airco',
       'automatic_airco', 'boardcomputer', 'cd_player', 'central_lock',
       'powered_windows', 'power_steering', 'radio', 'mistlamps',
       'sport_model', 'backseat_divider', 'metallic_rim', 'radio_cassette',
       'parking_assistant', 'tow_bar', 'fuel_type_Diesel', 'fuel_type_Petrol',
       'color_Black', 'color_Blue', 'color_Green', 'color_Grey', 'color_Red',
       'color_Silver', 'color_Violet', 'color_White', 'color_Yellow'],
      dtype='object')

In [7]:
# 가변수 처리가 정상적으로 되었는지, 가변수 처리한 컬럼들에 대해 확인
# loc을 활용해 컬럼 범위 지정, head를 활용해 일부 추출
print(Toyota_df.loc[:,'fuel_type_Diesel':'color_Yellow'].head(3))

   fuel_type_Diesel  fuel_type_Petrol  color_Black  color_Blue  color_Green  \
0                 1                 0            0           1            0   
1                 1                 0            0           0            0   
2                 1                 0            0           1            0   

   color_Grey  color_Red  color_Silver  color_Violet  color_White  \
0           0          0             0             0            0   
1           0          0             1             0            0   
2           0          0             0             0            0   

   color_Yellow  
0             0  
1             0  
2             0  


In [8]:
# 결측 데이터 처리해야 하는 값이 있는지 확인하기, 앞서 .shpe를 통해 차원과 행열의 수를 확인했음 (1436, 38)
# info()를 활용해 데이터 프레임 정보 확인 후 결측데이터 처리해야할 부분 체크
Toyota_df.isnull().sum() 

model                0
price                0
age_08_04            0
mfg_month            0
mfg_year             0
km                   0
hp                   0
met_color            0
automatic            0
cc                   0
doors                0
cylinders            0
gears                0
quarterly_tax        0
weight               0
mfr_guarantee        0
bovag_guarantee      0
guarantee_period     0
abs                  0
airbag_1             0
airbag_2             0
airco                0
automatic_airco      0
boardcomputer        0
cd_player            0
central_lock         0
powered_windows      0
power_steering       0
radio                0
mistlamps            0
sport_model          0
backseat_divider     0
metallic_rim         0
radio_cassette       0
parking_assistant    0
tow_bar              0
fuel_type_Diesel     0
fuel_type_Petrol     0
color_Black          0
color_Blue           0
color_Green          0
color_Grey           0
color_Red            0
color_Silve

In [9]:
# 데이터 전처리와 데이터 정제 - 변수 선택, 이상치 처리, 결측치 처리 
    ## 변수 선택(신뢰성 높은 모델을 위해, 적절한 변수만 포함) > 변수가 너무 많을 경우, 상관관계 파악을 위해 많은 관측치가 필요함
    ## 이상치 처리(3시그마)
    ## 결측치(missing Value): 결측치가 있는 관측치를 삭제하기보다 기존 데이터를 이용해 대체할 수 있음
    ###위 결과를 통해 결측치가 없기 때문에 처리할 부분이 없는 것으로 판단! 이부분은 패스..

In [11]:
# Toyota 데이터를 학습 50%, 검증 30%, 시험 20%로 분할

# Scikit-learn을 사용하는 경우, 
# train/ validation 값만 설정되는데 다음과 같은 방법을 활용해 train,valid,test값으로 나눌 수 있음 


# 학습(train)을 위해 id의 50%를 무작위 샘플링
# frac를 통해 50%를 학습을 위한 데이터로 설정하고, random_state는 1로 하여 랜덤 추출한 값에 시드를 설정할 수 있다. 원하는 값을 설정하면, 항상 같은 결과를 출력
trainData = Toyota_df.sample(frac=0.5, random_state=1)


# 행 아이디의 30%를 검증 세트로 샘플링하여 레코드에서만 가져옴 
# 50%의 60%는 30%  ==> 검증 데이터로 활용 
validData = Toyota_df.drop(trainData.index).sample(frac = 0.6, random_state = 1)


## 나머지 20% 를 테스트 데이터로 활용 
testData = Toyota_df.drop(trainData.index).drop(validData.index)

print('traning    : ', trainData.shape)
print('validation : ', validData.shape)
print('Test       : ', testData.shape)
print()

traning    :  (718, 47)
validation :  (431, 47)
Test       :  (287, 47)

