# 가변수화

## 1.환경준비

### (1) 라이브러리 불러오기

In [1]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

#전처리를 위한 함수
from sklearn.model_selection import train_test_split

import warnings
warnings.filterwarnings(action='ignore')

### (2) 데이터 불러오기

In [2]:
path = 'https://raw.githubusercontent.com/DA4BAM/dataset/master/Carseats.csv'
data = pd.read_csv(path)
data.head()

Unnamed: 0,Sales,CompPrice,Income,Advertising,Population,Price,ShelveLoc,Age,Education,Urban,US
0,9.5,138,73,11,276,120,Bad,42,17,Yes,Yes
1,11.22,111,48,16,260,83,Good,65,10,Yes,Yes
2,10.06,113,35,10,269,80,Medium,59,12,Yes,Yes
3,7.4,117,100,4,466,97,Medium,55,14,Yes,Yes
4,4.15,141,64,3,340,128,Bad,38,13,Yes,No


|	변수명	|	설명	|	구분	|
|----|----|----|
|	Sales 	|	 각 지역 판매량(단위 : 1000개)	|	Target	|
|	CompPrice 	|	지역별 경쟁사 판매가격(달러)	|	feature	|
|	Income 	|	가구당 평균 소득액(1000달러)	|	feature	|
|	Advertising 	|	 각 지역, 회사의 광고 예산(1000달러)	|	feature	|
|	Population 	|	 지역 인구수(단위 : 1000명)	|	feature	|
|	Price 	|	 자사 지역별 판매가격(달러)	|	feature	|
|	ShelveLoc 	|	 진열상태(범주 : Bad, Medium, Good)	|	feature	|
|	Age 	|	 지역 인구의 평균 연령	|	feature	|
|	Education 	|	 교육수준(범주 : 10~18)	|	feature	|
|	Urban 	|	 매장이 도심에 있는지 여부(범주 : Yes, No)	|	feature	|
|	US 	|	 매장이 미국에 있는지 여부(범주 : Yes, No)	|	feature	|


## 2.가변수화

### (1) 예제 데이터

* 샘플데이터 생성

In [3]:
train = pd.DataFrame({'x1':['a','b','a','b','c'], 'x2':[2,6,5,3,4]})
test = pd.DataFrame({'x1':['a','b','b'], 'x2':[7,8,9]})

In [8]:
train

Unnamed: 0,x1,x2
0,a,2
1,b,6
2,a,5
3,b,3
4,c,4


In [9]:
test

Unnamed: 0,x1,x2
0,a,7
1,b,8
2,b,9


* 가변수화

In [None]:
pd.get_dummies(train, columns = ['x1'])

In [None]:
pd.get_dummies(test, columns = ['x1'])

* 어떻게 해결해야 할까요?

### (2) pd.Categorical
* help : https://pandas.pydata.org/docs/reference/api/pandas.Categorical.html

In [4]:
train['x1'] = pd.Categorical(train['x1'], categories = ['a','b','c'])
train['x1']

0    a
1    b
2    a
3    b
4    c
Name: x1, dtype: category
Categories (3, object): ['a', 'b', 'c']

In [5]:
test['x1'] = pd.Categorical(test['x1'], categories = ['a','b','c'])

In [6]:
pd.get_dummies(train, columns = ['x1'])

Unnamed: 0,x2,x1_a,x1_b,x1_c
0,2,True,False,False
1,6,False,True,False
2,5,True,False,False
3,3,False,True,False
4,4,False,False,True


In [7]:
pd.get_dummies(test, columns = ['x1'])

Unnamed: 0,x2,x1_a,x1_b,x1_c
0,7,True,False,False
1,8,False,True,False
2,9,False,True,False


## 3.실습
* (1) test 데이터를 5건 분할합니다.
* (2) 나머지를 가지고
    * 1) x, y 분할
    * 2) 범주형 변수에 대한 카테고리들을 정의하고, pd.Categorical 함수로 변환합니다.
        * 범주형 feature : ShelveLoc, Education, US, Urban
    * 3) 가변수화를 수행합니다.
    * 4) train, val로 분할합니다.
* (3) 모델링 
    * 간단한 회귀모델을 생성하고 검증합니다.
* (4) test를 가지고
    * 1) y를 떼어내고
    * 2) 가변수화 : 2번에서 정의한 카테고리로 pd.Categorical 함수 실행 후 가변수화 수행
    * 3) 모델로 예측합니다. 

### (1) test 분리

In [None]:
train, test = train_test_split(data, test_size = 5, random_state = 10)

In [None]:
test

### (2) 전처리

* x, y 분할

In [None]:
target = 'Sales'
x = train.drop(target, axis = 1)
y = train.loc[:, target]

* Categorical로 변환하기

In [None]:
# ShelveLoc, Urban , US
print(x['ShelveLoc'].unique())
print(x['Urban'].unique())
print(x['US'].unique())

In [None]:
# category로 변환하기



* 가변수화

* train, val 분할

In [None]:
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size = .2)

### (3) 모델링

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import *

In [None]:
model = LinearRegression()
model.fit(x_train, y_train)
pred = model.predict(x_val)

print(mean_absolute_error(y_val, pred))

### (4) test 처리

* pd.Categorical을 이용하여 범주형 타입으로 변환하고, 가변수화 하기
* 모델 가지고 예측하기

In [None]:
x_test = test.drop(target, axis = 1)

In [None]:
# category로 변환하기



# 가변수화



In [None]:
# 예측
model.predict(x_test)