# Training and Validating a Linear Regression Model

In [1]:
import pandas as pd

In [2]:
adver = pd.read_csv("Advertising.csv", usecols=[1, 2, 3, 4]) #dataFrame으로 변환
adver.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [3]:
X, y = adver.iloc[:, :-1], adver.iloc[:, -1]
# X : 모든 행, 마지막 열 제외 = 마지막 열을 제외한 모든 값
# y : 모든 행, 마지막 열만 = 마지막 열의 값

In [4]:
import sklearn.model_selection as ms

In [5]:
X_train, X_test, y_train, y_test = ms.train_test_split(X, y, test_size=0.25, random_state=42)
#모델을 훈련하고 검증하려면 데이터를 training set와 testing set으로 분리해야 한다.
#train_test_split 함수로 쉽게 분리할 수 있다. 매개변수는 다음과 같다.
# X : Advertisments.csv에서 가져온 inputs
# y : output(answer, label)
# test_size : test에 사용할 데이터의 백분율. 일반적으로 25% ~ 40% 사이로 설정하는 것이 좋다.
# random_state : random seed. 입력하지 않으면 무작위로 선택한다.

#linear regression : http://adit.io/posts/2016-02-20-Linear-Regression-in-Pictures.html

In [6]:
import sklearn.linear_model as lm

In [7]:
regr = lm.LinearRegression() #선형 회귀 모델 객체를 생성한다.
regr.fit(X_train, y_train) #fit() 으로 모델을 훈련시킨다.
regr.score(X_test, y_test) #모델의 훈련 결과 점수를 표시한다. 선형 회귀의 경우, 훈련한 모델의 예상한 출력이 실체 값과 얼마나 가까운지 보여준다.

0.8935163320163657

In [8]:
X_new = [[ 50.0, 150.0, 150.0],
         [250.0,  50.0,  50.0],
         [100.0, 125.0, 125.0]]
#실제로 모델에 적용할 값

regr.predict(X_new) #훈련된 모델로 예측한 값을 출력한다.

#TV, radio, newspaper에 각각 $50k, $150k, $150k 씩 광고비를 소비하면, 모델이 예측한 판매량은 34,150이 된다.

array([34.15367536, 23.83792444, 31.57473763])

# Training and Validating a Support Vector Machine Model

In [9]:
import sklearn.svm as svm
#SVM은 가장 많이 사용되는 기계 학습 모델 중 하나로, LR보다 훈련에 더 많은 시간이 소요된다.
#대다수의 scikit-learn의 기계 학습 모델에서 fit(), score(), predict() 를 공통으로 사용한다.

In [10]:
svr = svm.LinearSVR(random_state=42)
svr.fit(X_train, y_train)
svr.score(X_test, y_test)

0.8665383823569167

In [11]:
svr.predict(X_new)
#SVM이 더 복잡하고 정교한 모델이지만, 그렇다고 해서 항상 나은 예측을 하는 것은 아니다.
#기계 학습의 가장 어려운 부분 중 하나는 최상의 결과를 얻을 수 있는 모델과 올바른 매개변수를 찾아내는 것이다.

array([25.86174666, 21.5094961 , 24.77368402])

# Converting the Model to Apple’s Core ML Format

In [12]:
import coremltools #coremltools로 Core ML로 내보낼 수 있다.

In [13]:
input_features = ["tv", "radio", "newspaper"]
output_feature = "sales"

model = coremltools.converters.sklearn.convert(regr, input_features, output_feature) #convert
#매개 변수는 다음과 같다. convert 할 scikit-learn model, Xcode가 Swift 클래스 인터페이스 생성할 때 사용할 input, output의 feature
model.save("Advertising.mlmodel") #모델을 저장한다.