In [21]:
import pandas as pd
import numpy as np
from sklearn import linear_model

df = pd.read_csv('homeprices.csv')
df.head()

Unnamed: 0,area,price
0,2600,550000
1,3000,565000
2,3200,610000
3,3600,680000
4,4000,725000


### [ Linear Regression ]

In [23]:
model = linear_model.LinearRegression()
model.fit(df[['area']], df.price)
print('coef : {}, intercept : {}'.format(model.coef_, model.intercept_))
print('predict : {}'.format(model.predict([[5000]])))

coef : [135.78767123], intercept : 180616.43835616432
predict : [859554.79452055]




### [ 모델 저장 : pickle 방식, joblib 방식 ]

#### - numpy array가 많은 경우 pickle 보다 joblib이 더 효과적
#### - It may be better to use joblib’s replacement of pickle (dump & load), which is more efficient on objects that carry large numpy arrays internally as is often the case for fitted scikit-learn estimators, but can only pickle to the disk and not to a string

#### 직렬화 : 효율적으로 저장하거나 스트림으로 전송할 때 파이썬 객체의 데이터를 줄로 세워 저장하는 것
#### 역직렬화 : 직렬화된 파일이나 바이트를 원래의 객체로 복원하는 것



### [ pickle ]

#### - Pickle 방식은 사람이 읽을 수 없는 반면 저장이나 전송이 효율적
#### - pickle.dump() : 파이썬 객체를 직렬화하여 이진 파일(binary file)에 저장하기
#### - pickle.load() : 직렬화되어 있는 이진 파일로 부터 파이썬 객체로 역직렬화하기
#### - pickle.dumps() : 파이썬 객체를 직렬화하여 메모리에 저장하기: 
#### - pickle.loads() : 직렬화되어 있는 바이트 객체(bytes object)를 파이썬 객체로 역직렬화 

In [12]:
import pickle

# model_pickle 생성
with open('model_pickle', 'wb') as f:
    pickle.dump(model,  f)
    
# mp = object
with open('model_pickle', 'rb') as f:
    mp = pickle.load(f)

In [14]:
# 이 파일을 다른 사람에게 전송하여 훈련된 것을 통해 동일한 결과를 얻을 수 있음

mp.predict([[5000]])



array([859554.79452055])

### [ sklearn의 joblib ]

#### - numpy array가 큰 경우 pickle보다 효율적

In [17]:
import joblib

joblib.dump(model, 'model_joblib')

mj = joblib.load('model_joblib')

mj.predict([[5000]])



array([859554.79452055])

In [18]:
mj.coef_, mj.intercept_

(array([135.78767123]), 180616.43835616432)

In [19]:
mp.coef_, mp.intercept_

(array([135.78767123]), 180616.43835616432)