# LinearRegression 모델
- 독립 변수와 종속 변수 사이의 선형적인 관계를 모델링하는 모델

## 모델의 특징
- 간단하고 직관적인 모델: 변수 간의 선형적인 관계를 나타내는 간단한 모델로, 설명력이 높아질수록 모델이 설명하는 데이터에 대한 이해도가 높아짐

- 계산이 빠르고 쉬움: 간단한 수학적 공식으로 계산가능

- 오류에 민감: Linear Regression 모델은 이상치나 극단적인 값을 갖는 데이터에 민감하게 반응합니다. 이에 대한 대처는 데이터 전처리나 정규화 등의 방법을 사용해야 함.

- 다중 공선성 문제: 설명 변수 간에 상관관계가 높은 경우, 다중 공선성 문제가 발생가능. 이를 해결하기 위해서는 변수 선택이나 차원 축소 등의 방법을 사용해야 함.

- 예측력이 한계가 있음: 비선형적인 관계를 모델링해야 하는 경우에는 다른 모델을 사용해야 함.

In [12]:
# 필요한 라이브러리
#data analytics
import pandas as pd

#sklearn
import sklearn as sk
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split


In [13]:
# 데이터 입력
from google.colab import drive
drive.mount('/content/drive')
df = pd.read_csv('/content/drive/MyDrive/데이터_전처리_파일.csv', encoding='cp949')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
# 숫자형 데이터는 문자형으로 통일
# df['발주수량'] = df['발주수량'].astype(str)
# df['견적단가'] = df['견적단가'].astype(str)

In [15]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
# 텍스트 데이터
data = list(df['Subject'] + ' ' + df['key1'] + ' ' + df['Control No.'] + ' ' +  df['Assembly'] )

# target 값
target =list(df['리드타임_음수제거'])

# CountVectorizer를 이용하여 feature 벡터 생성
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(data)

# df[리드타임_음수제거]는 별도의 인코딩이 필요치않음
y = target

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 모델 생성 및 학습
model = LinearRegression()
model.fit(X, y)

# 학습된 모델로 예측
y_pred = model.predict(X)

# 모델 평가
mse = mean_squared_error(y, y_pred)
r2 = r2_score(y, y_pred)

print("MSE: ", mse)
print("R2 Score: ", r2)


MSE:  312.21484186421134
R2 Score:  0.935750399784708


In [16]:
# 피클로 모델 저장
import pickle 
with open('lead_Linear.pickle','wb') as fw:
    pickle.dump(model, fw)

In [17]:
# vectorizer 생성
vectorizer = CountVectorizer()

# feature 벡터 생성
X = vectorizer.fit_transform(data)

# vectorizer 객체 저장
with open('lead_linear_vectorizer.pickle', 'wb') as fw:
    pickle.dump(vectorizer, fw)

## LinearRegression모델은 상관관계 분석 보다 주성분 분석의 데이터들이 더 유효한값을 보여줌