# RandomForestRegressor 모델
- 여러 개의 의사 결정 트리(Decision Tree)를 결합하여 과적합을 방지하고 일반화 성능을 높이는 앙상블(Ensemble) 모델 중 하나
- 각각의 의사 결정 트리를 무작위로 선택한 부분 데이터셋으로 학습하고, 각 트리의 예측 결과를 종합하여 최종 예측을 수행

### 모델의 특징
- 과적합을 방지하여 일반화 성능을 높일 수 있다.
- 다양한 종류의 데이터셋에 적용 가능하다.
- 특성 중요도(Feature Importance)를 계산하여 변수의 중요도를 평가할 수 있다.
- 다수의 트리를 사용하기 때문에 처리 속도가 느릴 수 있다.
- 의사 결정 트리 모델과 달리 결과의 해석이 어렵다.

In [35]:
# 필요한 라이브러리
# data analytics
import pandas as pd

# sklearn
import sklearn as sk
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split


In [36]:
# 데이터 입력
from google.colab import drive
drive.mount('/content/drive')
df = pd.read_csv('/content/drive/MyDrive/데이터_전처리_파일.csv', encoding='cp949')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [40]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# 텍스트 데이터
data = list(df['Subject'] + ' ' + df['견적화폐'] + ' ' + df['Control No.'] + ' ' + df['Assembly'] )

# target 값
target = list(df['리드타임_음수제거'])

# CountVectorizer를 이용하여 feature 벡터 생성
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(data)

# df[리드타임_음수제거]는 별도의 인코딩이 필요치않음
y = target

# train, test 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 모델 생성 및 학습
model = RandomForestRegressor(n_estimators=7, random_state=40)
model.fit(X_train, y_train)

# 학습된 모델로 예측
y_pred = model.predict(X_test)

# 모델 평가
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("MSE: ", mse)
print("R2 Score: ", r2)


MSE:  348.24651865873176
R2 Score:  0.9274962918587235


In [38]:
# 피클로 모델 저장
import pickle 
with open('lead_RFR.pickle','wb') as fw:
    pickle.dump(model, fw)

In [39]:
# vectorizer 생성
vectorizer = CountVectorizer()

# feature 벡터 생성
X = vectorizer.fit_transform(data)

# vectorizer 객체 저장
with open('lead_RFR_vectorizer.pickle', 'wb') as fw:
    pickle.dump(vectorizer, fw)

## RandomForestRegressor 모델의 경우에는 상관분석의 영향을 많이 받는 변수들이 유효하게 작용했다.


- 변수인 n_estimators는 RFR 모델에서 생성할 의사결정나무의 개수로, 값이 클수록 성능이 좋아진다.
- 변수인 random_state 모델이 동일한 결과를 재현하기 위해 사용되는 난수 생성기의 시드(seed)값으로, 시드 값을 고정하면 학습할 때마다 동일한 결정 트리를 생성한다.