# 구내식당 이용 인원 예측 프로젝트

점심이나 저녁의 이용 여부는 다양한 외부요인이 있다. 빠르게 해결해야할 때도 있고 천천히 하루는 즐기고 싶을 때도 있다.

따라서 예측하기 힘들고 이를 예측하였을 때의 장점으로 식당에서의 음식의 양을 조절하여 엄청난 자원을 줄일 수 있다.

# Columns

```
일자 : 2020-02-05 와 같이 연-월-일로 구성되어 있습니다.
요일 : 월, 화, 수, 목, 금
본사정원수 : 현재 본사에서 근무하는 인원의 수
본사휴가자수 : 휴가자의 수
본사출장자수 : 출장을 간 인원의 수
본사시간외근무명령서승인건수 : 야근을 하는 인원의 수
현본사소속재택근무자수 : 출근하지 않고 재택 근무 인원의 수
조식메뉴, 중식메뉴, 석식메뉴 : 각각 슬래시(/) 로 각 메뉴가 구분됨
중식계(TARGET) : 점심을 먹은 사람의 수
석식계(TARGET) : 저녁을 먹은 사람의 수
```

```train```

![image.png](attachment:fc3fa0fc-fdca-4b9d-84b4-268ec5b35e70.png)

우리는 중식계와 석식계를 예측해야한다.

# 분석

In [None]:
# 데이터를 읽어오고 살펴보기 위한 pandas 라이브러리
import pandas as pd
 
# train 데이터 읽어오기
train = pd.read_csv('train.csv')

# test 데이터 읽어오기
test = pd.read_csv('test.csv')

# sample_submission 데이터 읽어오기
submission = pd.read_csv('sample_submission.csv')

![image.png](attachment:4f18b5e2-4c21-4395-91d9-6ba7ba6c2571.png)

In [None]:
# 랜덤포레스트로 lunch_model 예측하기.
from sklearn.ensemble import RandomForestRegressor

# 모델 정의
lunch_model = RandomForestRegressor()

In [None]:
# 중식계 예측을 위한 features
features = ['요일', '월', '일', '현재원', '본사휴가자수', '본사출장자수', '본사시간외근무명령서승인건수', '현본사소속재택근무자수']

# 독립변수 X와 종속변수 y 업데이트
X = train[features]
y = train['중식계']

# 모델 학습
lunch_model.fit(X, y)

In [None]:
# 학습된 모델을 이용해 결괏값 예측 후 상위 10개의 값 확인
lunch_predict = lunch_model.predict(test[features])
print('----------------------예측된 데이터의 상위 10개의 값 확인--------------------\n')
print(lunch_predict[:10])

In [None]:
# 시각화를 위한 라이브러리
import matplotlib.pyplot as plt

plt.figure(dpi=150)
plt.plot(lunch_predict, alpha=0.6, label='pred')
plt.legend()
plt.show()

![image.png](attachment:2d5087c5-1f7a-4b1c-b9a0-0401f8f546ec.png)

In [None]:
# 랜덤포레스트의 의사결정나무 확인 가능
estimator_list = lunch_model.estimators_
estimator_list

In [None]:
#석식계 예측 : 랜덤포레스트 모델

# 석식계 예측을 위한 features    
features.append('중식계')

# test 데이터에 중식계 컬럼 추가 (예측값)    
test['중식계'] = lunch_predict

# 독립변수 X와 종속변수 y 업데이트    
X = train[features]    
y = train['석식계']    

# 1. 모델 정의    
dinner_model = RandomForestRegressor()    

# 2. 모델 학습    
dinner_model.fit(X,y)

# 3. 예측      
dinner_predict = dinner_model.predict(test[features])

# 예측값 시각화    
plt.figure(dpi=150)    
plt.plot(dinner_predict, label='pred')    
plt.legend()    
plt.show()    

![image.png](attachment:37bfec23-08ed-4d80-a2a2-1d3515aa8b36.png)

In [None]:
#선형회귀모델 사용
from sklearn.linear_model import LinearRegression

# 모델 정의
lunch_model = LinearRegression()

In [None]:
# 중식계 예측을 위한 features
features = ['요일', '월', '일', '현재원', '본사휴가자수', '본사출장자수', '본사시간외근무명령서승인건수', '현본사소속재택근무자수']

# 독립변수 X와 종속변수 y 업데이트
X = train[features]
y = train['중식계']

# 모델 학습
lunch_model.fit(X, y)

In [None]:
# 학습된 모델을 이용해 결괏값 예측 후 상위 10개의 값 확인
lunch_predict = lunch_model.predict(test[features])
print('----------------------예측된 데이터의 상위 10개의 값 확인--------------------\n')
print(lunch_predict[:10])

In [None]:
# 예측값 시각화
plt.figure(dpi=150)
plt.plot(lunch_predict, alpha=0.6, label='pred')
plt.legend()
plt.show()

![image.png](attachment:3593f2b2-1244-408c-9000-13399685030c.png)

In [None]:
# 석식계 예측을 위한 features    
features.append('중식계')    

# test 데이터에 중식계 컬럼 추가 (예측값)    
test['중식계'] = lunch_predict

# 독립변수 X와 종속변수 y 업데이트    
X = train[features]    
y = train['석식계']    

# 1. 모델 정의    
dinner_model = LinearRegression()    

# 2. 모델 학습      
dinner_model.fit(X,y)    

# 3. 예측      
dinner_predict = dinner_model.predict(test[features])    

# 예측값 시각화    
plt.figure(dpi=150)    
plt.plot(dinner_predict, label='pred')    
plt.legend()    
plt.show()    

In [None]:
![image.png](attachment:895fec7b-c5f7-44fd-a3ff-16f10b727588.png)

In [None]:
# 중식계 예측을 위한 features    
features = features[:-1]

# 독립변수 X와 종속변수 y 업데이트    
X = train[features]    
y = train['중식계']

from sklearn.ensemble import RandomForestRegressor    

# 1. 모델 정의    
lunch_model = RandomForestRegressor(n_estimators=200, criterion='absolute_error')

# 2. 모델 학습    
# fit() 메소드 이용    
lunch_model.fit(X,y)

# 3. 예측    
# predict() 메소드 이용    
lunch_count_predict = lunch_model.predict(test[features])

# 예측값 시각화     
plt.figure(dpi=150)    
plt.plot(lunch_count_predict, alpha=0.6, label='pred')    
plt.legend()    
plt.show()

![image.png](attachment:dd15f13b-6fa3-4c64-9697-4f4185d49c7f.png)

In [None]:
# 석식계 예측을 위한 features    
features.append('중식계')

# test 데이터에 중식계 컬럼 추가 (예측값)    
test['중식계'] = lunch_count_predict

# 독립변수 X와 종속변수 y 업데이트    
X = train[features]    
y = train['석식계']

# 1. 모델 정의    
dinner_model = RandomForestRegressor(n_estimators=200, criterion='absolute_error')

# 2. 모델 학습    
# fit() 메소드 이용    
dinner_model.fit(X,y)

# 3. 예측    
# predict() 메소드 이용    
dinner_count_predict = dinner_model.predict(test[features])

# 예측값 시각화    
plt.figure(dpi=150)    
plt.plot(dinner_count_predict, label='pred')    
plt.legend()    
plt.show() 

![image.png](attachment:9b519bb8-7a26-400c-b71c-dea32922b153.png)

In [None]:
submission['중식계'] = lunch_count_predict        
submission['석식계'] = dinner_count_predict

In [None]:
submission.to_csv('submission.csv', index=False)

결과 : 평소에는 170 , 120 나왔었지만 <br>
지금의 EDA 전처리 과정을 거치니 loss 가  `89.689` 점 나왔다.