![](https://pbs.twimg.com/profile_images/789117657714831361/zGfknUu8_400x400.jpg)
# **TMDB Box Office Prediction**
- [https://www.kaggle.com/c/tmdb-box-office-prediction](https://www.kaggle.com/c/tmdb-box-office-prediction/)

___
## **1. 개요**
TMDB Box Office Prediction :
- [TMDB](https://www.themoviedb.org/)에서 수집한 과거 데이터를 이용하여, 영화의 수익률 예측.
- 문제 유형 : Regression

#### **1.1. 문제 접근 방법**
- 이번 경진 대회에서는 3000개의 학습용 데이터와 4397개의 테스트 데이터를 제공한다. 학습용 데이터의 수가 테스트 데이터보다 부족하다는 문제점을 가진다. 또한 discussion과 kernel을 참고한 결과, 제공된 데이터의 신뢰성에대해 적지 않은 문제점을 식별할 수 있었다. 이는 차후에 모델의 성능 개선을 위해 고려해야 할 사항이다.

1) 데이터 전처리 
- 결측값(NAN, nan), 이상치(outlier), 비식별화 값 등의 노이즈 존재. 전처리해서 사용할 것인지 판단 필요
- 제공된 데이터가 가진 오류에 대한 수정 필요.

2) FE 
- 범주형 변수들을 이용한 빈도 수를 나타내는 feature 생성
- 연속형 변수들에 대한 log scale 적용

3) 모델 선택
- sklearn에서 DecisionTree, RandomForest, ExtraTrees, AdaBoost, GradientBoosting 등 다양한 트리 모델을 지원한다. 그러나 최근에는 XGBoost와 LightGBM을 많이 사용하여 좋은 성과를 내고 있다.
- XGBoost는 가장 좋은 성능과 빠른 속도를 제공하는 트리 모델이며, LightGBM은 마이크로소프트에서 오픈소스로 제공한 Boosting Tree 모델로서, XGBoost보다 빠른 학습 속도와 안정적인 성능을 제공하기 때문에 base 모델로 사용하게 되었다.
___
## **2. 팀 구성**
#### 2.1. **팀원 소개**
| 이름 | 역할 | 
| :------------ | :-----------: | 
| 안 승 보 | Base 모델의 발굴/ 선택/ 작성, 주요 모델 개선 아이디어 수집, 튜닝 | 
| 김 건 모 | Feature engineering 아이디어 제시, 데이터 전처리 및 변환 | 
| 김 다 영 | Discussion을 이용한 정보 습득, 제공된 데이터 이외의 정보 취득| 
| 김 도 민 | kernel 발굴 및 code의 이해와 공유, 비교 모델 개선 아이디어 수집, 튜닝 | 
| 조 수 빈 | 데이터의 Feature 관리, 데이터 시각화를 이용한 결론 도출|

#### 2.2. **팀 운영 방법**
작업 내용 공유:
##### **Google drive를 이용한 공용 드라이브 운영**
![](https://user-images.githubusercontent.com/46778769/56775271-47c72400-6801-11e9-86c2-0d063b14ea23.PNG)
##### **github를 이용한 협업**
![](https://user-images.githubusercontent.com/46778769/56771316-3d9d2980-67f1-11e9-928e-820196dca0cf.PNG)
#####  **github issue를 이용한 code 공유**
![](https://user-images.githubusercontent.com/46778769/56771008-6b35a300-67f0-11e9-9c0c-9516f32a18dd.PNG)



___
## **3. 중간 결과**
### **3.1. base 모델 결과**
![](https://user-images.githubusercontent.com/46778769/56773931-61fe0380-67fb-11e9-9158-55a50158abe8.PNG)

### **3.2. 문제 인식**
- 범주형 데이터 처리에 관한 잘못된 코드 사용
    - 카테고리화 과정에서 문제점 발생
- 사용하지 못하는 feature 발생
    - overview
- base 모델 underfitting, 추가적인 FE의 필요성 확인

### **3.3. 성능 개선**
#### 3.3.1 데이터 수집**
#### **기존 데이터의 문제점**
- budget과 revenue의 단위 불일치
- 데이터의 지리적 수익 산출 기준 불일치
- 데이터가 축소되어 적용된 값 존재
- 모델 성능 개선 중 데이터 수집 부분
- 모델 정확성을 높이기 위해 이를 개선한 데이터를 적용

#### 3.3.2. FE
- 개봉연도과 예산의 비율
    - "budget_year_ratio" 변수 생산

- 가장 자주 등장하는 배우와 감독에 따른 영향력이 있는가?
    - "num_top_crew", "num_top_cast" 변수 생산. 
    
#### 3.3.3 모델 튜닝
- LGBM 학습 파라미터 조정
- XGBoost 모델을 사용해서 비교 모델 생산

___
## **4. RnR에 따른 담당 팀원의 작업 내용 보고**
##### **프로젝트 일정에 따른 작업 내용**
| 이름 | 1일차 | 2일차 | 3일차 |
| :------------ |  :------------ |  :------------ | :-----------: | 
| 안 승 보 | 프로젝트 방향 제시, 업무 분배, | [base model 생성](https://www.kaggle.com/tmznql1234/seoul-coding-academy)  | 주요 모델 성능 개선을 위한 학습 parameter 조정 | 
| 김 건 모 | 데이터 전처리 | 데이터 전처리 | FE : budget / release_date | 
| 김 다 영 | TMDB API 사용 방법, Discussion을 통해 필요한 정보 습득 | 제공된 데이터 문제점 개선 방향 제시 | FE : budget / release_date | 
| 김 도 민 | 데이터 전처리 | 데이터 전처리 | 비교 모델(XGBoost) 생성, 성능 개선 |  
| 조 수 빈 | Feature 정리 |[데이터 시각화](https://github.com/seungb5/TMDB-Box-office-Prediction/issues/10#issuecomment-486534491) | FE : cast, crew | 


## **5. 기대 사항**
- 성능 개선(데이터 수집, FE, 모델 튜닝)을 통한 결과치 상승
- 앙상블(LGBM, XGBoost)을 통한 결과치 상승

#### **애로사항**
- overview feature를 사용하는 방법
    - 텍스트 감성 분석을 통한 긍정과 부정의 의미 도출하는 방법
- 배우들의 장르에 대한 영향력, 배우가 가진 영향력을 표현하는 변수 생성

___
## **5. 결론**
#### **5.1. LGBM**
##### **개선 전**![](https://user-images.githubusercontent.com/46778769/56773931-61fe0380-67fb-11e9-9158-55a50158abe8.PNG)
##### **개선 후**![](https://user-images.githubusercontent.com/46778769/56792592-efb21100-6844-11e9-92c6-b63bb3733fa1.PNG)

#### **5.1. XGBoost**
##### **개선 전**![](https://user-images.githubusercontent.com/46778769/56793305-acf13880-6846-11e9-9b92-79f583fa2c92.PNG)
##### **개선 후**![](https://user-images.githubusercontent.com/46778769/56793306-acf13880-6846-11e9-81c9-c2e28d9aa5d7.PNG)

- 성능개선을 위해 작업한 내용들이 결과적으로 영향을 미쳤다는 사실을 알 수 있었다.

___
## **6. 향후 개선 방향**
- 데이터 전처리, FE


- 데이터 모델링


- 성능 개선


- 앙상블 생성