# 팀 회의 후 논의된 기준 Data 추출
* data 추출 기준<br/>
1) release_date 컬럼 기준, 2000년 이후의 데이터 => 비교적 최근의 데이터를 기준으로 학습하기 위함<br/>
2) revenue와 budget 컬럼의 값이 모두 0이 아닌 데이터 => 영화의 성공여부를 판단하는 주요 지표로서 순수익을 산출해 학습에 반영하기 위함<br/>
3) keywords 컬럼이 비어있지 않는 데이터 => 해당 영화의 특성을 나타내는 주요 지표로 keywords를 활용해 테스트해보기 위함<br/><br/>

* 위 기준 적용하여 추출된 총 데이터 개수 => 3,154개

# 피쳐엔지니어링 및 모델링

### 기본 설정
* 학습은 우선 랜덤포레스트를 기반으로 결과를 확인해가며 피쳐 엔지니어링 과정을 통해 성능을 향상시키는 데에 집중하고자 함
* 이후 하이퍼파라미터 튜닝 및 다른 모델 적용 등의 테스트를 통해 최적의 모델링을 찾아나가고자 함
* 모델 평가지표는 RMSE 활용


## 피쳐엔지니어링 및 모델링(1차)

### Feature 관련 조치사항
* 1차적으로 현 데이터 기준 바로 사용 가능한 컬럼으로 테스트
* "original_language"은 라벨 인코딩 후 반영
* 컬럼별 극단적인 아웃라이어 제외 처리

```
Train Data RMSE : 57.67754592646633
Test Data RMSE : 138.13631167216087
```

> 현재 기준 위와 같이 결과가 확인되며, 이후의 피쳐엔지니어링 및 모델링 과정을 통해 성능을 비교해 판단하고자 함


## 피쳐엔지니어링 및 모델링(2차)

### Feature 관련 조치사항
* 추가 반영할 Feature별 세부검토
* "genres_name" 컬럼에서 장르별 점수 산출 및 해당 영화에 대한 장르 종합점수를 계산한 컬럼 추가

```
Train Data RMSE : 43.38238171274984
Test Data RMSE : 125.71119445471192
```

> 1차 모델링에 비해 확실히 성능이 개선된 것으로 확인됨


## 피쳐엔지니어링 및 모델링(3차)

### Feature 관련 조치사항
* 추가 반영할 Feature별 세부검토
* "production_name" 컬럼에서 프로덕션별 점수 산출 및 해당 영화에 대한 프로덕션 종합점수를 계산한 컬럼 추가
    - production_name 종류가 4천개가 넘기 때문에 각 production의 영화개수 기준으로 상위 1천개의 production 기준으로 점수 산출함
    
```
Train Data RMSE : 36.684732663963295
Test Data RMSE : 100.42448623661382
```

> 이번에도 2차 모델링에 비해 성능이 개선된 것으로 확인됨. 특히 Test 데이터에 대한 성능이 많이 향상되었음


## 피쳐엔지니어링 및 모델링(4차)

### Feature 관련 조치사항
* 현재 컬럼들 기준, StandardScaler 적용

```
Train Data RMSE : 36.93803872315183
Test Data RMSE : 100.66317670447067
```

> 스케일링에 따른 특별한 성능향상은 현 데이터를 기준으로는 관찰되지 않음

* 현재 컬럼들 중, "profit"과의 상관관계가 상대적으로 낮은 지표 제외 후 성능테스트 진행

```
Train Data RMSE : 36.77315656844643
Test Data RMSE : 100.30116405240685
```

> "original_language_le" 제외 시 성능에 대한 유의미한 차이는 현 데이터 기준으로 특별히 관찰되지는 않음


## 피쳐엔지니어링 및 모델링(5차)

### Feature 관련 조치사항
* 추가 반영할 Feature별 세부검토
* "prod_countries_name" 컬럼에서 국가별 점수 산출 및 해당 영화에 대한 국가별 종합점수를 계산한 컬럼 추가

```
Train Data RMSE : 37.05608063036668
Test Data RMSE : 99.83429386977869
```

> "prod_countries_score_total" 컬럼은 성능 향상에 크게 영향을 미치지 못하는 것으로 판단됨

## 피쳐엔지니어링 및 모델링(6차)

### Feature 관련 조치사항
* 추가 반영할 Feature별 세부검토
* "budget_grade" 컬럼 추가
    - 서로 다른 각각의 금액들로 이루어진 "budget" 컬럼의 숫자를 그룹화 해 등급을 선정한 컬럼 생성

```
Train Data RMSE : 36.927162834635546
Test Data RMSE : 101.21428674867352
```

> "budget_grade" 컬럼은 성능 향상에 크게 영향을 미치지 못하는 것으로 판단됨

## 피쳐엔지니어링 및 모델링(7차)

### Feature 관련 조치사항
* 추가 반영할 Feature별 세부검토
* "keywords_name" 컬럼에서 키워드별 종합점수를 계산한 컬럼 추가
    - keywords_name 종류가 약 8천개이기 때문에 건수 기준으로 상위 5천개를 추출해 점수 산출함

```
Train Data RMSE : 31.98911140640466
Test Data RMSE : 93.2061634192424
```

> Train, Test 데이터에서 모두 성능이 의미있게 개선된 것으로 확인됨

## 피쳐엔지니어링 및 모델링(8차)

### Feature 관련 조치사항
* 추가 반영할 Feature별 세부검토
* "cast_name" 컬럼에서 출연자별 종합점수를 계산한 컬럼 추가
    - 출연자가 전체 4만3천명을 넘기 때문에 영화 출연건수를 기준으로 상위 3만명의 정보만 추출해 점수 산출함

```
Train Data RMSE : 22.649729488452117
Test Data RMSE : 90.81912316633164
```

> Train 데이터에서 성능이 크게 향상되었고, Test 데이터에서도 성능 개선이 이루어졌음

## 피쳐엔지니어링 및 모델링(9차)

### Feature 관련 조치사항
* 추가 반영할 Feature별 세부검토
* "crew_main" 컬럼에서 crew별 종합점수를 계산한 컬럼 추가
    - 주요 crew가 약 6.3천명 정도이며 영화건수를 기준으로 상위 5천명의 crew 정보만 추출해 점수 산출함

```
Train Data RMSE : 20.874712451982678
Test Data RMSE : 88.7392198938546
```

> 향상폭이 크지는 않지만 Train과 Test 데이터 모두에서 성능이 향상된 것으로 확인됨

## 피쳐엔지니어링 및 모델링(10차)

### 현재까지 정리된 9개 Feature를 기준으로 추가 검토 진행
* 현재까지 정리된 9개 Feature
    - 'original_language_le', 'budget', 'runtime', 'genre_score_total', 'prod_score_total',
      'prod_countries_score_total', 'budget_grade', 'cast_name_score_total', 'crew_main_score_total'

### 추가 검토사항
* 9개 Feature들간의 관계를 통해 신규 Feature 생성 검토
    - 프로덕션, 출연자, crew 점수의 합을 계산한 신규컬럼 "total_score" 생성 및 모델 성능 테스트

```
Train Data RMSE : 20.595203276475026
Test Data RMSE : 88.91833181074742
```

> 추가한 피쳐의 상관관계는 높게 나타났으나, 테스트 결과 모델 성능에 특별한 향상은 관찰되지 않음

* 각 Feature의 분포 현황 점검 및 아웃라이어 제외 처리 등 추가 검토