## 영화 관객수 예측 모델 개발
### 1. movies_train.csv / movies_test.csv
- title : 영화의 제목
- distributor : 배급사
- genre : 장르
- release_time : 개봉일
- time : 상영시간(분)
- screening_rat : 상영등급
- director : 감독이름
- dir_prev_bfnum : 해당 감독이 이 영화를 만들기 전 제작에 참여한 영화에서의 평균 관객수(단 관객수가 알려지지 않은 영화 제외)
- dir_prev_num : 해당 감독이 이 영화를 만들기 전 제작에 참여한 영화의 개수(단 관객수가 알려지지 않은 영화 제외)
- num_staff : 스텝수
- num_actor : 주연배우수
- box_off_num : 관객수

### 2.  submission.csv (제출 파일 형식)

### 3. 데이터 상세 설명
- 2010년대 한국에서 개봉한 한국영화 600개에 대한 감독, 이름, 상영등급, 관객수 등의 정보가 담긴 데이터



#### `1.` 라이브러리 임포트

In [7]:
import pandas as pd
import numpy as np
import lightgbm as lgb
from sklearn.preprocessing import LabelEncoder # 데이터 인코딩 함수
from sklearn.impute import SimpleImputer       # 결측치 처리
from sklearn import linear_model               # 결측치 처리를 위한 선형 회귀 모델 생성
from sklearn.model_selection import KFold      # 모델의 교차검증을 위해 임포트합니다.

#### `2.` 데이터 로드

In [8]:
train_data = pd.read_csv('./영화 관객수/movies_train.csv')
test_data = pd.read_csv('./영화 관객수/movies_test.csv')
submission = pd.read_csv('./영화 관객수/submission.csv')

#### `3.` 데이터 기본 정보 확인

In [9]:
display(train_data)
print(train_data.info())
display(test_data)
print(test_data.info())

Unnamed: 0,title,distributor,genre,release_time,time,screening_rat,director,dir_prev_bfnum,dir_prev_num,num_staff,num_actor,box_off_num
0,개들의 전쟁,롯데엔터테인먼트,액션,2012-11-22,96,청소년 관람불가,조병옥,,0,91,2,23398
1,내부자들,(주)쇼박스,느와르,2015-11-19,130,청소년 관람불가,우민호,1161602.50,2,387,3,7072501
2,은밀하게 위대하게,(주)쇼박스,액션,2013-06-05,123,15세 관람가,장철수,220775.25,4,343,4,6959083
3,나는 공무원이다,(주)NEW,코미디,2012-07-12,101,전체 관람가,구자홍,23894.00,2,20,6,217866
4,불량남녀,쇼박스(주)미디어플렉스,코미디,2010-11-04,108,15세 관람가,신근호,1.00,1,251,2,483387
...,...,...,...,...,...,...,...,...,...,...,...,...
595,해무,(주)NEW,드라마,2014-08-13,111,청소년 관람불가,심성보,3833.00,1,510,7,1475091
596,파파로티,(주)쇼박스,드라마,2013-03-14,127,15세 관람가,윤종찬,496061.00,1,286,6,1716438
597,살인의 강,(주)마운틴픽쳐스,공포,2010-09-30,99,청소년 관람불가,김대현,,0,123,4,2475
598,악의 연대기,CJ 엔터테인먼트,느와르,2015-05-14,102,15세 관람가,백운학,,0,431,4,2192525


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 600 entries, 0 to 599
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   title           600 non-null    object 
 1   distributor     600 non-null    object 
 2   genre           600 non-null    object 
 3   release_time    600 non-null    object 
 4   time            600 non-null    int64  
 5   screening_rat   600 non-null    object 
 6   director        600 non-null    object 
 7   dir_prev_bfnum  270 non-null    float64
 8   dir_prev_num    600 non-null    int64  
 9   num_staff       600 non-null    int64  
 10  num_actor       600 non-null    int64  
 11  box_off_num     600 non-null    int64  
dtypes: float64(1), int64(5), object(6)
memory usage: 56.4+ KB
None


Unnamed: 0,title,distributor,genre,release_time,time,screening_rat,director,dir_prev_bfnum,dir_prev_num,num_staff,num_actor
0,용서는 없다,시네마서비스,느와르,2010-01-07,125,청소년 관람불가,김형준,3.005290e+05,2,304,3
1,아빠가 여자를 좋아해,(주)쇼박스,멜로/로맨스,2010-01-14,113,12세 관람가,이광재,3.427002e+05,4,275,3
2,하모니,CJ 엔터테인먼트,드라마,2010-01-28,115,12세 관람가,강대규,4.206611e+06,3,419,7
3,의형제,(주)쇼박스,액션,2010-02-04,116,15세 관람가,장훈,6.913420e+05,2,408,2
4,평행 이론,CJ 엔터테인먼트,공포,2010-02-18,110,15세 관람가,권호영,3.173800e+04,1,380,1
...,...,...,...,...,...,...,...,...,...,...,...
238,해에게서 소년에게,디씨드,드라마,2015-11-19,78,15세 관람가,안슬기,2.590000e+03,1,4,4
239,울보 권투부,인디스토리,다큐멘터리,2015-10-29,86,12세 관람가,이일하,,0,18,2
240,어떤살인,(주)컨텐츠온미디어,느와르,2015-10-28,107,청소년 관람불가,안용훈,,0,224,4
241,말하지 못한 비밀,(주)씨타마운틴픽쳐스,드라마,2015-10-22,102,청소년 관람불가,송동윤,5.069900e+04,1,68,7


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 243 entries, 0 to 242
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   title           243 non-null    object 
 1   distributor     243 non-null    object 
 2   genre           243 non-null    object 
 3   release_time    243 non-null    object 
 4   time            243 non-null    int64  
 5   screening_rat   243 non-null    object 
 6   director        243 non-null    object 
 7   dir_prev_bfnum  107 non-null    float64
 8   dir_prev_num    243 non-null    int64  
 9   num_staff       243 non-null    int64  
 10  num_actor       243 non-null    int64  
dtypes: float64(1), int64(4), object(6)
memory usage: 21.0+ KB
None


#### `4.` 데이터 전처리: 레이블 인코딩

In [15]:
train_data[train_data['title'] == test_data['title']].sum()

# # 상관관계를 확인하고 결측값을 해결하기 위해 인코딩을 먼저 진행하겠습니다.
# encoder = LabelEncoder()

# # 인코딩할 특성의 이름을 리스트로 변수에 할당합니다.
# # 리스트에 할당된 특성의 이름으로 각 특성을 하나씩 인코딩 합니다.
# # train_data로 학습을 진행 하였으므로 test_data를 인코딩 할시에는 fit_transform이 아닌 transform 함수만 사용합니다.
# for i in ['title', 'distributor', 'genre', 'screening_rat', 'release_time', 'director'] :
#     train_data[i] = encoder.fit_transform(train_data[i])
#     test_data[i] = encoder.transform(test_data[i])
    
# # 인코딩 후 데이터를 확인합니다.
# display(train_data)
# display(test_data)

ValueError: Can only compare identically-labeled Series objects

#### `5-1` 데이터 전처리: 결측치 처리(선형 회귀 모델)  **※코드 오류로 사용 중단※**

In [None]:
# 결측값의 비율이 전체 데이터의 55%로 그 비율이 상당히 높으나 상관계수가 높아 치환하여 사용하겠습니다. 
# 선형회귀 알고리즘을 사용하여 결측치 치환을 진행하였습니다.
lin_reg_model = linear_model.LinearRegression()

# 결측값이 존재하는 특성은 dir_prev_bfnum 특성 하나로 원본 데이터에서 dir_prev_bfnum 특성에 NaN값이 있는 행을 삭제 하고
# dir_prev_bfnum 특성을 타깃으로 상관계수가 적은 release_time 특성을 제외한 나머지 특성을 피쳐로 사용합니다.
train_data_51 = train_data.dropna(axis=0)
feature_train_51 = train_data_51.drop(columns=['dir_prev_bfnum', 'release_time'], axis=1)
targit_train_51 = train_data_51['dir_prev_bfnum']

# 원본 데이터에서 결측값이 존재하는 행을 예측에 이용할 테스트 데이터로 사용합니다.
test_data_51 = train_data.drop(index=train_data[train_data['dir_prev_bfnum'].isnull() != 1].index)
feature_test = test_data_51.drop(['dir_prev_bfnum', 'release_time'], axis=1)

# # 선형 회귀 모델의 학습을 시킵니다.
lin_reg_model = lin_reg_model.fit(feature_train_51, targit_train_51)

# 예측을 진행합니다.
pred_non = lin_reg_model.predict(feature_test)

# 예측한 데이터를 바탕으로 결측값을 채워나갑니다.
train_data['dir_prev_bfnum'].fillna(pd.Series(pred_non), inplace=True)
train_data.info()

#### `5-2` 데이터 전처리: 결측치 치환

In [None]:
# dir_prev_bfnum 특성의 결측치가 있는 행의 dir_prev_num 특성 행을 보면 모두 0임을 알 수 있습니다.
# 이전에 영화를 만들어본적이 없는 사람이어서 이전 관객수가 결측값으로 나온 것일 수 있겠다 라는 의심이 생겨
# 확인해보겠습니다. dir_prev_bfnum 열의 결측값이 있는 행의 dir_prev_num 열을 모두 더해봅니다.
# 합산 결과 0으로 결측값이 있는 행은 dir_prev_num 특성도 0임을 확인할 수 있었습니다.
print(train_data[train_data['dir_prev_bfnum'].isna()]['dir_prev_num'].sum())

# dir_prev_bfnum 특성의 결측값을 0으로 치환합니다.
train_data['dir_prev_bfnum'].fillna(0, inplace=True)
test_data['dir_prev_bfnum'].fillna(0, inplace=True)

# 치환 후 데이터를 확인합니다.
display(train_data)
display(test_data)

#### `6` 데이터 전처리: 드랍

In [None]:
# 인코딩한 결과물로 타깃값인 box_off_num을 기준으로 상관관계를 확인해보겠습니다.
print('----------box_off_num의 상관관계----------')
corr = train_data.corr()
print(corr['box_off_num'].sort_values(ascending=False))

# 모델의 연산비용을 줄이기 위해 위 상관관계에서 5% 미만의 계수를 가진 특성은 드랍하겠습니다.
train_data.drop(columns=['title'], inplace=True)
test_data.drop(columns=['title'], inplace=True)

# 해당 특성의 경우 날짜 전체를 인코딩 한것과 연월일로 나누어 인코딩 후 학습을 해본 결과 상관계수도 적을뿐더러
# 모델의 가해지는 영향이 미세하기 때문에 드랍하기로 결정하였습니다.
train_data.drop(columns=['release_time'], inplace=True)
test_data.drop(columns=['release_time'], inplace=True)

#### `7.` 데이터 조정

In [None]:
# 모델의 학습을 할 데이터를 조정합니다.
# 피쳐로 사용할 데이터는 타깃값을 드랍한 나머지 특성을 전달합니다.
feature_train = train_data.drop(['box_off_num'], axis=1)
feature_test = test_data

# 타겟으로 사용할 원본 데이터의 box_off_num 열을 넘겨줍니다.
target_train = train_data['box_off_num']

#### `8.` 모델 구축 및 평가

In [None]:
train_data
# # 관객수를 구하는것은 연속된 값으로 리그레션을 사용하겠습니다.
# # 해당 모델은 과적합의 위험이 매우 높으므로 모델 구축 후 반드시 과적합을 방지하는 과정들이 필요합니다.
# model = lgb.LGBMRegressor(random_state=23, n_estimators=1000)

# # 전처리와 조정을 거친 데이터로 모델을 학습시킵니다.
# model.fit(feature_train, target_train)

# # 모델의 성능을 평가합니다.
# # 교차 검증을 위해 KFold 클래스 객체를 변수 k_fold에 할당합니다.
# # n_splits=: 교차 검증을 몇번 할 것인가 즉 데이터를 몇 등분할것인가를 정합니다.
# k_fold = KFold(n_splits=5, shuffle=True, random_state=23)
# model_score = cross_val_score(model, feature_train, target_train, cv=k_fold)
# print('모델의 정확도: ', model_score.mean())

#### `8.` 모델 학습 및 평가

In [None]:
비선형 회귀 모델 사용, 레이블 인코더로 상관계수 확인후 전처리 끝나면 원-핫인 인코딩

In [None]:
GridSearchCV 사용

In [None]:
#### `4.` 데이터 전처리: 상관관계 확인

In [None]:
# 
corr = train_data.corr()
corr['box_off_num'].sort_values(ascending=False)

In [None]:
https://github.com/Yiujin/DACON/blob/main/%EC%98%81%ED%99%94%EA%B4%80%EA%B0%9D%EC%88%98%EC%98%88%EC%B8%A1%EC%97%B0%EC%8A%B5/%EC%98%81%ED%99%94.ipynb

#### `번외` 완성본에서는 제외 되었으나 중간에 사용한 코드입니다.

In [None]:
# train_data에 year, month, day 특성을 추가하고 release_time을 '-'을 기준으로 나누어 할당합니다.
# 각 특성에 타입을 object → int로 변환해줍니다.
train_data['year'], train_data['month'], train_data['day'] = train_data['release_time'].str.split('-').str
for i in ['year', 'month', 'day'] :
    train_data[i] = train_data[i].astype(int)