# 영화 관객 수 예측 프로젝트

## 스테이지 1

### 1. 파일 읽어오기

In [1]:
import pandas as pd

train = pd.read_csv('data/movie/train.csv')
test = pd.read_csv('data/movie/test.csv')
submission = pd.read_csv('data/movie/sample_submission.csv')

In [2]:
submission.head()

Unnamed: 0,title,box_off_num
0,용서는 없다,0
1,아빠가 여자를 좋아해,0
2,하모니,0
3,의형제,0
4,평행 이론,0


### 2. 데이터프레임 상위 5개 행 데이터 출력하기

In [3]:
submission.head()

Unnamed: 0,title,box_off_num
0,용서는 없다,0
1,아빠가 여자를 좋아해,0
2,하모니,0
3,의형제,0
4,평행 이론,0


### 3. 데이터프레임을 CSV 파일로 저장하기

In [4]:
# 매개변수는 수정하지 말아주세요.
submission.to_csv('data/movie/submission.csv', index=False, quoting=2, encoding="utf-8-sig", na_rep=0, float_format='%.6f')

## 스테이지 2

### 1. train 데이터의 길이 확인하기

In [5]:
len(train)

600

### 2. train 데이터의 차원 확인하기

In [6]:
train.ndim

2

### 3. train 데이터셋 구조 확인하기

In [7]:
train.shape

(600, 12)

### 4. train 데이터 크기 확인하기

행(row)의 개수와 열(column)의 개수를 곱한 결과

In [8]:
train.size

7200

## 스테이지 3

### 1. train 데이터의 피처 목록 확인하기

In [9]:
train.columns

Index(['title', 'distributor', 'genre', 'release_time', 'time',
       'screening_rat', 'director', 'dir_prev_bfnum', 'dir_prev_num',
       'num_staff', 'num_actor', 'box_off_num'],
      dtype='object')

### 2. test 데이터의 피처 목록 확인하기

In [14]:
test.columns

Index(['title', 'distributor', 'genre', 'release_time', 'time',
       'screening_rat', 'director', 'dir_prev_bfnum', 'dir_prev_num',
       'num_staff', 'num_actor'],
      dtype='object')

### 3. train 데이터의 num_actor 열 데이터 타입 확인하기

In [16]:
train['num_actor'].dtype

dtype('int64')

### 4. train 데이터의 dir_prev_bfnum 열 데이터 타입 확인하기

In [17]:
train['dir_prev_bfnum'].dtype

dtype('float64')

### 5. train 데이터 기술 통계량 확인하기

In [18]:
train.describe()

Unnamed: 0,time,dir_prev_bfnum,dir_prev_num,num_staff,num_actor,box_off_num
count,600.0,270.0,600.0,600.0,600.0,600.0
mean,100.863333,1050443.0,0.876667,151.118333,3.706667,708181.8
std,18.097528,1791408.0,1.183409,165.654671,2.446889,1828006.0
min,45.0,1.0,0.0,0.0,0.0,1.0
25%,89.0,20380.0,0.0,17.0,2.0,1297.25
50%,100.0,478423.6,0.0,82.5,3.0,12591.0
75%,114.0,1286569.0,2.0,264.0,4.0,479886.8
max,180.0,17615310.0,5.0,869.0,25.0,14262770.0


## 스테이지 4

### 1. train 데이터 결측치 확인하기

dir_prev_bfnum 피처에 결측값이 존재하는 것을 알 수 있다.

In [19]:
train.isna()

Unnamed: 0,title,distributor,genre,release_time,time,screening_rat,director,dir_prev_bfnum,dir_prev_num,num_staff,num_actor,box_off_num
0,False,False,False,False,False,False,False,True,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...
595,False,False,False,False,False,False,False,False,False,False,False,False
596,False,False,False,False,False,False,False,False,False,False,False,False
597,False,False,False,False,False,False,False,True,False,False,False,False
598,False,False,False,False,False,False,False,True,False,False,False,False


isna() 함수와 동일하다.

In [21]:
train.isnull()

Unnamed: 0,title,distributor,genre,release_time,time,screening_rat,director,dir_prev_bfnum,dir_prev_num,num_staff,num_actor,box_off_num
0,False,False,False,False,False,False,False,True,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...
595,False,False,False,False,False,False,False,False,False,False,False,False
596,False,False,False,False,False,False,False,False,False,False,False,False
597,False,False,False,False,False,False,False,True,False,False,False,False
598,False,False,False,False,False,False,False,True,False,False,False,False


notnull()은 결측값이 아닌 데이터를 찾는 함수이다. 결측치인 경우 False를 반환한다.

In [22]:
train.notnull()

Unnamed: 0,title,distributor,genre,release_time,time,screening_rat,director,dir_prev_bfnum,dir_prev_num,num_staff,num_actor,box_off_num
0,True,True,True,True,True,True,True,False,True,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...
595,True,True,True,True,True,True,True,True,True,True,True,True
596,True,True,True,True,True,True,True,True,True,True,True,True
597,True,True,True,True,True,True,True,False,True,True,True,True
598,True,True,True,True,True,True,True,False,True,True,True,True


### 2. 피처 별 결측치 개수 확인하기

In [23]:
train.isnull().sum()

title               0
distributor         0
genre               0
release_time        0
time                0
screening_rat       0
director            0
dir_prev_bfnum    330
dir_prev_num        0
num_staff           0
num_actor           0
box_off_num         0
dtype: int64

### 3. train 데이터의 결측치가 아닌 값의 개수 확인

In [24]:
train.notnull().sum()

title             600
distributor       600
genre             600
release_time      600
time              600
screening_rat     600
director          600
dir_prev_bfnum    270
dir_prev_num      600
num_staff         600
num_actor         600
box_off_num       600
dtype: int64

### 4. 데이터프레임 정보 출력하기

In [25]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 600 entries, 0 to 599
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   title           600 non-null    object 
 1   distributor     600 non-null    object 
 2   genre           600 non-null    object 
 3   release_time    600 non-null    object 
 4   time            600 non-null    int64  
 5   screening_rat   600 non-null    object 
 6   director        600 non-null    object 
 7   dir_prev_bfnum  270 non-null    float64
 8   dir_prev_num    600 non-null    int64  
 9   num_staff       600 non-null    int64  
 10  num_actor       600 non-null    int64  
 11  box_off_num     600 non-null    int64  
dtypes: float64(1), int64(5), object(6)
memory usage: 56.4+ KB


## 스테이지 5

### 1. train 데이터셋의 피처 별 개수 확인하기

In [26]:
train.isnull().sum()

title               0
distributor         0
genre               0
release_time        0
time                0
screening_rat       0
director            0
dir_prev_bfnum    330
dir_prev_num        0
num_staff           0
num_actor           0
box_off_num         0
dtype: int64

### 2. 결측치가 제거된 train_dropna 데이터셋 생성하기

dropna() 함수는 결측치가 포함된 행을 삭제한다.

In [27]:
train_dropna = train.dropna()
train_dropna

Unnamed: 0,title,distributor,genre,release_time,time,screening_rat,director,dir_prev_bfnum,dir_prev_num,num_staff,num_actor,box_off_num
1,내부자들,(주)쇼박스,느와르,2015-11-19,130,청소년 관람불가,우민호,1.161602e+06,2,387,3,7072501
2,은밀하게 위대하게,(주)쇼박스,액션,2013-06-05,123,15세 관람가,장철수,2.207752e+05,4,343,4,6959083
3,나는 공무원이다,(주)NEW,코미디,2012-07-12,101,전체 관람가,구자홍,2.389400e+04,2,20,6,217866
4,불량남녀,쇼박스(주)미디어플렉스,코미디,2010-11-04,108,15세 관람가,신근호,1.000000e+00,1,251,2,483387
5,강철대오 : 구국의 철가방,롯데엔터테인먼트,코미디,2012-10-25,113,15세 관람가,육상효,8.379690e+05,2,262,4,233211
...,...,...,...,...,...,...,...,...,...,...,...,...
587,서유기 리턴즈,(주) 영화사조제,SF,2011-02-17,79,전체 관람가,신재호,6.760200e+04,1,220,4,12696
588,하울링,CJ 엔터테인먼트,느와르,2012-02-16,114,15세 관람가,유하,2.061297e+06,3,288,2,1612554
592,차이나타운,CGV아트하우스,느와르,2015-04-29,110,청소년 관람불가,한준희,5.974970e+05,3,420,3,1472147
595,해무,(주)NEW,드라마,2014-08-13,111,청소년 관람불가,심성보,3.833000e+03,1,510,7,1475091


### 3. train_dropna 데이터셋의 피처 별 결측치 개수 확인하기

In [28]:
train_dropna.isnull().sum()

title             0
distributor       0
genre             0
release_time      0
time              0
screening_rat     0
director          0
dir_prev_bfnum    0
dir_prev_num      0
num_staff         0
num_actor         0
box_off_num       0
dtype: int64

### 4. 결측치가 제거된 train_dropna 데이터셋 크기 확인하기

330개 행이 제거되어 600-330= 270개의 행이 존재한다.

In [29]:
train_dropna.shape

(270, 12)

### 5. 결측치를 0으로 채운 train_fill 데이터셋 생성하기

In [30]:
train_fill = train.fillna(0)
train_fill

Unnamed: 0,title,distributor,genre,release_time,time,screening_rat,director,dir_prev_bfnum,dir_prev_num,num_staff,num_actor,box_off_num
0,개들의 전쟁,롯데엔터테인먼트,액션,2012-11-22,96,청소년 관람불가,조병옥,0.00,0,91,2,23398
1,내부자들,(주)쇼박스,느와르,2015-11-19,130,청소년 관람불가,우민호,1161602.50,2,387,3,7072501
2,은밀하게 위대하게,(주)쇼박스,액션,2013-06-05,123,15세 관람가,장철수,220775.25,4,343,4,6959083
3,나는 공무원이다,(주)NEW,코미디,2012-07-12,101,전체 관람가,구자홍,23894.00,2,20,6,217866
4,불량남녀,쇼박스(주)미디어플렉스,코미디,2010-11-04,108,15세 관람가,신근호,1.00,1,251,2,483387
...,...,...,...,...,...,...,...,...,...,...,...,...
595,해무,(주)NEW,드라마,2014-08-13,111,청소년 관람불가,심성보,3833.00,1,510,7,1475091
596,파파로티,(주)쇼박스,드라마,2013-03-14,127,15세 관람가,윤종찬,496061.00,1,286,6,1716438
597,살인의 강,(주)마운틴픽쳐스,공포,2010-09-30,99,청소년 관람불가,김대현,0.00,0,123,4,2475
598,악의 연대기,CJ 엔터테인먼트,느와르,2015-05-14,102,15세 관람가,백운학,0.00,0,431,4,2192525


### 6. train_fill 데이터셋의 피처 별 결측치 개수 확인하기

In [31]:
train_fill.isnull().sum()

title             0
distributor       0
genre             0
release_time      0
time              0
screening_rat     0
director          0
dir_prev_bfnum    0
dir_prev_num      0
num_staff         0
num_actor         0
box_off_num       0
dtype: int64

### 7. 결측치가 제거된 train_fill 데이터셋의 크기 확인하기

In [32]:
train_fill.shape

(600, 12)

## 스테이지 6

### 1. train 데이터의 피처 확인하기

In [33]:
train.columns

Index(['title', 'distributor', 'genre', 'release_time', 'time',
       'screening_rat', 'director', 'dir_prev_bfnum', 'dir_prev_num',
       'num_staff', 'num_actor', 'box_off_num'],
      dtype='object')

### 2. 회귀분석을 위한 표현식(Formula) 작성하기

아래의 코드는 회귀 분석 모델의 수식을 나타낸 것이다.

이 수식은 box_off_num을 예측하기 위해 time, dir_prev_num, num_staff, num_actor를 독립 변수로 사용하는 회귀모델을 설정하는 것을 의미한다.

In [36]:
formula = """
box_off_num ~ time + dir_prev_num + num_staff + num_actor
"""

### 3. 영화 관객 수 회귀분석 모델 정의 및 학습하기

아래 코드는 회귀 분석 모델을 주어진 데이터에 학습시키는 과정을 의미한다.

OLS는 잔차제곱합을 최소화하는 방식이다.

In [38]:
import statsmodels.api as sm

model = sm.OLS.from_formula(formula, data=train)
model = model.fit()

### 4. 영화 관객 수 모델 예측 결과 확인하기

In [40]:
predict = model.predict(test)
predict.head()

0    1.823796e+06
1    1.535341e+06
2    2.410155e+06
3    2.131345e+06
4    1.834060e+06
dtype: float64

### 5. 예측된 영화 관객 수를 submission 파일에 추가하기

In [42]:
submission['box_off_num'] = predict
submission.head()

Unnamed: 0,title,box_off_num
0,용서는 없다,1823796.0
1,아빠가 여자를 좋아해,1535341.0
2,하모니,2410155.0
3,의형제,2131345.0
4,평행 이론,1834060.0


### 6. 데이터프레임(DataFrame)을 CSV 파일로 저장하기

In [44]:
# 매개변수는 수정하지 말아주세요.
submission.to_csv('data/movie/submission.csv', index=False, quoting=2, encoding="utf-8-sig", na_rep=0, float_format='%.6f')

## 스테이지 7

### 1. 결측치를 0으로 채운 train_fill 데이터셋 생성하기

In [46]:
train_fill = train.fillna(0) 
test_fill = test.fillna(0)
train_fill

Unnamed: 0,title,distributor,genre,release_time,time,screening_rat,director,dir_prev_bfnum,dir_prev_num,num_staff,num_actor,box_off_num
0,개들의 전쟁,롯데엔터테인먼트,액션,2012-11-22,96,청소년 관람불가,조병옥,0.00,0,91,2,23398
1,내부자들,(주)쇼박스,느와르,2015-11-19,130,청소년 관람불가,우민호,1161602.50,2,387,3,7072501
2,은밀하게 위대하게,(주)쇼박스,액션,2013-06-05,123,15세 관람가,장철수,220775.25,4,343,4,6959083
3,나는 공무원이다,(주)NEW,코미디,2012-07-12,101,전체 관람가,구자홍,23894.00,2,20,6,217866
4,불량남녀,쇼박스(주)미디어플렉스,코미디,2010-11-04,108,15세 관람가,신근호,1.00,1,251,2,483387
...,...,...,...,...,...,...,...,...,...,...,...,...
595,해무,(주)NEW,드라마,2014-08-13,111,청소년 관람불가,심성보,3833.00,1,510,7,1475091
596,파파로티,(주)쇼박스,드라마,2013-03-14,127,15세 관람가,윤종찬,496061.00,1,286,6,1716438
597,살인의 강,(주)마운틴픽쳐스,공포,2010-09-30,99,청소년 관람불가,김대현,0.00,0,123,4,2475
598,악의 연대기,CJ 엔터테인먼트,느와르,2015-05-14,102,15세 관람가,백운학,0.00,0,431,4,2192525


### 2. 회귀분석을 위한 표현식(Formula) 작성하기

In [49]:
formula = """
box_off_num ~ (time) + (dir_prev_bfnum) + (dir_prev_num) + (num_staff) + (num_actor)
"""

### 3. 영화 관객 수 회귀분석 모델 정의 및 학습하기

In [51]:
import statsmodels.api as sm

model = sm.OLS.from_formula(formula, data = train_fill)
model = model.fit()
model.summary()

0,1,2,3
Dep. Variable:,box_off_num,R-squared:,0.325
Model:,OLS,Adj. R-squared:,0.32
Method:,Least Squares,F-statistic:,57.33
Date:,"Wed, 24 Jul 2024",Prob (F-statistic):,1.1799999999999999e-48
Time:,15:26:16,Log-Likelihood:,-9384.0
No. Observations:,600,AIC:,18780.0
Df Residuals:,594,BIC:,18810.0
Df Model:,5,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-1.77e+06,4.08e+05,-4.342,0.000,-2.57e+06,-9.69e+05
time,1.572e+04,4374.455,3.594,0.000,7130.936,2.43e+04
dir_prev_bfnum,0.1453,0.053,2.754,0.006,0.042,0.249
dir_prev_num,-2.4e+04,6.07e+04,-0.395,0.693,-1.43e+05,9.53e+04
num_staff,4539.2348,514.976,8.814,0.000,3527.839,5550.631
num_actor,4.271e+04,2.54e+04,1.685,0.093,-7082.118,9.25e+04

0,1,2,3
Omnibus:,514.828,Durbin-Watson:,2.031
Prob(Omnibus):,0.0,Jarque-Bera (JB):,11781.803
Skew:,3.791,Prob(JB):,0.0
Kurtosis:,23.341,Cond. No.,9210000.0


### 4. 영화 관객 수 모델 예측 결과 확인하기

In [57]:
predict = model.predict(test_fill)
predict.head()

0    1.699479e+06
1    1.337307e+06
2    2.778507e+06
3    2.044113e+06
4    1.708153e+06
dtype: float64

### 5. 예측된 영화 관객 수를 submission 파일에 추가하기

In [58]:
submission['box_off_num'] = predict
submission.head()

Unnamed: 0,title,box_off_num
0,용서는 없다,1699479.0
1,아빠가 여자를 좋아해,1337307.0
2,하모니,2778507.0
3,의형제,2044113.0
4,평행 이론,1708153.0


### 6. 데이터프레임(DataFrame)을 CSV 파일로 저장하기

In [59]:
# 매개변수는 수정하지 말아주세요.
submission.to_csv('data/movie/submission.csv', index=False, quoting=2, encoding="utf-8-sig", na_rep=0, float_format='%.6f')

## 스테이지 8

### 1. pandas를 이용해 csv 파일 읽어오기

In [70]:
import pandas as pd

train = pd.read_csv('data/movie/train.csv')
test = pd.read_csv('data/movie/test.csv')
submission = pd.read_csv('data/movie/sample_submission.csv')

### 2. 결측치를 평균값으로 채운 train_fill 데이터셋 생성하기

In [71]:
train_mean = train['dir_prev_bfnum'].mean()

train_fill = train.fillna(train_mean)
test_fill = test.fillna(train_mean)
train_fill

Unnamed: 0,title,distributor,genre,release_time,time,screening_rat,director,dir_prev_bfnum,dir_prev_num,num_staff,num_actor,box_off_num
0,개들의 전쟁,롯데엔터테인먼트,액션,2012-11-22,96,청소년 관람불가,조병옥,1.050443e+06,0,91,2,23398
1,내부자들,(주)쇼박스,느와르,2015-11-19,130,청소년 관람불가,우민호,1.161602e+06,2,387,3,7072501
2,은밀하게 위대하게,(주)쇼박스,액션,2013-06-05,123,15세 관람가,장철수,2.207752e+05,4,343,4,6959083
3,나는 공무원이다,(주)NEW,코미디,2012-07-12,101,전체 관람가,구자홍,2.389400e+04,2,20,6,217866
4,불량남녀,쇼박스(주)미디어플렉스,코미디,2010-11-04,108,15세 관람가,신근호,1.000000e+00,1,251,2,483387
...,...,...,...,...,...,...,...,...,...,...,...,...
595,해무,(주)NEW,드라마,2014-08-13,111,청소년 관람불가,심성보,3.833000e+03,1,510,7,1475091
596,파파로티,(주)쇼박스,드라마,2013-03-14,127,15세 관람가,윤종찬,4.960610e+05,1,286,6,1716438
597,살인의 강,(주)마운틴픽쳐스,공포,2010-09-30,99,청소년 관람불가,김대현,1.050443e+06,0,123,4,2475
598,악의 연대기,CJ 엔터테인먼트,느와르,2015-05-14,102,15세 관람가,백운학,1.050443e+06,0,431,4,2192525


### 3. 영화 관객 수 모델 학습

In [73]:
formula = """
box_off_num ~ (time) + (dir_prev_bfnum) + (dir_prev_num) + (num_staff) + (num_actor)
"""

import statsmodels.api as sm  
model = sm.OLS.from_formula(formula, data = train_fill)  
model = model.fit()  
predict = model.predict(test_fill)  

### 4. 예측된 영화 관객 수를 submission 파일에 추가하기

In [74]:
submission['box_off_num'] = predict

submission.head()

Unnamed: 0,title,box_off_num
0,용서는 없다,1670730.0
1,아빠가 여자를 좋아해,1412505.0
2,하모니,2821661.0
3,의형제,2019305.0
4,평행 이론,1628432.0


### 5. 데이터프레임(DataFrame)을 CSV 파일로 저장하기

In [75]:
# 매개변수는 수정하지 말아주세요.
submission.to_csv('data/movie/submission.csv', index=False, quoting=2, encoding="utf-8-sig", na_rep=0, float_format='%.6f')