In [1]:
import platform
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 그래프 한글 깨짐 방지
if platform.system() == 'Darwin':
    # 맥일때
    plt.rcParams["font.family"] = 'AppleGothic'
elif platform.system() == 'Windows':
    # 윈도우일때
    plt.rcParams["font.family"] = 'Malgun Gothic'

# 마이너스기호(-) 폰트 깨지는 문제 해결
plt.rcParams['axes.unicode_minus'] = False

In [3]:
# 데이터 디렉토리 파일 확인
import os
print(os.listdir("../data_movies"))

['submission.csv', 'movies_test.csv', 'movies_train.csv']


In [7]:
# train, test 데이터 read
train = pd.read_csv("../data_movies/movies_train.csv")
test = pd.read_csv("../data_movies/movies_test.csv")

In [8]:
print(train.shape)
print(test.shape)

(600, 12)
(243, 11)


In [9]:
print(train.columns)
print(test.columns)

Index(['title', 'distributor', 'genre', 'release_time', 'time',
       'screening_rat', 'director', 'dir_prev_bfnum', 'dir_prev_num',
       'num_staff', 'num_actor', 'box_off_num'],
      dtype='object')
Index(['title', 'distributor', 'genre', 'release_time', 'time',
       'screening_rat', 'director', 'dir_prev_bfnum', 'dir_prev_num',
       'num_staff', 'num_actor'],
      dtype='object')


### Column_name	Description
* title : 영화의 제목
* distributor : 배급사
* genre : 장르
* release_time : 개봉일
* time : 상영시간(분)
* screening_rat : 상영등급
* director : 감독이름
* dir_prev_bfnum : 해당 감독이 이 영화를 만들기 전 제작에 참여한 영화에서의 평균 관객수(단 관객수가 알려지지 않은 영화 제외)
* dir_prev_num : 해당 감독이 이 영화를 만들기 전 제작에 참여한 영화의 개수(단 관객수가 알려지지 않은 영화 제외)
* num_staff : 스텝수
* num_actor : 주연배우수
* box_off_num : 관객수

In [10]:
train.head()

Unnamed: 0,title,distributor,genre,release_time,time,screening_rat,director,dir_prev_bfnum,dir_prev_num,num_staff,num_actor,box_off_num
0,개들의 전쟁,롯데엔터테인먼트,액션,2012-11-22,96,청소년 관람불가,조병옥,,0,91,2,23398
1,내부자들,(주)쇼박스,느와르,2015-11-19,130,청소년 관람불가,우민호,1161602.5,2,387,3,7072501
2,은밀하게 위대하게,(주)쇼박스,액션,2013-06-05,123,15세 관람가,장철수,220775.25,4,343,4,6959083
3,나는 공무원이다,(주)NEW,코미디,2012-07-12,101,전체 관람가,구자홍,23894.0,2,20,6,217866
4,불량남녀,쇼박스(주)미디어플렉스,코미디,2010-11-04,108,15세 관람가,신근호,1.0,1,251,2,483387


In [11]:
test.head()

Unnamed: 0,title,distributor,genre,release_time,time,screening_rat,director,dir_prev_bfnum,dir_prev_num,num_staff,num_actor
0,용서는 없다,시네마서비스,느와르,2010-01-07,125,청소년 관람불가,김형준,300529.0,2,304,3
1,아빠가 여자를 좋아해,(주)쇼박스,멜로/로맨스,2010-01-14,113,12세 관람가,이광재,342700.2,4,275,3
2,하모니,CJ 엔터테인먼트,드라마,2010-01-28,115,12세 관람가,강대규,4206611.0,3,419,7
3,의형제,(주)쇼박스,액션,2010-02-04,116,15세 관람가,장훈,691342.0,2,408,2
4,평행 이론,CJ 엔터테인먼트,공포,2010-02-18,110,15세 관람가,권호영,31738.0,1,380,1


In [12]:
train.isna().sum()

title               0
distributor         0
genre               0
release_time        0
time                0
screening_rat       0
director            0
dir_prev_bfnum    330
dir_prev_num        0
num_staff           0
num_actor           0
box_off_num         0
dtype: int64

In [13]:
test.isna().sum()

title               0
distributor         0
genre               0
release_time        0
time                0
screening_rat       0
director            0
dir_prev_bfnum    136
dir_prev_num        0
num_staff           0
num_actor           0
dtype: int64

In [15]:
train.distributor.value_counts()

CJ 엔터테인먼트          54
롯데엔터테인먼트           52
(주)NEW             30
(주)마운틴픽쳐스          29
인디스토리              26
(주)쇼박스             26
골든타이드픽처스           15
(주) 케이알씨지          14
어뮤즈                10
시너지                10
시네마달               10
(주)키노아이            10
영화사 진진             10
(주) 영화사조제          10
인디플러그               9
인벤트 디               8
NEW                 8
KT&G 상상마당           8
스폰지                 7
시네마 달               6
BoXoo 엔터테인먼트        6
무비꼴라쥬               6
필라멘트 픽쳐스            6
(주)팝엔터테인먼트          6
시네마서비스              6
리틀빅픽처스              5
CGV아트하우스            5
마노엔터테인먼트            4
나이너스엔터테인먼트(주)       4
씨너스엔터테인먼트(주)        4
                   ..
OAL(올)              1
(주)스마일이엔티           1
퍼스트런                1
CGV 무비꼴라쥬           1
영희야놀자               1
판씨네마(주)             1
(주)유비콘텐츠            1
(주)유비네트워크           1
(주)아이필름코퍼레이션        1
롤러코스터 프로덕션          1
스튜디오후크              1
(주)노버스엔터테인먼트        1
영화사 廊               1
크리에이티브컴즈(주)         1
인터콘미디어    

In [16]:
train.genre.value_counts()

드라마       221
다큐멘터리      93
멜로/로맨스     78
코미디        53
공포         42
액션         28
느와르        27
애니메이션      21
미스터리       17
SF         13
뮤지컬         5
서스펜스        2
Name: genre, dtype: int64

In [17]:
train.screening_rat.value_counts()

청소년 관람불가    204
15세 관람가     202
12세 관람가     102
전체 관람가       92
Name: screening_rat, dtype: int64

In [21]:
train.director.value_counts()

홍상수           7
전규환           4
우민호           4
신재호           4
노진수           4
장률            4
정성복           3
조조 히데오        3
윤여창           3
장진            3
김기덕           3
김조광수          3
조성규           3
신연식           3
전수일           3
박철수           3
김현석           3
오멸            3
권칠인           3
김봉은           3
곽경택           2
손석            2
유하            2
이해영           2
김태식           2
허철            2
박용집           2
허은희           2
임순례           2
임상수           2
             ..
황유식           1
박형우           1
이창규           1
문제대           1
장윤현           1
박동훈           1
김진홍           1
김일종           1
구수환           1
한지원           1
이난            1
김정환           1
New Pistol    1
강성옥           1
이용주           1
김진민           1
한우진           1
김회근           1
이길보라          1
신근호           1
정영헌           1
권혁만           1
이호재           1
송정우           1
이지형           1
이수정           1
타케 마사하루       1
송창용           1
황철민           1
김인식           1
Name: director, Length: 

In [23]:
train.num_staff.value_counts().sort_index()

0      32
1      15
2      15
3      12
4       7
5       7
6       8
7       8
8       5
9       5
10      6
11      4
12      4
13      3
14      5
15      4
16      5
17     11
18      5
19      4
20      7
21      3
22      2
23      5
24      5
25      1
26      3
27      2
28      1
29      5
       ..
462     1
466     1
471     1
477     1
481     1
485     1
496     1
499     1
500     1
509     1
510     1
519     1
520     1
546     1
547     1
566     1
572     2
574     1
582     1
583     1
600     1
612     1
628     1
642     1
650     1
683     1
687     1
719     1
868     1
869     1
Name: num_staff, Length: 296, dtype: int64

In [26]:
train.loc[:, ["time", "dir_prev_bfnum", "dir_prev_num", "num_staff", "num_actor", "box_off_num"]].describe()

Unnamed: 0,time,dir_prev_bfnum,dir_prev_num,num_staff,num_actor,box_off_num
count,600.0,270.0,600.0,600.0,600.0,600.0
mean,100.863333,1050443.0,0.876667,151.118333,3.706667,708181.8
std,18.097528,1791408.0,1.183409,165.654671,2.446889,1828006.0
min,45.0,1.0,0.0,0.0,0.0,1.0
25%,89.0,20380.0,0.0,17.0,2.0,1297.25
50%,100.0,478423.6,0.0,82.5,3.0,12591.0
75%,114.0,1286569.0,2.0,264.0,4.0,479886.8
max,180.0,17615310.0,5.0,869.0,25.0,14262770.0
