# 영화 4000개 데이터 전처리

<br><br><hr>

## 00. 기본 설정

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 경고 메시지 출력 X
import warnings
warnings.filterwarnings("ignore")

In [2]:
# 한글 font 설정
import platform
import matplotlib.font_manager as fm

#matplotlib 패키지 한글 깨짐 처리 시작
#------------------------------------------------------------------------------------
# 운영체제별 한글 폰트 설정

if platform.system() == 'Darwin': # Mac 환경 폰트 설정
    plt.rc('font', family='AppleGothic')
elif platform.system() == 'Windows': # Windows 환경 폰트 설정
    plt.rc('font', family='Malgun Gothic')
    
plt.rcParams['axes.unicode_minus'] = False #한글 폰트 사용시 마이너스 폰트 깨짐 해결

In [3]:
# 글씨 선명하게 출력하는 설정

from IPython.display import set_matplotlib_formats
set_matplotlib_formats("retina")

<br><br><br><hr>

## **✅ 01. 데이터 불러오기**

In [17]:
movies = pd.read_csv('..\data\movies_4000_tmdb_genre.csv')
print(movies.shape)   # (4241, 6)
movies.head(3)

(4241, 6)


Unnamed: 0,asset_nm_전처리,ct_cl,genre_of_ct_cl,summary_최신순,최신순,genre_tmdb
0,귀멸의 칼날: 남매의 연,영화,애니메이션,혈귀의 습격으로 가족을 잃은 소년 ‘탄지로’. 유일하게 살아남은 여동생 ‘네즈코’마...,2019-03-29,"Animation, Action, Fantasy, Thriller"
1,색에 놀다,영화,에로틱,하얀 색의 순수하고 착한 사랑을 꿈꾸는 25살 모태 솔로 지수. 그녀의 짝사랑 상대...,2017-01-01,"Thriller, Drama, Romance"
2,돌이킬 수 없는 주말,영화,공포/스릴러,베키는 결혼을 앞두고 친구 수잔과 함께 다트무어로 여행을 떠난다. 그곳에서 신비한 ...,2015-09-18,"Drama, Horror, Mystery"


<br><br><br><hr>

## **✅ 02. 데이터 전처리**

<br>

#### *>> 장르가 '성인'인 행 삭제*

In [18]:
# 각 장르의 수 를 genre_counts 변수에 저장
genre_counts = movies['genre_of_ct_cl'].value_counts()

In [19]:
# 삭제할 조건 생성
delete_conditions = (movies['genre_of_ct_cl'] == '성인')
filtered_movies = movies[~delete_conditions]

In [20]:
# 결과 확인
print(filtered_movies.shape)
filtered_movies['genre_of_ct_cl'].value_counts()

### (4241, 6) >> (3901, 6) >> 340개의 행 삭제

(3901, 6)


genre_of_ct_cl
드라마        1011
액션/어드벤쳐     977
공포/스릴러      639
멜로          329
코미디         265
애니메이션       169
SF/환타지      159
다큐멘터리       126
기타           88
로맨틱코미디       37
무협           37
에로틱          35
단편           12
서부            7
뮤지컬           6
역사            2
인물            2
Name: count, dtype: int64

In [21]:
# 인덱스 정렬
filtered_movies = filtered_movies.reset_index(drop=True)
filtered_movies.head(3)

Unnamed: 0,asset_nm_전처리,ct_cl,genre_of_ct_cl,summary_최신순,최신순,genre_tmdb
0,귀멸의 칼날: 남매의 연,영화,애니메이션,혈귀의 습격으로 가족을 잃은 소년 ‘탄지로’. 유일하게 살아남은 여동생 ‘네즈코’마...,2019-03-29,"Animation, Action, Fantasy, Thriller"
1,색에 놀다,영화,에로틱,하얀 색의 순수하고 착한 사랑을 꿈꾸는 25살 모태 솔로 지수. 그녀의 짝사랑 상대...,2017-01-01,"Thriller, Drama, Romance"
2,돌이킬 수 없는 주말,영화,공포/스릴러,베키는 결혼을 앞두고 친구 수잔과 함께 다트무어로 여행을 떠난다. 그곳에서 신비한 ...,2015-09-18,"Drama, Horror, Mystery"


<br>

#### *>> 사용하지 않을 열 drop*

In [22]:
col_to_drop = ['ct_cl', '최신순']
drop_movies = filtered_movies.drop(columns=col_to_drop, axis=1)

drop_movies.head(3)

Unnamed: 0,asset_nm_전처리,genre_of_ct_cl,summary_최신순,genre_tmdb
0,귀멸의 칼날: 남매의 연,애니메이션,혈귀의 습격으로 가족을 잃은 소년 ‘탄지로’. 유일하게 살아남은 여동생 ‘네즈코’마...,"Animation, Action, Fantasy, Thriller"
1,색에 놀다,에로틱,하얀 색의 순수하고 착한 사랑을 꿈꾸는 25살 모태 솔로 지수. 그녀의 짝사랑 상대...,"Thriller, Drama, Romance"
2,돌이킬 수 없는 주말,공포/스릴러,베키는 결혼을 앞두고 친구 수잔과 함께 다트무어로 여행을 떠난다. 그곳에서 신비한 ...,"Drama, Horror, Mystery"


<br>

#### *>> 열 이름 변경*

In [23]:
drop_movies.rename(columns={'asset_nm_전처리':'movie_title', 'genre_of_ct_cl':'genre', 
                            'summary_최신순':'summary'}, inplace=True)
drop_movies.head(1)

Unnamed: 0,movie_title,genre,summary,genre_tmdb
0,귀멸의 칼날: 남매의 연,애니메이션,혈귀의 습격으로 가족을 잃은 소년 ‘탄지로’. 유일하게 살아남은 여동생 ‘네즈코’마...,"Animation, Action, Fantasy, Thriller"


<br><br><br><hr>

## **✅ 03. 데이터프레임 저장**

In [25]:
drop_movies.to_csv('../data/movie_4000_preprocessed.csv', encoding='utf8', index=False)

In [26]:
# 확인
result = pd.read_csv('../data/movie_4000_preprocessed.csv', encoding='utf8')
print(result.shape)
result.head()

(3901, 4)


Unnamed: 0,movie_title,genre,summary,genre_tmdb
0,귀멸의 칼날: 남매의 연,애니메이션,혈귀의 습격으로 가족을 잃은 소년 ‘탄지로’. 유일하게 살아남은 여동생 ‘네즈코’마...,"Animation, Action, Fantasy, Thriller"
1,색에 놀다,에로틱,하얀 색의 순수하고 착한 사랑을 꿈꾸는 25살 모태 솔로 지수. 그녀의 짝사랑 상대...,"Thriller, Drama, Romance"
2,돌이킬 수 없는 주말,공포/스릴러,베키는 결혼을 앞두고 친구 수잔과 함께 다트무어로 여행을 떠난다. 그곳에서 신비한 ...,"Drama, Horror, Mystery"
3,섹스 앤 머니,액션/어드벤쳐,갱단 두목 페페는 라이벌 갱단 두목 조조와 세력 다툼을 벌이다 쫓기는 신세가 된다....,"Action, Thriller"
4,서울의 봄,드라마,"박 대통령의 암살 이후, 계엄령이 선포된다. 국군보안사령관 전두광과 그를 따르는 장...","Drama, History, Thriller, Crime, War"
