## 수행목표
본인만의 기준으로 영화를 추천하는 코드를 개발한다.

### 수행단계
- [x] 데이터는 제공되는 파일인 prob-0101.csv를 사용한다.

- [x] 영화 개수, 배급사 수, 감독 수, 출연진 수, 장르 수를 파악한다.

- [x] 감독, 출연진 등 중복 조건들에 대해 파악한다.

- [x] 본인이 추천하고 싶은 기준을 설정한다.

- [x] 본인의 기준에 의해 영화 몇개를 추천하는 것이 적당한지 실험해 본다.

- [x] 다양한 접근 조회 방법을 실험한다. (감독, 출연진 중복, 장르별 등)

- [x] 개인별로 정한 기준이 서로 어떻게 다른지 확인한다.

- [x] 제일 영화가 많이 나온 날

## 필요한 라이브러리 설치

In [1]:
import pandas as pd
import re

- 데이터는 제공되는 파일인 prob-0101.csv를 사용한다.

In [2]:
df = pd.read_csv("prob-0101.csv")
# df
df.head()

Unnamed: 0,개봉일,제목,배급사,감독,출연진,장르
0,2023-01-04,스위치,"롯데컬처웍스, (주)롯데엔터테인먼트",마대윤,"권상우, 오정세, 이민정, 박소이, 김준",기타
1,2023-01-05,강남좀비,(주)와이드릴리즈,이수성,"지일주, 지연",드라마
2,2023-01-12,별 볼일 없는 인생,(주)이놀미디어,서동현,정가은,멜로/로맨스
3,2023-01-12,10일간의 애인,(주)그노스,이영용,송민경,멜로/로맨스
4,2023-01-18,교섭,플렉스엠엔터테인먼트,임순례,"황정민, 현빈, 강기영",드라마


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 59 entries, 0 to 58
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   개봉일     59 non-null     object
 1   제목      59 non-null     object
 2   배급사     59 non-null     object
 3   감독      59 non-null     object
 4   출연진     59 non-null     object
 5   장르      59 non-null     object
dtypes: object(6)
memory usage: 2.9+ KB


- 영화 개수, 배급사 수, 감독 수, 출연진 수, 장르 수를 파악한다.
- 감독, 출연진 등 중복 조건들에 대해 파악한다.

In [4]:
# 다중 값을 가진 컬럼 처리하기
def split_list(informations):
    result = []
    pattern = r'[,\·/]\s*'

    for information in informations:
        splitted = re.split(pattern, information)
        splitted = [token.strip() for token in splitted if token.strip()]
        result.extend(splitted)

    return result


In [5]:
# 영화 개수
total_movies = len(df)
# 배급사 수
total_distributor = len(set(split_list(df["배급사"])))
# 감독 수
total_director = len(set(split_list(df["감독"])))
# 출연진 수
total_casting = len(set(split_list(df["출연진"])))
# 장르 수
total_genre = len(set(split_list(df["장르"])))

total_movies, total_distributor, total_director, total_casting, total_genre

(59, 55, 62, 262, 14)

In [6]:
set(split_list(df["장르"]))

{'SF',
 '가족',
 '공포',
 '기타',
 '다큐멘터리',
 '드라마',
 '로맨스',
 '멜로',
 '미스터리',
 '범죄',
 '스럴리',
 '스릴러',
 '액션',
 '코미디'}

- 본인이 추천하고 싶은 기준을 설정한다.
  - 장르, 감독, 날짜 category
- 본인의 기준에 의해 영화 몇개를 추천하는 것이 적당한지 실험해 본다.
  - 총 영화가 59 개 이므로 너무 많이 추천하면 개인화 추천 성능이 감소.
  - 2 ~ 3개

- 다양한 접근 조회 방법을 실험한다. (감독, 출연진 중복, 장르별 등)


In [7]:
df["장르"].value_counts()

장르
드라마                27
액션                  5
코미디                 4
멜로·로맨스              3
기타                  2
멜로/로맨스              2
멜로·로맨스·코미디          2
스릴러                 2
범죄·액션·스럴리           1
공포,코미디              1
범죄, 액션              1
공포·미스터리             1
드라마,멜로              1
코미디, 액션             1
멜로,로맨스,드라마          1
다큐멘터리               1
드라마, 멜로·로맨스, 가족     1
범죄, 드라마             1
SF                  1
범죄                  1
Name: count, dtype: int64

In [8]:
pattern = r'[,\·/]\s*'
df["장르_리스트"] = df["장르"].str.split(pattern)
df["장르_리스트"]

0                   [기타]
1                  [드라마]
2              [멜로, 로맨스]
3              [멜로, 로맨스]
4                  [드라마]
5                   [액션]
6                   [SF]
7                  [드라마]
8                  [드라마]
9                  [드라마]
10        [멜로, 로맨스, 코미디]
11                 [스릴러]
12                 [드라마]
13                  [액션]
14                 [드라마]
15                 [드라마]
16             [범죄, 드라마]
17                 [드라마]
18                 [드라마]
19                 [드라마]
20    [드라마, 멜로, 로맨스, 가족]
21             [멜로, 로맨스]
22             [코미디, 액션]
23                 [드라마]
24                 [드라마]
25                 [드라마]
26               [다큐멘터리]
27                 [드라마]
28                 [드라마]
29        [멜로, 로맨스, 드라마]
30                 [드라마]
31                 [드라마]
32                 [드라마]
33         [범죄, 액션, 스럴리]
34                 [드라마]
35             [드라마, 멜로]
36                 [코미디]
37             [멜로, 로맨스]
38                 [드라마]
39                 [드라마]


In [9]:
# 장르별 조회
df[df["장르_리스트"].apply(lambda x: "액션" in x)]

Unnamed: 0,개봉일,제목,배급사,감독,출연진,장르,장르_리스트
5,2023-01-18,유령,(주)CJ ENM,이해영,"설경구, 이하늬, 박소감, 박해수, 서현우, 김동희",액션,[액션]
13,2023-02-22,살수,(주)제이앤씨미디어그룹,곽정덕,"신현준, 이문식, 김민경, 홍은기, 최성원",액션,[액션]
22,2023-03-29,웅남이,(주)CJ CGV,박성광,"박성웅, 이이경, 염혜란, 최민수, 오달수, 윤제문, 백지혜, 서동원, 한다솔","코미디, 액션","[코미디, 액션]"
33,2023-04-12,나는 여기에 있다,와이드릴리즈(주),신근호,"조한선, 정지운, 정태우, 노수산나, 박순천, 정인기, 이지원",범죄·액션·스럴리,"[범죄, 액션, 스럴리]"
42,2023-05-10,바람개비,(주)디스테이션,이상훈,"차선우, 유지애, 김소희, 이원석, 서지후",액션,[액션]
48,2023-05-31,범죄도시 3,(주)에이비오엔터테인먼트,이상용,"마동석, 이준혁, 아오키 무네타카, 이범수, 김민재, 이지훈, 김도건, 최동구, 이...","범죄, 액션","[범죄, 액션]"
54,2023-06-21,귀공자,(주)넥스트엔터테인먼트월드,박훈정,"김선호, 강태주, 김강우, 고아라",액션,[액션]
56,2023-06-21,인드림,(주)원더스튜디오,신재호,"서효림, 오지호, 김승수, 이설구, 노지유",액션,[액션]


In [10]:
# 출연진
pattern = r'[,\·/]\s*'
df["출연진_리스트"] = df["출연진"].str.split(pattern)
df["출연진_리스트"]

0                              [권상우, 오정세, 이민정, 박소이, 김준]
1                                             [지일주, 지연]
2                                                 [정가은]
3                                                 [송민경]
4                                        [황정민, 현빈, 강기영]
5                        [설경구, 이하늬, 박소감, 박해수, 서현우, 김동희]
6                                       [강수연, 김현주, 류경수]
7                                  [임선우, 김명찬, 이장유, 박현숙]
8                                  [김시은, 배두나, 박우영, 정수하]
9                                  [이동휘, 정은채, 강길우, 정다은]
10                       [윤시윤, 설인아, 노상현, 문지인, 이규복, 김영웅]
11                                      [천우희, 임시완, 김희원]
12                       [진선규, 성유빈, 오나라, 고창석, 장동주, 고규필]
13                            [신현준, 이문식, 김민경, 홍은기, 최성원]
14                        [조은지, 박종환, 곽민규, 소이, 송은지, 곽진무]
15                                           [유연석, 차태현]
16                                      [조진웅, 이성민, 김무열]
17                                      [선동혁, 정아

In [11]:
df[df["출연진_리스트"].apply(lambda x: "박성웅" in x)]

Unnamed: 0,개봉일,제목,배급사,감독,출연진,장르,장르_리스트,출연진_리스트
22,2023-03-29,웅남이,(주)CJ CGV,박성광,"박성웅, 이이경, 염혜란, 최민수, 오달수, 윤제문, 백지혜, 서동원, 한다솔","코미디, 액션","[코미디, 액션]","[박성웅, 이이경, 염혜란, 최민수, 오달수, 윤제문, 백지혜, 서동원, 한다솔]"
58,2023-06-28,라방,트리플픽쳐스,최주연,"박성웅, 박선호, 김희정",스릴러,[스릴러],"[박성웅, 박선호, 김희정]"


In [16]:
# 제일 영화가 많이 개봉한 날
(df["개봉일"].value_counts() >= 2).sum()

np.int64(15)