다음 코드는 다양한 접근 조회 방법을 실험하는 함수와 저의 추천 함수입니다.
해당 문제는 주관적인 본인의 기준으로 추천하는 코드를 개발하는 게 목표이기 때문에, 
저는 제가 좋아하는 장르인 "드라마"의 영화를 추천했습니다. 
데이터 프레임에 장르에 해당하는 문자열에 "드라마"가 포함되어 있는 영화 최대 두번째 매개변수만큼의 갯수를 랜덤으로 출력하게 했습니다.

In [7]:
import pandas as pd

def find_movies_by_actor(df, actor_name):
    result = df[df['출연진'].str.contains(rf'\b{actor_name}\b', case=False)]
    if result.empty:
        return (f"출연진에 '{actor_name}'이 해당하는 영화가 없습니다.")
    else:
        return result

def find_movies_by_director(df, director):
    result = df[df['감독'].str.contains(rf'\b{director}\b', case=False)]
    if result.empty:
        return (f"감독에 '{director}'이 해당하는 영화가 없습니다.")
    else:
        return result

def find_movies_by_genre(df, genre):
    result = df[df['장르'].str.contains(rf'\b{genre}\b', case=False)]
    if result.empty:
        return (f"장르에 '{genre}'이 해당하는 영화가 없습니다.")
    else:
        return result
    
def my_recommend(df, num):
    result = df[df['장르'].str.contains(rf'\b드라마\b', case=False, na=False)]
    if len(result) >= num:
        return result.sample(num)
    else:
        return result

다음 코드는 데이터를 활용하여 각각의 수를 구하고, 위의 함수를 사용하는 코드입니다.

In [8]:

try:
    df = pd.read_csv('prob-0101.csv')
    print(f"전체 영화 개수: {len(df)}")
    print(f"중복을 제외한 배급사 수: {df['배급사'].str.split(',').explode().str.strip().nunique()}")
    print(f"중복을 제외한 감독 수: {df['감독'].str.split(',').explode().str.strip().nunique()}")
    print(f"중복을 제외한 출연진 수: {df['출연진'].str.split(',').explode().str.strip().nunique()}")
    print(f"중복을 제외한 장르 수: {df['장르'].str.split(r'[,/·]').explode().str.strip().nunique()}\n")
    
    print(my_recommend(df, 5))
except FileNotFoundError:
    print("파일이 존재하지 않습니다")


전체 영화 개수: 59
중복을 제외한 배급사 수: 55
중복을 제외한 감독 수: 62
중복을 제외한 출연진 수: 262
중복을 제외한 장르 수: 14

           개봉일        제목            배급사   감독  \
27  2023-04-05  오늘 출가합니다      (주)트리플픽쳐스  김성환   
4   2023-01-18        교섭     플렉스엠엔터테인먼트  임순례   
15  2023-03-01       멍뭉이  (주)와이웍스엔터테인먼트  김주환   
38  2023-04-19     튤립 모양         삼거리픽쳐스  양윤모   
29  2023-04-06    솔라 플라워         ㈜스토리제이  한경탁   

                                           출연진          장르  
27                                    양홍주, 나현준         드라마  
4                                 황정민, 현빈, 강기영         드라마  
15                                    유연석, 차태현         드라마  
38                유다인, 김다현, 문희경, 김정균, 진혜원, 이지용         드라마  
29  오원빈, 서지희, 심현탁, 박정철, 김수하, 김민, 김봉주, 조수빈, 정병훈  멜로,로맨스,드라마  


In [12]:
value_counts = df['개봉일'].value_counts()
print("영화가 하루에 2편 이상 개봉한 날짜")
print(value_counts[value_counts >= 2])
print("\n가장 많은 수의 영화가 개봉한 날짜")
print(value_counts.nlargest(1))


영화가 하루에 2편 이상 개봉한 날짜
개봉일
2023-04-12    6
2023-03-29    5
2023-04-05    4
2023-05-10    3
2023-06-21    3
2023-02-08    3
2023-06-28    2
2023-06-07    2
2023-05-31    2
2023-03-01    2
2023-02-22    2
2023-06-08    2
2023-01-18    2
2023-01-12    2
2023-04-19    2
Name: count, dtype: int64

가장 많은 수의 영화가 개봉한 날짜
개봉일
2023-04-12    6
Name: count, dtype: int64


In [17]:
print(f'{find_movies_by_actor(df, "박성웅")}\n')
print(f'{find_movies_by_director(df, "최하나")}\n')
# print(f'{find_movies_by_genre(df, "로맨스")}\n')

           개봉일   제목        배급사   감독  \
22  2023-03-29  웅남이  (주)CJ CGV  박성광   
58  2023-06-28   라방     트리플픽쳐스  최주연   

                                            출연진       장르  
22  박성웅, 이이경, 염혜란, 최민수, 오달수, 윤제문, 백지혜, 서동원, 한다솔  코미디, 액션  
58                                박성웅, 박선호, 김희정      스릴러  

           개봉일  제목            배급사   감독  \
39  2023-04-26  드림  (주)플렉스엠엔터테인먼트  이병헌   

                                                 출연진   장르  
39  박서준, 아이유, 김종수, 고창석, 정승길, 이현우, 양현민, 홍완표, 허준석, 이하늬  드라마  

