In [None]:
import pymysql
import pandas as pd
import random
import time
import json
from konlpy.tag import Okt
from googleapiclient.discovery import build
import re
from collections import Counter

In [None]:
db = pymysql.connect(user='root', password='1234', host='127.0.0.1', db='Movie_DB', cursorclass=pymysql.cursors.DictCursor)

cursor = db.cursor()

query = "select * from movie_db.영화"
cursor.execute(query)
db_export = cursor.fetchall()

# dataframe 입력 (불러오기)
db_movie_df=pd.DataFrame(db_export)
db_movie_df

In [None]:
query = "select * from movie_db.감독"
cursor.execute(query)
db_export = cursor.fetchall()

# dataframe 입력 (불러오기)
db_director_df=pd.DataFrame(db_export)
db_director_df

In [None]:
query = "select * from movie_db.배우"
cursor.execute(query)
db_export = cursor.fetchall()

# dataframe 입력 (불러오기)
db_actor_df=pd.DataFrame(db_export)
db_actor_df

In [None]:
# 여러 가지 형태소 분석기 존재, Okt 이용
okt = Okt()

# 비교를 위해 감성어 사전 데이터 프레임으로 만들기
with open('SentiWord_info.json', encoding='utf-8-sig', mode='r') as f: 
  SentiWord_info = json.load(f)

sentiword_dic = pd.DataFrame(SentiWord_info)

# youtube api를 가져오기, developerKey는 발급받은 유튜브 데이터 api 키 입력, api 키는 프로젝트 종료 후에 수정 예정
api_obj = build('youtube', 'v3', developerKey='AIzaSyDoVOWvWGGimdl09XKK_s7f7mJ5ipUI7es')



In [None]:
# 고유한 장르 목록을 확인하는 코드
def check_genre():
    unique_genres = db_movie_df['장르'].unique()
    genreList = []
    for genre in unique_genres:
        try:
            x = genre.split(',')
            genreList.extend(x)
        except AttributeError:
            pass

    genreList=list(set(genreList)) # 장르의 종류
    genreList.remove('기타')
    return genreList

In [None]:
# 장르별 영화추천
def recommend_genre(genre):

    # 장르가 '드라마'인 영화 선택
    movies = db_movie_df[db_movie_df['장르'] == genre]['영화명'].tolist()

    # 장르가 없는 영화인 경우
    if not movies:
        return None
    else:
        # 랜덤으로 추천
        recommended_movie = random.choice(movies)
        return db_movie_df[db_movie_df['영화명'] == recommended_movie]

In [None]:
# 고유한 제작연도를 확인하는 코드
def check_years():
    unique_years = db_movie_df['제작연도'].unique()
    unique_years=list(set(unique_years))
    return unique_years

In [None]:
#제작연도별 영화 추천
def recommend_year(year):
    movies = db_movie_df[db_movie_df['제작연도'] == year]['영화명'].tolist()

    if not movies:
        return None
    else:
        # 랜덤으로 추천
        recommended_movie = random.choice(movies)

        return db_movie_df[db_movie_df['영화명'] == recommended_movie]

In [None]:
# 배우,감독 -filmoNames에 데이터를 분리, 랜덤 출력
def separated_string(string):
    choices = string.split("|")
    randomMovieName = random.choice(choices)
    return randomMovieName

In [None]:
# 배우-배우가 한명일 때 실행될 함수
def actorOnePeople(actor, df):

    actor_movies = df[df['peopleNm'] == actor]['filmoNames'].tolist()
    # 검색 배우의 출연작이 없으면 None 리턴
    if actor_movies:
        # 랜덤으로 추천
        recommended_movie = separated_string(random.choice(actor_movies))
        return recommended_movie
    else:
        return None

In [None]:
# 배우-한명이 아닐 때 실행될 함수
def actorTwoPeople(user_input_actor, df, actorCode):
    
    # 새로운 조건으로 데이터 검색
    query = "SELECT * FROM 배우 WHERE peopleNm = %s AND peopleCd LIKE %s"
    cursor.execute(query, (user_input_actor, f'%{actorCode}%'))
    twoPeopleActorsData = cursor.fetchall()

    # 새로운 데이터프레임 생성
    df = pd.DataFrame(twoPeopleActorsData)
    actor_movies = df[df['peopleNm'] == user_input_actor]['filmoNames'].tolist()
    
    if actor_movies:
        recommended_movie = separated_string(random.choice(actor_movies))
        return recommended_movie
    else:
        return None

In [None]:
# 배우-검색 결과 출력
# 검색 결과 출력
def ActorPrint(user_input_actor):
    search_result = db_actor_df[db_actor_df['peopleNm'] == user_input_actor]

    if not search_result.empty:

        # 입력받은 배우가 한명일 때
        if len(search_result) == 1:
            recommended_movie = actorOnePeople(user_input_actor, db_actor_df)
        
            # 결과 출력
            if recommended_movie:
                return db_movie_df[db_movie_df['영화명'] == recommended_movie]
            else:
                return None

        # 입력받은 배우가 한명이 아닐 때 해당 배우 출연 영화명 입력받기
        else:
            print(search_result)
            time.sleep(2)
            
            actorCode = input("배우 코드 입력: ").strip()
            recommended_movie = actorTwoPeople(user_input_actor, db_actor_df, actorCode)

            # 결과 출력
            if recommended_movie:
                return db_movie_df[db_movie_df['영화명'] == recommended_movie]
            else:
                return None
    else:
        return None

In [None]:
# 감독-감독이 한명일 때 실행될 함수
def directorOnePeople(director, df):

    director_movies = df[df['peopleNm'].str.contains(director)]['filmoNames'].tolist()
    if director_movies:
        # 랜덤으로 추천
        recommended_movie = separated_string(random.choice(director_movies))
        return recommended_movie
    
    # 검색 감독의 제작영화가 없으면 None 리턴
    else:
        return None

In [None]:
# 감독-한명이 아닐 때 실행될 함수
def directorTwoPeople(user_input_director, df, directorCode):
    
    # 새로운 조건으로 데이터 검색
    query = "SELECT * FROM 감독 WHERE peopleNm = %s AND peopleCd LIKE %s"
    cursor.execute(query, (user_input_director, f'%{directorCode}%'))
    twoPeopleActorsData = cursor.fetchall()

    # 새로운 데이터프레임 생성
    df = pd.DataFrame(twoPeopleActorsData)
    director_movies = df[df['peopleNm'] == user_input_director]['filmoNames'].tolist()
    
    if director_movies:
        recommended_movie = separated_string(random.choice(director_movies))
        return recommended_movie
    else:
        return None


In [None]:
# 감독-검색 결과 출력
def directorPrint(user_input_director):
    search_result = db_director_df[db_director_df['peopleNm'] == user_input_director]

    if not search_result.empty:

        # 입력받은 감독이 한명일 때
        if len(search_result) == 1:
            recommended_movie = directorOnePeople(user_input_director, db_director_df)
        
            # 결과 출력
            if recommended_movie:
                return db_movie_df[db_movie_df['영화명'] == recommended_movie]
            else:
                return None

        # 입력받은 감독이 한명이 아닐 때 해당 감독 코드 입력받기
        else:
            print(search_result)
            time.sleep(2)
            
            directorCode = input("감독 코드 입력: ").strip()
            recommended_movie = directorTwoPeople(user_input_director, db_movie_df, directorCode)

            # 결과 출력
            if recommended_movie:
                return db_movie_df[db_movie_df['영화명'] == recommended_movie]
            else:
                return None
    else:
        return None

In [None]:
# query에 내가 검색하려는 영화이름 넣어서 검색 -> 유튜브에서 해당 검색어로 검색해 가장 상단의 videoId를 가져옴
def get_video_id(api_obj, query):
    search_response = api_obj.search().list(
        q=query,
        part='id',
        maxResults=1
    ).execute()

    return search_response['items'][0]['id']['videoId']

In [None]:
# get_video_id 함수로 가져온 videoId로 크롤링, 좋아요 수를 기준으로 댓글 정렬
def get_comments(api_obj, video_name, max_results=100):
    video_id = get_video_id(api_obj, video_name)
    response = api_obj.commentThreads().list(
        part='snippet,replies',
        videoId=video_id,
        maxResults=max_results
    ).execute()
    
    # 댓글 저장할 리스트
    comments = []
    while response:
        for item in response['items']:
            comment = item['snippet']['topLevelComment']['snippet']
            comments.append([comment['textDisplay'], comment['authorDisplayName'], comment['publishedAt'], comment['likeCount']])
            if item['snippet']['totalReplyCount'] > 0:
                for reply_item in item['replies']['comments']:
                    reply = reply_item['snippet']
                    comments.append([reply['textDisplay'], reply['authorDisplayName'], reply['publishedAt'], reply['likeCount']])
        if 'nextPageToken' in response:
            response = api_obj.commentThreads().list(
                part='snippet,replies',
                videoId=video_id,
                pageToken=response['nextPageToken'],
                maxResults=max_results
            ).execute()
        else:
            break

    # 좋아요 수를 기준으로 댓글 정렬
    comments.sort(key=lambda x: x[3], reverse=True)  # x[3]은 좋아요 수
    
    return comments

In [None]:
# 좋아요가 많은 순으로 100개의 댓글 전처리
def process_top_comments(comments, okt, num_top_comments=100):
    # 좋아요가 많은 순으로 상위 num_top_comments개 댓글 선택
    top_comments = comments[:num_top_comments]
    # 실제로 사용할 댓글의 수를 결정, 100개보다 적으면 가지고 온 top_comments의 길이 만큼만 사용
    num_top_comments = min(num_top_comments, len(top_comments))
    # 좋아요가 많은 num_top_comments개의 댓글의 내용만 분리
    top_comments_content = [top_comments[i][0] for i in range(num_top_comments)]
    # 좋아요 많은 num_top_comments개의 댓글 품사 정보 확인
    pos_comments = [okt.pos(comment, norm=True) for comment in top_comments_content]
    # 댓글들 전부 하나의 리스트로 변환
    flattened_comments = []
    for sub in pos_comments:
        flattened_comments.extend(sub)
    
    return flattened_comments

In [None]:
# pos_tags에 일치하는 품사들만 추출(동사, 명사, 형용사)
def extract_specific_pos_words(processed_comments, pos_tags=['Verb', 'Noun', 'Adjective']):
    # 품사가 pos_tags에 속하는 단어들만 추출
    extracted_words = [word for word, tag in processed_comments if tag in pos_tags]
    return extracted_words

In [None]:
# 전처리된 데이터를 감성사전과 대조해 긍정/부정 점수 총점 계산
def calculate_sentiment(extracted_words, sentiword_dic):
    df_all = pd.DataFrame(columns=("review", "sentiment"))
    idx = 0
    sentiment = 0
    for i in range(0, len(sentiword_dic)):
        if sentiword_dic.word[i] in extracted_words:
            sentiment += int(sentiword_dic.polarity[i])
    df_all.loc[idx] = [extracted_words, sentiment]
    return df_all

In [None]:
# 총점수로 사람들의 평가가 어느쪽 의견인지 출력
def res_answer(df):
    score = df['sentiment'].values[0]
    if score > 0:
        return print(f'긍정적인 평가가 더 많습니다. \n댓글 평가 점수 : {score}')
    elif score == 0:
        return print('긍정/부정 평가가 비슷하게 있습니다.')
    else:
        return print(f'부정적인 평가가 더 많습니다. \n댓글 평가 점수 : {score}')

In [None]:
# 검색한 영화이름을 기반으로 DB에서 정보 검색
def movie_n(movie_name):
    db = pymysql.connect(user='yt', password='1234', host='112.161.7.178', db='Movie_DB', cursorclass=pymysql.cursors.DictCursor)

    cursor = db.cursor()

    query = "select * from movie_db.영화"
    cursor.execute(query)
    db_export = cursor.fetchall()

    # dataframe 입력 (불러오기)
    # db_movie_df=pd.DataFrame(db_export)
    # db_movie_df
    
    # '영화명' column에서 '제목'을 포함하는 값만 선택
    # selected_values = db_movie_df[db_movie_df['영화명'].str.contains(movie_name)].values[0][0]
    selected_values = db_movie_df[db_movie_df['영화명'].str.contains(movie_name)]

    return selected_values

In [None]:
def extract_top_n_words(comments, n=10):
    """
    주어진 댓글 리스트에서 상위 n개의 빈도수가 많은 단어를 추출하는 함수.
    
    :param comments: 댓글 리스트. 각 댓글은 튜플의 형태로, 첫 번째 요소가 댓글 텍스트.
    :param n: 상위 n개의 단어를 추출하기 위한 정수 (기본값은 10).
    :return: 상위 n개의 단어 리스트.
    """
    # 댓글 리스트에서 각 댓글에 대해 정규 표현식을 적용하여 한글과 공백만 추출
    check_comment = [''.join(re.findall('[ㄱ-ㅣ가-힣\s]', comment[0])) for comment in comments]
    
    # Okt 객체 생성
    okt = Okt()
    
    # 각 댓글에 대해 형태소 분석
    tokens = [okt.pos(comment, join=False) for comment in check_comment]
    
    
    # 형태소 분석 결과에서 명사와 형용사 추출
    filtered_words = extract_nouns_adjectives(tokens)
    
    # 단어 빈도 계산
    word_counts = Counter(filtered_words)
    
    # 빈도수가 많은 상위 n개 단어 추출
    most_common_words = word_counts.most_common(n)
    
    # 단어만 추출하여 리스트로 반환
    words = [word for word, _ in most_common_words]
    
    return words

In [None]:
# 형태소 분석 결과에서 명사와 형용사 추출하는 함수
def extract_nouns_adjectives(tokens):
        words = []
        for sentence in tokens:
            words.extend([word for word, tag in sentence if tag in ('Noun', 'Adjective')])
        return words

In [None]:
user=0
movie_store_df = pd.DataFrame({})
while True:
    start_m=''' 안녕하세요!! 시네마 미슐랭가이드입니다.^^ 어떤 서비스를 원하시나요?\n
    1. 영화 장르별 추천
    2. 영화 개봉연도별 추천
    3. 감독별 영화 추천
    4. 배우별 영화 추천
    5. 사람들의 영화 평가 점수, 주요 키워드
    6. 찜목록 보기
    0. 프로그램 종료하기'''
    print(start_m)
    user=int(input())
    if user==0:
        print('프로그램을 종료합니다.')
        break
    elif user==1:
        print(check_genre())
        user_genre=input('장르별 영화 추천을 해드립니다. 어떤 장르를 원하시나요?\n\n')
        res=recommend_genre(user_genre)
        if res is not None and not res.empty:
            print('*****이 영화를 추천해드릴게요!!*****')
            print(res)
            print()
            user_genre2=int(input('이 영화를 찜하시겠습니까? 1.Yes 0.No 종료\n\n'))
            if user_genre2==1:
                movie_store_df = pd.concat([movie_store_df, res])
            else:
                pass
        else:
            print('없는 장르입니다.')
        
        
    elif user==2:
        print(check_years())
        user_year=int(input('개봉연도별 영화 추천을 해드립니다. 어떤 연도를 원하시나요?\n\n'))
        res=recommend_year(user_year)
        if res is not None and not res.empty:
            print('*****이 영화를 추천해드릴게요!!*****')
            print(res)
            print()
            user_year2=int(input('이 영화를 찜하시겠습니까? 1.Yes 0.No 종료\n\n'))
            if user_year2==1:
                movie_store_df = pd.concat([movie_store_df, res])
            else:
                pass
        else:
            print('없는 개봉연도입니다.')

    elif user==3:
        user_director=input("감독별 영화를 추천해 드립니다. 감독명을 입력해주세요.\n\n").strip()
        res=directorPrint(user_director)
        if res is not None and not res.empty:
            print('*****이 영화를 추천해드릴게요!!*****')
            print(res)
            print()
            user_director2=int(input('이 영화를 찜하시겠습니까? 1.Yes 0.No 종료\n\n'))
            if user_director2==1:
                movie_store_df = pd.concat([movie_store_df, res])
            else:
                pass
        else:
            print('없는 감독입니다.')
            
        
    elif user==4:
        user_actor=input("배우별 영화를 추천해 드립니다. 배우명을 입력해주세요.\n\n").strip()
        res=ActorPrint(user_actor)
        if res is not None and not res.empty:
            print('*****이 영화를 추천해드릴게요!!*****')
            print(res)
            print()
            user_actor2=int(input('이 영화를 찜하시겠습니까? 1.Yes 0.No 종료\n\n'))
            if user_actor2==1:
                movie_store_df = pd.concat([movie_store_df, res])
            else:
                pass
        else:
            print('없는 배우입니다.')
            
    elif user==5:
        movie_name = input('반응을 찾아보고 싶은 영화를 입력하세요 : ')
        # get_video_id 함수로 가져온 videoId로 크롤링, 좋아요 수를 기준으로 댓글 정렬
        comments = get_comments(api_obj, movie_name)
        # 좋아요가 많은 순으로 100개의 댓글 전처리
        processed_comments = process_top_comments(comments, okt, 100)
        # pos_tags에 일치하는 품사들만 추출(동사, 명사, 형용사)
        extracted_words = extract_specific_pos_words(processed_comments, ['Verb', 'Noun', 'Adjective'])
        # 전처리된 데이터를 감성사전과 대조해 긍정/부정 점수 총점 계산
        df = calculate_sentiment(extracted_words, sentiword_dic)
        # 총점수로 사람들의 평가가 어느쪽 의견인지 출력
        res_answer(df)
        
        top_words = extract_top_n_words(comments, n=10)
        #댓글을 단어로 토큰화 한 후 빈도수가 빈번한 순으로 상위 10개 키워드 추출
        yt_id = get_video_id(api_obj, movie_name)
        
        print('https://www.youtube.com/watch?v=' + yt_id + '\n') 
        print(movie_n(movie_name))
        print('키워드: ',top_words)
        print('\n\n')
        
    elif user==6:
        print(movie_store_df)
        user_store=int(input('저장하신 찜목록입니다. 삭제할 데이터가 있습니까? 1. Yes 0. No 종료\n\n'))
        if user_store==1:
            user_movie=input('삭제할 영화제목을 입력해주세요.\n\n')
            indices_to_drop = movie_store_df[movie_store_df['영화명'] == user_movie].index
            movie_store_df = movie_store_df.drop(indices_to_drop)
            print('삭제되었습니다.\n\n')
        else:
            pass

In [None]:
movie_store_df = pd.DataFrame({})

In [None]:
res=recommend_year(2022)

In [None]:
movie_store_df = pd.concat([movie_store_df, res])

In [None]:
print(movie_store_df)