In [5]:
from googleapiclient.discovery import build
import json
import pandas as pd
# KNU 감성어 사전이 JSON 파일
# 감성어 사전 데이터 프레임
from konlpy.tag import Okt
# 여러 가지 형태소 분석기 존재
# 실행시간이 가장 빠른 Okt 이용
okt = Okt()

In [8]:
# 비교를 위해 감성어 사전 데이터 프레임으로 만들기
with open('SentiWord_info.json', encoding='utf-8-sig', mode='r') as f: 
  SentiWord_info = json.load(f)

sentiword_dic = pd.DataFrame(SentiWord_info)

In [14]:
# youtube api를 가져오기, developerKey는 발급받은 유튜브 데이터 api 키 입력, 프로젝트 완성 후 key 변경 예정
api_obj = build('youtube', 'v3', developerKey='AIzaSyDoVOWvWGGimdl09XKK_s7f7mJ5ipUI7es')

In [15]:
# query에 내가 검색하려는 영화이름 넣어서 검색 -> 유튜브에서 해당 검색어로 검색해 가장 상단의 videoId를 가져옴
def get_video_id(api_obj, query):
    search_response = api_obj.search().list(
        q=query,
        part='id',
        maxResults=1
    ).execute()

    return search_response['items'][0]['id']['videoId']

In [39]:
# get_video_id 함수로 가져온 videoId로 크롤링, 좋아요 수를 기준으로 댓글 정렬
def get_comments(api_obj, video_name, max_results=100):
    video_id = get_video_id(api_obj, video_name)
    response = api_obj.commentThreads().list(
        part='snippet,replies',
        videoId=video_id,
        maxResults=max_results
    ).execute()
    
    # 댓글 저장할 리스트
    comments = []
    while response:
        for item in response['items']:
            comment = item['snippet']['topLevelComment']['snippet']
            comments.append([comment['textDisplay'], comment['authorDisplayName'], comment['publishedAt'], comment['likeCount']])
            if item['snippet']['totalReplyCount'] > 0:
                for reply_item in item['replies']['comments']:
                    reply = reply_item['snippet']
                    comments.append([reply['textDisplay'], reply['authorDisplayName'], reply['publishedAt'], reply['likeCount']])
        if 'nextPageToken' in response:
            response = api_obj.commentThreads().list(
                part='snippet,replies',
                videoId=video_id,
                pageToken=response['nextPageToken'],
                maxResults=max_results
            ).execute()
        else:
            break

    # 좋아요 수를 기준으로 댓글 정렬
    comments.sort(key=lambda x: x[3], reverse=True)  # x[3]은 좋아요 수
    
    return comments

In [40]:
comments = get_comments(api_obj, '파묘')

In [42]:
# 좋아요가 많은 순으로 100개의 댓글 전처리
def process_top_comments(comments, okt, num_top_comments=100):
    # 좋아요가 많은 순으로 상위 num_top_comments개 댓글 선택
    top_comments = comments[:num_top_comments]
    # 좋아요가 많은 num_top_comments개의 댓글의 내용만 분리
    top_comments_content = [top_comments[i][0] for i in range(num_top_comments)]
    # 좋아요 많은 num_top_comments개의 댓글 품사 정보 확인
    pos_comments = [okt.pos(comment, norm=True) for comment in top_comments_content]
    # 댓글들 전부 하나의 리스트로 변환
    flattened_comments = []
    for sub in pos_comments:
        flattened_comments.extend(sub)
    
    return flattened_comments

In [43]:
processed_comments = process_top_comments(comments, okt, 100)

In [47]:
# pos_tags에 일치하는 품사들만 추출
def extract_specific_pos_words(processed_comments, pos_tags=['Verb', 'Noun', 'Adjective']):
    # 품사가 pos_tags에 속하는 단어들만 추출
    extracted_words = [word for word, tag in processed_comments if tag in pos_tags]
    return extracted_words

In [48]:
extracted_words = extract_specific_pos_words(processed_comments, ['Verb', 'Noun', 'Adjective'])

In [50]:
# 전처리된 데이터를 감성사전과 대조해 긍정/부정 점수 총점 계산
def calculate_sentiment(extracted_words, sentiword_dic):
    df_all = pd.DataFrame(columns=("review", "sentiment"))
    idx = 0
    sentiment = 0
    for i in range(0, len(sentiword_dic)):
        if sentiword_dic.word[i] in extracted_words:
            sentiment += int(sentiword_dic.polarity[i])
    df_all.loc[idx] = [extracted_words, sentiment]
    return df_all

In [51]:
df = calculate_sentiment(extracted_words, sentiword_dic)

In [53]:
# 총점수로 사람들의 평가가 어느쪽 의견인지 출력
def res_answer(df):
    score = df['sentiment'].values[0]
    if score > 0:
        return print(f'긍정적인 평가가 더 많습니다. \n댓글 평가 점수 : {score}')
    elif score == 0:
        return print('긍정/부정 평가가 비슷하게 있습니다.')
    else:
        return print(f'부정적인 평가가 더 많습니다. \n댓글 평가 점수 : {score}')

In [54]:
res_answer(df)

부정적인 평가가 더 많습니다. 
댓글 평가 점수 : -1


In [55]:
# db 써보기
import pymysql

def movie_name(movie_n):
    db = pymysql.connect(user='yt', password='패스워드작성', host='ip작성', db='Movie_DB', cursorclass=pymysql.cursors.DictCursor)

    cursor = db.cursor()

    query = "select * from movie_db.영화"
    cursor.execute(query)
    db_export = cursor.fetchall()

    # dataframe 입력 (불러오기)
    db_movie_df=pd.DataFrame(db_export)
    # db_movie_df
    
    # '영화명' column에서 '제목'을 포함하는 값만 선택
    selected_values = db_movie_df[db_movie_df['영화명'].str.contains(movie_n)].values[0][0]

    return selected_values

In [60]:
movie_name('범죄도시')

'범죄도시4'