In [1]:
!pip install tensorflow-addons
!pip install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting tensorflow-addons
  Downloading tensorflow_addons-0.20.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (591 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m591.0/591.0 kB[0m [31m33.6 MB/s[0m eta [36m0:00:00[0m
Collecting typeguard<3.0.0,>=2.7 (from tensorflow-addons)
  Downloading typeguard-2.13.3-py3-none-any.whl (17 kB)
Installing collected packages: typeguard, tensorflow-addons
Successfully installed tensorflow-addons-0.20.0 typeguard-2.13.3
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.30.2-py3-none-any.whl (7.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.2/7.2 MB[0m [31m56.3 MB/s[0m eta [36m0:00:00[0m
Collecting huggingface-hub<1.0,>=0.14.1 (from transformers)
  Downloading huggingface_hub-0.15.1-py3-no

In [2]:
import os
import pandas as pd
import numpy as np
import re
from tqdm import tqdm
import urllib.request
import seaborn as sns
import matplotlib.pyplot as plt
import tensorflow_addons as tfa
import tensorflow as tf

from tensorflow.keras.callbacks import EarlyStopping, ModelCheckpoint
from transformers import BertTokenizer, TFBertForSequenceClassification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score, roc_auc_score, confusion_matrix, classification_report, matthews_corrcoef, cohen_kappa_score, log_loss

# 크롤링
import openpyxl
from googleapiclient.discovery import build
from googleapiclient.errors import HttpError
from oauth2client.tools import argparser


TensorFlow Addons (TFA) has ended development and introduction of new features.
TFA has entered a minimal maintenance and release mode until a planned end of life in May 2024.
Please modify downstream libraries to take dependencies from other repositories in our TensorFlow community (e.g. Keras, Keras-CV, and Keras-NLP). 

For more information see: https://github.com/tensorflow/addons/issues/2807 



In [3]:
from google.colab import drive

drive.mount('/content/drive', force_remount=True)

filepath = '/content/drive/My Drive/' + 'Colab Notebooks/'

Mounted at /content/drive


In [4]:
# 크롤링 함수

def get_comments(video_id):
    comments = []
    next_page_token = None
    DEVELOPER_KEY = "AIzaSyBw9QZ4QkAQeElEiLD5cl0-CC_qfQTc85c"
    YOUTUBE_API_SERVICE_NAME = "youtube"
    YOUTUBE_API_VERSION = "v3"
    try:
        youtube = build(YOUTUBE_API_SERVICE_NAME, YOUTUBE_API_VERSION, developerKey=DEVELOPER_KEY)

        # 댓글 목록 가져오기
        while True:
            results = youtube.commentThreads().list(
                part="snippet",
                videoId=video_id,
                textFormat="plainText",
                maxResults=100,
                pageToken=next_page_token
            ).execute()

            # 댓글 텍스트 추출
            for item in results["items"]:
                comment = item["snippet"]["topLevelComment"]["snippet"]["textDisplay"]
                comments.append(comment)

            # 다음 페이지 토큰 가져오기
            next_page_token = results.get("nextPageToken")
            if not next_page_token:
                break

            # 최대 500개의 댓글만 가져오기
            if len(comments) >= 1000:
                break

    except HttpError as error:
        print(f"An HTTP error {error.resp.status} occurred: {error.content}")

    # 댓글 데이터 엑셀 파일로 저장
    wb = openpyxl.Workbook()
    sheet = wb.active
    sheet.title = "Comments"
    # 첫번째 행에 'comment', 'value' 추가
    sheet.cell(row=1, column=1, value="comment")
    sheet.cell(row=1, column=2, value='value')

    for i in range(len(comments)):
        sheet.cell(row=i+2, column=1, value=comments[i])
        sheet.cell(row=i+2, column=2, value=1)
    wb.save(filepath + "youtube_comments.xlsx")

    return comments

In [5]:
MODEL_NAME = "klue/bert-base"
tokenizer = BertTokenizer.from_pretrained(MODEL_NAME)

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/248k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/289 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/425 [00:00<?, ?B/s]

In [6]:
BEST_MODEL_NAME = filepath + 'model/best_model.h5'
print(BEST_MODEL_NAME)

/content/drive/My Drive/Colab Notebooks/model/best_model.h5


In [7]:
model = tf.keras.models.load_model(BEST_MODEL_NAME,
                                   custom_objects={'TFBertForSequenceClassification': TFBertForSequenceClassification},
                                   compile=False)

In [8]:
# 입력 데이터(문장) 길이 제한
MAX_SEQ_LEN = 64

def convert_data(X_data, y_data):
    # BERT 입력으로 들어가는 token, mask, segment, target 저장용 리스트
    tokens, masks, segments, targets = [], [], [], []

    for X, y in tqdm(zip(X_data, y_data)):
        # token: 입력 문장 토큰화
        token = tokenizer.encode(X, truncation = True, padding = 'max_length', max_length = MAX_SEQ_LEN)

        # Mask: 토큰화한 문장 내 패딩이 아닌 경우 1, 패딩인 경우 0으로 초기화
        num_zeros = token.count(0)
        mask = [1] * (MAX_SEQ_LEN - num_zeros) + [0] * num_zeros

        # segment: 문장 전후관계 구분: 오직 한 문장이므로 모두 0으로 초기화
        segment = [0]*MAX_SEQ_LEN

        tokens.append(token)
        masks.append(mask)
        segments.append(segment)
        targets.append(y)

    # numpy array로 저장
    tokens = np.array(tokens)
    masks = np.array(masks)
    segments = np.array(segments)
    targets = np.array(targets)

    return [tokens, masks, segments], targets

In [10]:
def comment_ratio(predicted_label):
  neg, pos, dontmind = 0, 0, 0

  for i in range(len(predicted_label)):
    if(predicted_label[i]==0):
      neg += 1
    if(predicted_label[i]==1):
      pos += 1
    if(predicted_label[i]==2):
      dontmind += 1

  pos_ratio = pos/len(predicted_label)
  neg_ratio = neg/len(predicted_label)
  dmd_ratio = dontmind/len(predicted_label)


  print('긍정:',pos_ratio, ', 부정:',neg_ratio, ',관련없음:',dmd_ratio)
  return pos_ratio, neg_ratio, dmd_ratio

In [11]:
def cmt_list(predicted_label, x_data):
  zero = 0
  one = 0
  cmt_neg = []
  cmt_pos = []

  for i, label in enumerate(predicted_label):
      if label == 0:
        if(zero>=8):
          break
        cmt_neg.append(x_data[i])
        zero += 1

  for i, label in enumerate(predicted_label):
      if label == 1:
        if(one>=8):
          break
        cmt_pos.append(x_data[i])
        one += 1

  return cmt_pos, cmt_neg

In [12]:
# 웹페이지 주
from google.colab.output import eval_js
print(eval_js("google.colab.kernel.proxyPort(5000)"))

https://j12jxs795mj-496ff2e9c6d22116-5000-colab.googleusercontent.com/


In [13]:
#flask

from flask import Flask, request, render_template
app = Flask(__name__, template_folder='/content/drive/MyDrive/templates')

@app.route("/")
def index():
    return render_template('index.html')

@app.route("/resultPage", methods=['POST'])
def resultPage():
  input = [str(x) for x in request.form.values()]
  input = ''.join(input)
  print('input : ', input, ", type : ", type(input))
  get_comments(input)
  cmt = pd.read_excel(filepath + 'youtube_comments.xlsx')

  # BEST_MODEL_NAME = filepath + 'model/best_model.h5'
  # print(BEST_MODEL_NAME)

  model = tf.keras.models.load_model(BEST_MODEL_NAME,
                                     custom_objects={'TFBertForSequenceClassification': TFBertForSequenceClassification},
                                     compile=False)
  print('전처리 전 댓글들의 개수 :', len(cmt))

  # comment 열의 중복 제거
  cmt.drop_duplicates(subset=['comment'], inplace=True)
  # null값이 존재하는 행 제거
  cmt = cmt.dropna(how='any')
  # 한글과 공백을 제외하고 모두 제거
  cmt['comment'] = cmt['comment'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")

  print('전처리 후 훈련용 샘플의 개수 :',len(cmt))

  print(cmt.shape)

  x_data = cmt['comment']
  y_data = cmt['value']

  comment, trash = convert_data(x_data, y_data)

  predicted_value = model.predict(comment)
  predicted_label = np.argmax(predicted_value, axis = 1)

  pos_ratio, neg_ratio, dmd_ratio = comment_ratio(predicted_label)

  posi, nega = cmt_list(predicted_label, x_data)
  print('긍정')
  print(*posi, sep='\n')
  print('\n부정')
  print(*nega, sep='\n')


  return render_template('resultPage.html', output = input, positive=pos_ratio, negative=neg_ratio,Irrelevant=dmd_ratio, comments=nega)


app.run()

 * Serving Flask app '__main__'
 * Debug mode: off


 * Running on http://127.0.0.1:5000
INFO:werkzeug:[33mPress CTRL+C to quit[0m
INFO:werkzeug:127.0.0.1 - - [15/Jun/2023 11:05:56] "GET / HTTP/1.1" 200 -
INFO:werkzeug:127.0.0.1 - - [15/Jun/2023 11:05:57] "[33mGET /favicon.ico HTTP/1.1[0m" 404 -


input :  Qk77K6XQfYs , type :  <class 'str'>


  cmt['comment'] = cmt['comment'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")


전처리 전 댓글들의 개수 : 1000
전처리 후 훈련용 샘플의 개수 : 998
(998, 2)


998it [00:00, 3719.69it/s]


긍정: 0.1282565130260521 , 부정: 0.6943887775551102 ,관련없음: 0.17735470941883769
긍정
애플로 갈아타려고 하는데 학생이라 돈이많이는 없어서 열심히 리뷰 찾아보고 있는데가장 깔끔한건 잇섭님이다
아이폰 일반 지금 사면 안될까요 저렴한 가격에요ㅎㅎ 물론 요금제가 그렇긴한데 항상 그런 요금제 썻고 뽕 뽑았습니다ㅎㅎ
아이폰 개월 차인데 휴대폰 게임도 안하고 걍 유튜브 머신 카메라만 필요한 나같은 사람한테는 최고 ㅎㅎ 배터리 좋고 가볍고 합리적인 가격에 일반모델 잘산거 같아요
무겁긴 하지만 전 만족하네요 스블이 생각보다 많이 이뻐서 그런가
프로 차예약 성공한 나자신 칭찬해 노치 난 만족함ㅋㅋ 그거랑  말곤 프로 욕심 안나고 프로나 프로까지 존버간닷
아이폰 년가까이 사용하다가 고장으로 통신이 안터져서 어쩔 수 없이 바꾸게 되면서 일반으로 왔는데 성능 대 만족 입니다 ㅎㅎ 프로에 비해 성능이 떨어지긴 하겠지만 프로는 나중에 바꿀 때 되면 그때 가서 바꾸려구요 ㅎㅎ
핸드폰 관련된 영상은 진짜 안 찾아보는데 이 분 영상은 핸드폰 안 사더라도 꼭 봄 ㄹㅇ 너무 좋음
역시 아이폰은 뽈틴프로보다 십사프로가 듣기 좋네

부정
그것보다 앞머리 차이를 둔 이유가 있을까요
이래서 전 갤럭시를 쓰죠램도 최소 기가 이상이고저장용량도 넉넉하고가격적당하고
기본형은 ㅇㅈ인데 플러스는 좀
갤럭시 보다 아이폰이 블투 음질이 더 좋은가요 답변좀 부탁드립니다
저 아이폰 써여 ㅎㅎ
프로급은 무거워서 못씀
잇섭님 저는 학생인데 곧 폰을 바꿀 예정이여서 잇섭님 영상을 보면서 고민하고 있는 두 기종아이폰 와  프로에 대한 장점과 단점을 참고하고 있어요 제가 둘을 고민하고 있는 이유는  프로는 다이내믹 아일랜드가 있고  일반은 무엇보다 가볍고 예쁜 디자인 때문인데요 이번에도 사과가 대작을 만들어내서 아직도 결정하기 어렵습니다  시청자분들도 도와주세요 일반 스타라이트   프로 실버   대기
잇썹님 이 리뷰 영상 보고 플러스로 구매 했어요 언제나 명확한 설명 감사합니

INFO:werkzeug:127.0.0.1 - - [15/Jun/2023 11:06:19] "POST /resultPage HTTP/1.1" 200 -
INFO:werkzeug:127.0.0.1 - - [15/Jun/2023 11:06:20] "[33mGET /favicon.ico HTTP/1.1[0m" 404 -
