<a href="https://colab.research.google.com/github/binibinibini/project2/blob/main/%EB%AA%A8%EB%8D%B8%EC%B6%94%EB%A1%A0%EC%BD%94%EB%93%9C_ipynb%EC%9D%98_%EC%82%AC%EB%B3%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# @title 1. 기본 설정 및 라이브러리 임포트
# -*- coding: utf-8 -*-
# 필수 라이브러리 임포트
import pandas as pd
import torch
from transformers import pipeline
import os
from googleapiclient.discovery import build
from IPython.display import display

In [None]:
# --- 사용자 입력 ---
api_key = input("유튜브 API 키를 입력하세요: ")
video_id = input("분석할 YouTube 영상 ID를 입력하세요 (예: xuTOnTVrIk4): ")

# @markdown ---
# @markdown ### **모델 및 파일 경로 설정 (★★사용자 확인 필요★★)**
# @markdown 파인튜닝된 모델이 저장된 **폴더 경로**와 분석 결과를 저장할 **폴더 경로**를 확인 및 수정해주세요.
model_path = '/content/drive/MyDrive/ITWILL(중간플젝2)/파인튠드 분류 모델/kote-finetuned-model-add50-5epoch/checkpoint-1095' # @param {type:"string"}
output_dir = '/content/drive/MyDrive/ITWILL(중간플젝2)/파인튠드 분류 모델/추론결과/' # @param {type:"string"}

유튜브 API 키를 입력하세요: AIzaSyCspgbm0lH0h2bLMNamjHb--o3ZMWoUCq0
분석할 YouTube 영상 ID를 입력하세요 (예: xuTOnTVrIk4): v90GJHVamWI


In [None]:
# 출력 파일 이름에 video_id 추가
output_filename = f'youtube_comments_analyzed_{video_id}.csv'
output_csv_path = os.path.join(output_dir, output_filename)

# 구글 드라이브 마운트
try:
    from google.colab import drive
    drive.mount('/content/drive')
    print("✅ Google Drive가 성공적으로 마운트되었습니다.")
except Exception as e:
    print(f"❌ Google Drive 마운트 중 오류 발생: {e}")
    raise

# 경로 확인
print("\n--- 설정된 경로 정보 ---")
print(f"📂 불러올 모델 경로: {model_path}")
print(f"💾 저장할 파일 경로: {output_csv_path}")

# 모델 경로 존재 여부 확인
if not os.path.exists(model_path):
    print(f"\n❌ 모델 경로를 찾을 수 없습니다: {model_path}")
    print("   이전 단계에서 모델이 정상적으로 저장되었는지, 경로가 올바른지 확인해주세요.")
    raise FileNotFoundError(f"Model directory not found at {model_path}")

# 출력 폴더 존재 여부 확인 및 생성
if not os.path.exists(output_dir):
    print(f"📂 출력 폴더({output_dir})가 존재하지 않아 새로 생성합니다.")
    os.makedirs(output_dir)

# API 키 입력 여부 확인
if not api_key:
    print("\n❌ YouTube API 키가 입력되지 않았습니다.")
    raise ValueError("API Key is not set.")

Mounted at /content/drive
✅ Google Drive가 성공적으로 마운트되었습니다.

--- 설정된 경로 정보 ---
📂 불러올 모델 경로: /content/drive/MyDrive/ITWILL(중간플젝2)/파인튠드 분류 모델/kote-finetuned-model-add50-5epoch/checkpoint-1095
💾 저장할 파일 경로: /content/drive/MyDrive/ITWILL(중간플젝2)/파인튠드 분류 모델/추론결과/youtube_comments_analyzed_v90GJHVamWI.csv


In [None]:
# @title 2. YouTube API를 이용한 댓글 데이터 수집
print(f"▶️ 영상 ID '{video_id}'의 댓글 수집을 시작합니다...")

try:
    youtube = build("youtube", "v3", developerKey=api_key)

    comments_data = []
    next_page_token = None

    # 1. 최상위 댓글 수집
    while True:
        response = youtube.commentThreads().list(
            part="snippet",
            videoId=video_id,
            maxResults=100,
            textFormat="plainText",
            pageToken=next_page_token
        ).execute()

        for item in response["items"]:
            comment_id = item["id"]
            top_snippet = item["snippet"]["topLevelComment"]["snippet"]

            comments_data.append({
                "계층": "댓글",
                "댓글ID": item["snippet"]["topLevelComment"]["id"],
                "작성자": top_snippet.get("authorDisplayName"),
                "댓글내용": top_snippet.get("textDisplay"),
                "작성시간": top_snippet.get("publishedAt"),
                "좋아요수": top_snippet.get("likeCount", 0),
                "답글수": item["snippet"].get("totalReplyCount", 0),
                "영상 출처": video_id
            })

            # 2. 대댓글 수집
            if item["snippet"].get("totalReplyCount", 0) > 0:
                reply_next_page_token = None
                while True:
                    try:
                        reply_response = youtube.comments().list(
                            part="snippet",
                            parentId=comment_id,
                            maxResults=100,
                            pageToken=reply_next_page_token,
                            textFormat="plainText"
                        ).execute()

                        for reply_item in reply_response["items"]:
                            reply_snippet = reply_item["snippet"]
                            comments_data.append({
                                "계층": "대댓글",
                                "댓글ID": reply_item["id"],
                                "작성자": reply_snippet.get("authorDisplayName"),
                                "댓글내용": reply_snippet.get("textDisplay"),
                                "작성시간": reply_snippet.get("publishedAt"),
                                "좋아요수": reply_snippet.get("likeCount", 0),
                                "답글수": 0, # 대댓글의 답글 수는 0으로 처리
                                "영상 출처": video_id
                            })

                        reply_next_page_token = reply_response.get("nextPageToken")
                        if not reply_next_page_token:
                            break
                    except Exception as e:
                        print(f"⚠️ 대댓글 수집 중 오류 발생 (댓글 ID: {comment_id}): {e}")
                        break


        next_page_token = response.get("nextPageToken")
        if not next_page_token:
            break

    # 3. 데이터프레임 생성
    df = pd.DataFrame(comments_data)
    print(f"\n✅ 댓글 및 대댓글 총 {len(df)}개 수집 완료!")
    print("\n--- 수집된 데이터 미리보기 (상위 5개) ---")
    display(df.head())

except Exception as e:
    print(f"❌ YouTube 댓글 수집 중 심각한 오류가 발생했습니다: {e}")
    print("   API 키가 유효한지, 할당량이 초과되지 않았는지, 영상 ID가 올바른지 확인해주세요.")
    raise

▶️ 영상 ID 'v90GJHVamWI'의 댓글 수집을 시작합니다...

✅ 댓글 및 대댓글 총 160개 수집 완료!

--- 수집된 데이터 미리보기 (상위 5개) ---


Unnamed: 0,계층,댓글ID,작성자,댓글내용,작성시간,좋아요수,답글수,영상 출처
0,댓글,UgwL80eKnswivP5Fkg14AaABAg,@unrealtech,"안녕하세요, 에러입니다! 금일 촬영 환경이 여의치 않아 차량 안에서 촬영하면서 마이...",2025-08-08T06:20:38Z,50,4,v90GJHVamWI
1,대댓글,UgwL80eKnswivP5Fkg14AaABAg.ALYrwdOFuPAALYwhiByUFn,@방구석집토끼,기다렸습니다. 감사합니다.,2025-08-08T07:02:17Z,0,0,v90GJHVamWI
2,대댓글,UgwL80eKnswivP5Fkg14AaABAg.ALYrwdOFuPAALZFfwqY3q-,@hebe-jrbe-udbe-2jdns,화이트레카라니😂 테크 커뮤니케이터 정도로 하시죠,2025-08-08T09:56:49Z,2,0,v90GJHVamWI
3,대댓글,UgwL80eKnswivP5Fkg14AaABAg.ALYrwdOFuPAALZh5ksIl4H,@담담다-n9k,로데 와이어 리스 마이크 써보세요,2025-08-08T14:05:09Z,0,0,v90GJHVamWI
4,대댓글,UgwL80eKnswivP5Fkg14AaABAg.ALYrwdOFuPAALZlTxV79SK,@Jayson_Bourne,전기차를 사시면 됩니다 ㅎㅎ,2025-08-08T14:43:24Z,0,0,v90GJHVamWI


In [None]:
# @title 3. 파인튜닝된 모델로 감성 분석 추론 및 결과 저장

# 1. 추론 파이프라인 생성
print("🧠 파인튜닝된 모델을 불러오는 중입니다...")
# return_all_scores=True 대신 최신 방식인 top_k=None을 사용합니다. (기능은 동일)
pipe = pipeline(
    "text-classification",
    model=model_path,
    device=0 if torch.cuda.is_available() else -1,
    top_k=None
)
print("✅ 모델 로드 및 추론 파이프라인 생성 완료!")


# 2. 수집된 데이터 전처리
print(f"\n📄 수집된 댓글 데이터의 전처리를 시작합니다...")
like_col = '좋아요수'
reply_col = '답글수'
df[like_col] = df[like_col].fillna(0).astype(int)
df[reply_col] = df[reply_col].fillna(0).astype(int)
df['댓글내용'] = df['댓글내용'].fillna('')

# 학습 때와 동일한 형식으로 입력 데이터 생성
text_list = df.apply(
    lambda row: f"[좋아요: {row[like_col]}, 답글: {row[reply_col]}] {row['댓글내용']}",
    axis=1
).tolist()
print("✅ 데이터 전처리 완료!")


# 3. 모델 추론 실행
print("\n🚀 감정 분석을 시작합니다. 데이터 양에 따라 시간이 걸릴 수 있습니다...")
# truncation=True 옵션을 추가하여 모델의 최대 길이를 초과하는 텍스트를 자동으로 잘라줍니다.
results = pipe(text_list, batch_size=8, truncation=True)
print("🎉 감정 분석 완료!")


# 4. 결과 데이터 정리 및 저장
print("\n💾 분석 결과를 원본 데이터에 추가하고 저장합니다...")
# 파이프라인의 결과(리스트의 리스트)를 데이터프레임으로 변환
scores_df = pd.DataFrame([{item['label']: item['score'] for item in res} for res in results])
scores_df = scores_df.rename(columns={col: f"{col}_점수" for col in scores_df.columns})

# 원본 데이터프레임과 감성 점수 데이터프레임 결합
final_df = pd.concat([df, scores_df], axis=1)
final_df.to_csv(output_csv_path, index=False, encoding='utf-8-sig')

print(f"\n✨ 모든 작업이 완료되었습니다! 최종 결과가 아래 경로에 저장되었습니다.")
print(f"   >> {output_csv_path}")


# 5. 최종 결과 미리보기
print("\n--- 최종 결과 미리보기 ---")
display(final_df.head())

🧠 파인튜닝된 모델을 불러오는 중입니다...


Device set to use cuda:0


✅ 모델 로드 및 추론 파이프라인 생성 완료!

📄 수집된 댓글 데이터의 전처리를 시작합니다...
✅ 데이터 전처리 완료!

🚀 감정 분석을 시작합니다. 데이터 양에 따라 시간이 걸릴 수 있습니다...


  return forward_call(*args, **kwargs)


🎉 감정 분석 완료!

💾 분석 결과를 원본 데이터에 추가하고 저장합니다...

✨ 모든 작업이 완료되었습니다! 최종 결과가 아래 경로에 저장되었습니다.
   >> /content/drive/MyDrive/ITWILL(중간플젝2)/파인튠드 분류 모델/추론결과/youtube_comments_analyzed_v90GJHVamWI.csv

--- 최종 결과 미리보기 ---


Unnamed: 0,계층,댓글ID,작성자,댓글내용,작성시간,좋아요수,답글수,영상 출처,기쁨_점수,애정_점수,기대_점수,슬픔_점수,공포_점수,분노_점수
0,댓글,UgwL80eKnswivP5Fkg14AaABAg,@unrealtech,"안녕하세요, 에러입니다! 금일 촬영 환경이 여의치 않아 차량 안에서 촬영하면서 마이...",2025-08-08T06:20:38Z,50,4,v90GJHVamWI,0.379865,0.29519,0.282603,0.257102,0.05345,0.024628
1,대댓글,UgwL80eKnswivP5Fkg14AaABAg.ALYrwdOFuPAALYwhiByUFn,@방구석집토끼,기다렸습니다. 감사합니다.,2025-08-08T07:02:17Z,0,0,v90GJHVamWI,0.076229,0.12327,0.801883,0.008464,0.043149,0.016739
2,대댓글,UgwL80eKnswivP5Fkg14AaABAg.ALYrwdOFuPAALZFfwqY3q-,@hebe-jrbe-udbe-2jdns,화이트레카라니😂 테크 커뮤니케이터 정도로 하시죠,2025-08-08T09:56:49Z,2,0,v90GJHVamWI,0.36417,0.087397,0.066386,0.157141,0.003468,0.013194
3,대댓글,UgwL80eKnswivP5Fkg14AaABAg.ALYrwdOFuPAALZh5ksIl4H,@담담다-n9k,로데 와이어 리스 마이크 써보세요,2025-08-08T14:05:09Z,0,0,v90GJHVamWI,0.088769,0.086628,0.743324,0.005739,0.024097,0.012403
4,대댓글,UgwL80eKnswivP5Fkg14AaABAg.ALYrwdOFuPAALZlTxV79SK,@Jayson_Bourne,전기차를 사시면 됩니다 ㅎㅎ,2025-08-08T14:43:24Z,0,0,v90GJHVamWI,0.074948,0.099569,0.737364,0.008101,0.018123,0.016816
