In [None]:
from dotenv import load_dotenv
import requests
import pandas as pd 


load_dotenv()

base_url = "https://www.googleapis.com/youtube/v3/commentThreads"
part = "snippet"
videoId = "FVFRVGSvkq0"
key = "AIzaSyCv2c8L4r2g__tHz4aeqLPzOiDGiBO9yCw"
maxResults = 100
textFormat = "plainText"
nextPageToken = None 

data_list = []
max_rep = 26

for i in range(max_rep):
    print(f"{i+1} 번째 데이터 수집을 시작합니다.")
    if nextPageToken is not None:
        url = f"{base_url}?part={part}&videoId={videoId}&key={key}&maxResults={maxResults}&textFormat={textFormat}&pageToken={nextPageToken}"
    else:
        url = f"{base_url}?part={part}&videoId={videoId}&key={key}&maxResults={maxResults}&textFormat={textFormat}"
    print(url)
    # 3. API 요청
    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        nextPageToken = data.get("nextPageToken")

        # 6. 데이터를 수집한다. 
        items = data["items"]
        item_list = []
        for item in items:
            item_list.append(item["snippet"]["topLevelComment"]["snippet"])
        
        # print(f"\t{len(item_list)} 개의 데이터를 수집했습니다.")
        
        # 7. data_list에 담는다. 
        data_list.extend(item_list)

        # print(nextPageToken)
        # display(pd.DataFrame(item_list))
        if nextPageToken is None:
            print("다음 페이지가 없어 종료합니다.")
            break

df = pd.DataFrame(data_list)

In [None]:
df = df.rename(columns={"textOriginal": "text"})
df["text"]

In [None]:
import re
from kiwipiepy import Kiwi

kiwi = Kiwi()

In [None]:
# STEP1. 전처리한 문장을 담을 빈리스트를 준비한다. sent_list 
sent_list = []

# STEP2. df["text"]에서 문장을 하나씩 뺀다. sent 
for sent in df["text"]:
    # STEP3. 문장을 정규표현식을 이용해서 전처리한다. clean_sent
    print("STEP3. 문장을 전처리합니다.")
    clean_sent = re.sub("[^0-9a-zA-Z가-힣\s]", "", sent)
    # STEP4. clean_sent를 토크나이징한다. (Kiwi 형태소 분석기 사용) result
    print("STEP4. 문장을 토크나이징합니다.")
    result = kiwi.tokenize(clean_sent)
    print("\tsub_list를 생성합니다.")
    sub_list = []
    print("\t탐색을 시작합니다.")
    for x in result:
        # 1) 조건 : 조사(J), 어미(E), 접미사(X)는 포함하지 않는다. -> pos[0] in ["J", "E", "X"] 건너뛰기
        word = x.form
        pos = x.tag 
        if pos[0] in ["J", "E", "X"]:
            # print(f"\t건너뛰기!! word={word} pos={pos}")
            continue
        # 2) 조건 : 한 글자인 단어는 포함하지 않는다.
        if len(word) > 1:
            sub_list.append(word)
        # print(f"\t추가!! word={word} pos={pos}")
    print("\t탐색을 종료합니다.")
    print(f"[SUB LIST] {sub_list}")
    # STEP5. result를 " "를 구분자로 하나의 문자열로 합친다. result_str
    result_str = " ".join(sub_list)
    print(f"[RESULT_STR] {result_str}")
    # STEP6. result_str을 sent_list에 넣는다.
    sent_list.append(result_str)
    print(sent)
    print("="*50)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

count_vectorizer = CountVectorizer(
    max_df = 0.1,       # 전체 단어의 등장 비율이 p이상인 것만 사용
    min_df=2,           # 이 단어가 적어도 n 개 이상 있는 것만 사용
    max_features=1000,  # 최대 몇 개까지 나타낼 것인가
    ngram_range=(1,2)   # 단어의 조합 설정(ex. 1개만 사용)
)

feat_vec = count_vectorizer.fit_transform(sent_list)

In [None]:
feat_vec.shape

In [None]:
import pandas as pd

# 1. Sparse Matrix를 일반 배열(Dense)로 변환: .toarray()
# 2. 열 이름(단어 목록) 가져오기: get_feature_names_out()
df_vec = pd.DataFrame(
    feat_vec.toarray(),
    columns=count_vectorizer.get_feature_names_out()
)

# 결과 확인
df_vec.head()

In [None]:
from sklearn.decomposition import LatentDirichletAllocation

lda = LatentDirichletAllocation(n_components=5) # 몇 개의 topic으로 할까요?
lda.fit(feat_vec)

In [None]:
import pyLDAvis.lda_model

pyLDAvis.enable_notebook()
vis = pyLDAvis.lda_model.prepare(lda, feat_vec, count_vectorizer)
pyLDAvis.display(vis)

In [None]:
# metric이 min_threshold 이상인 것만 보여주세요.
rules = association_rules(frequent_itemsets, metric="lift", min_threshold=1.0)
rules[["antecedents", "consequents", "support", "confidence", "lift"]]

In [None]:
rules[["antecedents", "consequents", "support", "confidence", "lift"]]

In [None]:
# pivot_table
pivot_data = rules.head(20).pivot_table(
    index="antecedents",        # 행
    columns="consequents",      # 열
    values="lift",              # 기준
    fill_value=0                # 매칭되지 않는 것은 이걸로 채워라.
)
pivot_data

In [None]:
import matplotlib.pyplot as plt 
import seaborn as sns
import koreanize_matplotlib

plt.figure(figsize=(10,10))
sns.heatmap(pivot_data, annot=True, cmap="YlGnBu", fmt=".2f", linewidths=0.3, square=True)
plt.title("연관성 분석 시각화(Lift 기준)")
plt.xlabel("Consequents")
plt.ylabel("Antecedents")
plt.show()

In [None]:
rules[["antecedents","consequents","support","confidence", "lift"]].head(2)

In [None]:
# iterrows 이해하기
# 데이터프레임에서 하나의 행씩 추출 (인덱스, 열 데이터)
sample_data = rules[["antecedents", "consequents"]].head(2)
for x in sample_data.iterrows():
    print(f"x의 요소 개수: {len(x)}")
    print(x[0])
    print("-"*50)
    print(x[1])
    print("="*50)

In [None]:
import networkx as nx
import matplotlib.pyplot as plt 
import koreanize_matplotlib

In [None]:
## 보여주고 싶은 데이터 설정하기(여러분이 설정하세요.)
my_rules = rules.sort_values(by=["lift"], ascending=False).head(50)

# 1. 그래프 생성
G = nx.Graph()

# 2. 엣지 추가
for _ , col_data in my_rules.iterrows():
    # 1) 단어 추출
    print(f"[BEFORE] {col_data['antecedents']}, {col_data['consequents']}")
    antecedent = ",".join(col_data["antecedents"])
    consequent = ",".join(col_data["consequents"])
    print(f"[AFTER] {antecedent}, {consequent}")
    print("="*100)

    # 2) 지표 추출
    weight = col_data["lift"]

    # 3) 그래프에 정보 추가
    G.add_edge(antecedent, consequent, weight=weight)


In [None]:
G.edges()

In [None]:
# 3. 노드 배치
# position = nx.kamada_kawai_layout(G, scale=0.5)
# k를 조절하면 노드간 거리를 조절할 수 있습니다.
position = nx.spring_layout(G, k=0.9, seed=15)

# 4. 가중치 추출
scale = 0.3 ## 선의 굵기가 너무 굵다면 사이즈를 줄일 수 있습니다.
edge_weights = [G[u][v]["weight"]*scale for u, v in G.edges()]
print(edge_weights)

# 5. 그리기
plt.figure(figsize=(10,10))
nx.draw_networkx_nodes(G, position, node_color="lightblue", node_size=1000)
nx.draw_networkx_edges(G, position, edge_color="gray", width=edge_weights)
nx.draw_networkx_labels(G, position, font_size=10, font_family="Malgun Gothic")
plt.title("단어 간 연관규칙 기반 네트워크 그래프(Lift 기준)")
plt.axis("off")
plt.show()