In [None]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.sparse import hstack

# 1. 데이터 불러오기
print("📂 1. CSV 파일 불러오는 중...")
df = pd.read_csv("/Users/gana/Downloads/naver_final.csv")

# 2. 결측값 처리
print("🧼 2. 결측값 처리 중...")
df['story'] = df['story'].fillna('')
df['#'] = df['#'].fillna('')

# 3. TF-IDF 벡터화 (전체 단어 사용)
print("✍️ 3-1. 'story' 벡터화 중 (전체 단어 사용)...")
story_vectorizer = TfidfVectorizer()
X_story = story_vectorizer.fit_transform(df['story'])
print(f"✅ story 완료: shape = {X_story.shape}")

print("🏷 3-2. '해시태그(#)' 벡터화 중 (전체 단어 사용)...")
hashtag_vectorizer = TfidfVectorizer()
X_hashtag = hashtag_vectorizer.fit_transform(df['#'])
print(f"✅ hashtag 완료: shape = {X_hashtag.shape}")

# 4. 수평 결합
print("🔗 4. story + hashtag 벡터 병합 중...")
X_combined = hstack([X_story, X_hashtag])

# 5. 데이터프레임 변환
print("📊 5. 벡터를 DataFrame으로 변환 중...")
story_df = pd.DataFrame(X_story.toarray(), columns=[f"story_{w}" for w in story_vectorizer.get_feature_names_out()])
hashtag_df = pd.DataFrame(X_hashtag.toarray(), columns=[f"tag_{w}" for w in hashtag_vectorizer.get_feature_names_out()])
tfidf_df = pd.concat([story_df, hashtag_df], axis=1)

# 6. 원본 데이터와 결합
print("🧩 6. 원본 데이터와 TF-IDF 벡터 결합 중...")
df_combined = pd.concat([df.reset_index(drop=True), tfidf_df.reset_index(drop=True)], axis=1)

# 7. 저장
print("💾 7. CSV 파일 저장 중... (naver_final_with_all_tfidf.csv)")
df_combined.to_csv("naver_final_with_all_tfidf.csv", index=False)
print("🎉 완료! 생성된 파일: naver_final_with_all_tfidf.csv")


📂 1. CSV 파일 불러오는 중...


  df = pd.read_csv("/Users/gana/Downloads/naver_final.csv")


🧼 2. 결측값 처리 중...
✍️ 3-1. 'story' 벡터화 중 (전체 단어 사용)...
✅ story 완료: shape = (1048575, 28038)
🏷 3-2. '해시태그(#)' 벡터화 중 (전체 단어 사용)...
✅ hashtag 완료: shape = (1048575, 285)
🔗 4. story + hashtag 벡터 병합 중...
📊 5. 벡터를 DataFrame으로 변환 중...


: 