In [3]:
from kiwipiepy import Kiwi
from kiwipiepy.utils import Stopwords
import pandas as pd
import re

# 1. 제목의 쉼표, 이모티콘, 특수문자 등 삭제
def clean_title(text):
    text = str(text)
    text = re.sub(r'[\U00010000-\U0010ffff]', '', text)  # 이모지 제거
    text = text.replace(',', '')                         # 쉼표 제거
    text = re.sub(r'[^\w\s]', '', text)                  # 특수문자 제거
    text = text.strip()                                  # 앞뒤 공백 제거
    return text

# 2. Kiwi 형태소 분석기
def tokenize_and_remove_stopwords(text):
    kiwi = Kiwi()  # Kiwi 형태소 분석기 객체 생성
    stopwords = Stopwords().stopwords  # 불용어 리스트
    tokens = kiwi.tokenize(text)  # 형태소 분석
    filtered_tokens = [token.form for token in tokens if token.form not in stopwords]  # 불용어 제거
    return filtered_tokens


In [6]:
# 3. csv 파일 읽기
columns = ['date', 'title', 'channel', 'view_count']
df = pd.read_csv('/home/ubuntu/damf2/yootube/data/2025-04-23.csv', names=columns, header=0, encoding='utf-8')
df = df.drop('date', axis=1)
df['title'] = df['title'].apply(clean_title)  # 제목에 불용어 없애기
df['tokens'] = df['title'].apply(tokenize_and_remove_stopwords)  # 불용어 제거 및 형태소 분석


In [None]:
# 4. 결과 확인
for i in range(2):  # 처음 2개 데이터 확인
    print(f"{i}번:\n원문: {df['title'][i]}\n토큰: {df['tokens'][i]}\n")


In [1]:
# ex
import pandas as pd
columns = ['date', 'title', 'channel', 'view_count']
df = pd.read_csv('/home/ubuntu/damf2/yootube/data/2025-04-23.csv', names=columns, header=0, encoding='utf-8')

In [2]:
df.head()

Unnamed: 0,date,title,channel,view_count
0,2025-04-23,[5회 하이라이트] 강찬석의 본캐는 죽지 않았다! 찬석의 한마디에 구사일생한 최일구...,ENA 이엔에이,1847519
1,2025-04-23,Hebi - '지금부터 (Onward)' Official MV,Hebi.,793513
2,2025-04-23,나 고백받았다 ㅋㅋ오예,와코,198327
3,2025-04-23,TWS (투어스) '마음 따라 뛰는 건 멋지지 않아?' Official MV,HYBE LABELS,8941182
4,2025-04-23,코 세우고(?) 스모키 화장한 후 부모님집 냉털하러 갔더니 엄마 반응이..🤣,쯔양밖정원,142946
