In [2]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m39.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m36.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [7]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import re
from konlpy.tag import Okt
from tqdm import tqdm

# Okt 객체 생성
okt = Okt()

def preprocess_text(text, stopwords):
    # 한글을 제외한 문자 제거 (영어 및 숫자 제외)
    text = re.sub('[^ㄱ-ㅣ가-힣\s]', '', text)
    # 불용어 제거
    words = okt.morphs(text)
    words = [word for word in words if word not in stopwords]
    return ' '.join(words)

# CSV 파일 불러오기
df = pd.read_csv('/content/article_result_025.csv')

# Article_Text 컬럼에 대한 전처리 수행
stopwords = ['의', '은', '들', '는', '좀', '잘', '걍', '과', '도', '를', '으로', '자', '에', '와', '한', '하다', '단독', '속보', '에서', '이다']
df['Processed_Text'] = df['Article_Text'].apply(lambda x: preprocess_text(x, stopwords))

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()

# Fit the vectorizer to the entire corpus
corpus = df['Processed_Text'].tolist()
vectorizer.fit(corpus)

# tqdm을 사용하여 로딩 바 추가
tqdm.pandas(desc="TF-IDF Vectorizing")
df['TFIDF_Vector'] = df['Processed_Text'].progress_apply(lambda x: vectorizer.transform([x]))

# 상위 5개 키워드 추출
top_keywords = []

# tqdm을 사용하여 로딩 바 추가
tqdm.pandas(desc="Extracting Keywords")
for i, row in tqdm(df.iterrows(), total=df.shape[0]):
    text_vectorized = row['TFIDF_Vector']
    tfidf_scores = zip(vectorizer.get_feature_names_out(), text_vectorized.sum(axis=0).tolist()[0])
    top_keywords.append([keyword for keyword, score in sorted(tfidf_scores, key=lambda x: x[1], reverse=True)[:7]])

# 상위 5개 키워드를 DataFrame에 추가
df_keywords = pd.DataFrame(top_keywords, columns=['Keyword1', 'Keyword2', 'Keyword3', 'Keyword4', 'Keyword5', 'Keyword6', 'Keyword7'])

# 기존 데이터프레임과 키워드 데이터프레임을 합치기
result_df = pd.concat([df[['Link']], df_keywords], axis=1)

# 새로운 CSV 파일로 저장
result_df.to_csv('keywords_result_025.csv', index=False)

TF-IDF Vectorizing: 100%|██████████| 600/600 [00:00<00:00, 761.01it/s]
100%|██████████| 600/600 [00:19<00:00, 31.21it/s]


In [8]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import re
from konlpy.tag import Okt
from tqdm import tqdm

# Okt 객체 생성
okt = Okt()

def preprocess_text(text, stopwords):
    # 한글을 제외한 문자 제거 (영어 및 숫자 제외)
    text = re.sub('[^ㄱ-ㅣ가-힣\s]', '', text)
    # 불용어 제거
    words = okt.morphs(text)
    words = [word for word in words if word not in stopwords]
    return ' '.join(words)

# CSV 파일 불러오기
df = pd.read_csv('/content/article_result_020.csv')

# Article_Text 컬럼에 대한 전처리 수행
stopwords = ['의', '은', '들', '는', '좀', '잘', '걍', '과', '도', '를', '으로', '자', '에', '와', '한', '하다', '단독', '속보', '에서', '이다']
df['Processed_Text'] = df['Article_Text'].apply(lambda x: preprocess_text(x, stopwords))

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()

# Fit the vectorizer to the entire corpus
corpus = df['Processed_Text'].tolist()
vectorizer.fit(corpus)

# tqdm을 사용하여 로딩 바 추가
tqdm.pandas(desc="TF-IDF Vectorizing")
df['TFIDF_Vector'] = df['Processed_Text'].progress_apply(lambda x: vectorizer.transform([x]))

# 상위 5개 키워드 추출
top_keywords = []

# tqdm을 사용하여 로딩 바 추가
tqdm.pandas(desc="Extracting Keywords")
for i, row in tqdm(df.iterrows(), total=df.shape[0]):
    text_vectorized = row['TFIDF_Vector']
    tfidf_scores = zip(vectorizer.get_feature_names_out(), text_vectorized.sum(axis=0).tolist()[0])
    top_keywords.append([keyword for keyword, score in sorted(tfidf_scores, key=lambda x: x[1], reverse=True)[:7]])

# 상위 5개 키워드를 DataFrame에 추가
df_keywords = pd.DataFrame(top_keywords, columns=['Keyword1', 'Keyword2', 'Keyword3', 'Keyword4', 'Keyword5', 'Keyword6', 'Keyword7'])

# 기존 데이터프레임과 키워드 데이터프레임을 합치기
result_df = pd.concat([df[['Link']], df_keywords], axis=1)

# 새로운 CSV 파일로 저장
result_df.to_csv('keywords_result_020.csv', index=False)

TF-IDF Vectorizing: 100%|██████████| 596/596 [00:00<00:00, 762.99it/s]
100%|██████████| 596/596 [00:22<00:00, 26.78it/s]


In [9]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import re
from konlpy.tag import Okt
from tqdm import tqdm

# Okt 객체 생성
okt = Okt()

def preprocess_text(text, stopwords):
    # 한글을 제외한 문자 제거 (영어 및 숫자 제외)
    text = re.sub('[^ㄱ-ㅣ가-힣\s]', '', text)
    # 불용어 제거
    words = okt.morphs(text)
    words = [word for word in words if word not in stopwords]
    return ' '.join(words)

# CSV 파일 불러오기
df = pd.read_csv('/content/article_result_023.csv')

# Article_Text 컬럼에 대한 전처리 수행
stopwords = ['의', '은', '들', '는', '좀', '잘', '걍', '과', '도', '를', '으로', '자', '에', '와', '한', '하다', '단독', '속보', '에서', '이다']
df['Processed_Text'] = df['Article_Text'].apply(lambda x: preprocess_text(x, stopwords))

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()

# Fit the vectorizer to the entire corpus
corpus = df['Processed_Text'].tolist()
vectorizer.fit(corpus)

# tqdm을 사용하여 로딩 바 추가
tqdm.pandas(desc="TF-IDF Vectorizing")
df['TFIDF_Vector'] = df['Processed_Text'].progress_apply(lambda x: vectorizer.transform([x]))

# 상위 5개 키워드 추출
top_keywords = []

# tqdm을 사용하여 로딩 바 추가
tqdm.pandas(desc="Extracting Keywords")
for i, row in tqdm(df.iterrows(), total=df.shape[0]):
    text_vectorized = row['TFIDF_Vector']
    tfidf_scores = zip(vectorizer.get_feature_names_out(), text_vectorized.sum(axis=0).tolist()[0])
    top_keywords.append([keyword for keyword, score in sorted(tfidf_scores, key=lambda x: x[1], reverse=True)[:7]])

# 상위 5개 키워드를 DataFrame에 추가
df_keywords = pd.DataFrame(top_keywords, columns=['Keyword1', 'Keyword2', 'Keyword3', 'Keyword4', 'Keyword5', 'Keyword6', 'Keyword7'])

# 기존 데이터프레임과 키워드 데이터프레임을 합치기
result_df = pd.concat([df[['Link']], df_keywords], axis=1)

# 새로운 CSV 파일로 저장
result_df.to_csv('keywords_result_023.csv', index=False)

TF-IDF Vectorizing: 100%|██████████| 595/595 [00:00<00:00, 790.10it/s]
100%|██████████| 595/595 [00:20<00:00, 28.85it/s]


In [10]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import re
from konlpy.tag import Okt
from tqdm import tqdm

# Okt 객체 생성
okt = Okt()

def preprocess_text(text, stopwords):
    # 한글을 제외한 문자 제거 (영어 및 숫자 제외)
    text = re.sub('[^ㄱ-ㅣ가-힣\s]', '', text)
    # 불용어 제거
    words = okt.morphs(text)
    words = [word for word in words if word not in stopwords]
    return ' '.join(words)

# CSV 파일 불러오기
df = pd.read_csv('/content/article_result_028.csv')

# Article_Text 컬럼에 대한 전처리 수행
stopwords = ['의', '은', '들', '는', '좀', '잘', '걍', '과', '도', '를', '으로', '자', '에', '와', '한', '하다', '단독', '속보', '에서', '이다']
df['Processed_Text'] = df['Article_Text'].apply(lambda x: preprocess_text(x, stopwords))

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()

# Fit the vectorizer to the entire corpus
corpus = df['Processed_Text'].tolist()
vectorizer.fit(corpus)

# tqdm을 사용하여 로딩 바 추가
tqdm.pandas(desc="TF-IDF Vectorizing")
df['TFIDF_Vector'] = df['Processed_Text'].progress_apply(lambda x: vectorizer.transform([x]))

# 상위 5개 키워드 추출
top_keywords = []

# tqdm을 사용하여 로딩 바 추가
tqdm.pandas(desc="Extracting Keywords")
for i, row in tqdm(df.iterrows(), total=df.shape[0]):
    text_vectorized = row['TFIDF_Vector']
    tfidf_scores = zip(vectorizer.get_feature_names_out(), text_vectorized.sum(axis=0).tolist()[0])
    top_keywords.append([keyword for keyword, score in sorted(tfidf_scores, key=lambda x: x[1], reverse=True)[:7]])

# 상위 5개 키워드를 DataFrame에 추가
df_keywords = pd.DataFrame(top_keywords, columns=['Keyword1', 'Keyword2', 'Keyword3', 'Keyword4', 'Keyword5', 'Keyword6', 'Keyword7'])

# 기존 데이터프레임과 키워드 데이터프레임을 합치기
result_df = pd.concat([df[['Link']], df_keywords], axis=1)

# 새로운 CSV 파일로 저장
result_df.to_csv('keywords_result_028.csv', index=False)

TF-IDF Vectorizing: 100%|██████████| 600/600 [00:00<00:00, 768.34it/s]
100%|██████████| 600/600 [00:21<00:00, 27.27it/s]


In [13]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import re
from konlpy.tag import Okt
from tqdm import tqdm

# Okt 객체 생성
okt = Okt()

def preprocess_text(text, stopwords):
    # Check if text is a valid string
    if not isinstance(text, str):
        return ''

    # 한글을 제외한 문자 제거 (영어 및 숫자 제외)
    text = re.sub('[^ㄱ-ㅣ가-힣\s]', '', text)

    # 불용어 제거
    words = okt.morphs(text)
    words = [word for word in words if word not in stopwords]
    return ' '.join(words)

# CSV 파일 불러오기
df = pd.read_csv('/content/article_result_032.csv')

# Article_Text 컬럼에 대한 전처리 수행
stopwords = ['의', '은', '들', '는', '좀', '잘', '걍', '과', '도', '를', '으로', '자', '에', '와', '한', '하다', '단독', '속보', '에서', '이다']
df['Processed_Text'] = df['Article_Text'].apply(lambda x: preprocess_text(x, stopwords))

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()

# Fit the vectorizer to the entire corpus
corpus = df['Processed_Text'].tolist()
vectorizer.fit(corpus)

# tqdm을 사용하여 로딩 바 추가
tqdm.pandas(desc="TF-IDF Vectorizing")
df['TFIDF_Vector'] = df['Processed_Text'].progress_apply(lambda x: vectorizer.transform([x]))

# 상위 5개 키워드 추출
top_keywords = []

# tqdm을 사용하여 로딩 바 추가
tqdm.pandas(desc="Extracting Keywords")
for i, row in tqdm(df.iterrows(), total=df.shape[0]):
    text_vectorized = row['TFIDF_Vector']
    tfidf_scores = zip(vectorizer.get_feature_names_out(), text_vectorized.sum(axis=0).tolist()[0])
    top_keywords.append([keyword for keyword, score in sorted(tfidf_scores, key=lambda x: x[1], reverse=True)[:7]])

# 상위 5개 키워드를 DataFrame에 추가
df_keywords = pd.DataFrame(top_keywords, columns=['Keyword1', 'Keyword2', 'Keyword3', 'Keyword4', 'Keyword5', 'Keyword6', 'Keyword7'])

# 기존 데이터프레임과 키워드 데이터프레임을 합치기
result_df = pd.concat([df[['Link']], df_keywords], axis=1)

# 새로운 CSV 파일로 저장
result_df.to_csv('keywords_result_032.csv', index=False)

TF-IDF Vectorizing: 100%|██████████| 597/597 [00:01<00:00, 525.30it/s]
100%|██████████| 597/597 [00:18<00:00, 32.44it/s]
