In [7]:
import pandas as pd

# CSV 파일 읽기
file_name = "news_data_detailed.csv"

# 필요한 열만 읽어서 DataFrame 생성
df = pd.read_csv(file_name, usecols=["뉴스 제목", "뉴스 내용"])

# DataFrame 확인
print(df.head())

                                              뉴스 제목  \
0             김재관 KB국민카드 사장 "변화의 출발점은 소통… 협업 문화 정착"   
1                     임종룡 해외투자자에 서한 "밸류업 일관되게 추진할것"   
2                          트럼프 내일 취임…초강력 ‘마가’ 시대 연다   
3  외국인이 먼저 찾는 여행 플랫폼은?…관광상품 경쟁력은 '클룩', 상품수는 'kkday'   
4                '생맥주야, 캔맥주야'..'물성매력'으로 공략하는 식음료 업계   

                                               뉴스 내용  
0  지난 17일 열린 2025년 상반기 경영전략회의에서 김재관 KB국민카드 사장이 올해...  
1  임종룡 우리금융그룹 회장이 해외 투자자들에게 서한을 보내 그룹의 기업가치 제고(밸류...  
2  8년 만에 다시 백악관 재입성하는 트럼프\n취임 첫날 100여건 행정명령 및 조치 ...  
3  국내 여행 콘텐츠를 담은 온라인 여행 플랫폼(OTA) 중 가격 경쟁력이 가장 높은 ...  
4  오비맥주 한맥의 거품기를 캔맥주에 장착해 더 풍성한 거품을 즐길 수 있다. 사진은 ...  


In [8]:
# 결측값 처리 
df = df.dropna(subset=["뉴스 제목", "뉴스 내용"])  # 결측값이 있는 행 제거

In [11]:
# 텍스트 정제

import re
import pandas as pd

# 정제 함수 정의
def text_clean(text):
    """
    텍스트 데이터를 정제하는 함수
    """
    # 1. HTML 태그 제거
    text = re.sub(r'<[^>]*>', '', text)
    
    # 2. 특수기호 제거
    text = re.sub(r'[^\w\s]', '', text)
    
    # 3. 한글 자음/모음 제거
    text = re.sub(r'[ㄱ-ㅎㅏ-ㅣ]+', '', text)
    
    # 4. 숫자 및 불필요한 단어 제거
    text = re.sub(r'[0-9]+', '', text)
    
    # 5. 기자 이름 및 메타데이터 제거
    text = re.sub(r'\[.*?\]|기자', '', text)
    
    # 6. 공백 제거 및 정리
    text = text.strip()
    
    return text

# 제목과 뉴스 내용 정제
df["뉴스 제목 정제"] = df["뉴스 제목"].apply(text_clean)
df["뉴스 내용 정제"] = df["뉴스 내용"].apply(text_clean)

# 결과 확인
print(df[["뉴스 제목", "뉴스 제목 정제", "뉴스 내용", "뉴스 내용 정제"]].head())

# 정제된 결과를 저장
output_file = "cleaned_news_data.csv"
df[["뉴스 제목 정제", "뉴스 내용 정제"]].to_csv(output_file, index=False)

print(f"정제된 데이터가 '{output_file}'에 저장되었습니다.")

                                              뉴스 제목  \
0             김재관 KB국민카드 사장 "변화의 출발점은 소통… 협업 문화 정착"   
1                     임종룡 해외투자자에 서한 "밸류업 일관되게 추진할것"   
2                          트럼프 내일 취임…초강력 ‘마가’ 시대 연다   
3  외국인이 먼저 찾는 여행 플랫폼은?…관광상품 경쟁력은 '클룩', 상품수는 'kkday'   
4                '생맥주야, 캔맥주야'..'물성매력'으로 공략하는 식음료 업계   

                                    뉴스 제목 정제  \
0         김재관 KB국민카드 사장 변화의 출발점은 소통 협업 문화 정착   
1                임종룡 해외투자자에 서한 밸류업 일관되게 추진할것   
2                      트럼프 내일 취임초강력 마가 시대 연다   
3  외국인이 먼저 찾는 여행 플랫폼은관광상품 경쟁력은 클룩 상품수는 kkday   
4                생맥주야 캔맥주야물성매력으로 공략하는 식음료 업계   

                                               뉴스 내용  \
0  지난 17일 열린 2025년 상반기 경영전략회의에서 김재관 KB국민카드 사장이 올해...   
1  임종룡 우리금융그룹 회장이 해외 투자자들에게 서한을 보내 그룹의 기업가치 제고(밸류...   
2  8년 만에 다시 백악관 재입성하는 트럼프\n취임 첫날 100여건 행정명령 및 조치 ...   
3  국내 여행 콘텐츠를 담은 온라인 여행 플랫폼(OTA) 중 가격 경쟁력이 가장 높은 ...   
4  오비맥주 한맥의 거품기를 캔맥주에 장착해 더 풍성한 거품을 즐길 수 있다. 사진은 ...   

                                           

In [None]:
# 필요한 라이브러리 임포트
import pandas as pd
from konlpy.tag import Mecab

# Mecab 객체 생성
mecab = Mecab()

# CSV 파일에서 데이터 읽기
file_name = "cleaned_news_data.csv"  # 정제된 데이터 파일
df = pd.read_csv(file_name, usecols=["제목 정제", "뉴스 내용 정제"])  # 제목과 뉴스 내용 열 사용

# 뉴스 제목과 내용을 합치기
df["전체 텍스트"] = df["제목 정제"].fillna('') + " " + df["뉴스 내용 정제"].fillna('')

# 전체 텍스트를 하나의 문자열로 합치기 (corpus 생성)
corpus = " ".join(df["전체 텍스트"].dropna().astype(str))

# 형태소 분석 - 명사 추출
tokens = mecab.nouns(corpus)

# 결과 확인 (토큰 50개 출력)
print(tokens[:50])

ModuleNotFoundError: No module named 'konlpy'

In [None]:
# 단어 빈도 수  측정

from collections import Counter

nouns_counter = Counter(tokens)
top_nouns = dict(nouns_counter.most_common(30))    # 딕셔너리 형태로 상위 30개 저장
top_nouns