In [1]:
import requests
from bs4 import BeautifulSoup
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize, sent_tokenize
from collections import Counter

In [2]:
# 뉴스 기사 URL
url = "https://newsis.com/view/?id=NISX20230919_0002455273&cID=13004&pID=13100"

In [3]:
# HTTP GET 요청을 보내고 페이지 내용을 가져옴
response = requests.get(url)
html = response.text

In [4]:
# BeautifulSoup을 사용하여 HTML 파싱
soup = BeautifulSoup(html, 'html.parser')

In [5]:
# 뉴스 기사 텍스트 추출
article_text = ""
for p in soup.find_all('p'):
    article_text += p.get_text()

In [6]:
# 텍스트 데이터 정제 (특수 문자 및 불필요한 공백 제거)
article_text = ' '.join(article_text.split())

In [8]:
# 문장 토큰화
nltk.download('punkt')
sentences = sent_tokenize(article_text)

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/gayeongkim/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [9]:
# 단어 토큰화 및 불용어 제거
nltk.download('punkt')
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))
words = word_tokenize(article_text.lower())
filtered_words = [word for word in words if word.isalnum() and word not in stop_words]

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/gayeongkim/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/gayeongkim/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


In [10]:
# 가장 빈도가 높은 단어 10개 찾기
word_counts = Counter(filtered_words)
top_10_words = word_counts.most_common(10)

In [11]:
# 뉴스 기사의 길이 (단어 수) 계산
article_length = len(filtered_words)

In [12]:
# 문장의 평균 길이 계산
average_sentence_length = article_length / len(sentences)

In [13]:
# 긍정적인 단어와 부정적인 단어 목록 정의
positive_words = ["good", "happy", "excellent"]
negative_words = ["bad", "sad", "terrible"]

In [14]:
# 긍정적인 단어와 부정적인 단어의 빈도 계산
positive_word_count = sum(word_counts[word] for word in positive_words)
negative_word_count = sum(word_counts[word] for word in negative_words)

In [15]:
# 가장 많이 등장하는 명사 찾기
nltk.download('averaged_perceptron_tagger')
nltk.download('wordnet')
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/gayeongkim/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/gayeongkim/nltk_data...


In [16]:
# 명사 추출
nouns = [word for word, pos in nltk.pos_tag(filtered_words) if pos.startswith('N')]

In [17]:
# 명사들을 원형으로 변환
nouns = [lemmatizer.lemmatize(word, wordnet.NOUN) for word in nouns]

In [18]:
# 가장 많이 등장하는 명사 찾기
noun_counts = Counter(nouns)
top_nouns = noun_counts.most_common(10)

In [19]:
# 결과 출력
print("가장 빈도가 높은 단어 10개:")
for word, count in top_10_words:
    print(f"{word}: {count}")

print(f"\n뉴스 기사의 길이 (단어 수): {article_length}")
print(f"문장의 평균 길이: {average_sentence_length:.2f}")
print(f"긍정적인 단어 빈도: {positive_word_count}")
print(f"부정적인 단어 빈도: {negative_word_count}")

print("\n가장 많이 등장하는 명사 10개:")
for noun, count in top_nouns:
    print(f"{noun}: {count}")

가장 빈도가 높은 단어 10개:
이재명: 6
전: 6
시작: 6
첨단산업: 6
클러스터에: 6
반도체: 6
산단: 6
예타: 6
면제: 6
간: 5

뉴스 기사의 길이 (단어 수): 1008
문장의 평균 길이: 56.00
긍정적인 단어 빈도: 0
부정적인 단어 빈도: 0

가장 많이 등장하는 명사 10개:
이재명: 6
전: 6
시작: 6
첨단산업: 6
클러스터에: 6
반도체: 6
산단: 6
예타: 6
면제: 6
간: 5
