뉴스 기사 텍스트 데이터를 크롤링하고 분석하는 파이썬 프로그램을 작성하세요.
1. 원하는 기사를 찾은 후 해당 페이지 URL에서 뉴스 기사 텍스트 데이터를 크롤링하세요

In [None]:
pip install beautifulsoup4 requests



In [None]:
import requests
from bs4 import BeautifulSoup

def crawl_news_article(url):
    try:
        # 웹페이지에 GET 요청을 보냅니다.
        response = requests.get(url)

        # 요청이 성공적으로 완료되었는지 확인합니다.
        if response.status_code == 200:
            # BeautifulSoup을 사용하여 HTML 페이지를 파싱합니다.
            soup = BeautifulSoup(response.text, 'html.parser')

            # 원하는 기사 텍스트를 추출합니다.
            # 이 부분은 웹 사이트의 구조에 따라 조정해야 할 수 있습니다.
            article_text = ""
            article_elements = soup.find_all('p')  # 예시로 모든 <p> 태그를 추출합니다.
            for element in article_elements:
                article_text += element.text + "\n"

            return article_text
        else:
            print(f"HTTP Error {response.status_code}: 페이지를 불러오는 데 문제가 발생했습니다.")
            return None
    except Exception as e:
        print(f"오류 발생: {e}")
        return None

if __name__ == "__main__":
    # 크롤링할 뉴스 기사의 URL을 입력합니다.
    news_article_url = "https://example.com/news-article-url"

    # 크롤링 함수를 호출하여 뉴스 기사 텍스트를 가져옵니다.
    news_article_text = crawl_news_article(news_article_url)

    if news_article_text:
        # 가져온 기사 텍스트를 출력하거나 분석 작업을 수행할 수 있습니다.
        print(news_article_text)
    else:
        print("뉴스 기사 텍스트를 가져오지 못했습니다.")


2. 크롤링한 텍스트 데이터를 토큰화하고, 각 단어의 빈도를 계산하세요.

In [None]:
pip install nltk


In [None]:
import nltk
from collections import Counter

nltk.download('punkt')  # 필요한 데이터를 다운로드

def tokenize_and_count_frequency(text):
    # 텍스트 데이터를 토큰화합니다.
    tokens = nltk.word_tokenize(text)

    # 각 단어의 빈도를 계산합니다.
    word_frequency = Counter(tokens)

    return word_frequency

if __name__ == "__main__":
    # 크롤링한 뉴스 기사 텍스트 데이터를 가져옵니다.
    news_article_text = "여기에 크롤링한 뉴스 기사 텍스트를 넣으세요."

    # 토큰화 및 빈도 계산 함수를 호출합니다.
    word_frequency = tokenize_and_count_frequency(news_article_text)

    # 단어 빈도를 출력합니다.
    for word, frequency in word_frequency.items():
        print(f"{word}: {frequency}회")


3. 가장 빈도가 높은 단어 10개를 찾아 출력하세요.

In [None]:
from collections import Counter

def find_top_words(word_frequency, top_n=10):
    # 빈도가 높은 순서대로 정렬된 (단어, 빈도) 튜플의 리스트를 생성합니다.
    sorted_word_frequency = sorted(word_frequency.items(), key=lambda x: x[1], reverse=True)

    # 상위 N개의 단어를 선택합니다.
    top_words = sorted_word_frequency[:top_n]

    return top_words

if __name__ == "__main__":
    # 이전 단계에서 계산한 단어 빈도 데이터를 가져옵니다.
    word_frequency = {"단어1": 100, "단어2": 90, "단어3": 80, ...}  # 실제 데이터로 대체하세요.

    # 가장 빈도가 높은 단어 10개를 찾습니다.
    top_words = find_top_words(word_frequency, top_n=10)

    # 결과를 출력합니다.
    print("가장 빈도가 높은 단어 10개:")
    for word, frequency in top_words:
        print(f"{word}: {frequency}회")


In [None]:
4. 뉴스 기사의 길이를 계산하세요.
def calculate_news_article_length(text):
    # 뉴스 기사 텍스트의 문자 수를 세어 반환합니다.
    return len(text)

if __name__ == "__main__":
    # 크롤링한 뉴스 기사 텍스트 데이터를 가져옵니다.
    news_article_text = "여기에 크롤링한 뉴스 기사 텍스트를 넣으세요."

    # 뉴스 기사의 길이를 계산합니다.
    article_length = calculate_news_article_length(news_article_text)

    # 결과를 출력합니다.
    print(f"뉴스 기사의 길이: {article_length} 문자")


In [None]:
5. 문장의 평균 길이를 계산하세요.
import nltk

# NLTK에서 필요한 데이터를 다운로드합니다.
nltk.download('punkt')

def calculate_average_sentence_length(text):
    # 문장 분리기를 사용하여 텍스트를 문장 단위로 분할합니다.
    sentences = nltk.sent_tokenize(text)

    # 각 문장의 길이를 저장할 리스트를 초기화합니다.
    sentence_lengths = []

    # 각 문장의 길이를 계산하여 리스트에 추가합니다.
    for sentence in sentences:
        words = nltk.word_tokenize(sentence)
        sentence_lengths.append(len(words))

    # 문장의 평균 길이를 계산합니다.
    if len(sentence_lengths) > 0:
        average_length = sum(sentence_lengths) / len(sentence_lengths)
    else:
        average_length = 0

    return average_length

if __name__ == "__main__":
    # 크롤링한 뉴스 기사 텍스트 데이터를 가져옵니다.
    news_article_text = "여기에 크롤링한 뉴스 기사 텍스트를 넣으세요."

    # 문장의 평균 길이를 계산합니다.
    avg_sentence_length = calculate_average_sentence_length(news_article_text)

    # 결과를 출력합니다.
    print(f"문장의 평균 길이: {avg_sentence_length:.2f} 단어")


In [None]:
6. 기사의 감정을 분석하기 위해 긍정적인 단어와 부정적인 단어의 빈도를 계산하세요.
def analyze_sentiment(text):
    # 긍정적인 단어와 부정적인 단어 리스트를 정의합니다.
    positive_words = ["good", "happy", "excellent", "positive", "wonderful"]
    negative_words = ["bad", "sad", "terrible", "negative", "awful"]

    # 텍스트를 소문자로 변환하여 대소문자 구분을 피합니다.
    text = text.lower()

    # 텍스트에서 각 단어를 추출합니다.
    words = text.split()

    # 각 단어의 빈도를 초기화합니다.
    positive_word_count = 0
    negative_word_count = 0

    # 텍스트에서 긍정적인 단어와 부정적인 단어의 빈도를 계산합니다.
    for word in words:
        if word in positive_words:
            positive_word_count += 1
        elif word in negative_words:
            negative_word_count += 1

    return positive_word_count, negative_word_count

if __name__ == "__main__":
    # 크롤링한 뉴스 기사 텍스트 데이터를 가져옵니다.
    news_article_text = "여기에 크롤링한 뉴스 기사 텍스트를 넣으세요."

    # 감정 분석을 수행합니다.
    positive_count, negative_count = analyze_sentiment(news_article_text)

    # 결과를 출력합니다.
    print(f"긍정적인 단어 빈도: {positive_count} 개")
    print(f"부정적인 단어 빈도: {negative_count} 개")


In [None]:
7.  뉴스 기사의 주제나 주요 토픽을 분석하기 위해 가장 많이 등장하는 명사를 찾아 출력하세요.
pip install nltk

In [None]:
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.tag import pos_tag

nltk.download('punkt')
nltk.download('stopwords')

def extract_nouns(text):
    # 텍스트를 소문자로 변환하고 토큰화합니다.
    tokens = word_tokenize(text.lower())

    # 불용어(stop words)를 제거합니다.
    stop_words = set(stopwords.words('english'))
    filtered_tokens = [word for word in tokens if word.isalnum() and word not in stop_words]

    # 명사만 추출합니다.
    tagged_tokens = pos_tag(filtered_tokens)
    nouns = [word for word, pos in tagged_tokens if pos.startswith('NN')]

    return nouns

def find_most_common_nouns(text, top_n=10):
    nouns = extract_nouns(text)

    # 명사의 빈도를 계산합니다.
    freq_dist = FreqDist(nouns)

    # 가장 많이 등장하는 명사 상위 N개를 가져옵니다.
    most_common_nouns = freq_dist.most_common(top_n)

    return most_common_nouns

if __name__ == "__main__":
    # 크롤링한 뉴스 기사 텍스트 데이터를 가져옵니다.
    news_article_text = "여기에 크롤링한 뉴스 기사 텍스트를 넣으세요."

    # 가장 많이 등장하는 명사를 찾습니다.
    most_common_nouns = find_most_common_nouns(news_article_text, top_n=10)

    # 결과를 출력합니다.
    print("가장 많이 등장하는 명사:")
    for noun, frequency in most_common_nouns:
        print(f"{noun}: {frequency}회")
