<a href="https://colab.research.google.com/github/rich-hyun/kufamate_economic/blob/main/kufa_economic_nltk.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#여러 년도 파일 요약

In [2]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m30.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.4.1-cp310-cp310-manylinux_2_12_x86_64.manylinux2010_x86_64.whl (465 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m465.3/465.3 kB[0m [31m37.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.1 konlpy-0.6.0


In [3]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np
import re
from konlpy.tag import Okt

In [4]:
# konlpy의 Okt 객체 생성
okt = Okt()

# 텍스트 클리닝 함수
def clean_text(text):
    # 이상한 기호 제거
    text = re.sub(r'[^가-힣a-zA-Z0-9. ]', '', text)
    # 과도한 공백 제거
    text = re.sub(' +', ' ', text)
    return text

# 텍스트를 문장 단위로 분리하는 함수
def split_into_sentences(text):
    sentences = text.split('. ')
    return sentences

# 문장을 토큰화하는 함수
def tokenize_sentences(sentences):
    tokenized_sentences = []
    for sentence in sentences:
        # 토큰화 및 품사 태깅
        tokens = okt.pos(sentence, norm=True, stem=True)
        # 명사, 동사, 형용사만 추출
        words = [word for word, pos in tokens if pos in ['Noun', 'Verb', 'Adjective']]
        tokenized_sentences.append(' '.join(words))
    return tokenized_sentences

# 문장별로 중요도를 평가하는 함수
def rank_sentences(sentences, tokenized_sentences):
    # TF-IDF 벡터화를 수행합니다.
    vectorizer = TfidfVectorizer()
    tfidf_matrix = vectorizer.fit_transform(tokenized_sentences)

    # 각 문장의 TF-IDF 벡터의 합을 구합니다.
    sentence_scores = np.sum(tfidf_matrix.toarray(), axis=1)

    # 점수로 정렬된 문장의 인덱스를 반환합니다.
    ranked_sentences = [sentences[i] for i in np.argsort(sentence_scores, axis=0)[::-1]]
    return ranked_sentences

# 파일 URL 목록
file_urls = [
    'https://raw.githubusercontent.com/rich-hyun/data_sets/main/21.03.xlsx',
    'https://raw.githubusercontent.com/rich-hyun/data_sets/main/21.06.xlsx',
    'https://raw.githubusercontent.com/rich-hyun/data_sets/main/21.09.xlsx',
    'https://raw.githubusercontent.com/rich-hyun/data_sets/main/21.12.xlsx',
    'https://raw.githubusercontent.com/rich-hyun/data_sets/main/22.03.xlsx',
    'https://raw.githubusercontent.com/rich-hyun/data_sets/main/22.06.xlsx',
    'https://raw.githubusercontent.com/rich-hyun/data_sets/main/22.09.xlsx',
    'https://raw.githubusercontent.com/rich-hyun/data_sets/main/22.12.xlsx',
    'https://raw.githubusercontent.com/rich-hyun/data_sets/main/23.03.xlsx',
    'https://raw.githubusercontent.com/rich-hyun/data_sets/main/23.06.xlsx',
    'https://raw.githubusercontent.com/rich-hyun/data_sets/main/23.09.xlsx'
]


# 각 파일 URL에 대해 반복 처리를 수행합니다.
for idx, file_url in enumerate(file_urls):
    # 해당 URL에서 Excel 파일을 DataFrame으로 불러옵니다.
    df = pd.read_excel(file_url)

    # DataFrame에서 전체 텍스트를 문자열로 추출합니다.
    full_text = ' '.join(df.astype(str).values.flatten())

    # 텍스트 클리닝을 수행합니다.
    full_text = clean_text(full_text)

    # 전체 텍스트에서 문장을 분리합니다.
    sentences = split_into_sentences(full_text)

    # 문장을 토큰화합니다.
    tokenized_sentences = tokenize_sentences(sentences)

    # 문장별로 중요도를 평가하여 순위를 매깁니다.
    ranked_sentences = rank_sentences(sentences, tokenized_sentences)

    print(f"요약본 {idx+1} - {file_url}:")
    top_sentences = '\n'.join(ranked_sentences[:2])
    print(top_sentences)
    print()

요약본 1 - https://raw.githubusercontent.com/rich-hyun/data_sets/main/21.03.xlsx:
성장 및 물가 전망75국내경제 완만하게 회복될 전망GDP 성장률은 올해 3.0를 기록한 후 내년에 는 2.5 수준을 나타낼 것으로 전망된다.76 민 간소비 회복이 더디겠으나 글로벌 경기개선 등 에 힘입어 수출과 투자를 중심으로 완만하게 회 복될 것으로 예상된다.부문별로 보면 민간소비는 코로나19 장기화에 따른 가계 소득 여건 부진 감염우려 지속 등으 로 당초 예상보다 회복 속도가 더딜 전망이다
nan nan 75 2021년 2월 25일 발표한 한국은행 경제전망보고서를 토대로 작성하였다.76 금번 경제전망에서는 코로나19 확산 국가별로 상하게 전개되는 가운데 올해 중후반 후 점차 진정되고 동제한조치는 올해 봄부터 완화되면서 세계경제가 올해 하반기 중 코로나 위기 전 수준을 회복하고 국내에서는 코로나19의 확산세가대체로 완만한 속도로 둔화되다가 올해 중후반 후 점차 진정될 것으로 전제하였다

요약본 2 - https://raw.githubusercontent.com/rich-hyun/data_sets/main/21.06.xlsx:
nan nan 73 2021년 5월 27일 발표한 한국은행 경제전망보고서를 토대로 작성하였다.74 2021년 및 2022년 GDP성장률 전망치4.0 및 3.0는 지난 2월 전망3.0 및 2.5에 비해 각각 1.0p 및 0.5p 높은 수준이다.75 금번 경제전망에서는 코로나19 및 백신보급이 국가별로 상이하게 전개되는 가운데 선진국은 대체로 금년 하반기 중 광범위한 백신접종에 도달하면서 감염병 확산세가 진정되고 신흥국은 내년 이후 광범위한 백신접종이 이루어지면서 감염병 확산세가 점진적으로 둔화될 것으로 전제하였다
이는 국적선사 선복량 증대 운임 상승 등으 로 운송서비스 흑자폭이 확대되면서 서비스수 지의 적자폭이 축소되겠으나 글로벌 IT경기 호 조 등에 따른 상품수출 증가에도 불구하고 유가 상승 및 내