In [1]:
# TF-IDF 벡터라이저 불러오기
from sklearn.feature_extraction.text import TfidfVectorizer
from joblib import load

def identity(x):
    return x

# TF-IDF 벡터라이저 불러오기
print("TF-IDF 벡터라이저 불러오는 중...")
loaded_tfidf_vectorizer = load('tfidf_vectorizer.joblib')
print("TF-IDF 벡터라이저 불러오기 완료")

TF-IDF 벡터라이저 불러오는 중...
TF-IDF 벡터라이저 불러오기 완료


In [2]:
import re
from konlpy.tag import Okt

def vectorize_text_pipeline(text, debug=False):
    tokens = preprocess_text_batch(text)
    if debug:
        print("토큰화된 텍스트:", tokens)
    vector = loaded_tfidf_vectorizer.transform([tokens])
    if debug:
        print("벡터화된 텍스트 (일부):", vector.toarray()[0][:20])
    return vector

def preprocess_text_batch(text):
    if text is None:
        return []
    # 구두점 제거
    text = re.sub("[^가-힣a-zA-Z0-9]+", " ", text)
    # 토큰화 - Okt 객체를 함수 내부에서 생성
    okt = Okt()
    tokens = okt.morphs(text)
    return tokens

In [3]:
# Test for vectorize_text function

# Sample text for testing
test_text = """독도의 날인 오늘은 종일 쾌청했습니다.

낮 동안 독도의 하늘도 이처럼 탁 트인 모습을 보였습니다.

오늘과 달리 이번 주말에는 하늘빛이 차츰 어두워지겠습니다.

내일은 전남 해안과 제주도에, 모레는 남부와 제주도에 비가 내리겠습니다.

또, 내일 새벽부터 아침까지 내륙에 안개가 짙게 끼겠습니다.

교통안전에 주의하셔야겠습니다.

내일 비가 내리는 전남 해안과 제주도에는 바람도 강하게 불겠습니다.

그 밖의 지역은 구름만 다소 끼겠습니다.

내일 기온은 오늘보다 더 높겠습니다.

내일 아침 기온은 대부분 10도를 웃돌겠고, 한낮에는 서울과 청주가 24도까지 크게 오르겠습니다.

남부지방도 한낮 기온이 큰 폭으로 올라 다소 덥게 느껴질 수도 있겠습니다.

전주와 광주 25도, 부산 24도로 예상됩니다.

물결은 남해와 제주 해상에서 최고 4m로 높게 일겠습니다.

다음 주 초반에는 동해안과 제주도에 비가 내릴 전망입니다.

날씨였습니다."""

print("Test text:", test_text[:100])

# Call vectorize_text_pipeline function
vector = vectorize_text_pipeline(test_text, debug=True)

# Check sparsity of the vector
non_zero_elements = vector.nnz
total_elements = vector.shape[1]
sparsity = 1 - (non_zero_elements / total_elements)

print(f"\nVector sparsity: {sparsity:.2%}")
print(f"{non_zero_elements} out of {total_elements} elements are non-zero.")

# TF-IDF 벡터에서 주요 키워드 3개 추출
def get_top_keywords(vector, feature_names, top_n=3):
    # 벡터를 1차원 배열로 변환
    vector_array = vector.toarray()[0]
    # TF-IDF 값이 높은 순서대로 인덱스 정렬
    sorted_indices = vector_array.argsort()[::-1]
    # 상위 n개의 키워드 추출
    top_keywords = [feature_names[i] for i in sorted_indices[:top_n]]
    return top_keywords

# 특성 이름 가져오기
feature_names = loaded_tfidf_vectorizer.get_feature_names_out()

# 주요 키워드 3개 추출
top_keywords = get_top_keywords(vector, feature_names, top_n=5)

print("\n주요 키워드 5개:")
for keyword in top_keywords:
    print(f"- {keyword}")

Test text: 독도의 날인 오늘은 종일 쾌청했습니다.

낮 동안 독도의 하늘도 이처럼 탁 트인 모습을 보였습니다.

오늘과 달리 이번 주말에는 하늘빛이 차츰 어두워지겠습니다.

내일은 전남 해안
토큰화된 텍스트: ['독도', '의', '날인', '오늘', '은', '종일', '쾌청했습니다', '낮', '동안', '독도', '의', '하늘', '도', '이처럼', '탁', '트인', '모습', '을', '보였습니다', '오늘', '과', '달리', '이번', '주말', '에는', '하늘빛', '이', '차츰', '어두워지겠습니다', '내일', '은', '전남', '해안', '과', '제주도', '에', '모레', '는', '남부', '와', '제주도', '에', '비', '가', '내리겠습니다', '또', '내일', '새벽', '부터', '아침', '까지', '내륙', '에', '안개', '가', '짙게', '끼겠습니다', '교통', '안전', '에', '주의', '하셔야겠습니다', '내일', '비', '가', '내리는', '전남', '해안', '과', '제주도', '에는', '바람', '도', '강하게', '불겠습니다', '그', '밖', '의', '지역', '은', '구름', '만', '다소', '끼겠습니다', '내일', '기온', '은', '오늘', '보다', '더', '높겠습니다', '내일', '아침', '기온', '은', '대부분', '10', '도를', '웃', '돌겠고', '한낮', '에는', '서울', '과', '청주', '가', '24', '도', '까지', '크게', '오르겠습니다', '남부', '지방도', '한낮', '기온', '이', '큰', '폭', '으로', '올라', '다소', '덥게', '느껴질', '수도', '있겠습니다', '전주', '와', '광주', '25', '도', '부산', '24', '도로', '예상', '됩니다', '물결', '은', '남해', '와', '제주', '해상', '에서', '최고', '4', 'm', 

In [4]:
from joblib import load

# 저장된 카테고리 분류 모델 로드

loaded_model, loaded_label_encoder = load("data/category_classification_model.joblib")

# vector를 넣고 카테고리 예측
predicted_category = loaded_model.predict(vector)
predicted_category_name = loaded_label_encoder.inverse_transform([predicted_category])
print(f"예측된 카테고리: {predicted_category_name[0]}")

예측된 카테고리: 문화


  y = column_or_1d(y, warn=True)


In [6]:
# 텍스트를 넣으면, [벡터, 카테고리, 키워드] 반환
def inference_pipeline(text):
    vector = vectorize_text_pipeline(text)
    predicted_category = loaded_model.predict(vector)
    predicted_category_name = loaded_label_encoder.inverse_transform([predicted_category])
    top_keywords = get_top_keywords(vector, feature_names, top_n=5)
    return vector, predicted_category_name[0], top_keywords

# 테스트
test_text = "프랑스 경제학자 토마 피케티의 '21세기 자본'이 출간되면서 한국 사회는 지금 소득불평등 논란으로 뜨겁다. '20% 대 80%'를 넘어 '1%(최상위) 대 99%(나머지)'로 불평등이 더욱 깊어진 미국에선 이미 한 차례 논란을 거친 뒤다. '21세기 자본'이 미국에 이어 두 번째로 번역되고, 전경련마저 토론회를 개최할 정도로 '21세기 자본'이 논란이 되는 것은 한국 사회가 그만큼 불평등하다는 것을 방증하는 셈이다. 주요 국가들의 300년에 걸친 방대한 자료를 분석한 피케티는 '국민소득 대비 자본소득의 값(베타)'이 월등히 높거나 '경제성장률보다 자본수익률이 크게 앞선' 나라의 소득불평등이 그렇지 않은 나라보다 더 심하다는 사실을 밝혀냈다. . . 피케티의 책에선 이탈리아와 일본의 베타값이 가장 높은 것으로 예시되어 있다. 한 연구자가 국내총생산 대비 국민순자산(자산-부채)의 값을 계산해보니 2012년 말 현재 7.7배로 호주(5.90배) 캐나다(3.53배) 프랑스(6.68배) 일본(6.36배)보다 높은 것으로 나타났다. 현재로선 세계에서 가장 높다. 피케티 이론의 핵심인 자본수익률(r)과 경제성장률(g)의 차이를 보더라도 한국은 최상층으로 소득이 빠르게 집중하는 나라로 확인됐다. 1967~2012년간 한국의 자본수익률은 평균 8.9%로 경제성장률 평균 7.4%를 웃돌았지만 2002년 이후 경제성장률의 급속한 둔화로 그 차이가 더욱 커졌다. 상위 1%의 소득구성을 보면 2007~2012년간 임금소득 비중은 2.8%로 떨어지고 이자. 배당. 임대소득 등 자본소득 비중은 같은 폭으로 커졌다.. . 소득불평등이 세계 최고 수준이란 점도 문제지만 그 구성이 선진국에 비해 퇴행적이라 점이 더욱 문제다. 다른 나라와 달리 한국의 베타값에는 부동산자산의 비중이 유별나게 크다. 한국의 국민순자산(국부) 1경630조원 중 74.3%는 부동산자산이다. 미국의 30%와 비교하면 엄청난 비중이다. 가계자산 구성을 보더라도(2013년 기준) 비금융자산(대개 부동산자산) 비중은 75.1%로 미국 29.3%, 일본 39.9% 등을 월등히 앞선다. 최근 들어 자산불평등은 더욱 빠르게 악화되고 있다. 지니계수를 계산하면 소득 지니계수는 2000년 0.39에서 2010년 0.46으로 소폭 높아진 반면 부동산 지니계수는 0.62에서 0.70으로 상승했다. 소득격차보다 부동산격차가 더욱 커졌다는 것은 주거를 통한 불평등이 소득을 통한 것보다 더욱 커진다는 것을 의미한다.. . 자산불평등이 주택부동산 불평등으로 등치되는 한국에서 후자의 악화는 한국 특유의 주택정책 레짐(regime)과 무관치 않다. 한국의 주택정책은 '낮은 자가보유율' '공공임대주택 부족' '민간임대 방치' '자산불평등 심화' 등을 생산하는 구조를 내부화한다. 주택보급률과 주택보유율의 차이는 그간 주택정책이 어떻게 작동해왔는지를 압축적으로 보여준다. 2005~2010년 전국 주택보급률은 98.3%에서 101.9%로 3.6%포인트 상승한 반면 자가보유율은 60.3%에서 61.3%로 1.0%포인트 높아지는데 그쳤다. 서울의 경우 주택보급률은 93.7%에서 97.0%로 5.3%포인트 상승, 자가보유율은 50.4%에서 51.3%로 0.9%포인트 올라 그 차이가 더 크다. . . 주택을 공급해줘도 주택을 필요로 하는 계층에게 제대로 전달되지 못한 까닭은 여유 있는 자만이 고가의 주택자원에 접근할 수 있음을 뒷받침하는 주택정책 때문이다. 2013년 현재 2주택 이상 보유가구의 평균 주택보유수는 3.3채다. 부동산을 매개로 한 소득불평등을 줄이기 위해선 부동산을 자산축적이 아니라 주거복지 수단으로 관리하는 정책으로의 (이름) 적극적으로 이루어져야 한다."
vector, category, keywords = inference_pipeline(test_text)
print(f"벡터: {vector.toarray()[0][:10]}")
print(f"카테고리: {category}")
print(f"키워드: {keywords}")

벡터: [0.12803342 0.         0.         0.         0.         0.
 0.         0.         0.         0.04238129]
카테고리: 문화
키워드: ['주택', '소득', '자산', '자본', '부동산']


  y = column_or_1d(y, warn=True)
