## [현실 문제 상황 제시]
- 옥지 : 우와 빵빵아, 테슬라가 삼성전자랑 거래한데
- 빵빵이 : 정말 옥지야? 우리 그러면 삼성전자 주식 사면되는거야?
- 옥지 : 아니, 그래서 테슬라 자동차 샀는데?
- 빵빵이 : 그게 무슨 연관이야...
- 옥지 : 너는 그거도 몰라?
- 빵빵이 :
<img src="https://drive.google.com/uc?id=1RUR64GBnDUfx8dqmPXNTYOJp_sOhvV9a" height=150 />

### [빵빵의 경제 공부]
빵빵이는 자신의 무지함 보다 옥지에게 무시당했다는 것을 용납할 수 없어 경제 공부를 시작했다. <br>
그러나.. 수백, 수만개의 경제 뉴스를 보는 것은 현실적으로 불가능하다는 생각이 들었다. <br>
그래서 빵빵이는 키워드를 입력하면 원하는 뉴스를 찾을 수 있는 프로그램을 만들고자 한다.

<img src="https://drive.google.com/uc?id=15cODxT-y6DyUU9Vqe5QeJLWEpjCx63x3" height=350 />


## [빵빵이의 문제해결 시나리오]
1. 문제 정의 (Problem Definition) <br>
  - 가장 큰 문제: 매일 쏟아지는 수백, 수만 개의 경제 뉴스 속에서, 옥지의 질문이나 특정 이슈에 대한 핵심 정보를 효율적으로 찾아낼 방법이 필요하다.

  - 제약 조건: 단순한 'Ctrl+F' 기능처럼 키워드가 정확히 일치하는 기사만 찾는 것은 한계가 있다. <br>
  '반도체 위기'라고 검색하면 '수출 규제', '공급망 문제' 등 의미적으로 연관된 기사까지 찾아주는 똑똑한 검색 기능이 필요하다.

  - 범위 좁히기: 프로그램의 정확도와 효율성을 위해 분석 대상을 **'최근 3개월간의 경제 분야 뉴스'**로 한정한다.

2. 무엇을, 어디서 찾을 것인가? (What & Where to Find)
  - 무엇을(What): 단순한 단어의 빈도수를 넘어, '특정 문서에서는 중요하지만, 다른 문서에서는 흔하지 않은' 핵심 단어를 찾아내야 의미 기반 검색이 가능하다. 이를 위해 각 단어의 상대적 중요도를 나타내는 TF-IDF(단어 빈도-역문서 빈도) 값을 핵심 데이터로 사용한다.

  - 어디서(Where): 신뢰할 수 있는 대량의 뉴스 데이터를 얻을 수 있는 곳은 **한국언론진흥재단의 빅카인즈(BIG KINDS)**가 가장 적합하다.<br> 원하는 기간과 분야를 설정하여 데이터를 일괄 다운로드할 수 있어 매우 효율적이다.

3. 어떻게 해결할 것인가? (How to Solve)
  - 해결 계획 수립:
    1. (A) 데이터 수집: 빅카인즈에서 '테슬라 삼전'의 뉴스 데이터를 Excel/CSV 파일로 다운로드한다.

    2. (B) 텍스트 전처리: 다운로드한 데이터에서 '기사 본문' 텍스트를 추출하고, KoNLPy를 이용해 불필요한 기호나 특수문자를 제거하고 핵심 단어인 명사만 추출(토큰화)한다.

    3. (C) TF-IDF 벡터화:
      - 전처리된 모든 뉴스 기사를 Scikit-learn의 TfidfVectorizer를 사용해 TF-IDF 행렬로 변환한다. <BR>이 과정은 각 기사를 컴퓨터가 이해할 수 있는 숫자 벡터로 만드는 작업이며, 우리 검색 시스템의 핵심 데이터베이스가 된다.

    4. (D) 검색 및 결과 도출:
      - 사용자로부터 '테슬라 삼성전자 협력' 같은 검색어를 입력받는다.
      - 이 검색어 역시 동일한 기준으로 전처리하고, 이미 학습된 TF-IDF 모델을 사용하여 벡터로 변환한다.
      - 검색어 벡터와 전체 뉴스 기사 벡터들 간의 **코사인 유사도(Cosine Similarity)**를 계산한다.
      - 유사도 점수가 가장 높은 순서대로 상위 5개의 기사 제목을 결과로 출력한다.

- 실행 도구 선택:
  1. 데이터 수집: 빅카인즈(BIG KINDS) 웹사이트
  2. 데이터 처리 및 분석: Pandas, KoNLPy, Scikit-learn 라이브러리를 탑재한 Python 환경
  3. 결과 확인: Python 콘솔 또는 주피터 노트북에서 결과 출력

## TF-IDF
TF-IDF와 코사인 유사도를 이용하면, 단순 키워드 일치를 넘어 **문서의 의미적 유사성(Semantic Similarity)**을 기반으로 <br> 검색할 수 있으며 이것이 바로 구글, 네이버 같은 검색 엔진의 핵심 원리 중 하나이다.

In [None]:
!pip install gdown -q
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.6.0-cp311-cp311-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (5.0 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m78.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.6.0-cp311-cp311-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (496 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m496.6/496.6 kB[0m [31m29.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.6.0 konlpy-0.6.0


In [None]:
import pandas as pd
from google.colab import drive

# 1. 구글 드라이브를 '/content/drive' 폴더에 연결(마운트)
drive.mount('/content/drive')

# 2. '/content/drive/MyDrive/'로 시작하는 전체 경로로 수정
file_path = '/content/drive/MyDrive/수업/데이터 분석/회사 내부 강의/2일차/data/테슬라&삼전.xlsx'

# 3. pandas로 엑셀 파일 읽기
df = pd.read_excel(file_path)
# 데이터 확인
display(df["제목"].head())

Mounted at /content/drive


  warn("Workbook contains no default style, apply openpyxl's default")


Unnamed: 0,제목
0,7월 국내 투자자 ‘최애’ 종목은 테슬라 삼성전자
1,이재용 “내년 사업 준비하고 왔다” 하반기 반도체 전략은
2,휘청이던 인텔 ‘특급 소방수’ 찾았다 트럼프 업고 자국 빅테크 물량 싹쓸이 우려
3,"한-베 국빈 만찬 참여 최태원 정의선 구광모, 김경문 축하 김승연 [재계-in]"
4,"방미 17일 만에 귀국 이재용 ""내년 사업 준비"""


### 텍스트 전처리 단계
이 단계는 **"요리를 하기 전 재료를 손질하는 것"**과 같다.  컴퓨터가 분석할 수 없는 날 것 그대로의 텍스트(사람의 언어)를, <br>의미 있는 분석이 가능한 깨끗한 데이터(컴퓨터의 언어)로 바꿔주는 필수적인 준비 과정이다.

1. 노이즈 제거:
  - 원본 텍스트에 섞여 있는 각종 특수문자(“, ”, [, ]), 숫자, 영문 등은 분석에 불필요한 정보(노이즈)입니다. 이런 노이즈를 제거해야 오직 단어의 의미에만 집중하여 분석의 정확도를 높일 수 있습니다.

2. 의미 단위 추출 (토큰화): <br>
 - 컴퓨터는 '이재용은'과 '이재용이'를 서로 다른 단어로 인식한다.
 - 우리는 '이재용'이라는 핵심 의미만 추출해야 합니다. 이처럼 문장을 의미를 가진 최소 단위(주로 명사)로 쪼개는 과정을 통해, 동일한 의미를 가진 단어를 하나로 통일하여 컴퓨터가 올바르게 단어의 빈도나 중요도를 계산하도록 만듭니다.

In [None]:
import re
from konlpy.tag import Okt

# 2. 전처리 함수 정의
okt = Okt()

def preprocess(text):
    # 한글과 공백만 남기고 모두 제거
    cleaned_text = re.sub(r'[^가-힣 ]', '', text)

    # 명사만 추출
    nouns = okt.nouns(cleaned_text)

    # 한 글자 단어 제거
    filtered_nouns = [word for word in nouns if len(word) > 1]

    return filtered_nouns

# 3. 모든 제목에 전처리 함수 적용
token_df = df['제목'].apply(preprocess)
origin_title = df["제목"]

# 원본 제목과 토큰화된 결과를 딕셔너리로 묶어 DataFrame 생성
transform_df = pd.DataFrame({
    '원본 제목': origin_title,
    '토큰화 결과': token_df,
    '뉴스 바로가기' : df['URL']
})

display(transform_df.head())

Unnamed: 0,원본 제목,토큰화 결과,뉴스 바로가기
0,7월 국내 투자자 ‘최애’ 종목은 테슬라 삼성전자,"[국내, 투자자, 최애, 종목, 테슬라, 삼성, 전자]",
1,이재용 “내년 사업 준비하고 왔다” 하반기 반도체 전략은,"[이재용, 내년, 사업, 준비, 하반기, 반도체, 전략]",http://www.segye.com/content/html/2025/08/15/2...
2,휘청이던 인텔 ‘특급 소방수’ 찾았다 트럼프 업고 자국 빅테크 물량 싹쓸이 우려,"[인텔, 특급, 소방수, 트럼프, 자국, 테크, 물량, 우려]",http://www.mk.co.kr/article/11394740
3,"한-베 국빈 만찬 참여 최태원 정의선 구광모, 김경문 축하 김승연 [재계-in]","[한베, 국빈, 만찬, 참여, 최태원, 정의선, 구광모, 김경문, 축하, 김승연, 재계]",
4,"방미 17일 만에 귀국 이재용 ""내년 사업 준비""","[방미, 귀국, 이재용, 내년, 사업, 준비]",https://www.ytn.co.kr/_ln/0102_202508152315072083


## TF-IDF 벡터화 단계
이 단계는 **"손질된 재료(단어)의 중요도를 저울에 달아보는 것"**과 같다. 1단계에서 정제된 단어 목록을 얻었지만, 컴퓨터는 아직 어떤 단어가 각 기사의 주제를 더 잘 나타내는 **'핵심 단어'**인지 알지 못한다. TF-IDF는 각 단어에 **'중요도 점수'**를 부여하여, 텍스트를 단순한 단어의 나열이 아닌, 의미 있는 숫자들의 집합(벡터)으로 변환하는 과정이다.

1. 단순 빈도의 한계 극복
  - '삼성전자', '사업'처럼 중요한 단어와 '국내', '하반기'처럼 여러 뉴스에 두루 쓰이는 단어는 그 중요도가 다르다. 단순히 단어의 출현 횟수(빈도)만 세면 이러한 중요도를 구분할 수 없다.

2. 단어의 '희소성'에 가치 부여: TF-IDF는 두 가지 기준으로 단어의 중요도를 평가.

  - TF (단어 빈도): 특정 문서(기사) 안에서 단어가 얼마나 자주 등장하는가?
  - IDF (역문서 빈도): 전체 문서(모든 기사) 중에서 이 단어가 얼마나 희귀하게 등장하는가? (⭐핵심)

결론적으로, "이 기사에는 자주 등장하지만, 다른 기사에서는 잘 등장하지 않는" 단어일수록 높은 중요도 점수를 받게 된다. <BR>이를 통해 각 기사의 주제를 가장 잘 대표하는 핵심 단어를 가려낼 수 있다.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# TF-IDF Vectorizer 객체 생성
# 이전 단계에서 토큰화가 이미 완료되었으므로, 토큰화 결과를 그대로 사용.
# analyzer='word'는 단어 단위로, tokenizer는 입력된 토큰을 그대로 사용하도록 설정
tfidf_vectorizer = TfidfVectorizer(tokenizer=lambda x: x, lowercase=False)
# tokenizer : TfidfVectorizer가 텍스트를 어떤 규칙으로 단어 단위로 쪼갤지 지정하는 옵션
# - lambda x:x는 변환없이 그대로 반환
# lowercase = False : 단어를 소문자로 변환할지 결정하는 여부
print(tfidf_vectorizer)

# '토큰화 결과' 컬럼을 학습시켜 TF-IDF 행렬 생성
tfidf_matrix = tfidf_vectorizer.fit_transform(transform_df['토큰화 결과'])

# --- 단어별 벡터값을 확인하는 코드 ---
# 1. 단어 사전(Vocabulary) 가져오기
vocab = tfidf_vectorizer.get_feature_names_out()

# 2. TF-IDF 행렬을 DataFrame으로 변환
#    - columns=vocab을 통해 각 열이 어떤 단어인지 명시합니다.
df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=vocab)

# 3. 결과 출력
print("--- 단어별 TF-IDF 벡터값 ---")
display(df_tfidf)

TfidfVectorizer(lowercase=False,
                tokenizer=<function <lambda> at 0x7e046e56cae0>)
--- 단어별 TF-IDF 벡터값 ---




Unnamed: 0,가격,가계,가교,가나,가늠,가능,가능성,가동,가득,가로수,...,후회,훈풍,훨훨,휴머노이드,휴보,휴전,흥국,희비,희소식,히든카드
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0
4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1473,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.575438,0.0,0.0,0.0,0.0
1474,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.349924,0.0,0.0,0.0,0.0
1475,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0
1476,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.000000,0.0,0.0,0.0,0.0


In [None]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# 1. 검색어 설정 및 전처리
query = "테슬라와 삼성전자"
# 검색어도 동일한 전처리 함수를 적용해야 합니다.
query_tokens = preprocess(query)
print(f"전처리된 검색어: {query_tokens}")

# 2. 검색어를 TF-IDF 벡터로 변환
# (이미 학습된 vectorizer를 사용해야 동일한 기준으로 변환됩니다)
query_vector = tfidf_vectorizer.transform([query_tokens])

# 3. 모든 제목 벡터와의 코사인 유사도 계산
cosine_sim = cosine_similarity(query_vector, tfidf_matrix)

# 4. 계산된 유사도 점수를 DataFrame에 새로운 컬럼으로 추가
transform_df['유사도'] = cosine_sim[0]

# 5. 유사도 점수가 높은 순으로 정렬
sorted_df = transform_df.sort_values(by='유사도', ascending=False)

전처리된 검색어: ['테슬라', '삼성', '전자']


In [None]:
print("\n--- '이재용 반도체' 검색 결과 (유사도 순) ---")
display(sorted_df.head())


--- '이재용 반도체' 검색 결과 (유사도 순) ---


Unnamed: 0,원본 제목,토큰화 결과,뉴스 바로가기,유사도
903,"삼성전자 파운드리, 22조 수주처는 ‘테슬라’","[삼성, 전자, 파운드리, 테슬라]",https://www.viva100.com/article/20250728500757,0.768255
1132,"""테슬라 2배 있는데 '하닉 2배'는 왜 없나요""",[테슬라],http://www.mk.co.kr/article/11374838,0.66127
951,"삼성전자, 테슬라 손잡고 '7만전자' 복귀","[삼성, 전자, 테슬라, 전자, 복귀]",http://www.obsnews.co.kr/news/articleView.html...,0.639063
1106,삼성전자 22.8조 파운드리 계약자는 테슬라였다,"[삼성, 전자, 파운드리, 계약, 테슬라]",https://www.donga.com/news/Economy/article/all...,0.630786
938,"삼성전자, 22조 원 테슬라 AI칩 파운드리 계약 “더 늘 수 있어”","[삼성, 전자, 테슬라, 파운드리, 계약]",https://news.kbs.co.kr/news/view.do?ncd=831530...,0.630786
