<a href="https://colab.research.google.com/github/ancestor9/2025_Spring_Data-Management/blob/main/week_09/Topic_Model_Analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **[Topic Model, LDA](https://wikidocs.net/30708)**
### 웹 크롤링을 통해 수집한 정보(corpus)를 대상으로 어떤 이슈가 있는 지 확인?

In [2]:
from google.colab import userdata
YOUR_SERP_API_KEY = userdata.get('serpapi')
YOUR_SERP_API_KEY[::3]

'4eabad7cdc7396b5bb5987'

In [9]:
import requests
import pandas as pd

def search_big_data_articles():
    # SerpAPI 키 (실제 사용 시 자신의 API 키로 대체해야 합니다)
    api_key = "your_serpapi_key_here"

    # 검색 매개변수 설정
    params = {
        "engine": "google",       # 구글 검색 엔진 사용
        "q": "빅 데이터",          # 검색어
        "api_key": YOUR_SERP_API_KEY,       # API 키
        "hl": "ko",               # 한국어 결과
        "gl": "kr",               # 한국 지역 결과
        "tbm": "nws",             # 뉴스 검색 결과만 표시
        "num": 100                 # 결과 수 (최대 100까지 가능)
    }

    # API 호출
    response = requests.get("https://serpapi.com/search", params=params)

    # 응답이 성공적인지 확인
    if response.status_code == 200:
        search_results = response.json()

        # 뉴스 기사 결과를 데이터프레임으로 변환
        if "news_results" in search_results:
            # 필요한 데이터 추출
            titles = []
            contents = []
            sources = []
            dates = []
            links = []

            for article in search_results['news_results']:
                titles.append(article['title'])
                contents.append(article.get('snippet', '내용 없음'))
                sources.append(article.get('source', '출처 없음'))
                dates.append(article.get('date', '날짜 없음'))
                links.append(article.get('link', '링크 없음'))

            # 데이터프레임 생성
            df = pd.DataFrame({
                '제목': titles,
                '내용': contents,
                '출처': sources,
                '날짜': dates,
                '링크': links
            })

            # 데이터프레임 출력 및 반환
            print(f"총 {len(df)}개의 기사를 찾았습니다.")
            print(df[['제목', '내용']].head())  # 제목과 내용만 미리보기

            # CSV 파일로 저장 (선택사항)
            df.to_csv('big_data_articles.csv', index=False, encoding='utf-8-sig')
            print("결과가 'big_data_articles.csv' 파일로 저장되었습니다.")

            return df
        else:
            print("뉴스 결과를 찾을 수 없습니다.")
            return None
    else:
        print(f"API 요청 실패: {response.status_code}")
        print(response.text)
        return None

if __name__ == "__main__":
    df = search_big_data_articles()

    # 추가 분석을 위한 데이터프레임 사용 예시
    if df is not None and not df.empty:
        # 내용의 길이를 기준으로 정렬
        df['내용_길이'] = df['내용'].apply(len)
        sorted_df = df.sort_values(by='내용_길이', ascending=False)
        print("\n내용이 가장 긴 기사 Top 3:")
        print(sorted_df[['제목', '내용']].head(3))

총 99개의 기사를 찾았습니다.
                                                  제목  \
0             국가 바이오 빅데이터 구축 사업 알리기 '총력전'…광고 영상 제작까지   
1                          비전공자도 4개월 배우면 빅데이터 취업문 활짝   
2  [빅데이터로본다] 아이돌그룹 2025년 4월 브랜드평판... 1위 방탄소년단, 2위...   
3                          임영웅, 또 1위!…빅데이터가 증명한 국민가수   
4                     삼척관광문화재단, "빅데이터로 관광 트렌드 혁신 주도"   

                                                  내용  
0  정부가 우리 국민 100만명의 인체자원 정보를 수집하는 국가 통합 바이오 빅데이터 ...  
1  아시아경제 교육센터가 '빅데이터 기반 비즈니스모델 프로젝트 기획&개발' 과정에 참여...  
2  [일간투데이 김민선 기자] 아이돌그룹 브랜드평판 2025년 4월 빅데이터 분석결과,...  
3  K-브랜드지수 가수 부문 1위…제니·지드래곤 뒤이어임영웅이 빅데이터 기반의 'K-브...  
4  (강원=국제뉴스) 고정화 기자 = 삼척관광문화재단이 '2025년 빅데이터와 함께하는...  
결과가 'big_data_articles.csv' 파일로 저장되었습니다.

내용이 가장 긴 기사 Top 3:
                                                   제목  \
93  KISTI, 2024년 법무부 외국인행정 빅데이터 분석 교육훈련 과정 운영 | KI...   
91  KISTI, 소방 빅데이터 분석 교육훈련 과정 추진 | KISTI 소식 | KIST...   
80               한국장학재단, 교육부 공공기관 브랜드평판 2025년 4월...1위   

                         

In [10]:
sorted_df

Unnamed: 0,제목,내용,출처,날짜,링크,내용_길이
93,"KISTI, 2024년 법무부 외국인행정 빅데이터 분석 교육훈련 과정 운영 | KI...","KISTI, 2024년 법무부 외국인행정 빅데이터 분석 교육훈련 과정 운영. - 외...",한국과학기술정보연구원,1개월 전,https://www.kisti.re.kr/promote/post/news/6509...,102
91,"KISTI, 소방 빅데이터 분석 교육훈련 과정 추진 | KISTI 소식 | KIST...","KISTI, 소방 빅데이터 분석 교육훈련 과정 추진. - 국가 재난재해 문제해결과 ...",한국과학기술정보연구원,4주 전,https://www.kisti.re.kr/promote/post/news/5753...,99
80,"한국장학재단, 교육부 공공기관 브랜드평판 2025년 4월...1위","한국기업평판연구소 빅데이터 분석결과...2위 사립학교교직원연금공단, 3위 서울대학교...",비욘드포스트,1일 전,https://www.beyondpost.co.kr/view.php?ud=20250...,98
96,"KISTI, 학·연·정 협력 빅데이터 분석 전문인력 양성 추진 | KISTI 소식 ...","한국과학기술정보연구원(원장 김재수, 이하 KISTI)은 국립한밭대학교(총장 최병욱)...",한국과학기술정보연구원,4주 전,https://www.kisti.re.kr/promote/post/news/5327...,96
89,"KISTI, 학·연·정 협력 빅데이터 분석 전문인력 양성 추진 | KISTI 소식 ...","한국과학기술정보연구원(원장 김재수, 이하 KISTI)은 국립한밭대학교(총장 최병욱)...",한국과학기술정보연구원,4주 전,https://www.kisti.re.kr/promote/post/news/5327...,96
...,...,...,...,...,...,...
21,"[배종찬 빅데이터 분석] 트럼프 관세 돌파구, 알래스카LNG와 K조선",[비즈니스포스트] 트럼프 미국 대통령의 관세 폭격이 진행되고 있다. 특히 중국에 천...,비즈니스포스트,3일 전,https://www.businesspost.co.kr/BP?command=arti...,67
59,"삼성SDS, 관세청 전자통관시스템 '유니패스' 개통‥""한국형·AI·빅데이터""",한국형 전자통관시스템 구축. AI·빅데이터로 관세행정 고도화 처리 속도·데이터 분석...,이코노미톡뉴스,3일 전,http://www.economytalk.kr/news/articleView.htm...,67
38,"안산시 ‘탄도항 누에섬’, 빅데이터 컨설팅 공모 선정",경기도 안산시와 안산도시공사가 신청한 '탄도항 누에섬 해양관광 활성화 방안' 사업이...,KBS 뉴스,2일 전,https://news.kbs.co.kr/news/view.do?ncd=8228108,62
81,"삼척관광문화재단, ‘2025년 빅데이터와 함께하는 똑똑한 컨설팅’ 공모사업 선정","삼척시청[파이낸셜경제=조성환 기자] 삼척관광문화재단은 14일, 장호항 중심의 맞춤형...",파이낸셜경제,1일 전,http://www.fnewstv.com/news/newsview.php?ncode...,52


In [12]:
!pip install konlpy --quiet

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m44.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m494.1/494.1 kB[0m [31m29.7 MB/s[0m eta [36m0:00:00[0m
[?25h

In [13]:
import re
from konlpy.tag import Okt

def extract_korean_words(df):
    # konlpy의 Okt 형태소 분석기 초기화
    okt = Okt()

    # 결과를 저장할 리스트 초기화
    all_words_list = []

    # 각 행의 내용에서 단어 추출
    for content in df['내용']:
        # 형태소 분석을 통해 명사 추출
        nouns = okt.nouns(content)

        # 2글자 이상의 한글 단어만 필터링
        korean_words = []
        for word in nouns:
            # 한글만 포함하는지 확인 (정규식 사용)
            if re.match(r'^[가-힣]{2,}$', word):
                korean_words.append(word)

        # 현재 행의 단어 리스트를 전체 리스트에 추가
        all_words_list.append(korean_words)

    return all_words_list

# 기존 코드에서 이어서...
if __name__ == "__main__":
    df = search_big_data_articles()

    if df is not None and not df.empty:
        # 내용의 길이를 기준으로 정렬
        df['내용_길이'] = df['내용'].apply(len)
        sorted_df = df.sort_values(by='내용_길이', ascending=False)

        # 2글자 이상 한글 단어 추출
        korean_words_by_row = extract_korean_words(sorted_df)

        # 결과 확인
        print("\n각 행별 2글자 이상 한글 단어 목록:")
        for i, words in enumerate(korean_words_by_row[:5], 1):  # 처음 5개 행만 출력
            print(f"행 {i}: {words}")

        # 데이터프레임에 추출된 단어 리스트 열 추가
        sorted_df['한글_단어_리스트'] = korean_words_by_row

        # 단어 리스트가 추가된 데이터프레임의 일부 출력
        print("\n단어 리스트가 추가된 데이터프레임 미리보기:")
        print(sorted_df[['제목', '내용', '한글_단어_리스트']].head())

총 99개의 기사를 찾았습니다.
                                                  제목  \
0             국가 바이오 빅데이터 구축 사업 알리기 '총력전'…광고 영상 제작까지   
1                          비전공자도 4개월 배우면 빅데이터 취업문 활짝   
2  [빅데이터로본다] 아이돌그룹 2025년 4월 브랜드평판... 1위 방탄소년단, 2위...   
3                          임영웅, 또 1위!…빅데이터가 증명한 국민가수   
4                     삼척관광문화재단, "빅데이터로 관광 트렌드 혁신 주도"   

                                                  내용  
0  정부가 우리 국민 100만명의 인체자원 정보를 수집하는 국가 통합 바이오 빅데이터 ...  
1  아시아경제 교육센터가 '빅데이터 기반 비즈니스모델 프로젝트 기획&개발' 과정에 참여...  
2  [일간투데이 김민선 기자] 아이돌그룹 브랜드평판 2025년 4월 빅데이터 분석결과,...  
3  K-브랜드지수 가수 부문 1위…제니·지드래곤 뒤이어임영웅이 빅데이터 기반의 'K-브...  
4  (강원=국제뉴스) 고정화 기자 = 삼척관광문화재단이 '2025년 빅데이터와 함께하는...  
결과가 'big_data_articles.csv' 파일로 저장되었습니다.

각 행별 2글자 이상 한글 단어 목록:
행 1: ['법무부', '외국인', '행정', '빅데이터', '분석', '교육', '훈련', '과정', '운영', '외국인', '정책', '수립', '효율', '추진', '빅데이터', '분석', '전문가', '양성', '법무부', '외국인']
행 2: ['소방', '빅데이터', '분석', '교육', '훈련', '과정', '추진', '국가', '재난', '재해', '문제해결', '안전', '서비스', '혁신', '소방', '빅데이터', '전문가',

In [14]:
sorted_df

Unnamed: 0,제목,내용,출처,날짜,링크,내용_길이,한글_단어_리스트
93,"KISTI, 2024년 법무부 외국인행정 빅데이터 분석 교육훈련 과정 운영 | KI...","KISTI, 2024년 법무부 외국인행정 빅데이터 분석 교육훈련 과정 운영. - 외...",한국과학기술정보연구원,1개월 전,https://www.kisti.re.kr/promote/post/news/6509...,102,"[법무부, 외국인, 행정, 빅데이터, 분석, 교육, 훈련, 과정, 운영, 외국인, ..."
91,"KISTI, 소방 빅데이터 분석 교육훈련 과정 추진 | KISTI 소식 | KIST...","KISTI, 소방 빅데이터 분석 교육훈련 과정 추진. - 국가 재난재해 문제해결과 ...",한국과학기술정보연구원,4주 전,https://www.kisti.re.kr/promote/post/news/5753...,99,"[소방, 빅데이터, 분석, 교육, 훈련, 과정, 추진, 국가, 재난, 재해, 문제해..."
80,"한국장학재단, 교육부 공공기관 브랜드평판 2025년 4월...1위","한국기업평판연구소 빅데이터 분석결과...2위 사립학교교직원연금공단, 3위 서울대학교...",비욘드포스트,1일 전,https://www.beyondpost.co.kr/view.php?ud=20250...,98,"[한국, 기업, 평판, 연구소, 빅데이터, 분석, 결과, 사립학교, 교직원, 연금,..."
96,"KISTI, 학·연·정 협력 빅데이터 분석 전문인력 양성 추진 | KISTI 소식 ...","한국과학기술정보연구원(원장 김재수, 이하 KISTI)은 국립한밭대학교(총장 최병욱)...",한국과학기술정보연구원,4주 전,https://www.kisti.re.kr/promote/post/news/5327...,96,"[한국, 과학기술, 정보, 연구원, 원장, 김재수, 이하, 국립, 한밭대, 학교, ..."
89,"KISTI, 학·연·정 협력 빅데이터 분석 전문인력 양성 추진 | KISTI 소식 ...","한국과학기술정보연구원(원장 김재수, 이하 KISTI)은 국립한밭대학교(총장 최병욱)...",한국과학기술정보연구원,4주 전,https://www.kisti.re.kr/promote/post/news/5327...,96,"[한국, 과학기술, 정보, 연구원, 원장, 김재수, 이하, 국립, 한밭대, 학교, ..."
...,...,...,...,...,...,...,...
21,"[배종찬 빅데이터 분석] 트럼프 관세 돌파구, 알래스카LNG와 K조선",[비즈니스포스트] 트럼프 미국 대통령의 관세 폭격이 진행되고 있다. 특히 중국에 천...,비즈니스포스트,3일 전,https://www.businesspost.co.kr/BP?command=arti...,67,"[비즈니스, 포스트, 트럼프, 미국, 대통령, 관세, 폭격, 진행, 중국, 천문학,..."
59,"삼성SDS, 관세청 전자통관시스템 '유니패스' 개통‥""한국형·AI·빅데이터""",한국형 전자통관시스템 구축. AI·빅데이터로 관세행정 고도화 처리 속도·데이터 분석...,이코노미톡뉴스,3일 전,http://www.economytalk.kr/news/articleView.htm...,67,"[한국, 전자, 통관, 시스템, 구축, 빅데이터, 관세, 행정, 고도화, 처리, 속..."
38,"안산시 ‘탄도항 누에섬’, 빅데이터 컨설팅 공모 선정",경기도 안산시와 안산도시공사가 신청한 '탄도항 누에섬 해양관광 활성화 방안' 사업이...,KBS 뉴스,2일 전,https://news.kbs.co.kr/news/view.do?ncd=8228108,62,"[경기도, 안산시, 안산, 시공사, 신청, 탄도항, 누에섬, 해양, 관광, 활성화,..."
81,"삼척관광문화재단, ‘2025년 빅데이터와 함께하는 똑똑한 컨설팅’ 공모사업 선정","삼척시청[파이낸셜경제=조성환 기자] 삼척관광문화재단은 14일, 장호항 중심의 맞춤형...",파이낸셜경제,1일 전,http://www.fnewstv.com/news/newsview.php?ncode...,52,"[삼척, 시청, 파이, 낸셜, 경제, 조성환, 기자, 삼척, 관광, 문화재단, 장호..."


In [16]:
sorted_df['한글_단어_리스트']

Unnamed: 0,한글_단어_리스트
93,"[법무부, 외국인, 행정, 빅데이터, 분석, 교육, 훈련, 과정, 운영, 외국인, ..."
91,"[소방, 빅데이터, 분석, 교육, 훈련, 과정, 추진, 국가, 재난, 재해, 문제해..."
80,"[한국, 기업, 평판, 연구소, 빅데이터, 분석, 결과, 사립학교, 교직원, 연금,..."
96,"[한국, 과학기술, 정보, 연구원, 원장, 김재수, 이하, 국립, 한밭대, 학교, ..."
89,"[한국, 과학기술, 정보, 연구원, 원장, 김재수, 이하, 국립, 한밭대, 학교, ..."
...,...
21,"[비즈니스, 포스트, 트럼프, 미국, 대통령, 관세, 폭격, 진행, 중국, 천문학,..."
59,"[한국, 전자, 통관, 시스템, 구축, 빅데이터, 관세, 행정, 고도화, 처리, 속..."
38,"[경기도, 안산시, 안산, 시공사, 신청, 탄도항, 누에섬, 해양, 관광, 활성화,..."
81,"[삼척, 시청, 파이, 낸셜, 경제, 조성환, 기자, 삼척, 관광, 문화재단, 장호..."


In [18]:
sorted_df['한글_단어_리스트'].tolist()[:2]

[['법무부',
  '외국인',
  '행정',
  '빅데이터',
  '분석',
  '교육',
  '훈련',
  '과정',
  '운영',
  '외국인',
  '정책',
  '수립',
  '효율',
  '추진',
  '빅데이터',
  '분석',
  '전문가',
  '양성',
  '법무부',
  '외국인'],
 ['소방',
  '빅데이터',
  '분석',
  '교육',
  '훈련',
  '과정',
  '추진',
  '국가',
  '재난',
  '재해',
  '문제해결',
  '안전',
  '서비스',
  '혁신',
  '소방',
  '빅데이터',
  '전문가',
  '양성',
  '소방청',
  '소방',
  '빅데이터',
  '분석']]

In [19]:
tokenized_doc = sorted_df['한글_단어_리스트'].tolist()

In [22]:
from gensim import corpora

dictionary = corpora.Dictionary(tokenized_doc)
corpus = [dictionary.doc2bow(text) for text in tokenized_doc]

In [23]:
print(corpus[0]) # 수행된 결과에서 두번째 뉴스 출력. 첫번째 문서의 인덱스는 0

[(0, 1), (1, 1), (2, 2), (3, 2), (4, 2), (5, 1), (6, 1), (7, 3), (8, 1), (9, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1)]


In [24]:
print(dictionary[66])

이틀


In [25]:
len(dictionary)

608

In [34]:
import gensim
NUM_TOPICS = 4 # 20개의 토픽, k=5
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics = NUM_TOPICS, id2word=dictionary, passes=15)

topics = ldamodel.print_topics(num_words=5) # 5개 단어로만

for topic in topics:
    print(topic)

(0, '0.029*"빅데이터" + 0.019*"데이터" + 0.016*"대출" + 0.014*"한국" + 0.014*"위해"')
(1, '0.031*"빅데이터" + 0.014*"주제" + 0.012*"안산" + 0.012*"관광" + 0.010*"분석"')
(2, '0.026*"빅데이터" + 0.016*"뉴스" + 0.014*"관세" + 0.011*"한눈" + 0.011*"경제"')
(3, '0.062*"브랜드" + 0.060*"분석" + 0.048*"평판" + 0.046*"빅데이터" + 0.033*"결과"')


In [35]:
print(ldamodel.print_topics())

[(0, '0.029*"빅데이터" + 0.019*"데이터" + 0.016*"대출" + 0.014*"한국" + 0.014*"위해" + 0.011*"활용" + 0.010*"기자" + 0.010*"뉴스" + 0.010*"국내" + 0.008*"기업"'), (1, '0.031*"빅데이터" + 0.014*"주제" + 0.012*"안산" + 0.012*"관광" + 0.010*"분석" + 0.010*"누에섬" + 0.010*"안산시" + 0.010*"활성화" + 0.010*"시공사" + 0.010*"탄도항"'), (2, '0.026*"빅데이터" + 0.016*"뉴스" + 0.014*"관세" + 0.011*"한눈" + 0.011*"경제" + 0.011*"분석" + 0.011*"관광" + 0.010*"활용" + 0.009*"오늘" + 0.009*"교육"'), (3, '0.062*"브랜드" + 0.060*"분석" + 0.048*"평판" + 0.046*"빅데이터" + 0.033*"결과" + 0.026*"기자" + 0.026*"한국" + 0.024*"기업" + 0.020*"연구소" + 0.016*"투데이"')]


In [36]:
! pip install pyLDAvis --quiet

In [37]:
import pyLDAvis.gensim_models

pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim_models.prepare(ldamodel, corpus, dictionary)
pyLDAvis.display(vis)

In [38]:
for i, topic_list in enumerate(ldamodel[corpus]):
    if i==5:
        break
    print(i,'번째 문서의 topic 비율은',topic_list)


0 번째 문서의 topic 비율은 [(0, 0.012177437), (1, 0.012317384), (2, 0.96286905), (3, 0.012636118)]
1 번째 문서의 topic 비율은 [(0, 0.011332271), (1, 0.96540964), (2, 0.011602928), (3, 0.011655137)]
2 번째 문서의 topic 비율은 [(0, 0.012083047), (1, 0.011961728), (2, 0.01195965), (3, 0.9639956)]
3 번째 문서의 topic 비율은 [(0, 0.012830651), (1, 0.01261566), (2, 0.012549537), (3, 0.9620042)]
4 번째 문서의 topic 비율은 [(0, 0.012831687), (1, 0.01261566), (2, 0.012549536), (3, 0.9620031)]


### For further detailes, refer to https://github.com/ancestor9/bigkinds_LDA/blob/main/2022_10_keywords%20trends%20by%20LDA_topics.ipynb