<a href="https://colab.research.google.com/github/ancestor9/2025_Spring_Data-Management/blob/main/week_09/Topic_Model_Analysis.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **[Topic Model, LDA](https://wikidocs.net/30708)**
### 웹 크롤링을 통해 수집한 정보(corpus)를 대상으로 어떤 이슈가 있는 지 확인?

In [1]:
from google.colab import userdata
YOUR_SERP_API_KEY = userdata.get('serpapi')
YOUR_SERP_API_KEY[::3]

'4eabad7cdc7396b5bb5987'

In [2]:
import requests
import pandas as pd

def search_big_data_articles():
    # SerpAPI 키 (실제 사용 시 자신의 API 키로 대체해야 합니다)
    api_key = YOUR_SERP_API_KEY

    # 검색 매개변수 설정
    params = {
        "engine": "google",       # 구글 검색 엔진 사용
        "q": "빅 데이터",          # 검색어
        "api_key": YOUR_SERP_API_KEY,       # API 키
        "hl": "ko",               # 한국어 결과
        "gl": "kr",               # 한국 지역 결과
        "tbm": "nws",             # 뉴스 검색 결과만 표시
        "num": 100                 # 결과 수 (최대 100까지 가능)
    }

    # API 호출
    response = requests.get("https://serpapi.com/search", params=params)

    # 응답이 성공적인지 확인
    if response.status_code == 200:
        search_results = response.json()

        # 뉴스 기사 결과를 데이터프레임으로 변환
        if "news_results" in search_results:
            # 필요한 데이터 추출
            titles = []
            contents = []
            sources = []
            dates = []
            links = []

            for article in search_results['news_results']:
                titles.append(article['title'])
                contents.append(article.get('snippet', '내용 없음'))
                sources.append(article.get('source', '출처 없음'))
                dates.append(article.get('date', '날짜 없음'))
                links.append(article.get('link', '링크 없음'))

            # 데이터프레임 생성
            df = pd.DataFrame({
                '제목': titles,
                '내용': contents,
                '출처': sources,
                '날짜': dates,
                '링크': links
            })

            # 데이터프레임 출력 및 반환
            print(f"총 {len(df)}개의 기사를 찾았습니다.")
            print(df[['제목', '내용']].head())  # 제목과 내용만 미리보기

            # CSV 파일로 저장 (선택사항)
            df.to_csv('big_data_articles.csv', index=False, encoding='utf-8-sig')
            print("결과가 'big_data_articles.csv' 파일로 저장되었습니다.")

            return df
        else:
            print("뉴스 결과를 찾을 수 없습니다.")
            return None
    else:
        print(f"API 요청 실패: {response.status_code}")
        print(response.text)
        return None

if __name__ == "__main__":
    df = search_big_data_articles()

    # 추가 분석을 위한 데이터프레임 사용 예시
    if df is not None and not df.empty:
        # 내용의 길이를 기준으로 정렬
        df['내용_길이'] = df['내용'].apply(len)
        sorted_df = df.sort_values(by='내용_길이', ascending=False)
        print("\n내용이 가장 긴 기사 Top 3:")
        print(sorted_df[['제목', '내용']].head(3))

총 100개의 기사를 찾았습니다.
                                                  제목  \
0      이천시 국민신문고 접수민원 3만8천922건... 빅데이터 분석 통해 개선방향 도출   
1  [빅데이터로본다] 외국계금융 2025년 5월 브랜드평판... 1위 ABL생명, 2위...   
2         국립목포대 R-WeSET사업단, 빅데이터 활용 태양광 에너지 관리 교육 성료   
3                        부산소방·기상청, ‘날씨 빅데이터 콘테스트’ 개최   
4      국회빅데이터플랫폼 구축 1단계 사업수행계획 보고회...'AI국회'도약 위한 첫걸음   

                                                  내용  
0  이천시는 국민신문고를 통해 접수된 민원 3만8천922건을 빅데이터로 분석해 이를 토...  
1  [일간투데이 김민선 기자] 외국계금융 브랜드평판 2025년 5월 빅데이터 분석결과,...  
2  한눈에 보는 오늘 : 사회 - 뉴스 : 이공계 여대생 대상 교육실시…이론과 에너지관...  
3  "국민과 함께 119빅데이터로 현안 해결책 찾는다"부산소방재난본부(본부장 김조일)는...  
4  [녹색경제신문 = 문홍주 기자] 국회사무처(사무총장 김민기)는 4월 30일(수), ...  
결과가 'big_data_articles.csv' 파일로 저장되었습니다.

내용이 가장 긴 기사 Top 3:
                                                   제목  \
82  빅데이터 학생 커뮤니티 LINK Big 참여자 모집 - 전체 행사 - SNU 캘린더...   
95  KISTI, 2024년 법무부 외국인행정 빅데이터 분석 교육훈련 과정 운영 | KI...   
98  KISTI, 2024년 법무부 외국인행정 빅데이터 분석 교육훈련 과정 운영 | KI...   

                        

In [3]:
sorted_df

Unnamed: 0,제목,내용,출처,날짜,링크,내용_길이
82,빅데이터 학생 커뮤니티 LINK Big 참여자 모집 - 전체 행사 - SNU 캘린더...,"빅데이터 학생 커뮤니티 ""LINK Big"" 참여자 모집. 2025.03.25. ~ ...",서울대학교,1개월 전,https://www.snu.ac.kr/snunow/events?md=v&bbsid...,107
95,"KISTI, 2024년 법무부 외국인행정 빅데이터 분석 교육훈련 과정 운영 | KI...","KISTI, 2024년 법무부 외국인행정 빅데이터 분석 교육훈련 과정 운영. - 외...",한국과학기술정보연구원,1개월 전,https://www.kisti.re.kr/promote/post/news/6509...,102
98,"KISTI, 2024년 법무부 외국인행정 빅데이터 분석 교육훈련 과정 운영 | KI...","한국과학기술정보연구원(원장 김재수, 이하 KISTI)과 법무부는 '2024년 법무부...",한국과학기술정보연구원,1개월 전,https://www.kisti.re.kr/promote/post/news/6509...,99
93,"KISTI, 소방 빅데이터 분석 교육훈련 과정 추진 | KISTI 소식 | KIST...","KISTI, 소방 빅데이터 분석 교육훈련 과정 추진. - 국가 재난재해 문제해결과 ...",한국과학기술정보연구원,1개월 전,https://www.kisti.re.kr/promote/post/news/5753...,99
94,"KISTI, 소방 빅데이터 분석 교육훈련 과정 추진 | KISTI 소식 | KIST...","KISTI, 소방 빅데이터 분석 교육훈련 과정 추진. - 국가 재난재해 문제해결과 ...",한국과학기술정보연구원,1개월 전,https://www.kisti.re.kr/promote/post/news/5753...,99
...,...,...,...,...,...,...
16,"김포시, 제13회 김포한강마라톤 공공빅데이터분석 실시",[경기탑뉴스=한진선 기자] 김포시는 지난 4월 28일 확대간부회의에서 '제13회 김...,경기탑뉴스,3시간 전,http://www.ggtopnews.com/news/article.html?no=...,71
43,관광 빅데이터로 보니 관광지출액 팬데믹 시기로 ‘후퇴’,한국관광공사의 관광데이터랩 빅데이터를 통해 살펴본 결과 내국인의 관광 지출액이 팬데...,여행신문,3일 전,https://www.traveltimes.co.kr/news/articleView...,70
54,[빅데이터로본다] 포장재 상장기업 2025년 4월 브랜드평판... 1위 동원시스템즈...,[일간투데이 김민선 기자] 포장재 상장기업 브랜드평판 2025년 4월 빅데이터 분석...,일간투데이,1일 전,http://www.dtoday.co.kr/news/articleView.html?...,70
10,"김포시, 제13회 김포한강마라톤 공공빅데이터분석 실시",지이코노미 이창희 기자 | 김포시가 지난달 28일 확대간부회의에서 '제13회 김포한...,지이코노미,1시간 전,https://www.geconomy.co.kr/news/article.html?n...,70


In [4]:
!pip install konlpy --quiet

In [5]:
import re
from konlpy.tag import Okt

def extract_korean_words(df):
    # konlpy의 Okt 형태소 분석기 초기화
    okt = Okt()

    # 결과를 저장할 리스트 초기화
    all_words_list = []

    # 각 행의 내용에서 단어 추출
    for content in df['내용']:
        # 형태소 분석을 통해 명사 추출
        nouns = okt.nouns(content)

        # 2글자 이상의 한글 단어만 필터링
        korean_words = []
        for word in nouns:
            # 한글만 포함하는지 확인 (정규식 사용)
            if re.match(r'^[가-힣]{2,}$', word):
                korean_words.append(word)

        # 현재 행의 단어 리스트를 전체 리스트에 추가
        all_words_list.append(korean_words)

    return all_words_list

# 기존 코드에서 이어서...
if __name__ == "__main__":
    df = search_big_data_articles()

    if df is not None and not df.empty:
        # 내용의 길이를 기준으로 정렬
        df['내용_길이'] = df['내용'].apply(len)
        sorted_df = df.sort_values(by='내용_길이', ascending=False)

        # 2글자 이상 한글 단어 추출
        korean_words_by_row = extract_korean_words(sorted_df)

        # 결과 확인
        print("\n각 행별 2글자 이상 한글 단어 목록:")
        for i, words in enumerate(korean_words_by_row[:5], 1):  # 처음 5개 행만 출력
            print(f"행 {i}: {words}")

        # 데이터프레임에 추출된 단어 리스트 열 추가
        sorted_df['한글_단어_리스트'] = korean_words_by_row

        # 단어 리스트가 추가된 데이터프레임의 일부 출력
        print("\n단어 리스트가 추가된 데이터프레임 미리보기:")
        print(sorted_df[['제목', '내용', '한글_단어_리스트']].head())

총 100개의 기사를 찾았습니다.
                                                  제목  \
0      이천시 국민신문고 접수민원 3만8천922건... 빅데이터 분석 통해 개선방향 도출   
1  [빅데이터로본다] 외국계금융 2025년 5월 브랜드평판... 1위 ABL생명, 2위...   
2         국립목포대 R-WeSET사업단, 빅데이터 활용 태양광 에너지 관리 교육 성료   
3                        부산소방·기상청, ‘날씨 빅데이터 콘테스트’ 개최   
4      국회빅데이터플랫폼 구축 1단계 사업수행계획 보고회...'AI국회'도약 위한 첫걸음   

                                                  내용  
0  이천시는 국민신문고를 통해 접수된 민원 3만8천922건을 빅데이터로 분석해 이를 토...  
1  [일간투데이 김민선 기자] 외국계금융 브랜드평판 2025년 5월 빅데이터 분석결과,...  
2  한눈에 보는 오늘 : 사회 - 뉴스 : 이공계 여대생 대상 교육실시…이론과 에너지관...  
3  "국민과 함께 119빅데이터로 현안 해결책 찾는다"부산소방재난본부(본부장 김조일)는...  
4  [녹색경제신문 = 문홍주 기자] 국회사무처(사무총장 김민기)는 4월 30일(수), ...  
결과가 'big_data_articles.csv' 파일로 저장되었습니다.

각 행별 2글자 이상 한글 단어 목록:
행 1: ['빅데이터', '학생', '커뮤니티', '참여자', '모집', '빅데이터', '혁신', '융합', '대학', '사업', '학생', '커뮤니티', '참여자', '모집']
행 2: ['법무부', '외국인', '행정', '빅데이터', '분석', '교육', '훈련', '과정', '운영', '외국인', '정책', '수립', '효율', '추진', '빅데이터', '분석', '전문가', '양성', '법무부', '외국인']
행 3: ['한국', '과

In [6]:
sorted_df

Unnamed: 0,제목,내용,출처,날짜,링크,내용_길이,한글_단어_리스트
82,빅데이터 학생 커뮤니티 LINK Big 참여자 모집 - 전체 행사 - SNU 캘린더...,"빅데이터 학생 커뮤니티 ""LINK Big"" 참여자 모집. 2025.03.25. ~ ...",서울대학교,1개월 전,https://www.snu.ac.kr/snunow/events?md=v&bbsid...,107,"[빅데이터, 학생, 커뮤니티, 참여자, 모집, 빅데이터, 혁신, 융합, 대학, 사업..."
95,"KISTI, 2024년 법무부 외국인행정 빅데이터 분석 교육훈련 과정 운영 | KI...","KISTI, 2024년 법무부 외국인행정 빅데이터 분석 교육훈련 과정 운영. - 외...",한국과학기술정보연구원,1개월 전,https://www.kisti.re.kr/promote/post/news/6509...,102,"[법무부, 외국인, 행정, 빅데이터, 분석, 교육, 훈련, 과정, 운영, 외국인, ..."
98,"KISTI, 2024년 법무부 외국인행정 빅데이터 분석 교육훈련 과정 운영 | KI...","한국과학기술정보연구원(원장 김재수, 이하 KISTI)과 법무부는 '2024년 법무부...",한국과학기술정보연구원,1개월 전,https://www.kisti.re.kr/promote/post/news/6509...,99,"[한국, 과학기술, 정보, 연구원, 원장, 김재수, 이하, 법무부, 법무부, 외국인..."
93,"KISTI, 소방 빅데이터 분석 교육훈련 과정 추진 | KISTI 소식 | KIST...","KISTI, 소방 빅데이터 분석 교육훈련 과정 추진. - 국가 재난재해 문제해결과 ...",한국과학기술정보연구원,1개월 전,https://www.kisti.re.kr/promote/post/news/5753...,99,"[소방, 빅데이터, 분석, 교육, 훈련, 과정, 추진, 국가, 재난, 재해, 문제해..."
94,"KISTI, 소방 빅데이터 분석 교육훈련 과정 추진 | KISTI 소식 | KIST...","KISTI, 소방 빅데이터 분석 교육훈련 과정 추진. - 국가 재난재해 문제해결과 ...",한국과학기술정보연구원,1개월 전,https://www.kisti.re.kr/promote/post/news/5753...,99,"[소방, 빅데이터, 분석, 교육, 훈련, 과정, 추진, 국가, 재난, 재해, 문제해..."
...,...,...,...,...,...,...,...
16,"김포시, 제13회 김포한강마라톤 공공빅데이터분석 실시",[경기탑뉴스=한진선 기자] 김포시는 지난 4월 28일 확대간부회의에서 '제13회 김...,경기탑뉴스,3시간 전,http://www.ggtopnews.com/news/article.html?no=...,71,"[경기, 뉴스, 진선, 기자, 김포시, 지난, 확대, 간부, 회의, 김포, 한강, ..."
43,관광 빅데이터로 보니 관광지출액 팬데믹 시기로 ‘후퇴’,한국관광공사의 관광데이터랩 빅데이터를 통해 살펴본 결과 내국인의 관광 지출액이 팬데...,여행신문,3일 전,https://www.traveltimes.co.kr/news/articleView...,70,"[한국, 관광, 공사, 관광, 데이터, 빅데이터, 통해, 결과, 관광, 지출, 팬데..."
54,[빅데이터로본다] 포장재 상장기업 2025년 4월 브랜드평판... 1위 동원시스템즈...,[일간투데이 김민선 기자] 포장재 상장기업 브랜드평판 2025년 4월 빅데이터 분석...,일간투데이,1일 전,http://www.dtoday.co.kr/news/articleView.html?...,70,"[일간, 투데이, 김민선, 기자, 포장재, 상장, 기업, 브랜드, 평판, 빅데이터,..."
10,"김포시, 제13회 김포한강마라톤 공공빅데이터분석 실시",지이코노미 이창희 기자 | 김포시가 지난달 28일 확대간부회의에서 '제13회 김포한...,지이코노미,1시간 전,https://www.geconomy.co.kr/news/article.html?n...,70,"[노미, 이창희, 기자, 김포시, 지난달, 확대, 간부, 회의, 김포, 한강, 마라..."


In [7]:
sorted_df['한글_단어_리스트']

Unnamed: 0,한글_단어_리스트
82,"[빅데이터, 학생, 커뮤니티, 참여자, 모집, 빅데이터, 혁신, 융합, 대학, 사업..."
95,"[법무부, 외국인, 행정, 빅데이터, 분석, 교육, 훈련, 과정, 운영, 외국인, ..."
98,"[한국, 과학기술, 정보, 연구원, 원장, 김재수, 이하, 법무부, 법무부, 외국인..."
93,"[소방, 빅데이터, 분석, 교육, 훈련, 과정, 추진, 국가, 재난, 재해, 문제해..."
94,"[소방, 빅데이터, 분석, 교육, 훈련, 과정, 추진, 국가, 재난, 재해, 문제해..."
...,...
16,"[경기, 뉴스, 진선, 기자, 김포시, 지난, 확대, 간부, 회의, 김포, 한강, ..."
43,"[한국, 관광, 공사, 관광, 데이터, 빅데이터, 통해, 결과, 관광, 지출, 팬데..."
54,"[일간, 투데이, 김민선, 기자, 포장재, 상장, 기업, 브랜드, 평판, 빅데이터,..."
10,"[노미, 이창희, 기자, 김포시, 지난달, 확대, 간부, 회의, 김포, 한강, 마라..."


In [8]:
sorted_df['한글_단어_리스트'].tolist()[:2]

[['빅데이터',
  '학생',
  '커뮤니티',
  '참여자',
  '모집',
  '빅데이터',
  '혁신',
  '융합',
  '대학',
  '사업',
  '학생',
  '커뮤니티',
  '참여자',
  '모집'],
 ['법무부',
  '외국인',
  '행정',
  '빅데이터',
  '분석',
  '교육',
  '훈련',
  '과정',
  '운영',
  '외국인',
  '정책',
  '수립',
  '효율',
  '추진',
  '빅데이터',
  '분석',
  '전문가',
  '양성',
  '법무부',
  '외국인']]

In [9]:
tokenized_doc = sorted_df['한글_단어_리스트'].tolist()

In [13]:
# NumPy를 완전히 제거하고 다시 설치
!pip uninstall -y numpy
!pip install numpy==1.24.4  # 더 안정적인 버전 설치

# gensim 다시 설치
!pip install gensim --quiet

# 파이썬 환경 재시작이 필요할 수 있음 (코랩에서는 런타임 재시작 필요)

Found existing installation: numpy 1.26.4
Uninstalling numpy-1.26.4:
  Successfully uninstalled numpy-1.26.4
Collecting numpy==1.24.4
  Downloading numpy-1.24.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (5.6 kB)
Downloading numpy-1.24.4-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (17.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m17.3/17.3 MB[0m [31m98.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: numpy
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
thinc 8.3.6 requires numpy<3.0.0,>=2.0.0, but you have numpy 1.24.4 which is incompatible.
jax 0.5.2 requires numpy>=1.25, but you have numpy 1.24.4 which is incompatible.
blosc2 3.3.1 requires numpy>=1.26, but you have numpy 1.24.4 which is incompatible.
treescope 0.1.9 requires numpy>=1.25.2, but you have numpy 1.24.4 whic

In [10]:
from gensim import corpora

dictionary = corpora.Dictionary(tokenized_doc)
corpus = [dictionary.doc2bow(text) for text in tokenized_doc]

In [11]:
print(corpus[0]) # 수행된 결과에서 두번째 뉴스 출력. 첫번째 문서의 인덱스는 0

[(0, 1), (1, 2), (2, 2), (3, 1), (4, 1), (5, 2), (6, 2), (7, 2), (8, 1)]


In [12]:
print(dictionary[66])

모든


In [13]:
len(dictionary)

582

In [14]:
import gensim
NUM_TOPICS = 4 # 20개의 토픽, k=5
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics = NUM_TOPICS, id2word=dictionary, passes=15)

topics = ldamodel.print_topics(num_words=5) # 5개 단어로만

for topic in topics:
    print(topic)

(0, '0.033*"빅데이터" + 0.016*"데이터" + 0.016*"사업" + 0.016*"구축" + 0.016*"국회"')
(1, '0.040*"빅데이터" + 0.017*"활용" + 0.015*"관리" + 0.013*"에너지" + 0.013*"청장"')
(2, '0.076*"분석" + 0.055*"평판" + 0.050*"브랜드" + 0.049*"빅데이터" + 0.034*"결과"')
(3, '0.036*"빅데이터" + 0.028*"소방" + 0.019*"분석" + 0.013*"혁신" + 0.013*"재난"')


In [15]:
print(ldamodel.print_topics())

[(0, '0.033*"빅데이터" + 0.016*"데이터" + 0.016*"사업" + 0.016*"구축" + 0.016*"국회" + 0.015*"분석" + 0.013*"원장" + 0.012*"플랫폼" + 0.012*"기자" + 0.010*"뉴스"'), (1, '0.040*"빅데이터" + 0.017*"활용" + 0.015*"관리" + 0.013*"에너지" + 0.013*"청장" + 0.013*"프로" + 0.013*"티나" + 0.013*"한국" + 0.012*"제주" + 0.011*"지역"'), (2, '0.076*"분석" + 0.055*"평판" + 0.050*"브랜드" + 0.049*"빅데이터" + 0.034*"결과" + 0.033*"기업" + 0.030*"기자" + 0.022*"한국" + 0.019*"연구소" + 0.018*"투데이"'), (3, '0.036*"빅데이터" + 0.028*"소방" + 0.019*"분석" + 0.013*"혁신" + 0.013*"재난" + 0.011*"소방청" + 0.010*"교육" + 0.009*"국가" + 0.009*"서비스" + 0.009*"안전"')]


In [16]:
! pip install pyLDAvis --quiet

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.6/2.6 MB[0m [31m7.4 MB/s[0m eta [36m0:00:00[0m
[?25h

In [17]:
import pyLDAvis.gensim_models

pyLDAvis.enable_notebook()
vis = pyLDAvis.gensim_models.prepare(ldamodel, corpus, dictionary)
pyLDAvis.display(vis)

In [None]:
for i, topic_list in enumerate(ldamodel[corpus]):
    if i==5:
        break
    print(i,'번째 문서의 topic 비율은',topic_list)


0 번째 문서의 topic 비율은 [(0, 0.012177437), (1, 0.012317384), (2, 0.96286905), (3, 0.012636118)]
1 번째 문서의 topic 비율은 [(0, 0.011332271), (1, 0.96540964), (2, 0.011602928), (3, 0.011655137)]
2 번째 문서의 topic 비율은 [(0, 0.012083047), (1, 0.011961728), (2, 0.01195965), (3, 0.9639956)]
3 번째 문서의 topic 비율은 [(0, 0.012830651), (1, 0.01261566), (2, 0.012549537), (3, 0.9620042)]
4 번째 문서의 topic 비율은 [(0, 0.012831687), (1, 0.01261566), (2, 0.012549536), (3, 0.9620031)]


### For further detailes, refer to https://github.com/ancestor9/bigkinds_LDA/blob/main/2022_10_keywords%20trends%20by%20LDA_topics.ipynb