## [ 웹크롤링 _ 나무위키 사이트 분석 및 시각화 ]

### <Step1. 크롤링> : 크롤링으로 웹 데이터 가져오기

[웹크롤링 라이브러리 사용하기]
- 파이썬에서는 BeautifulSoup과 requests라는 라이브러리로 웹 크롤러를 만들 수 있음
- requests는 특정 URL로부터 HTML 문서를 가져오는 작업을 수행
- 나무위키와 같은 페이지는 HTML 문서가 Javascript로 동적 로딩되는 경우가 있음
- requests 대신 셀레니움(selenium) 라이브러리를 이용해 크롬 브라우저로 동적 웹크롤링 수행
- selenium은 웹 브라우저를 자동으로 구동해주는 라이브러리
- selenium을 사용하기 위해 크롬 드라이버를 이용해 크롬 브라우저 자동으로 구동=> 크롬드라이버 필요

### [BeautifulSoup과 selenium을 이용한 웹 크롤링]
- anaconda prompt 혹은 Terminal에서 아래와 같은 패키지들을 설치
- (env_name) pip install selenium
- (env_name) pip install beautifulsoup4

### [크롬 브라우저 업데이트 및 크롬 드라이버 설치]
- 크롬 브라우저 설정에서 최신 버전으로 업데이트
- 크롬 드라이버 사이트에서 브라우저 버전에 맞는 드라이버 다운로드
  - https://chromedriver.chromium.org/downloads
- chromedriver.exe 파일을 노트북 파일 경로에 이동

In [167]:
# -*- coding: utf-8 -*-

%matplotlib inline

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import warnings
warnings.filterwarnings("ignore")

### [ BeautifulSoup의 select() VS find_all() ]
- HTML의 특정 요소 선택
- select, select_one 의 경우 CSS 선택자를 이용하는 것처럼 사용 가능
- select의 경우 후손이나 자손 요소를 CSS 처럼 선택 가능
- 예) soup.select("dl > dt > a") 
- find_all, find 의 경우 하나의 태그(name="table")나 하나의 클래스(class="tables")를 선택
- find의 경우 후손이나 자손 요소를 직접 선택할 수 없어 한번 더 변수에 담든지 루프 문을 이용해야 함
- 예) find_all(class="ah_roll"), find(name="table")

In [168]:
from selenium import webdriver
from bs4 import BeautifulSoup
import re # 정규식 표현을 위한 모듈

# 윈도우용 크롬 웹드라이버 실행 경로 (Windows) 지정
excutable_path = "../chromedriver.exe"
driver = webdriver.Chrome(executable_path=excutable_path)

# 사이트의 html 구조에 기반하여 크롤링을 수행
source_url = "https://namu.wiki/RecentChanges" # 크롤링할 사이트 주소를 정의
driver.get(source_url)  # 크롬 드라이버를 통해 URL의 HTML 문서 가져옴

import time
time.sleep(10)

req = driver.page_source
soup = BeautifulSoup(req, "html.parser") # BeautifulSoup의 soup 객체로 변환

table_rows = soup.select("table tbody tr")

In [169]:
req 

'<html><head><link href="/skins/senkawa/6.0ec579cd0a387a25b691.css" rel="stylesheet"><link href="/skins/senkawa/3.46df9baa892e213c98b4.css" rel="stylesheet"><script async="" src="/cdn-cgi/bm/cv/669835187/api.js"></script><style type="text/css">.resize-observer[data-v-b329ee4c]{position:absolute;top:0;left:0;z-index:-1;width:100%;height:100%;border:none;background-color:transparent;pointer-events:none;display:block;overflow:hidden;opacity:0}.resize-observer[data-v-b329ee4c] object{display:block;position:absolute;top:0;left:0;height:100%;width:100%;overflow:hidden;pointer-events:none;z-index:-1}</style><link rel="stylesheet" type="text/css" href="/skins/senkawa/10.226fe93447f90a28fbe5.css"><script charset="utf-8" src="/skins/senkawa/10.226fe93447f90a28fbe5.js"></script><title>최근 변경내역 - 나무위키</title><link data-n-head="1" rel="canonical" href="https://namu.wiki/RecentChanges"><link data-n-head="1" rel="search" type="application/opensearchdescription+xml" title="나무위키" href="/opensearch.xml">

In [170]:
soup

<html><head><link href="/skins/senkawa/6.0ec579cd0a387a25b691.css" rel="stylesheet"/><link href="/skins/senkawa/3.46df9baa892e213c98b4.css" rel="stylesheet"/><script async="" src="/cdn-cgi/bm/cv/669835187/api.js"></script><style type="text/css">.resize-observer[data-v-b329ee4c]{position:absolute;top:0;left:0;z-index:-1;width:100%;height:100%;border:none;background-color:transparent;pointer-events:none;display:block;overflow:hidden;opacity:0}.resize-observer[data-v-b329ee4c] object{display:block;position:absolute;top:0;left:0;height:100%;width:100%;overflow:hidden;pointer-events:none;z-index:-1}</style><link href="/skins/senkawa/10.226fe93447f90a28fbe5.css" rel="stylesheet" type="text/css"/><script charset="utf-8" src="/skins/senkawa/10.226fe93447f90a28fbe5.js"></script><title>최근 변경내역 - 나무위키</title><link data-n-head="1" href="https://namu.wiki/RecentChanges" rel="canonical"/><link data-n-head="1" href="/opensearch.xml" rel="search" title="나무위키" type="application/opensearchdescription+xm

In [171]:
table_rows

[<tr class="" data-v-4406da71=""><td data-v-4406da71=""><a data-v-4406da71="" href="/w/%EC%97%91%EC%8B%9C">엑시</a> <a data-v-4406da71="" href="/history/%EC%97%91%EC%8B%9C">[역사]</a> <a data-v-4406da71="" href="/diff/%EC%97%91%EC%8B%9C?rev=761&amp;oldrev=760">[비교]</a> <a data-v-4406da71="" href="/discuss/%EC%97%91%EC%8B%9C">[토론]</a> <span data-v-4406da71="">(<span class="Qrw41Yae" data-v-4406da71="" data-v-6cbb5b59="">-8</span>)</span></td> <td data-v-4406da71=""><div class="v-popover" data-v-4406da71="" data-v-4bffae11=""><div aria-describedby="popover_slqwci09ve" class="trigger" style="display: inline-block;"><a data-v-4bffae11="">121.143.62.59</a> </div> </div> <!-- --></td> <td data-v-4406da71=""><time data-v-4406da71="" datetime="2022-01-20T05:33:49.000Z">2022-01-20 14:33:49</time></td></tr>,
 <tr class="" data-v-4406da71=""><td data-v-4406da71=""><a data-v-4406da71="" href="/w/%EB%A7%90%ED%8B%B0%EC%97%98(%ED%9E%88%EC%96%B4%EB%A1%9C%EC%A6%88%20%EC%98%A4%EB%B8%8C%20%EB%8D%94%20%EC%8A%

In [172]:
len(table_rows)

103

### [페이지 링크주소 리스트 가져오기]

In [173]:
page_url_base = "https://namu.wiki" # 베이스 URL 정의
page_urls = [] # href 속성값을 담기 위한 빈 리스트 생성 

for index in range(0, len(table_rows)):
    first_td = table_rows[index].find_all("td")[0]
    td_url = first_td.find_all("a")
    if len(td_url) > 0:
        # 특정 속성 선택시 attrs["속성명"] 또는 get("속성명") 사용
        # page_url = page_url_base + td_url[0].get("href")
        # attrs는 딕셔너리 형태로 속성명과 속성값을 불러옴
        # attrs["href"]는 attrs 결과 중 key가 href인 것의 값만 불러옴
        page_url = page_url_base + td_url[0].attrs["href"] 
        if "png" not in page_url:
            page_urls.append(page_url)
            print(page_urls)

['https://namu.wiki/w/%EC%97%91%EC%8B%9C']
['https://namu.wiki/w/%EC%97%91%EC%8B%9C', 'https://namu.wiki/w/%EB%A7%90%ED%8B%B0%EC%97%98(%ED%9E%88%EC%96%B4%EB%A1%9C%EC%A6%88%20%EC%98%A4%EB%B8%8C%20%EB%8D%94%20%EC%8A%A4%ED%86%B0)']
['https://namu.wiki/w/%EC%97%91%EC%8B%9C', 'https://namu.wiki/w/%EB%A7%90%ED%8B%B0%EC%97%98(%ED%9E%88%EC%96%B4%EB%A1%9C%EC%A6%88%20%EC%98%A4%EB%B8%8C%20%EB%8D%94%20%EC%8A%A4%ED%86%B0)', 'https://namu.wiki/w/%EC%82%BC%EA%B5%AD%EC%A7%80%206']
['https://namu.wiki/w/%EC%97%91%EC%8B%9C', 'https://namu.wiki/w/%EB%A7%90%ED%8B%B0%EC%97%98(%ED%9E%88%EC%96%B4%EB%A1%9C%EC%A6%88%20%EC%98%A4%EB%B8%8C%20%EB%8D%94%20%EC%8A%A4%ED%86%B0)', 'https://namu.wiki/w/%EC%82%BC%EA%B5%AD%EC%A7%80%206', 'https://namu.wiki/w/2022%20LoL%20Champions%20Korea%20Spring/2%EC%A3%BC%EC%B0%A8']
['https://namu.wiki/w/%EC%97%91%EC%8B%9C', 'https://namu.wiki/w/%EB%A7%90%ED%8B%B0%EC%97%98(%ED%9E%88%EC%96%B4%EB%A1%9C%EC%A6%88%20%EC%98%A4%EB%B8%8C%20%EB%8D%94%20%EC%8A%A4%ED%86%B0)', 'https://namu.wiki/w

In [174]:
td_url[0].attrs

{'data-v-4406da71': '',
 'href': '/w/%EB%9D%BC%EC%8A%A4%ED%8B%B0%EC%B9%B4(%EB%A7%88%EB%B2%95%EC%82%AC%EC%9D%98%20%EC%95%BD%EC%86%8D)'}

In [175]:
page_urls

['https://namu.wiki/w/%EC%97%91%EC%8B%9C',
 'https://namu.wiki/w/%EB%A7%90%ED%8B%B0%EC%97%98(%ED%9E%88%EC%96%B4%EB%A1%9C%EC%A6%88%20%EC%98%A4%EB%B8%8C%20%EB%8D%94%20%EC%8A%A4%ED%86%B0)',
 'https://namu.wiki/w/%EC%82%BC%EA%B5%AD%EC%A7%80%206',
 'https://namu.wiki/w/2022%20LoL%20Champions%20Korea%20Spring/2%EC%A3%BC%EC%B0%A8',
 'https://namu.wiki/w/%EA%B7%B8%20%EB%B9%84%EC%8A%A4%ED%81%AC%20%EB%8F%8C%EC%9D%80%20%EC%82%AC%EB%9E%91%EC%9D%84%20%ED%95%9C%EB%8B%A4',
 'https://namu.wiki/w/%EC%B2%AD%EB%85%84%EC%9D%98%EA%BF%88',
 'https://namu.wiki/w/%EC%B4%9D%EB%AA%87%EB%AA%85/%EC%98%81%EC%83%81%20%EB%AA%A9%EB%A1%9D',
 'https://namu.wiki/w/%EB%AC%B4%EC%A2%80',
 'https://namu.wiki/w/%ED%9E%90%EB%A7%81%EA%B5%BF%E2%99%A1%20%ED%94%84%EB%A6%AC%ED%81%90%EC%96%B4/%ED%8F%89%EA%B0%80',
 'https://namu.wiki/w/%EB%82%98%EC%B9%B4%EC%A7%80%EB%A7%88%20%ED%9E%88%EB%A1%9C%EC%9C%A0%ED%82%A4',
 'https://namu.wiki/w/It%20Takes%20Two',
 'https://namu.wiki/w/NoCopyrightSounds',
 'https://namu.wiki/w/%ED%98%9C%EC%95%8

### [각 링크 페이지내 텍스트 구조를 확인하여 제목, 카테고리, 내용 출력]

In [176]:
# 윈도우용 크롬 웹드라이버 실행 경로 (Windows) 지정
excutable_path = "../chromedriver.exe"
driver = webdriver.Chrome(executable_path=excutable_path)
# 크롬 드라이버를 통해 page_urls[0]번째 사이트의 HTML 문서 가져옴
driver.get(page_urls[0])  # page_urls[0] 의 정보를 가져옴
req = driver.page_source # 페이지 소스를 req에 저장
soup = BeautifulSoup(req, 'html.parser') # html.parser로 파싱
contents_table = soup.find(name="article") #  불러온 소스에서 태그명이 article인 요소 하나만 추출

### 타이틀 추출
title = contents_table.find_all('h1')[0] # 태그명이 h1인 모든 태그 추출, article h1

### 카테고리 추출
category = contents_table.find_all('ul')[0]

### 내용 추출
#contents_table.find_all(name="div", attrs={"class":"wiki-paragraph"})  
#div  태그 중  class 속성값이  wiki-paragraph인 요소를 추출
content_paragraphs = contents_table.select("div.wiki-paragraph")  

#  내용으로 추출한 리스트를 하나의 문자열로 전처리
content_corpus_list = [] # 내용 중 텍스트만 담을 빈 리스트 생성
# content_paragraphs 리스트의 값을 순서대로 paragraphs에 대입
for paragraphs in content_paragraphs: # content_paragraphs 리스트의 값을 순서대로 paragraphs에 대입
    content_corpus_list.append(paragraphs.text)  # 가져온 결과 태그 중 텍스트만 추출하여 content_corpus_list에 추가
content_corpus =" ".join(content_corpus_list) #"텍스트".join(리스트명) => 리스트의 요소를 "텍스트"로 구분하여 하나의 문자열로 만듦

print(title.text) # 제목 출력
print("\n")
print(category.text) # 카테고리 출력
print("\n")
print(content_corpus) # 내용 출력

# 크롤링에 사용한 브라우저를 종료합니다.
driver.close()

엑시 


우주소녀한국의 여성 래퍼대한민국의 개신교 신자1995년 출생금정구 출신 인물양산시 출신 인물아이돌 리더아이돌 래퍼2016년 데뷔서울공연예술고등학교 출신동덕여자대학교 출신언프리티 랩스타/참가자다중 합의/214


   은(는) 여기로 연결됩니다. 케이브 개발 슈팅게임 돈파치 시리즈에 대한 내용은 엑시(돈파치) 문서를의 번 문단을의  부분을, 블루홀 개발 모바일게임에 대한 내용은 X Agency 문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 참고하십시오. 설아선의보나엑시수빈루다다원은서성소미기여름다영연정 [ 유닛 목록 ]수빈루다여름다영설아보나엑시은서 [ 음반 목록 ]WOULD YOU LIKE?THE SECRETFrom. 우주소녀HAPPY MOMENT미니 1집 2016/02/25미니 2집 2016/08/17미니 3집 2017/01/04정규 1집 2017/06/07Dream your dreamWJ PLEASE?WJ STAY?For the Summer미니 4집 2018/02/27미니 5집 2018/09/19미니 6집 2019/01/08스페셜 앨범 2019/06/04As You Wish NeverlandUNNATURAL미니 7집 2019/11/19미니 8집 2020/06/09미니 9집 2021/03/31 [ 참여 음반 ]<불후의 명곡 - 전설을 노래하다> - 작곡가 이범희 편KI

### [각각 링크 페이지를 크롤링하여 제목, 카테고리, 내용 출력]

In [177]:
# 크롤링한 데이터를 데이터 프레임으로 만들기 위해 준비
columns = ["title", "category", "content_text"]
df = pd.DataFrame(columns=columns)

#for page_url in page_urls:
for i in range(10):
    # 윈도우용 크롬 웹드라이버 실행 경로 (Windows) 지정
    excutable_path = "../chromedriver.exe"
    driver = webdriver.Chrome(executable_path=excutable_path)
    # 크롬 드라이버를 통해 page_urls[0]번째 사이트의 HTML 문서 가져옴
    #driver.get(page_url)  # page_urls[i],  page_url의 정보를 가져옴
    driver.get(page_urls[i])  # page_urls[i],  page_url의 정보를 가져옴
    req = driver.page_source # 페이지 소스를 req에 저장
    soup = BeautifulSoup(req, 'html.parser') # html.parser로 파싱
    contents_table = soup.find(name="article") #  불러온 소스에서 태그명이 article인 요소 하나만 추출

    ### 타이틀 추출
    title = contents_table.find_all('h1')[0] # 태그명이 h1인 모든 태그 추출, article h1
    if title is not None:
        row_title = title.text.replace("\n", " ")
    else:
        row_title = ""
        
    ### 카테고리 추출
    # 카테고리 정보가 없는 경우를 확인합니다.
    if len(contents_table.find_all("ul")) > 0: # article ul 로 검색한 결과 여러 ul 결과가 나올 경우
        category = contents_table.find_all("ul")[0] # 제일 첫번째 article ul 을 category로 설정
    else:
        category = None
        
    if category is not None:
        row_category = category.text.replace("\n", " ")
    else:
        row_category = ""

    ### 내용 추출
    #contents_table.find_all(name="div", attrs={"class":"wiki-paragraph"})  
    #div  태그 중  class 속성값이  wiki-paragraph인 요소를 추출
    content_paragraphs = contents_table.select("div.wiki-paragraph")  
    #  내용으로 추출한 리스트를 하나의 문자열로 전처리
    content_corpus_list = [] # 내용 중 텍스트만 담을 빈 리스트 생성
    
    # content_paragraphs 리스트의 값을 순서대로 paragraphs에 대입
    if content_paragraphs is not None:
        for paragraphs in content_paragraphs:
            if paragraphs is not None:
                content_corpus_list.append(paragraphs.text.replace("\n", " "))
            else:
                content_corpus_list.append("")
    else:
        content_corpus_list.append("")

    # 모든 정보를 하나의 데이터 프레임에 저장하기 위해서 시리즈 생성
    # 각 페이지의 정보를 추출하여 제목, 카테고리, 내용 순으로 행을 생성
    row = [row_title, row_category, "".join(content_corpus_list)]
    # 시리즈로 만듦
    series = pd.Series(row, index=df.columns)
    # 데이터 프레임에 시리즈를 추가, 한 페이지 당 하나의 행 추가
    df = df.append(series, ignore_index=True)
    
    # 크롤링에 사용한 브라우저를 종료합니다.
    #driver.close()
df

Unnamed: 0,title,category,content_text
0,엑시,우주소녀한국의 여성 래퍼대한민국의 개신교 신자1995년 출생금정구 출신 인물양산시 ...,은(는) 여기로 연결됩니다. 케이브 개발 슈팅게임 돈파치 시리즈에 대한 내용은...
1,말티엘(히어로즈 오브 더 스톰),히어로즈 오브 더 스톰/영웅,은(는) 여기로 연결됩니다. 원작의 말티엘에 대한 내용은 말티엘 문서를의 번 ...
2,삼국지 6,삼국지 6,[ 펼치기 · 접기 ]본편1 · 2 · 3 · 4 · 5 · 6 · 7* · 8...
3,2022 LoL Champions Korea Spring/2주차,2022 LoL Champions Korea Spring,로그인 후 편집 가능한 문서입니다. 상위 문서: 2022 LoL Champ...
4,그 비스크 돌은 사랑을 한다,그 비스크 돌은 사랑을 한다일본 만화/목록,등장인물 ◍ 발매 현황 ◍ 애니메이션그 비스크 돌은 사랑을 한다その着せ替え人形は恋を...
5,청년의꿈,청년의꿈,은(는) 여기로 연결됩니다. 국민의힘의 청년 조직에 대한 내용은 청년의힘 문서...
6,총몇명/영상 목록,총몇명,상위 문서: 총몇명1. 개요2. 시즌 1 세계관2.1. 총몇명 스토리(종영)2...
7,무좀,피부계 관련 질환 및 증상발진균성 질병,"무좀균Tinea이명: 백선균tinea pedis[1]병명: 무좀, 백선 Tricho..."
8,힐링굿♡ 프리큐어/평가,힐링굿♡ 프리큐어프리큐어 시리즈/평가,상위 문서: 힐링굿♡ 프리큐어1. 개요2. 스토리 및 캐릭터2.1. 긍정적인 ...
9,나카지마 히로유키,일본의 야구 선수1982년 출생외야수내야수지명타자우투우타이타미시 출신 인물사이타마 ...,나카지마 히로유키의 수상 경력 / 역대 등번호 [ 펼치기 · 접기 ] NPB 일본시...


###  [명사만을 추출하여 워드 클라우드 그리기]
### [코엔엘파이(konply)를 이용한 형태소 분석]

- 품사란 단어를 기능, 형태, 의미에 따라 나눈갈래
- 우리나라의 학교 문법에서는 명사, 대명사, 수사, 조사, 동사, 형용사, 관형사, 부사, 감탄사의 아홉 가지로 분류

### [형태소 분석과 품사태깅]
- 형태소 : 더 이상 분리를 할 수 없는 의미를 갖는 최소 단어를 의미
- 형태소 분석 : 형태소를 비롯하여, 어근, 접두사/접미사/ 품사(POS, part-of-speech)등 다양한 언어적 속성의 구조를 파악하는 것
- 품사 태깅 : 행태소와 품사를 매칭시키는 것

### [빈도 분석: 문장 형태소 분석 - KoNLPy]
- KoNLPy : 파이썬 한국어 형태소 분석 라이브러리

### <Step2. 추출> : 키워드 추출
### [텍스트 데이터 전처리] 정규식을 사용하여 한글과 띄어쓰기만 가져오기
### 파이썬 정규표현식(re)사용법 - 05 . 주석, 치환, 분리
- 정규표현식: 컴파일 => re.complile , 컴파일을 미리 해두고 이를 저장
- 정규표현식: 치환    => re.sub(pattern, repl, string, count, flags)

In [178]:
# 한글 코드 범위
# ㄱ ~ ㅎ : 0x3131 ~ 0x314e
# ㅏ ~ ㅣ : 0x314f ~ 0x3163
# 가 ~ 힣 : 0xac00 ~ 0xd7a3
# [^ ㄱ-ㅣ 가-힣] 한글과 띄어쓰기의 정규식 패턴
# 사용자 정의 함수 선언
def text_cleaning(text):
    # 한글과 띄어쓰기를 제외한 모든 글자 패턴을 지정하여 hangul로 정의
    hangul = re.compile('[^ ㄱ-ㅣ 가-힣]+')
    result = hangul.sub('', text) # 한글과 띄어쓰기를 제외한 모든 글자 패턴을 '' 빈 문자로 치환
    return result
def hangul_cleaning(text):
    nohangul = re.compile('[ ㄱ-ㅣ 가-힣]+')
    result2 = nohangul.sub('', text) # 한글과 띄어쓰기를 포함한 모든 글자 패턴을 '' 빈 문자로 치환
    return result2

In [179]:
df['title'][0]

'엑시 '

In [180]:
print(text_cleaning(df['title'][0]))

엑시 


In [181]:
print(text_cleaning(df['category'][0]))

우주소녀한국의 여성 래퍼대한민국의 개신교 신자년 출생금정구 출신 인물양산시 출신 인물아이돌 리더아이돌 래퍼년 데뷔서울공연예술고등학교 출신동덕여자대학교 출신언프리티 랩스타참가자다중 합의


In [182]:
df['content_text'][0]

' \xa0 은(는) 여기로 연결됩니다. 케이브 개발 슈팅게임 돈파치 시리즈에 대한 내용은 엑시(돈파치) 문서를의 번 문단을의  부분을, 블루홀 개발 모바일게임에 대한 내용은 X Agency 문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을, 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 참고하십시오.설아선의보나엑시수빈루다다원은서성소미기여름다영연정 [ 유닛 목록 ]수빈루다여름다영설아보나엑시은서 [ 음반 목록 ]WOULD YOU LIKE?THE SECRETFrom. 우주소녀HAPPY MOMENT미니 1집 2016/02/25미니 2집 2016/08/17미니 3집 2017/01/04정규 1집 2017/06/07Dream your dreamWJ PLEASE?WJ STAY?For the Summer미니 4집 2018/02/27미니 5집 2018/09/19미니 6집 2019/01/08스페셜 앨범 2019/06/04As You Wish NeverlandUNNATURAL미니 7집 2019/11/19미니 8집 2020/06/09미니 9집 2021/03/31 [ 참여 음반 ]<불후의 명곡 - 전설을 노래하다> - 작곡가 이범희 편KISS MESTARSHIP PLANET 2017투유 프로젝트 - 슈가맨2 Part.8컴필레이션 2016/10/29디지털 싱글 2017/07/14프로젝트 싱글 2017/12/08컴필레이션 2018/03/12STARSHIP

In [183]:
print(text_cleaning(df['content_text'][0]))

  은는 여기로 연결됩니다 케이브 개발 슈팅게임 돈파치 시리즈에 대한 내용은 엑시돈파치 문서를의 번 문단을의  부분을 블루홀 개발 모바일게임에 대한 내용은   문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 참고하십시오설아선의보나엑시수빈루다다원은서성소미기여름다영연정  유닛 목록 수빈루다여름다영설아보나엑시은서  음반 목록     우주소녀 미니 집 미니 집 미니 집 정규 집       미니 집 미니 집 미니 집 스페셜 앨범    미니 집 미니 집 미니 집   참여 음반 불후의 명곡  전설을 노래하다  작곡가 이범희 편   투유 프로젝트  슈가맨 컴필레이션 디지털 싱글 프로젝트 싱글 컴필레이션      우주소녀너의 세계로  프로젝트 싱글 디지털 싱글 디지털 싱글   관련 문서 음반노래방 수록곡활동 우정우주소녀 갤러리응원법굿즈우주  소녀우소보쇼설아선의보나엑시수빈루다다원은서성소미기여름다영연정  유닛 목록 수빈루다여름다영설아보나엑시은서  음반 목록     우주소녀 미니 집 미니 집 미니 집 정규 집       미니 집 미니 집 미니 집 스페셜 앨범    미니 집 미니 집 미니 집   참여 음반 불후의 명곡  전설을 노래하다  작곡가 이범희 편   투유 프로젝트  슈가맨 컴필레이션 디지털 싱글 프로젝트 싱글 컴필레이션      우주소녀너의 세계로  프로젝트 싱글 디지털 싱글 디지털 싱글   관련 문서 음반

In [184]:
print(hangul_cleaning(df['content_text'][0]))

 ().(),XAgency,,,,,,,,.[][]WOULDYOULIKE?THESECRETFrom.HAPPYMOMENT12016/02/2522016/08/1732017/01/0412017/06/07DreamyourdreamWJPLEASE?WJSTAY?FortheSummer42018/02/2752018/09/1962019/01/082019/06/04AsYouWishNeverlandUNNATURAL72019/11/1982020/06/0992021/03/31[]<->-KISSMESTARSHIPPLANET2017-2Part.82016/10/292017/07/142017/12/082018/03/12STARSHIPPLANET2018it'sLiveX(LetMeIn)2018/12/052021/07/082021/09/23[]VLIVELIKE[][]WOULDYOULIKE?THESECRETFrom.HAPPYMOMENT12016/02/2522016/08/1732017/01/0412017/06/07DreamyourdreamWJPLEASE?WJSTAY?FortheSummer42018/02/2752018/09/1962019/01/082019/06/04AsYouWishNeverlandUNNATURAL72019/11/1982020/06/0992021/03/31[]<->-KISSMESTARSHIPPLANET2017-2Part.82016/10/292017/07/142017/12/082018/03/12STARSHIPPLANET2018it'sLiveX(LetMeIn)2018/12/052021/07/082021/09/23[]VLIVELIKEWOULDYOULIKE?THESECRETFrom.HAPPYMOMENT12016/02/2522016/08/1732017/01/0412017/06/07DreamyourdreamWJPLEASE?WJSTAY?FortheSummer42018/02/2752018/09/1962019/01/082019/06/04AsYouWishNeverlandUNNATURAL72019/11/19

In [185]:
# 각 피처마다 데이터 전처리를 적용
df['title'] = df['title'].apply(lambda x: text_cleaning(x))
df['category'] = df['category'].apply(lambda x: text_cleaning(x))
df['content_text'] = df['content_text'].apply(lambda x: text_cleaning(x))
df.head(10)

Unnamed: 0,title,category,content_text
0,엑시,우주소녀한국의 여성 래퍼대한민국의 개신교 신자년 출생금정구 출신 인물양산시 출신 인...,은는 여기로 연결됩니다 케이브 개발 슈팅게임 돈파치 시리즈에 대한 내용은 엑시돈...
1,말티엘히어로즈 오브 더 스톰,히어로즈 오브 더 스톰영웅,은는 여기로 연결됩니다 원작의 말티엘에 대한 내용은 말티엘 문서를의 번 문단을의...
2,삼국지,삼국지,펼치기 접기 본편 장수제 시...
3,주차,,로그인 후 편집 가능한 문서입니다 상위 문서 정규시즌 경기...
4,그 비스크 돌은 사랑을 한다,그 비스크 돌은 사랑을 한다일본 만화목록,등장인물 발매 현황 애니메이션그 비스크 돌은 사랑을 한다 장르러브 코미디 코스...
5,청년의꿈,청년의꿈,은는 여기로 연결됩니다 국민의힘의 청년 조직에 대한 내용은 청년의힘 문서를의 번...
6,총몇명영상 목록,총몇명,상위 문서 총몇명 개요 시즌 세계관 총몇명 스토리종영 총몇명 프리퀄종영 지옥에...
7,무좀,피부계 관련 질환 및 증상발진균성 질병,무좀균이명 백선균 병명 무좀 백선 분류계균계문자낭균문강눈꽃동충하초강목흰가시동...
8,힐링굿 프리큐어평가,힐링굿 프리큐어프리큐어 시리즈평가,상위 문서 힐링굿 프리큐어 개요 스토리 및 캐릭터 긍정적인 평가 부정적인 평가 ...
9,나카지마 히로유키,일본의 야구 선수년 출생외야수내야수지명타자우투우타이타미시 출신 인물사이타마 세이부 ...,나카지마 히로유키의 수상 경력 역대 등번호 펼치기 접기 일본시리즈우승반지 ...


In [186]:
df['title'].tolist()

['엑시 ',
 '말티엘히어로즈 오브 더 스톰 ',
 '삼국지  ',
 '    주차 ',
 '그 비스크 돌은 사랑을 한다 ',
 '청년의꿈 ',
 '총몇명영상 목록 ',
 '무좀 ',
 '힐링굿 프리큐어평가 ',
 '나카지마 히로유키 ']

In [187]:
# 각 피처마다 말뭉치를 생성
title_corpus = "".join(df['title'].tolist())
category_corpus = "".join(df['category'].tolist())
content_corpus = "".join(df['content_text'].tolist())
print(title_corpus)
print(category_corpus)

엑시 말티엘히어로즈 오브 더 스톰 삼국지      주차 그 비스크 돌은 사랑을 한다 청년의꿈 총몇명영상 목록 무좀 힐링굿 프리큐어평가 나카지마 히로유키 
우주소녀한국의 여성 래퍼대한민국의 개신교 신자년 출생금정구 출신 인물양산시 출신 인물아이돌 리더아이돌 래퍼년 데뷔서울공연예술고등학교 출신동덕여자대학교 출신언프리티 랩스타참가자다중 합의히어로즈 오브 더 스톰영웅삼국지     그 비스크 돌은 사랑을 한다일본 만화목록청년의꿈총몇명피부계 관련 질환 및 증상발진균성 질병힐링굿 프리큐어프리큐어 시리즈평가일본의 야구 선수년 출생외야수내야수지명타자우투우타이타미시 출신 인물사이타마 세이부 라이온즈은퇴 이적오릭스 버팔로즈은퇴 이적요미우리 자이언츠현역일본의 올림픽 참가 선수 베이징 올림픽 참가 선수


In [18]:
import warnings
warnings.simplefilter("ignore")

import konlpy
konlpy.__version__

'0.6.0'

In [19]:
from konlpy.corpus import kolaw
kolaw.fileids()

['constitution.txt']

In [20]:
c = kolaw.open('constitution.txt').read()
print(c[:40])

대한민국헌법

유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로


In [21]:
from konlpy.corpus import kobill
kobill.fileids()

['1809890.txt',
 '1809891.txt',
 '1809892.txt',
 '1809893.txt',
 '1809894.txt',
 '1809895.txt',
 '1809896.txt',
 '1809897.txt',
 '1809898.txt',
 '1809899.txt']

In [22]:
d = kobill.open('1809890.txt').read()
print(d[:40])

지방공무원법 일부개정법률안

(정의화의원 대표발의 )

 의 안
 번 호


In [24]:
hannanum.nouns(c[:40])

['대한민국헌법', '유구', '역사', '전통', '빛', '우리', '대한국민', '3·1운동']

In [25]:
kkma.nouns(c[:40])

['대한',
 '대한민국',
 '대한민국헌법',
 '민국',
 '헌법',
 '유구',
 '역사',
 '전통',
 '우리',
 '국민',
 '3',
 '1',
 '1운동',
 '운동']

In [26]:
# komoran은 빈줄이 있으면 에러가 남
komoran.nouns("\n".join([s for s in c[:40].split("\n") if s]))

['대한민국', '헌법', '역사', '전통', '국민', '운동']

In [191]:
content_corpus

'  은는 여기로 연결됩니다 케이브 개발 슈팅게임 돈파치 시리즈에 대한 내용은 엑시돈파치 문서를의 번 문단을의  부분을 블루홀 개발 모바일게임에 대한 내용은   문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 에 대한 내용은  문서를의 번 문단을의 번 문단을의  부분을의  부분을 참고하십시오설아선의보나엑시수빈루다다원은서성소미기여름다영연정  유닛 목록 수빈루다여름다영설아보나엑시은서  음반 목록     우주소녀 미니 집 미니 집 미니 집 정규 집       미니 집 미니 집 미니 집 스페셜 앨범    미니 집 미니 집 미니 집   참여 음반 불후의 명곡  전설을 노래하다  작곡가 이범희 편   투유 프로젝트  슈가맨 컴필레이션 디지털 싱글 프로젝트 싱글 컴필레이션      우주소녀너의 세계로  프로젝트 싱글 디지털 싱글 디지털 싱글   관련 문서 음반노래방 수록곡활동 우정우주소녀 갤러리응원법굿즈우주  소녀우소보쇼설아선의보나엑시수빈루다다원은서성소미기여름다영연정  유닛 목록 수빈루다여름다영설아보나엑시은서  음반 목록     우주소녀 미니 집 미니 집 미니 집 정규 집       미니 집 미니 집 미니 집 스페셜 앨범    미니 집 미니 집 미니 집   참여 음반 불후의 명곡  전설을 노래하다  작곡가 이범희 편   투유 프로젝트  슈가맨 컴필레이션 디지털 싱글 프로젝트 싱글 컴필레이션      우주소녀너의 세계로  프로젝트 싱글 디지털 싱글 디지털 싱글   관련 문서 음

In [189]:
from konlpy.tag import Okt
from collections import Counter

nouns_tagger = Okt()
nouns = nouns_tagger.nouns(content_corpus)
count = Counter(nouns)

In [190]:
count

Counter({'은': 18,
         '여기': 22,
         '연결': 9,
         '케': 2,
         '이브': 1,
         '개발': 22,
         '슈팅게임': 1,
         '돈': 4,
         '시리즈': 72,
         '대한': 90,
         '내용': 100,
         '시돈': 1,
         '를': 114,
         '번': 412,
         '문단': 373,
         '의': 237,
         '부분': 150,
         '블루홀': 1,
         '모바일': 3,
         '게임': 51,
         '참고': 41,
         '선의': 3,
         '보나': 17,
         '수빈': 13,
         '루': 16,
         '다다': 2,
         '은서': 14,
         '미기': 2,
         '여름': 17,
         '연정': 4,
         '유닛': 7,
         '목록': 8,
         '설': 6,
         '음반': 14,
         '우주소녀': 42,
         '미니': 31,
         '집': 50,
         '정규': 29,
         '스페셜': 5,
         '앨범': 6,
         '참여': 17,
         '불후': 3,
         '명곡': 4,
         '전설': 3,
         '노래': 4,
         '작곡가': 3,
         '이범희': 3,
         '편': 46,
         '투유': 3,
         '프로젝트': 9,
         '슈가': 3,
         '맨': 9,
         '컴': 9,
         '필레': 

### [키워드 가다듬기]

In [192]:
# 한글자 키워드를 제거
remove_char_counter = Counter({x: count[x] for x in count if len(x) > 1})
print(remove_char_counter)

Counter({'문단': 373, '이전': 288, '문서': 280, '역사': 261, '경우': 244, '말티엘': 230, '장수': 230, '때문': 212, '부분': 150, '정도': 125, '영웅': 116, '능력': 116, '특성': 109, '토론': 106, '무좀': 106, '사용': 103, '합의': 102, '사항': 101, '내용': 100, '징표': 97, '경기': 96, '부대': 95, '라인': 94, '공격': 94, '프리큐어': 92, '황제': 91, '대한': 90, '삼국지': 88, '레벨': 85, '세트': 84, '다른': 83, '도시': 82, '시간': 81, '영혼': 80, '상대': 77, '세력': 75, '상황': 74, '시리즈': 72, '모습': 71, '피해': 68, '하나': 68, '병력': 68, '죽음': 67, '이후': 66, '또한': 63, '자신': 62, '모두': 61, '문제': 61, '전투': 60, '군주': 59, '시즌': 59, '매우': 58, '노도카': 58, '지구': 58, '다만': 57, '민족': 57, '평가': 56, '상태': 55, '직위': 55, '방법': 54, '이상': 53, '가장': 52, '게임': 51, '역시': 51, '존재': 51, '조조': 51, '뵤겐즈': 51, '위해': 50, '생각': 49, '의식': 49, '체력': 49, '시작': 49, '치료': 49, '해당': 47, '효과': 47, '사신': 46, '생명력': 46, '힐링': 46, '자체': 45, '기술': 45, '아군': 45, '유비': 45, '편이': 44, '증가': 44, '최대': 43, '이용': 43, '우주소녀': 42, '모든': 42, '탱커': 42, '작품': 42, '참고': 41, '다시': 41, '사람': 41, '크게': 41, '거의': 41, '생명': 41, '세

### [불용어 제거]
- 실질적인 의미가 없는 키워드 처리
- 관사나 접속사 등 실질적인 의미가 없으면서 동시에 의미적인 독립을 할 수 없는 품사
- 한국어 약식 불려어 사전 예시 파일 출처 아래와 동일
- 인터넷 검색 시 검색 용어로 사용하지 않는 단어, 관사, 전치사, 조사, 접속사 등은 검색 색인 단어로 의미x
- 엔진마다 내용은 다르다

In [196]:
# 한국어 약식 불용허 사전 예시 파일 - (https://www.ranks.nl/stopwords/korean)
korean_stopwords_path = "../data/korean_stopwords.txt"

# 텍스트 파일 오픈
with open(korean_stopwords_path, encoding='utf-8') as f: # 불용어 텍스트 파일을 열어 f로 치환
    stopwords = f.readlines() # 파일로부터 불용어를 한 줄씩 read
stopwords = [x.strip() for x in stopwords] # 리스트 생성
print(stopwords[:20]) #리스트 출력

['아', '휴', '아이구', '아이쿠', '아이고', '어', '나', '우리', '저희', '따라', '의해', '을', '를', '에', '의', '가', '으로', '로', '에게', '뿐이다']
