# 텍스트 마이닝의 이론과 실제

## 텍스트 마이닝
* 텍스트를 분석을 위한 데이터로 변경하는 것을 의미한다.
* 일정한 길이의 vector로 변환 후 머신러닝 (딥러닝) 기법을 적용한다

# 텍스트 마이닝 방법
* NLP(자연어처리) 기본도구
    * Tokenize(낱말분석), stemming(형태소분석), lemmatize(표제어 추출)
    * Chunking(묶음만들기)
    * BOW(Bag of word, 단어가 얼마나 많이 삽입되었는지), TFIDF(Term Frequency-Inverse Document Frequency, 문서의 빈도와 역문서의 빈도) 

## 텍스트 마이닝 도구 - 파이썬
* NLTK 
    * 가장 널리 알려진 NLP 라이브러리
* Scikit Learn 
    * 머신러닝 라이브러리, 기본적 NLP, 다양한 텍스트 마이닝 관련 지원
* Gensim
    * Word2Vec으로 유명하며 sklearin과 마찬가지로 텍스트 마이닝 도구 지원
* Keras
    * RNN, seq2seq 등의 딥러닝 위주의 라이브러리 제공

## 텍스트 마이닝 기본도구
- 목적 : document, sentence 등을 sparse vector로 변환
* Tokenize
    * 대상이 되는 문서/문장을 최소 단위로 쪼갬
* Text normalization
    * 최소 단위 표준화
* Pos-tagging
    * 최소 의미 단위 품사 부착
* Chunking
    * 위 포즈태깅의 결과를 말모듬으로 다시 합침
* BOW, TFIDF
    * tokenized 결과를 이용하여 문서를 vector로 표현

# 텍스트마이닝 실습코드

In [1]:
from nltk.tokenize import word_tokenize  

In [130]:
from selenium import webdriver 
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import pandas as pd
from pandas import DataFrame
import time
from IPython.display import Image
import string
import re
from collections import Counter
from sklearn.feature_extraction.text import TfidfVectorizer

In [3]:
DRIVER_PATH = 'C:/Users/ajou/Documents/chromedriver.exe' #구글드라이버 설치한 경로 삽입

In [13]:

 # chrome driver 설정
driver = webdriver.Chrome(DRIVER_PATH)
driver.implicitly_wait(10)

url = "https://www.shazam.com/ko/charts/top-200/united-states"

driver.get(url)
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# 빈 리스트 변수
title_list = []

for i in range(1, 21): 
    title = WebDriverWait(driver, 20) \
        .until(EC.presence_of_element_located((By.XPATH, f"//*[@id='/charts/top-200/united-states']/div[2]/div[2]/div[1]/ul/li[{i}]/article/div[2]/div[1]/div[1]/a")))
    title_list.append(title.text)
    
print(title_list)


['Come & Go', 'Mood', 'Savage Love (Laxed - Siren Beat)', 'Breaking Me', 'Laugh Now Cry Later', 'ily (i love you baby)', 'Holy', 'I Hope', 'Roses (Imanbek Remix)', 'Before You Go', 'POPSTAR', 'Lemonade', 'Bang!', 'Be Like That', 'Go Crazy', 'ROCKSTAR', 'If The World Was Ending', 'Blinding Lights', 'U 2 Luv', 'RNB']


 * TOKENIZE

In [117]:
text=title_list
print(' '.join(text))
text=(' '.join(text))

Come & Go Mood Savage Love (Laxed - Siren Beat) Breaking Me Laugh Now Cry Later ily (i love you baby) Holy I Hope Roses (Imanbek Remix) Before You Go POPSTAR Lemonade Bang! Be Like That Go Crazy ROCKSTAR If The World Was Ending Blinding Lights U 2 Luv RNB


* Text Noramlization

In [118]:
pattern = '[^\w\s]'
repl =''
text=re.sub(pattern=pattern, repl=repl, string=text).lower()

In [119]:
text=word_tokenize(text)

* Pos-tagging

In [103]:
import nltk
from nltk.tag import pos_tag

In [105]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [125]:
text=pos_tag(text)

* Chunking

In [126]:
from nltk.chunk import conlltags2tree, tree2conlltags
from pprint import pprint

iob_tagged = tree2conlltags(text)
pprint(iob_tagged)

[('come', 'VBN', 'O'),
 ('go', 'VBP', 'O'),
 ('mood', 'JJ', 'O'),
 ('savage', 'NN', 'O'),
 ('love', 'VB', 'O'),
 ('laxed', 'JJ', 'O'),
 ('siren', 'NNS', 'O'),
 ('beat', 'VBP', 'O'),
 ('breaking', 'VBG', 'O'),
 ('me', 'PRP', 'O'),
 ('laugh', 'IN', 'O'),
 ('now', 'RB', 'O'),
 ('cry', 'VBP', 'O'),
 ('later', 'RB', 'O'),
 ('ily', 'RB', 'O'),
 ('i', 'VB', 'O'),
 ('love', 'VBP', 'O'),
 ('you', 'PRP', 'O'),
 ('baby', 'VBP', 'O'),
 ('holy', 'JJ', 'O'),
 ('i', 'NNS', 'O'),
 ('hope', 'VBP', 'O'),
 ('roses', 'NNS', 'O'),
 ('imanbek', 'JJ', 'O'),
 ('remix', 'NN', 'O'),
 ('before', 'IN', 'O'),
 ('you', 'PRP', 'O'),
 ('go', 'VBP', 'O'),
 ('popstar', 'JJ', 'O'),
 ('lemonade', 'NN', 'O'),
 ('bang', 'NN', 'O'),
 ('be', 'VB', 'O'),
 ('like', 'IN', 'O'),
 ('that', 'DT', 'O'),
 ('go', 'VBP', 'O'),
 ('crazy', 'JJ', 'O'),
 ('rockstar', 'NN', 'O'),
 ('if', 'IN', 'O'),
 ('the', 'DT', 'O'),
 ('world', 'NN', 'O'),
 ('was', 'VBD', 'O'),
 ('ending', 'VBG', 'O'),
 ('blinding', 'VBG', 'O'),
 ('lights', 'NNS', 'O'),

In [122]:
counts = Counter(text)
counts

Counter({'come': 1,
         'go': 3,
         'mood': 1,
         'savage': 1,
         'love': 2,
         'laxed': 1,
         'siren': 1,
         'beat': 1,
         'breaking': 1,
         'me': 1,
         'laugh': 1,
         'now': 1,
         'cry': 1,
         'later': 1,
         'ily': 1,
         'i': 2,
         'you': 2,
         'baby': 1,
         'holy': 1,
         'hope': 1,
         'roses': 1,
         'imanbek': 1,
         'remix': 1,
         'before': 1,
         'popstar': 1,
         'lemonade': 1,
         'bang': 1,
         'be': 1,
         'like': 1,
         'that': 1,
         'crazy': 1,
         'rockstar': 1,
         'if': 1,
         'the': 1,
         'world': 1,
         'was': 1,
         'ending': 1,
         'blinding': 1,
         'lights': 1,
         'u': 1,
         '2': 1,
         'luv': 1,
         'rnb': 1})

In [123]:
vocab = sorted(counts, key=counts.get, reverse=True)
vocab

['go',
 'love',
 'i',
 'you',
 'come',
 'mood',
 'savage',
 'laxed',
 'siren',
 'beat',
 'breaking',
 'me',
 'laugh',
 'now',
 'cry',
 'later',
 'ily',
 'baby',
 'holy',
 'hope',
 'roses',
 'imanbek',
 'remix',
 'before',
 'popstar',
 'lemonade',
 'bang',
 'be',
 'like',
 'that',
 'crazy',
 'rockstar',
 'if',
 'the',
 'world',
 'was',
 'ending',
 'blinding',
 'lights',
 'u',
 '2',
 'luv',
 'rnb']

In [124]:
word2idx = {word.encode("utf8").decode("utf8"): ii for ii, word in enumerate(vocab,1)}

In [127]:
word2idx

{'go': 1,
 'love': 2,
 'i': 3,
 'you': 4,
 'come': 5,
 'mood': 6,
 'savage': 7,
 'laxed': 8,
 'siren': 9,
 'beat': 10,
 'breaking': 11,
 'me': 12,
 'laugh': 13,
 'now': 14,
 'cry': 15,
 'later': 16,
 'ily': 17,
 'baby': 18,
 'holy': 19,
 'hope': 20,
 'roses': 21,
 'imanbek': 22,
 'remix': 23,
 'before': 24,
 'popstar': 25,
 'lemonade': 26,
 'bang': 27,
 'be': 28,
 'like': 29,
 'that': 30,
 'crazy': 31,
 'rockstar': 32,
 'if': 33,
 'the': 34,
 'world': 35,
 'was': 36,
 'ending': 37,
 'blinding': 38,
 'lights': 39,
 'u': 40,
 '2': 41,
 'luv': 42,
 'rnb': 43}

In [128]:
idx2word = {ii: word for ii, word in enumerate(vocab)}
idx2word

{0: 'go',
 1: 'love',
 2: 'i',
 3: 'you',
 4: 'come',
 5: 'mood',
 6: 'savage',
 7: 'laxed',
 8: 'siren',
 9: 'beat',
 10: 'breaking',
 11: 'me',
 12: 'laugh',
 13: 'now',
 14: 'cry',
 15: 'later',
 16: 'ily',
 17: 'baby',
 18: 'holy',
 19: 'hope',
 20: 'roses',
 21: 'imanbek',
 22: 'remix',
 23: 'before',
 24: 'popstar',
 25: 'lemonade',
 26: 'bang',
 27: 'be',
 28: 'like',
 29: 'that',
 30: 'crazy',
 31: 'rockstar',
 32: 'if',
 33: 'the',
 34: 'world',
 35: 'was',
 36: 'ending',
 37: 'blinding',
 38: 'lights',
 39: 'u',
 40: '2',
 41: 'luv',
 42: 'rnb'}

#### 위와 같이 전처리한 데이터를 바탕으로 BOW나 TFIDF 방식중 원하는 것으로 vector로 변환하여 텍스트 마이닝을 진행한다.