# Text Mining

# 정규 표현식 

In [1]:
import re
#조건에 맞는 문자가 있음
match = re.match('[0-9]', '1234')
print(match.group())

#조건에 맞는 문자가 없음
match = re.match('[0-9]', 'abc')
print(match)

#0-9까지가 1번이상 반복되는 부분을 찾아옴
match = re.match('[0-9]+', '1234')
print(match.group()) 

1
None
1234


In [3]:
import re
#앞에 공백이 있어서 찾을 수 없음
match = re.match('[0-9]+', ' 1234')
print(match)

#중간 공백은 상관없음
match = re.match('[0-9]+', '12 34')
print(match)

#앞에 공백문자가 있는 경우는 공백 문자를 의미하는 \s를 추가해서 조회
match = re.match('\s[0-9]+', ' 1234')
print(match)

#search 메소드를 이용해서 공백문자가 포함되더라도 찾아오기
match = re.search('[0-9]+', ' 1234')
print(match)

None
<re.Match object; span=(0, 2), match='12'>
<re.Match object; span=(0, 5), match=' 1234'>
<re.Match object; span=(1, 5), match='1234'>


In [2]:
string = '''
기상청은 슈퍼컴퓨터도 서울지역의 집중호우를 제대로 예측하지 못했다고 설명했습니다.
왜 오류가 발생했는지 자세히 분석해 예측 프로그램을 보완해야 할 대목입니다.
머신러닝 알고리즘을 이용하면 조금 더 정확한 예측을 할 수 있지 않을까 기대합니다.
박문석 기자(ggangpae1@gmail.com)
'''

import re
result = re.sub('\([a-zA-Z0-9\._+]+@[a-zA-Z]+\.(com|org|edu|net|co,kr)\)', '', string) #이메일 패턴을 찾아서 '' 으로 치환
result = re.sub('\n', '', result) #\n을 찾아서 ''으로 치환
result

'기상청은 슈퍼컴퓨터도 서울지역의 집중호우를 제대로 예측하지 못했다고 설명했습니다.왜 오류가 발생했는지 자세히 분석해 예측 프로그램을 보완해야 할 대목입니다.머신러닝 알고리즘을 이용하면 조금 더 정확한 예측을 할 수 있지 않을까 기대합니다.박문석 기자'

## 영문 대소문자 변환 

In [4]:
string = "Hello Python"
print(string.lower())
print(string.upper())

hello python
HELLO PYTHON


In [5]:
#숫자에 해당하는 정규식 생성
p = re.compile('[0-9+]')
string = '★서울의 부동산 가격이 올해들어 10% 상승했습니다.!'
#숫자 제거 - string에서 p 패턴에 해당하는 부분을 "" 으로 치환
result = p.sub("", string)
print(result)

#특수문자를 제거하기 위해서 특수문자를 정규식으로 생성
p = re.compile("\W+")
#단어가 아닌 문자를 " "  으로 치환
result = p.sub(" ", result)
print(result)

★서울의 부동산 가격이 올해들어 % 상승했습니다.!
 서울의 부동산 가격이 올해들어 상승했습니다 


## 불용어 제거

In [6]:
#한글 불용어 제거
words_korean=['추석', '연휴', '민족', '대이동']
stopwords=['추석', '민족']

#words_korean의 각 요소들을 i에 대입 한 후
#i 가 stopwords에 속하지 않은 경우 들만 묶어서 list로 생성
r = [i for i in words_korean if i not in stopwords]
print(r)

#영문 불용어제거
from nltk.corpus import stopwords

#words_english의 각 요소들을 i에 대입 한 후
#i 가 영문 불용어 사전에 속하지 않은 경우 들만 묶어서 list로 생성
words_english =['chief', 'justice', 'roberts', 'the', 'presedent', 'and']
r = [w for w in words_english if  not w in stopwords.words('english')]
print(r)

['연휴', '대이동']


LookupError: 
**********************************************************************
  Resource [93mstopwords[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('stopwords')
  [0m
  For more information see: https://www.nltk.org/data.html

  Attempted to load [93mcorpora/stopwords[0m

  Searched in:
    - '/Users/jw/nltk_data'
    - '/Users/jw/opt/anaconda3/nltk_data'
    - '/Users/jw/opt/anaconda3/share/nltk_data'
    - '/Users/jw/opt/anaconda3/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
**********************************************************************


## 같은 의미의 단어 동일화 

In [None]:
from nltk.tokenize import word_tokenize

string = 'All pythoners have pythoned poorly at least once'
#영문장의 단어 분할 - 공백을 기준으로 해서 단어들을 분할해서 리스트로 만듬
words=word_tokenize(string)
print(words)

from nltk.stem import PorterStemmer
ps_stemmer = PorterStemmer()
for w in words:
    print(ps_stemmer.stem(w), end=' ')
print()

from nltk.stem.lancaster import LancasterStemmer  
ls_stemmer=LancasterStemmer()

wordlist =[]
for w in words:
    print(ls_stemmer.stem(w), end=' ')
    wordlist.append(ls_stemmer.stem(w))
print()

r = [w for w in wordlist if  not w in stopwords.words('english')]
print(r)

In [None]:
from nltk import ngrams
sentence = "Chief Justice, President Obama, President Obama President Carter"
#연속해서 2번 나온 단어들의 뭉치 만들기
grams = ngrams(sentence.split(),2)
for gram in grams:
    print(gram)

## 형태소 분석기 

In [None]:
from konlpy.tag import Kkma
kkma = Kkma()
print(kkma.sentences('한국어의 문장 분석'))
print(kkma.nouns('한국어의 단어별 분석'))
print(kkma.pos('한국어의 형태소 분석'))

print("==============================================")
from konlpy.tag import Hannanum
hannanum = Hannanum()
print(hannanum.nouns('한국어의 단어별 분석'))
print(hannanum.morphs('한국어의 형태소 분석'))
print(hannanum.pos('한국어의 형태소 분석'))

print("==============================================")
from konlpy.tag import Okt
t = Okt()
print(t.nouns('한국어의 단어별 분석'))
print(t.morphs('한국어의 형태소 분석'))
print(t.pos('한국어의 형태소 분석'))

In [None]:
#영문 품사 분석
from nltk import pos_tag
#문장을 단어단위로 분할
tokens='The little yellow dog barked at the Persian cat'.split()
print(tokens)
#분할된 단어들의 형태소 분석
tags_en=pos_tag(tokens)
print(tags_en)

## 빈도 분석 - 워드클라우드 

### 이미지를 이용한 워드 클라우드

In [None]:
from wordcloud import WordCloud, STOPWORDS
from PIL import Image
import matplotlib.pyplot as plt
import numpy

#이미지 출력
mask = numpy.array(Image.open('data/appleBar.png'))
plt.figure(figsize=(8,8))
plt.imshow(mask, cmap=plt.cm.gray, interpolation='bilinear')
plt.axis('off')
plt.show()

In [None]:
#문자열 생성
text = ''
for t in range(8):
    text = text + 'Python '
for t in range(7):
    text = text + 'Java '
for t in range(7):
    text = text + 'C++ '
for t in range(8):
    text = text + 'JavaScript '
for t in range(5):
    text = text + 'C# '
for t in range(3):
    text = text + 'Ruby '
for t in range(5):
    text = text + 'C '
for t in range(2):
    text = text + 'scala '
for t in range(6):
    text = text + 'PHP '
for t in range(3):
    text = text + 'Swift '
for t in range(3):
    text = text + 'Kotlin ' 

In [None]:
#제거할 단어 설정
stopwords = set(STOPWORDS)
stopwords.add("Kotlin")

#워드 클라우드 만들기
wordcloud = WordCloud(background_color='white', max_words=2000, mask=mask,
              stopwords = stopwords)
wordcloud = wordcloud.generate(text)
wordcloud.words_
#워드 클라우드 화면 출력
plt.figure(figsize=(12,12))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

### 대통령 연설문을 이용한 워드클라우드 

In [None]:
#파일 내용 읽어오기
f = open("./data\\트럼프취임연설문.txt", 'r')
lines = f.readlines()[0]
f.close()

lines[0:100]

In [None]:
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords 

#숫자와 문장부호 등을 제거하기 위한 정규식 생성
tokenizer = RegexpTokenizer('[\w]+')
#영문 불용어 제거를 위한 객체 생성
stop_words = stopwords.words('english')

#모두 소문자로 변환
words =  lines.lower()
#정규식 적용
tokens = tokenizer.tokenize(words)
#불용어 제거
stopped_tokens = [i for i in list((tokens)) if not i in stop_words]
#글자수가 2자 이상인 것만 모아서 i에 대입
stopped_tokens2 = [i for i in stopped_tokens if len(i)>1]

In [None]:
import pandas as pd
#단어 개수 세기
pd.Series(stopped_tokens2).value_counts().head(10)

In [None]:
f = open("./data/문재인대통령취임연설문.txt", 'r')
lines = f.readlines()
f.close()

#한글 형태소 분석기 가져오기
from konlpy.tag import Hannanum

hannanum = Hannanum()

#명사만 추출해서 temp list에 추가
temp = []
for i in range(len(lines)):
    temp.append(hannanum.nouns(lines[i]))

In [None]:
#temp 리스트에서 리스트인 데이터는 분해해서 그렇지 않은 데이터는 바로 word_list에 대입
word_list = [] 
for elem in temp: 
    if type(elem) == list: 
        for e in elem: 
            word_list.append(e) 
    else: 
        word_list.append(elem) 

# 두 글자 이상인 단어만 추출
word_list=pd.Series([x for x in word_list if len(x)>1])
word_list.value_counts().head(10)

In [None]:
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt

wordcloud = WordCloud(
    width = 800,
    height = 800,
    background_color="white"
)

#단어 개수 세기
count = Counter(stopped_tokens2)

#단어 개수를 가지고 워드클라우드를 그릴 데이터 만들기  
wordcloud = wordcloud.generate_from_frequencies(count)

#워드 클라우드 만들기
array = wordcloud.to_array()

#워드 클라우드 그리기
get_ipython().run_line_magic('matplotlib', 'inline')

fig = plt.figure(figsize=(10, 10))
plt.imshow(array, interpolation="bilinear")
plt.show()
fig.savefig('wordcloud.png')

In [None]:
wordcloud = WordCloud(
    font_path = "c:/Windows/Fonts/malgun.ttf",
    width = 800,
    height = 800,
    background_color="white"
)
    
count = Counter(word_list)

wordcloud = wordcloud.generate_from_frequencies(count)

array = wordcloud.to_array()

get_ipython().run_line_magic('matplotlib', 'inline')

fig = plt.figure(figsize=(10, 10))
plt.imshow(array, interpolation="bilinear")
plt.show()
fig.savefig('wordcloud.png')


In [None]:
from PIL import Image
import numpy as np

moon_mask=np.array(Image.open("./data/appleBar.png"))

plt.figure(figsize=(8,8))
plt.imshow(moon_mask,interpolation="bilinear")
plt.show()

count = Counter(word_list)
wc_moon = WordCloud(
    font_path = "./data/NanumBarunGothic.ttf",
    mask=moon_mask,
    background_color="white"
)
wc_moon = wc_moon.generate_from_frequencies(count)

%matplotlib inline

plt.figure(figsize=(8,8))
plt.imshow(wc_moon,interpolation="bilinear")
plt.axis("off")
plt.show()

### 신문기사 검색을 이용한 워드클라우드 

In [None]:
from bs4 import BeautifulSoup
import requests
from urllib.parse import quote

keyword = input('검색어:')
target_URL = "http://news.donga.com/search?p=1" + '&query=' + quote(keyword) + '&check_news=1&more=1&sorting=3&search_date=1&range=3'
source_code_from_URL = requests.get(target_URL)
bs = BeautifulSoup(source_code_from_URL.text, 'html.parser')

In [None]:
#기사 건수를 가져오기 위한 파싱
cnt = bs.select("div.searchContWrap div.searchCont h2 span")
temp = cnt[0].getText().split(' ')
count = int(temp[1])
print("기사 건수:",count) 
page_num = int(input("읽어올 기사의 개수:")) / 15 + 1
output_file = open(keyword + ".txt", 'w', encoding="utf8")

In [None]:
for i in range(int(page_num)):
    current_page_num = 1 + i * 15
    target_URL = "http://news.donga.com/search?p=" + str(current_page_num) +  '&query=' + quote(
        keyword) + '&check_news=1&more=1&sorting=3&search_date=1&range=3'
    source_code_from_URL = requests.get(target_URL)
    bs = BeautifulSoup(source_code_from_URL.text, 'html.parser')
    for title in bs.find_all('p', 'tit'):
        title_link = title.select('a')
        article_URL = title_link[0]['href']
        #print(article_URL)
        source_code_from_url = requests.get(article_URL)
        soup = BeautifulSoup(source_code_from_url.text, 'html.parser')
        content_of_article = soup.select('div.article_txt')
        for item in content_of_article:
            string_item = str(item.find_all(text=True))
            output_file.write(string_item)
output_file.close()

In [None]:
from konlpy.tag import Okt
open_text_file = open(keyword + ".txt", 'r', encoding="utf8")
text = open_text_file.read()
spliter = Okt()
nouns = spliter.nouns(text)
open_text_file.close()
print(nouns)

In [None]:
import nltk
ko = nltk.Text(nouns, name='박문석')
print(len(ko.tokens))
print(len(set(ko.tokens)))
ko.vocab()

In [None]:
import platform
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
    rc('font', family=font_name)
plt.figure(figsize=(12,6))
ko.plot(50)
plt.show()

In [None]:
stop_words = ['국민카드', '카드']

ko = [each_word for each_word in ko if each_word not in stop_words]
ko = [i for i in ko if len(i)>1]
print(ko)

In [None]:
ko = nltk.Text(ko, name='국민카드')

plt.figure(figsize=(12,6))
ko.plot(50)     # Plot sorted frequency of top 50 tokens
plt.show()

In [None]:
from wordcloud import WordCloud
data = ko.vocab().most_common(150)

wordcloud = WordCloud(font_path='c:/Windows/Fonts/malgun.ttf',
                      relative_scaling = 0.5,
                      background_color='white',
                      ).generate_from_frequencies(dict(data))
plt.figure(figsize=(12,8))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()

In [None]:
#마스크 적용
import numpy as np
from PIL import Image

mask = np.array(Image.open('data/appleBar.png'))
data = ko.vocab().most_common(100)
wordcloud = WordCloud(font_path='c:/Windows/Fonts/malgun.ttf',
                      relative_scaling = 0.5,
                      background_color='white',
                      mask=mask,
                      ).generate_from_frequencies(dict(data))
%matplotlib inline
plt.figure(figsize=(12,8))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()

## 문장의 유사도 측정 

### 단어 임베딩 이용

In [None]:
#훈련 데이터 만들기
from sklearn.feature_extraction.text import CountVectorizer
from konlpy.tag import Okt
Okt = Okt()
vectorizer = CountVectorizer(min_df = 1)
contents = ['우리 과일 먹으로 가자',
                   '나는 고기를 좋아합니다',
                   '나는 공원에서 산책하는 것을 싫어합니다',
                   '안녕하세요 반갑습니다 그동안 잘 계셨어요']
contents_tokens = [Okt.morphs(row) for row in contents]
print(contents_tokens)


In [None]:
#형태소 분석 결과 확인
contents_for_vectorize = []

for content in contents_tokens:
    sentence = ''
    for word in content:
        sentence = sentence + ' ' + word
        
    contents_for_vectorize.append(sentence)
    
print(contents_for_vectorize)

In [None]:
#훈련 데이터의 벡터값 확인
X = vectorizer.fit_transform(contents_for_vectorize)
num_samples, num_features = X.shape
print(num_samples, num_features)

### 훈련 데이터의 차원 확인
print(vectorizer.get_feature_names())

### 훈련 데이터의 벡터 값 확인
print(X.toarray().transpose())

In [None]:
### 테스트 데이터 확인
new_post = ['우리 과이 먹으로 갖']
new_post_tokens = [Okt.morphs(row) for row in new_post]

new_post_for_vectorize = []

for content in new_post_tokens:
    sentence = ''
    for word in content:
        sentence = sentence + ' ' + word
        
    new_post_for_vectorize.append(sentence)
    
print(new_post_for_vectorize)

In [None]:
### 샘플 데이터 확인
new_post_vec = vectorizer.transform(new_post_for_vectorize)
print(new_post_vec.toarray())

In [None]:
### 샘플 데이터와 훈련 데이터 거리 확인
import scipy as sp

#거리 구해주는 함수
def dist_raw(v1, v2):
    delta = v1 - v2
    return sp.linalg.norm(delta.toarray())

best_doc = None
best_dist = 65535
best_i = None

In [None]:
for i in range(0, num_samples):
    post_vec = X.getrow(i)
    d = dist_raw(post_vec, new_post_vec)
    
    print("== %i 번째 문장과의 거리:%.2f   : %s" %(i,d,contents[i]))
    
    if d<best_dist:
        best_dist = d
        best_i = i

In [None]:
### 가장 가까운 거리의 훈련 데이터 거리 확인
print("가장 가까운 문장은 %i번째 이고 거리는 %.2f" % (best_i, best_dist))
print('-->', new_post)
print('---->', contents[best_i])


In [None]:
### 훈련 데이터와의 벡터 값 확인
for i in range(0,len(contents)):
    print(X.getrow(i).toarray())
    
print('---------------------')
print(new_post_vec.toarray())

### 군집 분석을 이용한 문장의 유사도 측정

#### k 평균 군집 이용 

In [None]:
#데이터 읽어오기
import pandas as pd
Data = pd.read_csv('./data/군집분석데이터.csv', encoding='cp949')
Data.tail()

In [None]:
#형태소 분석
from konlpy.tag import Hannanum

hannanum = Hannanum()
docs = []
for i in Data['기사내용']:
    docs.append(hannanum.nouns(i))
for i in range(len(docs)):
    docs[i] = ' '.join(docs[i])
docs

In [None]:
#각 문장을 벡터화
from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer()
X = vec.fit_transform(docs)
df = pd.DataFrame(X.toarray(), columns=vec.get_feature_names())
df

In [None]:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters=3).fit(df)
kmeans.labels_

In [None]:
#주성분 분석을 수행한 후 시각화
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

pca = PCA(n_components=2)
principalComponents = pca.fit_transform(df)
principalDf = pd.DataFrame(data = principalComponents
             , columns = ['principal component 1', 'principal component 2'])
principalDf.index=Data['검색어']
kmeans.labels_ == 0

# x축 : first y축 : second 번호로 나타낸후 plot으로 시각화
plt.scatter(principalDf.iloc[kmeans.labels_ == 0, 0], principalDf.iloc[kmeans.labels_ == 0, 1], s = 10, c = 'red', label = 'cluster1')
plt.scatter(principalDf.iloc[kmeans.labels_ == 1, 0], principalDf.iloc[kmeans.labels_ == 1, 1], s = 10, c = 'blue', label = 'cluster2')
plt.scatter(principalDf.iloc[kmeans.labels_ == 2, 0], principalDf.iloc[kmeans.labels_ == 2, 1], s = 10, c = 'green', label = 'cluster3')
plt.legend()

#### 구조적 분석 활용 

In [None]:
#데이터 읽어오기
import pandas as pd
Data = pd.read_csv('./data/군집분석데이터.csv', encoding='cp949')


#형태소 분석
from konlpy.tag import Hannanum

hannanum = Hannanum()
docs = []
for i in Data['기사내용']:
    docs.append(hannanum.nouns(i))
for i in range(len(docs)):
    docs[i] = ' '.join(docs[i])
    
#각 문장을 벡터화
from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer()
X = vec.fit_transform(docs)
df = pd.DataFrame(X.toarray(), columns=vec.get_feature_names())


from sklearn.cluster import AgglomerativeClustering
cluster = AgglomerativeClustering(n_clusters=3, linkage='ward')  
cluster.fit_predict(df)  

In [None]:
#덴도 그램 그리기
import scipy.cluster.hierarchy as shc
import matplotlib.pyplot as plt
from matplotlib import pyplot as plt
plt.figure(figsize=(10, 7))  
plt.title("Customer Dendograms")  
dend = shc.dendrogram(shc.linkage(df, method='ward'))
plt.show()

## 감성분석 

### textblob 사전을 이용한 감성분석

In [None]:
from textblob import TextBlob

#감성 분석을 위한 텍스트 생성
wiki = TextBlob("Python is a high-level, general-purpose programming language.")
testimonial = TextBlob("Textblob is amazingly simple to use. What great fun!")

# 감성 출력   
print('Sentiment of wiki: ', wiki.sentiment)
print('Sentiment of wiki: ', testimonial.sentiment)

### afinn 사전을 이용한 감성분석

In [None]:
from afinn import Afinn

afn = Afinn(emoticons=True)

doc_a = "i love you."
doc_b = "i hate you"
doc_c = "i like valleybool"

doc_set = [doc_a, doc_b, doc_c]
for text in doc_set:
    print(text)
    print('Predicted Sentiment polarity:', afn.score(text))
    print('-'*60)

In [None]:
import glob
from afinn import Afinn

pos_review=(glob.glob("./data/aclImdb/train/pos/*.txt"))[20]

f = open(pos_review, 'r')
lines1=f.readlines()[0]
f.close()
print(lines1)

afinn = Afinn()
print(afinn.score(lines1))

neg_review=(glob.glob("./data/aclImdb/train/neg/*.txt"))[20]
f = open(neg_review, 'r')
lines2 = f.readlines()[0]
f.close()
print(afinn.score(lines2))

### 기계학습으로 감성 분석 

#### 로지스틱 회귀를 이용한 감성 분석 

In [None]:
# 기계학습으로 감성분석
import pandas as pd
import glob
from nltk.corpus import stopwords 
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

#영화 긍정 문장 읽어오기
pos_review=(glob.glob("./data/aclImdb/train/pos/*.txt"))
# 긍정,부정 텍스트 읽어오기
lines_pos=[]
for i in pos_review:
    try:
        f = open(i, 'r')
        temp = f.readlines()[0]
        lines_pos.append(temp)
        f.close()
    except Exception as e:
        continue
len(lines_pos)

In [None]:
#영화 부정 문장 읽어오기
neg_review=(glob.glob("./data/aclImdb/train/neg/*.txt"))
lines_neg=[]
for i in neg_review:
    try:
        f = open(i, 'r')
        temp = f.readlines()[0]
        lines_neg.append(temp)
        f.close()
    except Exception as e:
        continue
len(lines_neg)

In [None]:
#긍정 부정 문장 합치기
total_text=lines_pos+lines_neg
len(total_text)

In [None]:
#긍정과 부정 인덱스 만들기
x = np.array(["pos", "neg"])
class_Index=np.repeat(x, [len(lines_pos), len(lines_neg)], axis=0)
print(class_Index)

In [None]:
#데이터 정규화
stop_words = stopwords.words('english')
#stopwords의 단어를 제거하고 동일하게 추출된 단어의 빈도수를 직접 이용하지 않고 가중치를 축소하기
vect = TfidfVectorizer(stop_words=stop_words).fit(total_text)
#훈련 데이터를 벡터화
X_train_vectorized = vect.transform(total_text)
#긍정, 부정 레이블을 index로 설정
X_train_vectorized.index = class_Index
print(X_train_vectorized[0:5])

In [None]:
#로지스틱 회귀 분석을 이용해서 훈련 데이터를 가지고 모델을 생성
from sklearn.linear_model import LogisticRegression,SGDClassifier
model = LogisticRegression()
model.fit(X_train_vectorized, class_Index)

In [None]:
#검증 데이터를 가지고 검증
pos_review_test=(glob.glob("./data/aclImdb/test/pos/*.txt"))[10]
test=[]
f = open(pos_review_test, 'r')
test.append(f.readlines()[0])
f.close()
predictions = model.predict(vect.transform(test))
predictions

In [None]:
neg_review_test=(glob.glob("./data/aclImdb/test/neg/*.txt"))[20]
test2=[]
f = open(neg_review_test, 'r')
test2.append(f.readlines()[0])
f.close()

predictions = model.predict(vect.transform(test2))
predictions

#### 의사결정나무 이용 

In [None]:
from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier()
clf.fit(X_train_vectorized, class_Index)

predictions = clf.predict(vect.transform(test))
print(predictions)

predictions = clf.predict(vect.transform(test2))
print(predictions)

#### 나이브베이즈 감성 분석 

In [None]:
### 단어별 분류를 위한 패키지 import
from textblob.classifiers import NaiveBayesClassifier


### 훈련 데이터 만들기
train = [('i like you', 'pos'), 
         ('i do not like you', 'neg'),
         ('i hate you', 'neg'), 
         ('i do not hate you', 'pos'),
        ('i love you', 'pos'),
        ('I do not love you', 'neg')]

#분류기 만들기
classifier = NaiveBayesClassifier(train)

In [None]:
classifier.show_informative_features()

In [None]:
# 테스트 데이터로 정확도 확인
test = [('i do not like jessica', 'neg'),('i like jessica', 'pos')]
classifier.accuracy(test)

In [None]:
#없는 문장으로 확인
print(classifier.classify("Their burgers are amazing"))
print(classifier.classify("I don't like their pizza."))

from textblob import TextBlob
blob = TextBlob("The beer was amazing. "
                "But the hangover was horrible. My boss was not happy.",
                classifier=classifier)
print(blob.classify())  

In [None]:
#한글 감성 분석
train = [
    ('나는 이 샌드위치를 정말 좋아해.', '긍정'),
    ('정말 멋진 곳이에요!', '긍정'),
    ('나는 이 맥주들이 아주 좋다고 생각해요.', '긍정'),
    ('이것은 나의 최고의 작품입니다.', '긍정'),
    ("정말 멋진 광경이다", "긍정"),
    ('난 이 식당 싫어', '부정'),
    ('난 이게 지겨워.', '부정'),
    ("이 문제는 처리할 수 없습니다.", "부정"),
    ('그는 나의 불구대천의 원수이다.', '부정'),
    ('내 상사는 끔찍해.', '부정'),
    ('나는 운동을 좋아하지 않습니다.', '부정'),
    ('나는 낮잠 자는 것을 좋아하지 않습니다.', '부정'),
    ('맛있는 것은 언제 먹어도 기분이 좋아져요', '긍정')
]

test = [
    ('맥주가 좋았습니다.', '긍정'),
    ('난 내 일을 즐기지 않는다', '부정'),
    ('오늘은 기분이 안 좋아요.', '부정'),
    ('놀라워요!', '긍정'),
    ('네드는 나의 친구입니다.', '긍정'),
    ('제가 이렇게 하고 있다니 믿을 수가 없어요.', '부정'),
    ('영화보는 것을 좋아하지 않습니다..', '부정'),
    ('토스트는 언제 먹어도 종아요..', '긍정')
]

In [None]:
#형태소 분석을 하지 않고 분류기 만들기
from textblob.classifiers import NaiveBayesClassifier
classifier = NaiveBayesClassifier(train)
classifier.accuracy(test)

In [None]:
#한글 형태소 분석기 가져오기
from konlpy.tag import Hannanum

hannanum = Hannanum()

train_data = [(['/'.join(token) for token in hannanum.pos(sentence)], result) for [sentence, result] in train]
classifier = NaiveBayesClassifier(train_data)
classifier.show_informative_features()

In [None]:
#훈련 데이터로 검증
test_data = [(['/'.join(token) for token in hannanum.pos(sentence)], result) for [sentence, result] in test]
classifier.accuracy(test_data)

In [None]:
#없는 문장으로 확인
sample = "나는 배구를 좋아합니다."
print(classifier.classify(['/'.join(token) for token in hannanum.pos(sample)]))

sample = "축구하는 것을 좋아하지 않습니다."
print(classifier.classify(['/'.join(token) for token in hannanum.pos(sample)]))

## 연관분석

### 동시출현 기반 연관어 분석 

In [None]:
#훈련 데이터의 긍정 문장 100개 읽어서 lines_pos에 저장하기
import glob
pos_review=(glob.glob("./data/aclImdb/train/pos/*.txt"))[0:100]
lines_pos=[]
for i in pos_review:
    try:
        f = open(i, 'r')
        temp = f.readlines()[0]
        lines_pos.append(temp)
        f.close()
    except Exception as e:
        continue
        
len(lines_pos)

In [None]:
import pandas as pd
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords 

#단어만 추출하기 위한 정규식
tokenizer = RegexpTokenizer('[\w]+')
#영문 불용어 제거를 위한 불용어 사정
stop_words = stopwords.words('english')

count = {}   #동시출현 빈도가 저장될 dict
for line in lines_pos:
    #소문자로 변환
    words =  line.lower()
    #단어만 추출
    tokens = tokenizer.tokenize(words)
    #불용어 제거 - 중복을 제거하기 위해서 set으로 변환
    stopped_tokens = [i for i in list(set(tokens)) if not i in stop_words+["br"]]
    #2글자 이상만 추출
    stopped_tokens2 = [i for i in stopped_tokens if len(i)>1]
    #문장들을 순회하면서 단어들이 같이 출현하는 빈도수를 디셔너리에 저장
    for i, a in enumerate(stopped_tokens2):
        for b in stopped_tokens2[i+1:]:
            if a>b: 
                count[b, a] = count.get((b, a),0) + 1  
            else :
                count[a, b] = count.get((a, b),0) + 1  
#디셔너리를 가지고 데이터프레임 생성
df=pd.DataFrame.from_dict(count, orient='index')
print(df)

In [None]:
list1=[]
#인덱스를 분리하고 데이터를 가지고 list를 생성
for i in range(len(df)):
    list1.append([df.index[i][0],df.index[i][1],df[0][i]])

#list를 이용해서 데이터프레임을 생성하고 컬럼이름 설정    
df2=pd.DataFrame(list1, columns=["term1","term2","freq"])
#출현 빈도수로 데이터를 내림차순 정렬해서 데이터프레임을 다시 생성
df3=df2.sort_values(by=['freq'],ascending=False)
#인덱스를 다시 생성
df3_pos=df3.reset_index(drop=True)
df3_pos.head(20)

### word2vec 이용 

#### 영화 리뷰 데이터에 적용하기 

In [None]:
#훈련 데이터의 긍정 문장 100개 읽어서 lines_pos에 저장하기
import glob
from nltk.corpus import stopwords 
from nltk.tokenize import RegexpTokenizer

pos_review=(glob.glob("./data/aclImdb/train/pos/*.txt"))[0:100]
lines_pos=[]
for i in pos_review:
    try:
        f = open(i, 'r')
        temp = f.readlines()[0]
        lines_pos.append(temp)
        f.close()
    except Exception as e:
        continue
        

stop_words = stopwords.words('english')
tokenizer = RegexpTokenizer('[\w]+')


text=[]
for line in lines_pos:
    words =  line.lower()
    tokens = tokenizer.tokenize(words)
    stopped_tokens = [i for i in list(set(tokens)) if not i in stop_words+["br"]]
    stopped_tokens2 = [i for i in stopped_tokens if len(i)>1]
    text.append(stopped_tokens2)

In [None]:
from gensim.models.word2vec import Word2Vec
#sg는 skip-gram을 적용하겠다는 옵션이고 min_count는 적어도 3번이상 나온 경우에만 적용
model = Word2Vec(text, sg=1, window=2, min_count=3)
model.init_sims(replace=True)
#film 과 movie의 관계
model.wv.similarity('film', 'movie')

In [None]:
model.wv.most_similar("good",topn =5)
len(model.wv.index2word)
print(model.wv.index2word[0:5])

#### word2vec - 네이버 지식인에서 국민카드와 관련된 텍스트를 조회해서 작업

In [None]:
import platform
import matplotlib.pyplot as plt

path = "c:/Windows/Fonts/malgun.ttf"
from matplotlib import font_manager, rc
if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)

In [None]:
from bs4 import BeautifulSoup
import urllib
import time

#텍스트를 저장할 리스트 생성
kb_candi_text = []

#다운로드 받을 주소 생성
html = 'https://search.naver.com/search.naver?where=kin&sm=tab_jum&ie=utf8&query=' + urllib.parse.quote('국민카드') + '&start='
print(html)

In [None]:
#1000개의 데이터를 10개씩 0.5초마다 쉬면서 다운로드 받아서 dl 태그의 내용만 가져와서 텍스트를 저장
for n in range(1, 1000, 10):
    response = urllib.request.urlopen(html + str(n))
    soup = BeautifulSoup(response, "html.parser")
    tmp = soup.find_all('dl')
    for line in tmp:
        kb_candi_text.append(line.text)

    time.sleep(0.5)
print(kb_candi_text)

In [None]:
#한글 형태소 분석기를 이용해서 단어 단위로 분할
import nltk
from konlpy.tag import Okt
Okt = Okt()
kb_text = ''

for each_line in kb_candi_text[:10000]:
    kb_text = kb_text + each_line + '\n'
tokens_ko = Okt.morphs(kb_text)
print(tokens_ko)

In [None]:
ko = nltk.Text(tokens_ko, name='국민카드')
print(ko.vocab().most_common(100))

In [None]:
stop_words = ['.','가','요','답변','...','을','수','에','질문','제','를','이','도',
                      '좋','1','는','로','으로','2','것','은','다',',','니다','대','들',
                      '2017','들','데','..','의','때','겠','고','게','네요','한','일','할',
                      '10','?','하는','06','주','려고','인데','거','좀','는데','~','ㅎㅎ',
                      '하나','이상','20','뭐','까','있는','잘','습니다','다면','했','주려',
                      '지','있','못','후','중','줄','6','과','어떤','기본','!!',
                      '단어','라고','중요한','합','가요','....','보이','네','무지']
#불용어 제거
tokens_ko = [each_word for each_word in tokens_ko 
    if each_word not in stop_words]

#가장 많이 등장한 50개 단어 출력
ko = nltk.Text(tokens_ko, name='국민카드')
ko.vocab().most_common(50)

In [None]:
plt.figure(figsize=(15,6))
ko.plot(50) 
plt.show()

In [None]:
from wordcloud import WordCloud
data = ko.vocab().most_common(300)

wordcloud = WordCloud(font_path='c:/Windows/Fonts/malgun.ttf',
                      relative_scaling = 0.5,
                      background_color='white',
                      ).generate_from_frequencies(dict(data))
plt.figure(figsize=(12,8))
plt.imshow(wordcloud)
plt.axis("off")
plt.show()


In [None]:
#연관어 분석
from gensim.models import word2vec
from konlpy.tag import Okt
Okt = Okt()
results = []
lines = kb_candi_text

#품사를 확인해서 조사나 어미나 문장부호 제거
for line in lines:
    malist = Okt.pos(line, norm=True, stem=True)
    r = []

    for word in malist:
        if not word[1] in ["Josa", "Eomi", "Punctuation"]:
            r.append(word[0])

    r1 = (" ".join(r)).strip()
    results.append(r1)
    print(r1)

In [None]:
data_file = 'kb.data'
with open(data_file, 'w', encoding='utf-8') as fp:
    fp.write("\n".join(results))
    data = word2vec.LineSentence(data_file)
model = word2vec.Word2Vec(data, size=200, window=10, hs=1,min_count=2, sg=1)
model.save('kb.model')
model = word2vec.Word2Vec.load("kb.model")
model.most_similar(positive=['국민카드'])

In [None]:
model.most_similar(positive=['할인'])

#### apriori 알고리즘 이용

In [None]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori

#데이터 생성
dataset=[['사과','치즈','생수'],
['생수','호두','치즈','고등어'],
['수박','사과','생수'],
['생수','호두','치즈','옥수수']]
print(dataset)

In [None]:
te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_) 
print(df)

In [None]:
#지지도를 0.5로 설정
frequent_itemsets = apriori(df, min_support=0.5, use_colnames=True)
print(frequent_itemsets)

In [None]:
from mlxtend.frequent_patterns import association_rules
association_rules(frequent_itemsets, metric="confidence", min_threshold=0.3) 

#### 구매항목 연관분석 

In [None]:
import pandas as pd
df = pd.read_csv('data/구매내역.csv', encoding='cp949')
customer = df['고객명'].unique()
print(customer)

In [None]:
items = []
for i in customer:
    temp = df[df['고객명'] == i]
    item = []
    
    for imsi in temp['구매항목']:
        item.append(imsi)
    items.append(item)
    
print(items)

In [None]:
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori
te = TransactionEncoder()
te_ary = te.fit(items).transform(items)
df = pd.DataFrame(te_ary, columns=te.columns_) 
print(df)

In [None]:
#지지도를 0.3로 설정
frequent_itemsets = apriori(df, min_support=0.3, use_colnames=True)
print(frequent_itemsets)

In [None]:
from mlxtend.frequent_patterns import association_rules
association_rules(frequent_itemsets, metric="confidence", min_threshold=0.3) 

### 연관분석 시각화 

In [None]:
#훈련 데이터의 긍정 문장 100개 읽어서 lines_pos에 저장하기
import glob
pos_review=(glob.glob("./data/aclImdb/train/pos/*.txt"))[0:100]
lines_pos=[]
for i in pos_review:
    try:
        f = open(i, 'r')
        temp = f.readlines()[0]
        lines_pos.append(temp)
        f.close()
    except Exception as e:
        continue
import pandas as pd
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords 

#단어만 추출하기 위한 정규식
tokenizer = RegexpTokenizer('[\w]+')
#영문 불용어 제거를 위한 불용어 사전
stop_words = stopwords.words('english')

count = {}   #동시출현 빈도가 저장될 dict
for line in lines_pos:
    #소문자로 변환
    words =  line.lower()
    #단어만 추출
    tokens = tokenizer.tokenize(words)
    #불용어 제거 - 중복을 제거하기 위해서 set으로 변환
    stopped_tokens = [i for i in list(set(tokens)) if not i in stop_words+["br"]]
    #2글자 이상만 추출
    stopped_tokens2 = [i for i in stopped_tokens if len(i)>1]

#문장들을 순회하면 단어들이 같이 출현하는 빈도수를 디셔너리에 저장
    for i, a in enumerate(stopped_tokens2):
        for b in stopped_tokens2[i+1:]:
            if a>b: 
                count[b, a] = count.get((b, a),0) + 1  
            else :
                count[a, b] = count.get((a, b),0) + 1  
#디셔너리를 가지고 데이터프레임 생성
df=pd.DataFrame.from_dict(count, orient='index')

list1=[]
#인덱스를 분리하고 데이터를 가지고 list를 생성
for i in range(len(df)):
    list1.append([df.index[i][0],df.index[i][1],df[0][i]])

#list를 이용해서 데이터프레임을 생성하고 컬럼이름 설정    
df2=pd.DataFrame(list1, columns=["term1","term2","freq"])
#출현 빈도수로 데이터를 내림차순 정렬해서 데이터프레임을 다시 생성
df3=df2.sort_values(by=['freq'],ascending=False)
#인덱스를 다시 생성
df3_pos=df3.reset_index(drop=True)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import networkx as nx
import operator

G_pos=nx.Graph()
for i in range((len(np.where(df3_pos['freq']>10)[0]))):
    G_pos.add_edge(df3_pos['term1'][i], df3_pos['term2'][i], weight=int(df3_pos['freq'][i]))
dgr = nx.degree_centrality(G_pos)
btw = nx.betweenness_centrality(G_pos)
cls = nx.closeness_centrality(G_pos)
egv = nx.eigenvector_centrality(G_pos)

sorted_dgr = sorted(dgr.items(), key=operator.itemgetter(1), reverse=True)
sorted_btw = sorted(btw.items(), key=operator.itemgetter(1), reverse=True)
sorted_cls = sorted(cls.items(), key=operator.itemgetter(1), reverse=True)
sorted_egv = sorted(egv.items(), key=operator.itemgetter(1), reverse=True)

G = nx.Graph()
for i in range(len(sorted_cls)):
    G.add_node(sorted_cls[i][0], nodesize=sorted_dgr[i][1])

for i in range((len(np.where(df3_pos['freq']>10)[0]))):
    G.add_weighted_edges_from([(df3_pos['term1'][i], df3_pos['term2'][i],int(df3_pos['freq'][i]))])

sizes = [G.node[node]['nodesize']*500 for node in G]

options = {
    'edge_color': '#FFDEA2',
    'width': 1,
    'with_labels': True,
    'font_weight': 'regular',
}

nx.draw(G, node_size=sizes, pos=nx.spring_layout(G, k=3.5, iterations=50), **options)
ax = plt.gca()
ax.collections[0].set_edgecolor("#555555") 
plt.show()