<a href="https://colab.research.google.com/github/ppkk0906/Caba_nlp/blob/main/NLP1_0_Text_Mining.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## NLP, 텍스트 분석
- Natural Language Processing: 자연어처리
- 텍스트 분석: 비정형 텍스트에서 의미있는 정보 추출
- NLP와 텍스트 분석의 근간에는 머신러닝이 존재. 과거 언어적인 룰 기반 시스템에서 텍스트 데이터 기반으로 모델을 학습하고 예측
- 텍스트 분석은 머신러닝, 언어 이해, 통계 등을 활용한 모델 수립, 정보 추출을 통해 인사이트 및 예측 분석 등의 분석 작업 수행
  - 텍스트 분류: 신문기사 카테고리 분류, 스팸 메일 검출, 지도학습
  - 감성 분석: 감정/판단/믿음/의견/기분 등의 주관적 요소 분석, 지도 또는 비지도 학습
  - 텍스트 요약: 텍스트 내에서 중요한 주제나 중심 사상을 추출. 토픽 모델링
  - 텍스트 군집화와 유사도 측정: 비슷한 유형의 문서에 대해 군집화 수행, 비지도 학습

## 텍스트 분석 수행 프로세스
  - 텍스트 정규화
    - 클랜징, 토큰화, 필터링/스톱워드 제거/철자 수정
  - 피처 벡터화 변환
    - Bag of words: Count 기반, TF-IDF 기반
    - Word2Vec
  - ML모델 수립 및 학습/예측/평가
## 텍스트 전처리 - 텍스트 정규화
  - 클렌징: 분석에 방해되는 불필요한 문자, 기호를 사전에 제거 예) html,xml 태그
  - 토큰화: 문서에 문장을 분리하는 문장 토큰화와 단어를 토큰으로 분리하는 단어 토큰화
  - 필터링/스톱워드 제거/철자 수정: 분석에 큰 의미가 없는 단어를 제거
  - Stemming Lemmatization: 문법적, 의미적으로 변화하는 단어의 원형을 찾음
    - Stemming: 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 찾음
    - Lemmatization: Stemming보다 정교하며 의미론적인 기반에서 단어의 원형을 찾음


In [None]:
import pandas as pd
import numpy as np
import re

import nltk
from nltk import sent_tokenize
from sklearn.model_selection import GridSearchCV
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.datasets import fetch_20newsgroups
from konlpy.tag  import Okt

In [None]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [None]:
text_sample = 'The Matrix is everywhere ites all around us, here even in this room. You can see it out your window or on your television. You feel it when you go to work, or go to church or pay your taxes'
sentences = sent_tokenize(text_sample)
print(sentences)
print(type(sentences), len(sentences))

['The Matrix is everywhere ites all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes']
<class 'list'> 3


In [None]:
# 단어 토큰화(work_tokenize): 공백, 콤마, 마침표, 개행문자, 정규표현식
from nltk import word_tokenize
words = word_tokenize(sentences[0])
print(words)

['The', 'Matrix', 'is', 'everywhere', 'ites', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [None]:
def get_words(text):
  sentences = sent_tokenize(text)
  words=[]
  for s in sentences:
    for i in word_tokenize(s):
      words.append(i.lower())
  return words

print(get_words(text_sample))

['the', 'matrix', 'is', 'everywhere', 'ites', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.', 'you', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.', 'you', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes']


In [None]:
# 스톱워드 제거: the, a, is, in, will과 같이 문맥적으로 큰 의미가 없는 단어 제거
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
# NLTK english stopwords 확인
print(len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english'[:20]))

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than

In [None]:
# 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 방법
# Stemmer(LancasterStemmer)
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('aumses'),stemmer.stem('amused'))
print(stemmer.stem('fancier'),stemmer.stem('fancist'))


work work work
amus aums amus
fant fant


In [None]:
import nltk
nltk.download('wordnet')


[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [None]:
# Lemmatization(WordNetLemmatizer) : 정확한 원형 단어 추출을 위해 단어의 품사를 직접 입력
from nltk.stem.wordnet import WordNetLemmatizer

lemma = WordNetLemmatizer()
print(lemma.lemmatize('working','v'),lemma.lemmatize('works','v'),lemma.lemmatize('worked','v'))
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('aumses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fancier','a'))


work work work
amuse aumses amuse
fancy fancy


1. 피처 벡터화 : One-hot encoding
2. Bag of Words : 문맥이나 순서를 무시하고 일괄적으로 단어에 대한 빈도 값을 부여해 피처 값을 추출하는 모델.
  - 단점 : 문맥 의미 반영 부족, 희소 행렬 문제.
  - BOW에서 피처 벡터화 : 모든 단어를 컬럼 형태로 나열하고 각 문서에서 해당 단어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 세트 모델로 변경하는 것.

3. 피처 벡터화 방식 : 카운트 기반, TF-IDF(Term Frequency - Inverse Document Frequency) 기반 벡터화
4. 카운트 벡터화 : 카운트 값이 높을수록 중요한 단어로 인식. 특성상 자주 사용되는 보편적인 단어까지 높은 값 부여
5. TF-IDF : 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서 패널티 부여. '빈번하게', '당연히', '조직', '업무' 등  
  
  파라미터
- max_df : 너무 높은 빈도수를 가지는 단어 피처를 제외
- min_df : 너무 낮은 빈도수를 가지는 단어 피처를 제외
- max_features : 추출하는 피처의 개수를 제한하며 정수로 값을 지정
- stop_words : 'english'로 지정하면 스톱 워드로 지정된 단어는 추출에서 제외
- n_gram_range : 튜플 형태로 (범위 최솟값, 범위 최댓값)을 지정
- analyzer : 피처 추출을 수행하는 단위. 디폴트는 'word'
- token_pattern : 토큰화를 수행하는 정규 표현식 패턴을 지정
- tokenizer : 토큰화를 별도의 커스텀 함수로 이용시 적용

In [None]:
#ndarray 객체 생성
dense = np.array([[3,0,1], [0,2,0]])
dense

array([[3, 0, 1],
       [0, 2, 0]])

In [None]:
# 희소행렬 - coo형식
from scipy import sparse
data = np.array([3,1,2])
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])
sparse_coo = sparse.coo_matrix((data,(row_pos, col_pos)))
print(sparse_coo)

  (0, 0)	3
  (0, 2)	1
  (1, 1)	2


In [None]:
# 희소 행렬 - COO 형식
dense2 = np.array([[0,0,1,0,0,5],
                   [1,4,0,3,2,5],
                   [0,6,0,3,0,0],
                   [2,0,0,0,0,0],
                   [0,0,0,7,0,8],
                   [1,0,0,0,0,0]])
data2 = np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])
row_pos2=np.array([0,0,1,1,1,1,1,2,2,3,4,4,5])
col_pos2=np.array([2,5,0,1,3,4,5,1,3,0,3,5,0])
print(sparse.coo_matrix((data2,(row_pos2, col_pos2))).toarray(), '\n')
#희소 행렬 - CSR 형식
row_pos_cul = ([0,2,7,9,10,12,13])
print(sparse.csr_matrix((data2,col_pos2,row_pos_cul)).toarray())

[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]] 

[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [None]:
# DictVectorizer : 문서에서 단어의 사용빈도를 나타내는 딕셔너리 정보를 입력받아 BOW 인코딩한 수치 벡터로 전환
from sklearn.feature_extraction import DictVectorizer
v = DictVectorizer(sparse=False)
D = [{'A':1, 'B':2}, {'B':2, 'C':1}]
X = v.fit_transform(D)
print(X)
print(v.feature_names_)
print(v.vocabulary_)

[[1. 2. 0.]
 [0. 2. 1.]]
['A', 'B', 'C']
{'A': 0, 'B': 1, 'C': 2}


In [None]:
# CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
          'This is the first document',
          'This is the second document.',
          'And the third one...',
          'Is this the first document?',
          'The last document???'
]
c = CountVectorizer()
c.fit(corpus)
print(c.get_feature_names())
print(c.transform(corpus))
print(c.vocabulary_)

['and', 'document', 'first', 'is', 'last', 'one', 'second', 'the', 'third', 'this']
  (0, 1)	1
  (0, 2)	1
  (0, 3)	1
  (0, 7)	1
  (0, 9)	1
  (1, 1)	1
  (1, 3)	1
  (1, 6)	1
  (1, 7)	1
  (1, 9)	1
  (2, 0)	1
  (2, 5)	1
  (2, 7)	1
  (2, 8)	1
  (3, 1)	1
  (3, 2)	1
  (3, 3)	1
  (3, 7)	1
  (3, 9)	1
  (4, 1)	1
  (4, 4)	1
  (4, 7)	1
{'this': 9, 'is': 3, 'the': 7, 'first': 2, 'document': 1, 'second': 6, 'and': 0, 'third': 8, 'one': 5, 'last': 4}


In [None]:
print(c.transform(['this is the second document']).toarray())

[[0 1 0 1 0 0 1 1 0 1]]


In [None]:
# Stop Words는 문서에서 단어장을 생성할 때 무시할 수 있는 단어. 
# 보통 영어의 관사, 접속사, 한국어의 조사 등

vect = CountVectorizer(stop_words=['and','is','the','this']).fit(corpus)
vect.vocabulary_

{'first': 1, 'document': 0, 'second': 4, 'third': 5, 'one': 3, 'last': 2}

In [None]:
vect = CountVectorizer(stop_words='english').fit(corpus)
vect.vocabulary_

{'document': 0, 'second': 1}

In [None]:
# analyzer, tokenizer, token_pattern 등의 인수로 사용할 토큰 생성기를 선택
vect = CountVectorizer(analyzer="char").fit(corpus)
vect.vocabulary_

{'t': 16,
 'h': 8,
 'i': 9,
 's': 15,
 ' ': 0,
 'e': 6,
 'f': 7,
 'r': 14,
 'd': 5,
 'o': 13,
 'c': 4,
 'u': 17,
 'm': 11,
 'n': 12,
 '.': 1,
 'a': 3,
 '?': 2,
 'l': 10}

In [None]:
# n-그램은 단어장 생성에 사용할 토큰의 크기 결정
vect = CountVectorizer(ngram_range=(1,2)).fit(corpus)
print(vect.vocabulary_)

{'this': 20, 'is': 5, 'the': 13, 'first': 3, 'document': 2, 'this is': 21, 'is the': 6, 'the first': 14, 'first document': 4, 'second': 11, 'the second': 16, 'second document': 12, 'and': 0, 'third': 18, 'one': 10, 'and the': 1, 'the third': 17, 'third one': 19, 'is this': 7, 'this the': 22, 'last': 8, 'the last': 15, 'last document': 9}


In [None]:
vect = CountVectorizer(token_pattern='t\w+').fit(corpus)
vect.vocabulary_

{'this': 2, 'the': 0, 'third': 1}

In [None]:
# n-그램은 단어장 생성에 사용할 토큰의 크기 결정
vect = CountVectorizer(ngram_range=(1,2)).fit(corpus)
vect.vocabulary_

{'this': 20,
 'is': 5,
 'the': 13,
 'first': 3,
 'document': 2,
 'this is': 21,
 'is the': 6,
 'the first': 14,
 'first document': 4,
 'second': 11,
 'the second': 16,
 'second document': 12,
 'and': 0,
 'third': 18,
 'one': 10,
 'and the': 1,
 'the third': 17,
 'third one': 19,
 'is this': 7,
 'this the': 22,
 'last': 8,
 'the last': 15,
 'last document': 9}

TF-IDF(Term Frequency – Inverse Document Frequency) 인코딩은 단어를 갯수 그대로 카운트하지 않고 모든 문서에 공통적으로 들어있는 단어의 경우 문서 구별 능력이 떨어진다고 보아 가중치를 축소
문서 d(document)와 단어 t 에 대해 다음과 같이 계산

- tf-idf(d,t)=tf(d,t)⋅idf(t)

- tf(d,t): term frequency. 특정한 단어의 빈도수
- idf(t) : inverse document frequency. 특정한 단어가 들어 있는 문서의 수에 반비례하는 수
- n : 전체 문서의 수
- df(t) : 단어 t 를 가진 문서의 수
- idf(d,t)=log(n/(1+df(t))


In [None]:
corpus = ["""
The Corpus of Contemporary American English (COCA) is the only large, genre-balanced corpus of American English.
COCA is probably the most widely-used corpus of English, and it is related to many other corpora of English that we have created, which offer unparalleled insight into variation in English.
The corpus contains more than one billion words of text (25+ million words each year 1990-2019) from eight genres: spoken, fiction, popular magazines, newspapers, academic texts, and (with the update in March 2020): TV and Movies subtitles, blogs, and other web pages.
Click on any of the links in the search form to the left for context-sensitive help, and to see the range of queries that the corpus offers.
"""]

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidv = TfidfVectorizer(stop_words = 'english').fit(corpus)
print(tfidv.get_feature_names())

['1990', '2019', '2020', '25', 'academic', 'american', 'balanced', 'billion', 'blogs', 'click', 'coca', 'contains', 'contemporary', 'context', 'corpora', 'corpus', 'created', 'english', 'fiction', 'form', 'genre', 'genres', 'help', 'insight', 'large', 'left', 'links', 'magazines', 'march', 'million', 'movies', 'newspapers', 'offer', 'offers', 'pages', 'popular', 'probably', 'queries', 'range', 'related', 'search', 'sensitive', 'spoken', 'subtitles', 'text', 'texts', 'tv', 'unparalleled', 'update', 'used', 'variation', 'web', 'widely', 'words', 'year']


[KoNLP 패키지 사용 방법](https://mr-doosun.tistory.com/22)

In [None]:
import jpype
from konlpy.tag import Okt, Hannanum, Kkma, Komoran, Mecab
okt = Okt()
print(okt.morphs('오늘은 피자 먹는 날'))

['오늘', '은', '피자', '먹는', '날']


In [None]:
print(okt.nouns('유일하게 항공기 체계 종합개발 경험을 갖고 있는 KAI는'))
print(okt.nouns('나는 잠을 자고 싶다'))
print(okt.pos('아름다운 꽃과 파란 하늘', ))

['항공기', '체계', '종합', '개발', '경험']
['나', '잠', '자고']
[('아름다운', 'Adjective'), ('꽃', 'Noun'), ('과', 'Josa'), ('파란', 'Noun'), ('하늘', 'Noun')]


In [None]:
for words, pos in okt.pos('아름다운 꽃과 파란 하늘'):
  if pos == 'Adjective':
    print(words)
print()
print(okt.nouns('나는 오늘 방콕에 갔다'))
print()
for words, pos in okt.pos('나는 오늘 방콕에 갔다.', stem=True):
    print(words)
print()
print(okt.morphs('친절한 코치와 재미있는 친구들이 있는 도장에 가고 싶다.', ))
print()
print(okt.pos('나는 오늘도 장에 가고 싶다.', join=True))
print()
print(okt.pos('나는 오늘도 장에 가고 싶을깤ㅋㅋ?.', norm=True, stem=True))
print()

아름다운

['나', '오늘', '방콕']

나
는
오늘
방콕
에
가다
.

['친절한', '코치', '와', '재미있는', '친구', '들', '이', '있는', '도장', '에', '가고', '싶다', '.']

['나/Noun', '는/Josa', '오늘/Noun', '도/Josa', '장/Noun', '에/Josa', '가고/Verb', '싶다/Verb', './Punctuation']

[('나', 'Noun'), ('는', 'Josa'), ('오늘', 'Noun'), ('도', 'Josa'), ('장', 'Noun'), ('에', 'Josa'), ('가다', 'Verb'), ('싶다', 'Verb'), ('ㅋㅋ', 'KoreanParticle'), ('?.', 'Punctuation')]



## 텍스트 분류
- 특정 문서의 분류를 학습 데이터를 통해 학습해 모델을 생성한 뒤 이 학습 모델을 이용해 다른 문서의 분류를 예측
- 텍스트를 피처 벡터화로 변환, 희소 행렬로 만들고 로지스틱 회귀를 이용해 분류 수행
- Count기반과 TF-IDF기반의 벡터화를 각각 적용, 성능 비교
- 피처 벡터화를 위한 GridSearchCV기반의 하이퍼파라미터 튜닝을 일괄적으로 수행

In [None]:
news_data = fetch_20newsgroups(subset='all', random_state=0)
news_data.keys()

In [None]:
print(news_data.DESCR)

.. _20newsgroups_dataset:

The 20 newsgroups text dataset
------------------------------

The 20 newsgroups dataset comprises around 18000 newsgroups posts on
20 topics split in two subsets: one for training (or development)
and the other one for testing (or for performance evaluation). The split
between the train and test set is based upon a messages posted before
and after a specific date.

This module contains two loaders. The first one,
:func:`sklearn.datasets.fetch_20newsgroups`,
returns a list of the raw texts that can be fed to text feature
extractors such as :class:`sklearn.feature_extraction.text.CountVectorizer`
with custom parameters so as to extract feature vectors.
The second one, :func:`sklearn.datasets.fetch_20newsgroups_vectorized`,
returns ready-to-use features, i.e., it is not necessary to use a feature
extractor.

**Data Set Characteristics:**

    Classes                     20
    Samples total            18846
    Dimensionality               1
    Features       

In [None]:
pd.Series(news_data.target_names).value_counts()

talk.religion.misc          1
comp.sys.ibm.pc.hardware    1
alt.atheism                 1
sci.space                   1
sci.electronics             1
sci.crypt                   1
talk.politics.mideast       1
misc.forsale                1
talk.politics.guns          1
comp.windows.x              1
comp.os.ms-windows.misc     1
talk.politics.misc          1
rec.sport.hockey            1
rec.motorcycles             1
soc.religion.christian      1
sci.med                     1
comp.sys.mac.hardware       1
rec.autos                   1
comp.graphics               1
rec.sport.baseball          1
dtype: int64

In [None]:
# 텍스트 정규화
# 뉴스그룹 기사내용을 제외하고 다른 정보 제거
# 제목, 소속, 이메일 등 헤더와 푸터 정보들은 분류의 타겟 클래스 값과 유사할 수 있음
train_news = fetch_20newsgroups(subset='train', remove=('header', 'footer', 'quotes'), random_state=0)
X_train = train_news.data
y_train = train_news.target
test_news = fetch_20newsgroups(subset='test', remove=('header', 'footer', 'quotes'), random_state=0)
X_test = test_news.data
y_test = test_news.target
print(len(X_train), len(X_test))

11314 7532


In [None]:
cnt_vect = CountVectorizer()
cnt_vect.fit(X_train)
X_train_cnt_vect = cnt_vect.transform(X_train)
X_test_cnt_vect = cnt_vect.transform(X_test)

In [None]:
lr_clf = LogisticRegression()
lr_clf.fit(X_train_cnt_vect, y_train)
pred = lr_clf.predict(X_test_cnt_vect)
print(accuracy_score(y_test, pred))

0.7523898035050451


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [None]:
# 피처 벡터화 변환: TF-IDF 벡터화
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

In [None]:
lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect, y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print(accuracy_score(y_test, pred))

0.7841210833775889


In [None]:
# stop words 필터링 추가, ngram을 기본(1,1)에서 (1,2)로 max_df=300으로 변경해 피처 벡터화 적용
tfidf_vect = TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_df=300)
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

In [None]:
# 램 16기가로도 모자른거 실환가?
lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect, y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print(accuracy_score(y_test, pred))

0.774429102496017


\[과제]  
Random Forest, SVM, DT, KNN을 적용하여 뉴스그룹에 대한 분류 예측을 수행하세요

In [None]:
# 집에서 해보자...
params = {
    'C': [5, 10],
}
gscv_lr = GridSearchCV(LogisticRegression(), param_grid = params, cv=3, scoring='accuracy', verbose=1, n_jobs=2)
gscv_lr.fit(X_train_tfidf_vect, y_train)
print(gscv_lr.best_params_)
pred = gscv_lr.predict(X_test_tfidf_vect)
print(accuracy_score(y_test, pred))

Fitting 3 folds for each of 2 candidates, totalling 6 fits
[Parallel(n_jobs=2)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=2)]: Done   6 out of   6 | elapsed: 14.6min finished
{'C': 10}


NameError: name 'accuracy_scorec' is not defined

In [None]:
# 사이킷런 파이프라인 사용 및  LR 결합
from sklearn.pipeline import Pipeline
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_df=300)),
    ('lr_clf', LogisticRegression(C=10))
])
pipeline.fit(X_train,y_train)
pred = pipeline.predict(X_test)
print(accuracy_score(y_test, pred))

0.7980616038236856


In [None]:
# 사이킷런 파이프라인과 GridSearchCV와의 결합
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_df=300)),
    ('lr_clf', LogisticRegression(C=10))
])
params = {'tfidf_vect_ngram_range': [(1,1), (1,2), (1,3)],
          'tfidf_vect_max_df': [100, 300, 700],
          'lr_clf_C' : [1,5,10]
         }
grid_cv_pipe = GridSearchCV(pipeline, param_grid = params, cv=3, scoring = 'accuracy', verbose=1, n_jobs=2)
grid_cv_pipe.fit(X_train, y_train)
print(grid_cv_pipe.best_params-, grid_cv_pipe.best_param.best_score_)
pred = grid_cv_pipe.predict(X_train_test)
print(accuracy_score(y_test, pred))

### 감정 분석 - 네이버 영화 평점
    네이버 영화 평점 train 데이터 기반으로 다음 사항에 유의하여 감정분석 후 test 데이터를 이용해 최종 감정 예측을 수행하세요.
    네이버 영화 평점 데이터는 http://github.com/e9t/nsmc에서 ratings.txt(전체), ratings._train.txt(학습), rating_test.txt(테스트)를 다운로드

1. 데이터 세트 요약 정보

- 칼럼 : id, document
- label : the sentiment class of the review (0:negative, 1: positive)
- ratings.txt : All 200K reviews
- ratings_test : 50K reviews held out for testing
- ratings_train : 150K reviews for training
- 정규 표현식을 이용하여 숫자를 공백으로 변경(정규 표현식으로 \d 는 숫자를 의미함.)

2. 과정
- 테스트 데이터 셋을 로딩하고 동일하게 Null 및 숫자를 공백으로 변환
- 한글 형태소 분석을 통해 형태소 단어로 토큰화(tokenizer 사용자 함수 작성 추천)
    - 한글 형태소 엔진은 SNS 분석에 적합한 Okt 클래스를 이용
    - morphs() 메서드는 입력 인자로 들어온 문장을 형태소 단어 형태로 토큰화해 list 객체 반환
    - Okt 객체의 morphs( ) 객체를 이용한 tokenizer를 사용. ngram_range는 (1,2)
- 사이킷런의 TfidVectorizor를 이용, TF-IDF 피처 모델을 생성(10분 이상 소요)
- DT, RF, LR 을 이용하여 감성 분석 Classification 수행
- 3개 분류 모델별 교차 검증 및 Parameter 최적화를 GridSearchCV 를 이용하여 수행(최적 분류 모델 선정)
    - DT params = {'max_depth':[2,3,5,10], 'min_samples_split':[2,3,5],'min_samples_leaf':[1,5,8]}
    - RF params = {'n_estimators':[50,100, 200], 'max_depth':[2,3,5], 'min_samples_leaf':[1,5,8]}
    - LR params = { 'C': [1 ,3.5, 4.5, 5.5, 10 ] }\ C는 규제 강도를 조절하는 alpha 값의 역수로 작을 수록 규제 강도가 큼
- param_grid=params , cv=3 ,scoring='accuracy', verbose=1(학습진행 상황 표시)
- 학습데이터에 사용된 TfidVectorizer 객체 변수인 tfidf_vect를 이용해 transform()을 테스트 데이터의 document 칼럼에 수행

In [None]:
ratings = pd.read_table('../dataset/ratings.txt')
ratings_test = pd.read_table('../dataset/ratings_test.txt')
ratings_train = pd.read_table('../dataset/ratings_train.txt')
ratings_train

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
...,...,...,...
149995,6222902,인간이 문제지.. 소는 뭔죄인가..,0
149996,8549745,평점이 너무 낮아서...,1
149997,9311800,이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?,0
149998,2376369,청춘 영화의 최고봉.방황과 우울했던 날들의 자화상,1


In [None]:
ratings.document.replace('\d', ' ', inplace=True)
ratings.fillna(' ', inplace=True)
ratings_test.fillna(' ', inplace=True)
ratings_train.fillna(' ', inplace=True)
ratings_test['document'] = ratings_test['document'].apply(lambda x: re.sub(r"\d+", " ", x))
ratings_train['document'] = ratings_train['document'].apply(lambda x: re.sub(r"\d+", " ", x))

In [None]:
def ko_tokenizer(text):
    return okt.morphs(text)

In [None]:
tf_idf = TfidfVectorizer(tokenizer=ko_tokenizer, ngram_range=(1,2), min_df=3, max_df=0.9)
tf_idf.fit(ratings_train.document)
X_train = tf_idf.transform(ratings_train.document)



In [None]:
import warnings
warnings.filterwarnings("ignore")
lr_clf = LogisticRegression()
params = {'C': [1, 3.5, 4.5, 5.5, 10]}
gscv = GridSearchCV(lr_clf, param_grid = params, cv=3, scoring='accuracy', verbose=1, n_jobs=4)
gscv.fit(X_train, ratings_train.label)
print(gscv.best_params_, np.round(gscv.best_score_, 4))

Fitting 3 folds for each of 5 candidates, totalling 15 fits


[Parallel(n_jobs=4)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=4)]: Done  15 out of  15 | elapsed:   19.4s finished


{'C': 3.5} 0.8592


In [None]:
X_test = tf_idf.transform(ratings_test.document)
pred = gscv.predict(X_test)
print(accuracy_score(pred, ratings_test.label).round(4))

0.8618


In [None]:
params =  {'max_depth':[2,3,5,10], 'min_samples_split':[2,3,5],'min_samples_leaf':[1,5,8]}
dt_clf = GridSearchCV(DecisionTreeClassifier(), param_grid=params, cv=3, scoring='accuracy', n_jobs=-1)
rf_clf = GridSearchCV(DecisionTreeClassifier(), param_grid=params, cv=3, scoring='accuracy', n_jobs=-1)
dt_clf.fit(X_train, ratings_train.label)
rf_clf.fit(X_train, ratings_train.label)
print("DecisionTree: ", dt_clf.best_params_, dt_clf.best_score_.round(4))
print("RandomForest: ", rf_clf.best_params_, rf_clf.best_score_.round(4))

DecisionTree:  {'max_depth': 10, 'min_samples_leaf': 1, 'min_samples_split': 5} 0.5848
RandomForest:  {'max_depth': 10, 'min_samples_leaf': 1, 'min_samples_split': 5} 0.5848


In [None]:
pred = dt_clf.predict(X_test)
print("DecisionTree:",accuracy_score(pred, ratings_test.label).round(4))
pred = rf_clf.predict(X_test)
print("RandomForest:",accuracy_score(pred, ratings_test.label).round(4))

DecisionTree: 0.5862
RandomForest: 0.5862


### 토픽 모델링
- 머신러닝 기반의 토픽 모델링을 적용하여 문서 집합에 숨어 있는 주제를 찾아냄
- 사람이 수행하는 토픽 모델링은 더 함축적인 의미로 문장을 "요약"하는 것에 반해 머신 러닝 기반은 중심 단어를 함축적으로 "추출"
- LSA(Latent Sementic Analysis)와 LDA 기법
    - LSA: 단어-문서 행렬, 단어-문맥행렬 등 
    - LDA:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
cats = ['rec.motorcycles', 'rec.sport.baseball', 'comp.graphics', 'comp.windows.x', 'talk.politics.mideast','soc.religion.christian', 'sci.electronics', 'sci.med']
new_df = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'), categories= cats)
count_vect = CountVectorizer(max_df=0.95, max_features=1000, min_df=2, stop_words='english', ngram_range=(1,2))
feat_vect = count_vect.fit_transform(new_df.data)
print('CountVectorizer Shape:', feat_vect.shape)

CountVectorizer Shape: (7862, 1000)


In [None]:
lda = LatentDirichletAllocation(n_components=len(cats), random_state=0)
lda.fit(feat_vect)
print(lda.components_.shape)

(8, 1000)


In [None]:
def display_topics(model, feature_names, no_top_words):
    for index, topic in enumerate(model.components_):
        print("Topic #", index)
        topic_word_indexes = topic.argsort()[::-1]
        topic_indexes = topic_word_indexes[:no_top_words]
        feature_concat = '  '.join([feature_names[i] for i in topic_indexes])
        print(feature_concat)

feature_names = count_vect.get_feature_names()
display_topics(lda, feature_names, 10)

Topic # 0
year  10  game  medical  health  team  12  20  disease  1993
Topic # 1
don  just  know  like  said  people  time  think  didn  ve
Topic # 2
image  file  jpeg  program  gif  output  format  images  color  files
Topic # 3
like  think  don  just  use  does  know  good  time  people
Topic # 4
armenian  israel  jews  armenians  turkish  people  israeli  jewish  government  war
Topic # 5
edu  com  available  graphics  ftp  window  motif  data  pub  mail
Topic # 6
god  jesus  people  church  christ  believe  christian  does  christians  say
Topic # 7
thanks  dos  use  windows  using  does  help  like  need  display


## 문서 군집화
- 비슷한 텍스트 구성의 문서를 군집화하여 같은 카테고리 소속으로 분류
- 학습 데이터 세트가 필요없는 비지도 학습 기반으로 동작

In [None]:
import glob, os
path = '../dataset/topics/'
files = glob.glob(os.path.join(path, '*.data'))

filename_list = []
opinion_text = []

for file_ in files:
    df = pd.read_table(file_, index_col=None, header=0, encoding='latin1')
    filename_list.append(file_.split("\\")[-1].split(".")[0])
    opinion_text.append(df.to_string())
document_df = pd.DataFrame({'filename': filename_list, 'opinion_text': opinion_text})
document_df.head(4)

Unnamed: 0,filename,opinion_text
0,voice_garmin_nuvi_255W_gps,...
1,updates_garmin_nuvi_255W_gps,...
2,video_ipod_nano_8gb,...
3,transmission_toyota_camry_2007,...


In [None]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\admin\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [None]:
from nltk.stem import WordNetLemmatizer
import string

remove_punct_dict = dict( (ord(punct), None) for punct in string.punctuation )
lemma = WordNetLemmatizer()

def LemTokens(tokens):
    return [lemma.lemmatize(token) for token in tokens]
def LeNormalize(text):
    return LemTokens(nltk.word_tokenize(text.lower().translate(remove_punct_dict)))

In [None]:
# 피처 벡터화
tfidf = TfidfVectorizer(tokenizer = LeNormalize,stop_words='english', max_df=0.85, ngram_range=(1,2))
feat_vect = tfidf.fit_transform(document_df['opinion_text'])

In [None]:
from sklearn.cluster import KMeans
kmeans =KMeans(max_iter=100000, n_clusters=5)
kmeans.fit(feat_vect)
cluster_label = kmeans.labels_
cluster_centers = kmeans.cluster_centers_
document_df['label'] = cluster_label
for i in sorted(document_df.label.unique()):
    print('=============================label {}============================='.format(i))
    print( document_df.loc[document_df.label==i, "filename"] )

4             staff_swissotel_chicago
5         staff_bestwestern_hotel_sfo
10    service_swissotel_hotel_chicago
11         service_holiday_inn_london
12      service_bestwestern_hotel_sfo
18            rooms_swissotel_chicago
19        rooms_bestwestern_hotel_sfo
20            room_holiday_inn_london
22           price_holiday_inn_london
26      parking_bestwestern_hotel_sfo
29        location_holiday_inn_london
30     location_bestwestern_hotel_sfo
35         free_bestwestern_hotel_sfo
36             food_swissotel_chicago
37            food_holiday_inn_london
49     bathroom_bestwestern_hotel_sfo
Name: filename, dtype: object
0          voice_garmin_nuvi_255W_gps
1        updates_garmin_nuvi_255W_gps
6                      speed_windows7
7          speed_garmin_nuvi_255W_gps
16        screen_garmin_nuvi_255W_gps
17     satellite_garmin_nuvi_255W_gps
39                  features_windows7
41       display_garmin_nuvi_255W_gps
42    directions_garmin_nuvi_255W_gps
50      accuracy_gar

In [None]:
# 군집별 top n개의 핵심단어, 그 단어의 중심 위치 상대값, 대상 파일명들을 반환
def get_cluster_details(cluster_model, cluster_data, feature_names, cluster_num, top_n_features=10):
    cluster_details={}
    # 각 클러스터 레이블별 feature들의 center 값들 내림차순으로 정렬 후의 인덱스를 반환
    centroid_feature_ordered_ind = cluster_model.cluster_centers_.argsort()[:, ::-1]
    
    #개별 클러스터 레이블 별로
    for cluster_num in range(cluster_num):
        # 개별 군집별 정보를 empty dict 할당
        cluster_details[cluster_num] = {}
        cluster_details[cluster_num]['cluster'] = cluster_num
        # top n개의 피처 단어를  구하기
        top_n_feature_indexes = centroid_feature_ordered_ind[cluster_num, :top_n_features]
        top_features = [feature_names[ind] for ind in top_n_feature_indexes ]
        
        #top_feature_indexes를 이용해 해당 피쳐 단어와 중심 위치 상대값 구하기
        top_features_values = cluster_model.cluster_centers_[cluster_num, top_n_feature_indexes].tolist()
        
        # cluster_details 딕셔너리 객체에 개별 군집별 핵심 단어와 중심위치 상대값 파일명 업데이트
        cluster_details[cluster_num]['top_features'] = top_features
        cluster_details[cluster_num]['top_features_value'] = top_features_values
        filenames = cluster_data[cluster_data['label']==cluster_num]['filename']
        filenames = filenames.tolist()
        cluster_details[cluster_num]['filename'] = filenames
        
    return cluster_details

def print_cluster_details(cluster_details):
    for cluster_num, cluster_detail in cluster_details.items():
        print('### Cluster {0}'.format(cluster_num))
        print('Top features:', cluster_detail['top_features'])
        print('Review 파일명:', cluster_detail['filename'][:7])
feature_names =tfidf.get_feature_names()
cluster_details =  get_cluster_details(kmeans, document_df, feature_names, 5)
print_cluster_details(cluster_details)

### Cluster 0
Top features: ['room', 'hotel', 'service', 'staff', 'location', 'food', 'bathroom', 'clean', 'price', 'parking']
Review 파일명: ['staff_swissotel_chicago', 'staff_bestwestern_hotel_sfo', 'service_swissotel_hotel_chicago', 'service_holiday_inn_london', 'service_bestwestern_hotel_sfo', 'rooms_swissotel_chicago', 'rooms_bestwestern_hotel_sfo']
### Cluster 1
Top features: ['direction', 'voice', 'map', 'screen', 'speed limit', 'speed', 'accurate', 'satellite', 'limit', 'feature']
Review 파일명: ['voice_garmin_nuvi_255W_gps', 'updates_garmin_nuvi_255W_gps', 'speed_windows7', 'speed_garmin_nuvi_255W_gps', 'screen_garmin_nuvi_255W_gps', 'satellite_garmin_nuvi_255W_gps', 'features_windows7']
### Cluster 2
Top features: ['battery', 'screen', 'battery life', 'life', 'keyboard', 'video', 'size', 'sound', 'performance', 'ipod']
Review 파일명: ['video_ipod_nano_8gb', 'sound_ipod_nano_8gb', 'size_asus_netbook_1005ha', 'screen_netbook_1005ha', 'screen_ipod_nano_8gb', 'performance_netbook_1005ha',