<a href="https://colab.research.google.com/github/ppkk0906/Caba_nlp/blob/main/NLP1_0_Text_Mining.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## NLP, 텍스트 분석
- Natural Language Processing: 자연어처리
- 텍스트 분석: 비정형 텍스트에서 의미있는 정보 추출
- NLP와 텍스트 분석의 근간에는 머신러닝이 존재. 과거 언어적인 룰 기반 시스템에서 텍스트 데이터 기반으로 모델을 학습하고 예측
- 텍스트 분석은 머신러닝, 언어 이해, 통계 등을 활용한 모델 수립, 정보 추출을 통해 인사이트 및 예측 분석 등의 분석 작업 수행
  - 텍스트 분류: 신문기사 카테고리 분류, 스팸 메일 검출, 지도학습
  - 감성 분석: 감정/판단/믿음/의견/기분 등의 주관적 요소 분석, 지도 또는 비지도 학습
  - 텍스트 요약: 텍스트 내에서 중요한 주제나 중심 사상을 추출. 토픽 모델링
  - 텍스트 군집화와 유사도 측정: 비슷한 유형의 문서에 대해 군집화 수행, 비지도 학습

## 텍스트 분석 수행 프로세스
  - 텍스트 정규화
    - 클랜징, 토큰화, 필터링/스톱워드 제거/철자 수정
  - 피처 벡터화 변환
    - Bag of words: Count 기반, TF-IDF 기반
    - Word2Vec
  - ML모델 수립 및 학습/예측/평가
## 텍스트 전처리 - 텍스트 정규화
  - 클렌징: 분석에 방해되는 불필요한 문자, 기호를 사전에 제거 예) html,xml 태그
  - 토큰화: 문서에 문장을 분리하는 문장 토큰화와 단어를 토큰으로 분리하는 단어 토큰화
  - 필터링/스톱워드 제거/철자 수정: 분석에 큰 의미가 없는 단어를 제거
  - Stemming Lemmatization: 문법적, 의미적으로 변화하는 단어의 웥ㄴ형을 찾음
    - Stemming: 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 찾음
    - Lemmatization: Stemming보다 정교하며 의미론적인 기반에서 단어의 원형을 찾음


In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
from nltk import sent_tokenize
text_sample = 'The Matrix is everywhere ites all around us, here even in this room. You can see it out your window or on your television. You feel it when you go to work, or go to church or pay your taxes'
sentences = sent_tokenize(text_sample)
print(sentences)
print(type(sentences), len(sentences))

['The Matrix is everywhere ites all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes']
<class 'list'> 3


In [None]:
# 단어 토큰화(work_tokenize): 공백, 콤마, 마침표, 개행문자, 정규표현식
from nltk import word_tokenize
words = word_tokenize(sentences[0])
print(words)

['The', 'Matrix', 'is', 'everywhere', 'ites', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [None]:
def get_words(text):
  sentences = sent_tokenize(text)
  words=[]
  for s in sentences:
    for i in word_tokenize(s):
      words.append(i.lower())
  return words

print(get_words(text_sample))

['the', 'matrix', 'is', 'everywhere', 'ites', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.', 'you', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.', 'you', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes']


In [None]:
# 스톱워드 제거: the, a, is, in, will과 같이 문맥적으로 큰 의미가 없는 단어 제거
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
# NLTK english stopwords 확인
print(len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english'[:20]))

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than

In [None]:
# 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 방법
# Stemmer(LancasterStemmer)
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('aumses'),stemmer.stem('amused'))
print(stemmer.stem('fancier'),stemmer.stem('fancist'))


work work work
amus aums amus
fant fant


In [None]:
import nltk
nltk.download('wordnet')


[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [None]:
# Lemmatization(WordNetLemmatizer) : 정확한 원형 단어 추출을 위해 단어의 품사를 직접 입력
from nltk.stem.wordnet import WordNetLemmatizer

lemma = WordNetLemmatizer()
print(lemma.lemmatize('working','v'),lemma.lemmatize('works','v'),lemma.lemmatize('worked','v'))
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('aumses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fancier','a'))


work work work
amuse aumses amuse
fancy fancy


## 12345

In [None]:
#ndarray 객체 생성
import numpy as np
dense = np.array([[3,0,1], [0,2,0]])
dense

array([[3, 0, 1],
       [0, 2, 0]])

In [None]:
# 희소행렬 - coo형식
from scipy import sparse
data = np.array([3,1,2])
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])
sparse_coo = sparse.coo_matrix((data,(row_pos, col_pos)))
print(sparse_coo)

  (0, 0)	3
  (0, 2)	1
  (1, 1)	2


In [None]:
# 희소 행렬 - COO 형식
dense2 = np.array([[0,0,1,0,0,5],
                   [1,4,0,3,2,5],
                   [0,6,0,3,0,0],
                   [2,0,0,0,0,0],
                   [0,0,0,7,0,8],
                   [1,0,0,0,0,0]])
data2 = np.array([1,5,1,4,3,2,5,6,3,2,7,8,1])
row_pos2=np.array([0,0,1,1,1,1,1,2,2,3,4,4,5])
col_pos2=np.array([2,5,0,1,3,4,5,1,3,0,3,5,0])
print(sparse.coo_matrix((data2,(row_pos2, col_pos2))).toarray(), '\n')
#희소 행렬 - CSR 형식
row_pos_cul = ([0,2,7,9,10,12,13])
print(sparse.csr_matrix((data2,col_pos2,row_pos_cul)).toarray())

[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]] 

[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [None]:
# DictVectorizer : 문서에서 단어의 사용빈도를 나타내는 딕셔너리 정보를 입력받아 BOW 인코딩한 수치 벡터로 전환
from sklearn.feature_extraction import DictVectorizer
v = DictVectorizer(sparse=False)
D = [{'A':1, 'B':2}, {'B':2, 'C':1}]
X = v.fit_transform(D)
print(X)
print(v.feature_names_)
print(v.vocabulary_)

[[1. 2. 0.]
 [0. 2. 1.]]
['A', 'B', 'C']
{'A': 0, 'B': 1, 'C': 2}


In [None]:
# CountVectorizer
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
          'This is the first document',
          'This is the second document.',
          'And the third one...',
          'Is this the first document?',
          'The last document???'
]
c = CountVectorizer()
c.fit(corpus)
print(c.get_feature_names())
print(c.transform(corpus))
print(c.vocabulary_)

['and', 'document', 'first', 'is', 'last', 'one', 'second', 'the', 'third', 'this']
  (0, 1)	1
  (0, 2)	1
  (0, 3)	1
  (0, 7)	1
  (0, 9)	1
  (1, 1)	1
  (1, 3)	1
  (1, 6)	1
  (1, 7)	1
  (1, 9)	1
  (2, 0)	1
  (2, 5)	1
  (2, 7)	1
  (2, 8)	1
  (3, 1)	1
  (3, 2)	1
  (3, 3)	1
  (3, 7)	1
  (3, 9)	1
  (4, 1)	1
  (4, 4)	1
  (4, 7)	1
{'this': 9, 'is': 3, 'the': 7, 'first': 2, 'document': 1, 'second': 6, 'and': 0, 'third': 8, 'one': 5, 'last': 4}


In [None]:
print(c.transform(['this is the second document']).toarray())

[[0 1 0 1 0 0 1 1 0 1]]


In [None]:
# Stop words는 문서에서 단어장을 생성할  때 무시해도 되는 단어
# 보통 영어의 관사, 접속사, 한국어의 조사 등
vect = CountVectorizer(stop_words='english').fit(corpus)
print(vect.vocabulary_)

{'document': 0, 'second': 1}


In [None]:
# analyzer, tokenizer, token_pattern 등의 인수로 사용할 토큰 생성기를 선택


In [None]:
# n-그램은 단어장 생성에 사용할 토큰의 크기 결정
vect = CountVectorizer(ngram_range=(1,2)).fit(corpus)
print(vect.vocabulary_)

{'this': 20, 'is': 5, 'the': 13, 'first': 3, 'document': 2, 'this is': 21, 'is the': 6, 'the first': 14, 'first document': 4, 'second': 11, 'the second': 16, 'second document': 12, 'and': 0, 'third': 18, 'one': 10, 'and the': 1, 'the third': 17, 'third one': 19, 'is this': 7, 'this the': 22, 'last': 8, 'the last': 15, 'last document': 9}


## TF-IDF


In [None]:
corpus = ["""
The Corpus of Contemporary American English (COCA) is the only large, genre-balanced corpus of American English.
COCA is probably the most widely-used corpus of English, and it is related to many other corpora of English that we have created, which offer unparalleled insight into variation in English.
The corpus contains more than one billion words of text (25+ million words each year 1990-2019) from eight genres: spoken, fiction, popular magazines, newspapers, academic texts, and (with the update in March 2020): TV and Movies subtitles, blogs, and other web pages.
Click on any of the links in the search form to the left for context-sensitive help, and to see the range of queries that the corpus offers.
"""]

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
tfidv = TfidfVectorizer(stop_words = 'english').fit(corpus)
print(tfidv.get_feature_names())


['1990', '2019', '2020', '25', 'academic', 'american', 'balanced', 'billion', 'blogs', 'click', 'coca', 'contains', 'contemporary', 'context', 'corpora', 'corpus', 'created', 'english', 'fiction', 'form', 'genre', 'genres', 'help', 'insight', 'large', 'left', 'links', 'magazines', 'march', 'million', 'movies', 'newspapers', 'offer', 'offers', 'pages', 'popular', 'probably', 'queries', 'range', 'related', 'search', 'sensitive', 'spoken', 'subtitles', 'text', 'texts', 'tv', 'unparalleled', 'update', 'used', 'variation', 'web', 'widely', 'words', 'year']


[KoNLP 패키지 사용 방법](https://mr-doosun.tistory.com/22)

In [18]:
import jpype
from konlpy.tag import Okt, Hannanum, Kkma, Komoran, Mecab
