## 1. 개요
- NLP(Natural Language Processing): 자연어 처리, 기계가 인간의 언어를 이해하고 해석하는 데 중점
- Text Analysis : 비정형 텍스트에서 의미있는 정보를 추출
  + 활용 예제 : 비즈니스 인텔리전스, 예측분석(머신러닝)
- 텍스트 분석의 예
  + 분류 : 특정문서가 어느 카테고리에 속하는지 예측하는 기법
  + 감성 분석 : 텍스트에서 나타나는 감정/판단/믿음 주관적인 요소 분석하는 기법
  + 텍스트 요약 : 여러텍스트들을 모아서 중요 주제나 중심사상 추출(Topic Modeling)
  + 텍스트 군집화(Clustering)와 유사도 측정
    - 비슷한 유형의 문서에 대해 군집화를 수행하는 기법, 비지도 학습의 일종

## 텍스트 분석 개요
- 텍스트를 의미있는 숫자로 표현하는 것이 핵심
- Feature Vectorization, Feature Extraction
- Feature Vectorization
  + BOW(Bag of Words)
  + Word2Vec
- 머신러닝을 수행하기 전에 반드시 선행해야함

### 텍스트 분석 수행 방법
- 1단계 : 데이터 수집, 전처리
- 2단계 : 피처 벡터화(수치로 변환)
- 3단계 : 알고리즘

## 품사 태깅, 토큰화
- 한글 vs 영어 : 영어가 압도적으로 발전이 많이 되어 이음
- 파이썬 NLP 주요 패키지 (영어)
  + NLTK : 모듈 많고, 예제 데이터도 많음. 속도가 좀 느린 편?
  + Gensim : 토픽 모델링 분야에서 주로 사용되는 패키지
  + SpaCV : 최근에 나온 패키지
- 한글 버전
  + KoNLPy, mecab

In [1]:
from nltk import sent_tokenize
import nltk

nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

- 보통 여러 문장으로 구성
- 문장을 마침표 단위로 분리
- 특수문자 등을 제거할 때 사용

In [2]:
text_sample = "The Matrix is everywhere its all around us, here even in this wroom. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes."

sentences = sent_tokenize(text = text_sample)
print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this wroom.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


- `sent_tokenize`의 역할은 여러 문장을 마침표 단위로 분리하는 역할

## 단어 토큰화
- 문장을 단어로 토큰화를 함
- 공백, 콤마(,), 마침표(.), 개행 문자등으로 단어를 분리
- 정규 표현식을 이용해서 다양한 유형으로 토큰화를 수행한다.
- 단어의 순서가 중요하지 않는 경우에는 BOW를 사용한다.

In [3]:
from nltk import word_tokenize

text_sample = "The Matrix is everywhere its all around us, here even in this wroom."
words = word_tokenize(text_sample)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'wroom', '.']


### 토큰화 함수
- 여러 문장으로 구성된 문서를 문장별로 분리한다.
- 분리된 문장을 단어로 분리한다.
  + 반복문 활용

In [4]:
from nltk import word_tokenize, sent_tokenize

# 여러개의 문장으로 된 입력 데이터를 단어로 변환하는 함수
def tokenize_text(text):

  # 문장별로 분리 토큰
  sentences = sent_tokenize(text)

  # 분리된 문장별 단어로 토큰화
  word_tokens = [word_tokenize(sentence) for sentence in sentences]
  return word_tokens

In [5]:
text_sample = "The Matrix is everywhere its all around us, here even in this wroom. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes."

word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'wroom', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


### 불용어(Stopwords) 제거
- 의미가 없는 be 동사 등을 제거함.
- NLTK 라이브러리에 해당 모듈이 존재함

In [6]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

- 총 몇 개의 불용어가 있는지 확인
- 20개 확인

In [7]:
print(len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english'))

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than

In [70]:
print(nltk.corpus.stopwords.words('english')[:20])

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


- 이번에는 stopwords를 필터링으로 활용
  + 조건식

In [15]:
import nltk
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

for sentence in word_tokens:
  filtered_words = [] # 빈리스트 생성

  # 개별 문장별로 토큰화된 문장 list에 stopword 제거
  for word in sentence:

    # 모두 소문자로 변환 - 불용어가 모두 소문자 형식
    word = word.lower()
    
    # 각 개별 단어가 stopword에 포함되지 않으면 all_tokens에 추가
    # 각 개별 단어가 stopword에 포함되면 filtered_words에 추가
    # if word not in stopwords:
    #   # print(word)
    #   # print('='*30)
    #   filtered_words.append(word)
    # # else:
    #   # print(word)
    #   # print('-'*30)
    # all_tokens.append(filtered_words)
    if word in stopwords:
      # print(word)
      # print('='*30)
      filtered_words.append(word)
    else:
      all_tokens.append(word)

      

  print(all_tokens)
  print(filtered_words)
# "The Matrix is everywhere its all around us, here even in this wroom. \
# You can see it out your window or on your television. \
# You feel it when you go to work, or go to church or pay your taxes."

['matrix', 'everywhere', 'around', 'us', ',', 'even', 'wroom', '.']
['the', 'is', 'its', 'all', 'here', 'in', 'this']
['matrix', 'everywhere', 'around', 'us', ',', 'even', 'wroom', '.', 'see', 'window', 'television', '.']
['you', 'can', 'it', 'out', 'your', 'or', 'on', 'your']
['matrix', 'everywhere', 'around', 'us', ',', 'even', 'wroom', '.', 'see', 'window', 'television', '.', 'feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']
['you', 'it', 'when', 'you', 'to', 'or', 'to', 'or', 'your']


## 어간 추출
- Stemming : 주어진 단어에서 원형 단어로 일괄적으로 변환
  + 예) `worked` --> `ed` 제거 --> `work`
- 3가지 기법이 존재
  + Porter, Lancaster, Snowball Stemmer

In [18]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer
porter = PorterStemmer()
lancaster = LancasterStemmer()
word_list = ["friend", "friendship", "friends", "friendships","stabil","destabilize","misunderstanding","railroad","moonlight","football"]
print("{0:20}{1:20}{2:20}".format("Word","Porter Stemmer","lancaster Stemmer"))
for word in word_list:
    print("{0:20}{1:20}{2:20}".format(word,porter.stem(word),lancaster.stem(word)))

Word                Porter Stemmer      lancaster Stemmer   
friend              friend              friend              
friendship          friendship          friend              
friends             friend              friend              
friendships         friendship          friend              
stabil              stabil              stabl               
destabilize         destabil            dest                
misunderstanding    misunderstand       misunderstand       
railroad            railroad            railroad            
moonlight           moonlight           moonlight           
football            footbal             footbal             


## 표제어 추출(Lemmatization)
- 품사와 같은 문법적인 요소와 문맥의 의미적인 부분을 감안해서 정확한 철자로 된 어근 단어를 찾아준다.
- 어근 Lemma 라 부름
  + love : loves, loving, loved

In [19]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('omw-1.4')
nltk.download('wordnet')

[nltk_data] Downloading package omw-1.4 to /root/nltk_data...
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [38]:
# 단어 테스트
lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v')) # v 동사
print(lemma.lemmatize('amuses', 'v'))
print(lemma.lemmatize('amused', 'v'))

print(lemma.lemmatize('happy', 'a')) # a 형용사
print(lemma.lemmatize('happier', 'a'))
print(lemma.lemmatize('happiest', 'a'))

amuse
amuse
amuse
happy
happy
happy


In [99]:
import nltk
from nltk.stem import WordNetLemmatizer

wordnet_lemmatizer = WordNetLemmatizer()

sentence = "He was running and eating at same time He has bad habit of swimming after playing long hours in the Sun."
punctuations="?:!.,;" # 해당되는 부호는 제외하는 코드를 만든다. 

words = nltk.word_tokenize(sentence)
# print(words)

for word in words:
  # print(word)
  if word in punctuations:
    # print("== " + word + " ==")
    words.remove(word)
words

# print("{0:20}{1:20}".format("word", "lemma"))
# for word in words:
#   print("{0:20}{1:20}".format(word, wordnet_lemmatizer.lemmatize(word, 'v')))

['He',
 'was',
 'running',
 'and',
 'eating',
 'at',
 'same',
 'time',
 'He',
 'has',
 'bad',
 'habit',
 'of',
 'swimming',
 'after',
 'playing',
 'long',
 'hours',
 'in',
 'the',
 'Sun']

## Bag Of Words 피처 벡터화
- 보통 문서를 M, 단어를 N이라고 한다면
  + 전체 행렬은 M x N으로 구성
  + 예) 전체 문서 = 100 / 전체 단어 = 10000 / 100 x 10000
- 피처 벡터화 방법은 2가지 방식이 존재
  + 카운트 기반의 벡터화
  + TF-IDF 기반의 벡터화

In [68]:
from sklearn.feature_extraction.text import CountVectorizer
text = ['This is it', 'This this is second', 'And This was third']

cnt_vect = CountVectorizer()
cnt_vect.fit(text)
cnt_vect.vocabulary_

{'this': 5, 'is': 1, 'it': 2, 'second': 3, 'and': 0, 'was': 6, 'third': 4}

In [69]:
X = cnt_vect.fit_transform(text)
print(cnt_vect.get_feature_names())
print(X.toarray())

['and', 'is', 'it', 'second', 'third', 'this', 'was']
[[0 1 1 0 0 1 0]
 [0 1 0 1 0 2 0]
 [1 0 0 0 1 1 1]]


## TF - IDF 구하기

In [109]:
import pandas as pd
from math import log # IDF 계산 위해서

doc_list = [
    '먹고 싶은 사과',
    '먹고 싶은 바나나',
    '길고 노란 바나나 바나나',
    '저는 과일이 좋아요'
]

vocab = list(set(w for doc in doc_list for w in doc.split()))
vocab.sort()

In [102]:
vocab

['과일이', '길고', '노란', '먹고', '바나나', '사과', '싶은', '저는', '좋아요']

- TF, IDF, 그리고 TF-IDF 값을 구하는 함수 만들기

In [116]:
# 총 문서의 갯수
N = len(doc_list)

def tf(t, d):
  return d.count(t)

def idf(t):
  df = 0
  for doc in doc_list:
    df += t in doc
  return log(N/(df+1))

def tfidf(t, d):
  return tf(t, d) * idf(t)

result = []

# 각 문서에 대해서 아래 연산을 반복
for i in range(N):
  result.append([])
  d = doc_list[i]
  for j in range(len(vocab)):
    t = vocab[j]
    result[-1].append(tf(t, d))

# DTM : Document Term Matrix
tf_ = pd.DataFrame(result, columns = vocab)
tf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,0,1,1,0,0
1,0,0,0,1,1,0,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


- 1

- 각 단어에 대한 IDF 값을 구함

In [117]:
result = []
for j in range(len(vocab)):
    t = vocab[j]
    result.append(idf(t))

idf_ = pd.DataFrame(result, index=vocab, columns=["IDF"])
idf_

Unnamed: 0,IDF
과일이,0.693147
길고,0.693147
노란,0.693147
먹고,0.287682
바나나,0.287682
사과,0.693147
싶은,0.287682
저는,0.693147
좋아요,0.693147


In [118]:
result = []
for i in range(N):
  result.append([])
  d = doc_list[i]
  for j in range(len(vocab)):
    t = vocab[j]
    result[-1].append(tfidf(t,d))

tfidf_ = pd.DataFrame(result, columns = vocab)
tfidf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.0,0.0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0
1,0.0,0.0,0.0,0.287682,0.287682,0.0,0.287682,0.0,0.0
2,0.0,0.693147,0.693147,0.0,0.575364,0.0,0.0,0.0,0.0
3,0.693147,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.693147


- 2

In [119]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidfv = TfidfVectorizer()
tfidfv.fit(doc_list)

TfidfVectorizer()

In [122]:
# print(tfidfv.transform(doc_list).toarray())
print(tfidfv.transform(doc_list).toarray()[0])
print(tfidfv.vocabulary_)

[0.         0.         0.         0.52640543 0.         0.66767854
 0.52640543 0.         0.        ]
{'먹고': 3, '싶은': 6, '사과': 5, '바나나': 4, '길고': 1, '노란': 2, '저는': 7, '과일이': 0, '좋아요': 8}
