## 텍스트 분석의 개요

### NLP와 텍스트 분석
NLP: 인간의 언어를 이해하고 해석
텍스트 분석: 모델을 통해 텍스트로부터 예측 분석 등의 분석을 하는 것

### 텍스트 분석 주요 영역
텍스트 분류, 감성 분석, 텍스트 요약, 텍스트 군집화와 유사도 측정
<img src=https://blog.kakaocdn.net/dn/tFmCY/btrFGzoPFBD/KkPh4g4pJuNrzWaCyOLUj1/img.png width=1000>

### 텍스트 분석 프로세스
: Text를 모델로 학습하기 위해 Feature를 추출한다. -> Feature Vectorization, Word2Vec 2가지 방법
<br><img src=https://blog.kakaocdn.net/dn/tI1Tp/btrFFPTh5DP/tRHV4Dh60zmf59yLkKoMak/img.png width=1000>

### NLP, 텍스트 분석 패키지
- Spacy를 많이 사용한다.
<img src=https://blog.kakaocdn.net/dn/H9lMz/btrFIe43LTL/G0HvpKkW2nEGeCysd0vn90/img.png width=1000>

### 텍스츠 전처리 - 정규화
<img src=https://blog.kakaocdn.net/dn/l6Z6V/btrFJkYhWH7/bMGuZlWIIBOAkLRSjSf1v1/img.png width=1000>

### N-gram
: 연속된 n개의 단어를 하나의 토큰화 단위로 분리해 내는 것
<br><img src=https://blog.kakaocdn.net/dn/sPboB/btrFIecWr6n/n7kTuxvtaO0nYExz75CIlK/img.png width=1000>

## 8.2 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화

### Text Tokenization
: nltk를 이용해서 토큰화. nltk는 자연어 처리의 시조새같은 근본. 어떤식으로 토큰화되는지 flow만 가져가는 느낌으로.

#### **문장 토큰화**

In [6]:
import nltk

In [9]:
## sent_tokenize할 때 필요하다고 해서 다운로드
nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/cwj/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [11]:
from nltk import sent_tokenize
text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
              You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample) # 문장 토큰화 (마침표 기준)
print(type(sentences),len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


#### **단어 토큰화**

In [12]:
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence) # 주로 공백으로 단어들을 토큰화
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


#### **여러 문장들에 대한 단어 토큰화**

In [13]:
from nltk import word_tokenize, sent_tokenize

#여러개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화 만드는 함수 생성
def tokenize_text(text):
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens # 이중 리스트가 만들어진다.

#여러 문장들에 대해 문장별 단어 토큰화 수행. 
word_tokens = tokenize_text(text_sample)
print(type(word_tokens),len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


### **n-gram**

In [14]:
from nltk import ngrams

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)

all_ngrams = ngrams(words, 2) # 2-gram 으로 2 단어씩 겹쳐지게 추출
ngrams = [ngram for ngram in all_ngrams]
print(ngrams)

[('The', 'Matrix'), ('Matrix', 'is'), ('is', 'everywhere'), ('everywhere', 'its'), ('its', 'all'), ('all', 'around'), ('around', 'us'), ('us', ','), (',', 'here'), ('here', 'even'), ('even', 'in'), ('in', 'this'), ('this', 'room'), ('room', '.')]


### Stopwords 제거

In [16]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /Users/cwj/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [17]:
# corpus는 말뭉치 패키지
print('영어 stopwords 갯수:',len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:40])

영어 stopwords 갯수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this']


In [10]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제의 3개의 문장별로 얻은 word_tokens list 에 대해 stopword 제거 Loop
for sentence in word_tokens:
    filtered_words=[]
    # 개별 문장별로 tokenize된 sentence list에 대해 stopword 제거 Loop
    for word in sentence:
        #소문자로 모두 변환합니다. 
        word = word.lower()
        # tokenize 된 개별 word가 stop words 들의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords: # word가 stopwords에 없으면 추가 -> stopwords 아닌애들만 추가
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


### Stemming과 Lemmatization

In [18]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
# stemmer를 이용한 어근 찾기
print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))
# work는 잘 찾는데, amuse는 좀 잘 못찾고, happiest도 못찾고, fancy부분도 잘 못찾음

work work work
amus amus amus
happy happiest
fant fanciest


In [22]:
# lemmatization을 이용하기 위한 패키지 다운로드
nltk.download('wordnet')
nltk.download('omw-1.4')

[nltk_data] Downloading package wordnet to /Users/cwj/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to /Users/cwj/nltk_data...
[nltk_data]   Unzipping corpora/omw-1.4.zip.


True

In [23]:
from nltk.stem import WordNetLemmatizer
# lemmatization을 이용해 어근찾기 -> 품사를 써줘야 한다.
lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))
# 위 stemmer와 비교해서 매우 잘 찾는것을 볼 수 있다.

amuse amuse amuse
happy happy
fancy fancy


## 피처 벡터화

### 피처 벡터화 종류
1. BOW: 여러 문서에 대해, 문서별로 단어들을 피처화해서 횟수 등으로 표현<br>
 > -> Document Term Matrix
2. Word2Vec: 여러 문서에 대해, 각 단어들을 N차원 공간에 벡터로 표현<br>
<img src=https://blog.kakaocdn.net/dn/bwqoO9/btrFHrKNsZM/3p4riPGV5U0WK5Y86ojEJk/img.png width=1000>

### 8.3 Bag of Words – BOW
: 문서가 가지는 모든 단어(Words)를 봉지에 넣고 섞는다<br>
-> 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처로 사용<br>
<img src=https://blog.kakaocdn.net/dn/1yIH5/btrFGlKEQ7T/EsYwPdmMLdfE7q8T8PCmqK/img.png width=1000>

#### BOW 구조
:문장 별로 단어의 빈도를 찍어 Document Term Matrix를 생성<br>
* 여기선 행 단위가 문장이지만, 업무에 따라 문서자체가 행 단위일 수 있다.<br>
<img src=https://blog.kakaocdn.net/dn/b39j83/btrFJ9PTzCf/TqWLWk7Kfgcs5Yzgh9u9dK/img.png width=1000>

#### BOW 장단점
장점: 쉽고 빠르다<br>
단점: 문맥 의미 반영 안됨, 희소 행렬 문제<br>
<img src=https://blog.kakaocdn.net/dn/dDMQTL/btrFGgpFDmx/fQJZA19c0beCuHKAk5Hwkk/img.png width=1000>


#### BOW 피처 벡터화
: M개의 텍스트 문서에 N개의 단어들이 있을 때<br>
<img src=https://blog.kakaocdn.net/dn/YDbJO/btrFGgQKzeJ/675pjeWF7wSguQMF7HvEWK/img.png width=1000>

#### BOW 피처 벡터화 유형
: 단순 단어 카운트 기반 or TF-IDF<br>
<img src=https://blog.kakaocdn.net/dn/xuWMZ/btrFGf5lmfm/7Jg9IpG7YsNb0124syXX9k/img.png width=1000>

#### TF-IDF
특정 단어의 빈도가 한 문서에서만 많이 나오면 중요한걸로 인지하고,<br>
여러 문서에서 다 같이 많이 나오면 패널티를 준다.<br>
<img src=https://blog.kakaocdn.net/dn/b9MTwn/btrFGTALFhD/Xsn8jI3Ir6SZ95RA6k8KDk/img.png width=1000>

### **사이킷런 CountVectorizer 테스트**

#### 초기화 파라미터1
<br><img src=https://blog.kakaocdn.net/dn/ceFFOO/btrFFPlCIjY/zzKEldv1HwHFuVYM9nm071/img.png width=1000>

#### 초기화 파라미터2
<br><img src=https://blog.kakaocdn.net/dn/d35r7t/btrFGPxZ7qL/QRWALu8DqD2IJNuINsPO8k/img.png width=1000>

In [2]:
text_sample_01 = 'The Matrix is everywhere its all around us, here even in this room. \
                  You can see it out your window or on your television. \
                  You feel it when you go to work, or go to church or pay your taxes.'
text_sample_02 = 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe\
                  You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'
text=[]
text.append(text_sample_01); text.append(text_sample_02)
print(text,"\n", len(text))

['The Matrix is everywhere its all around us, here even in this room.                   You can see it out your window or on your television.                   You feel it when you go to work, or go to church or pay your taxes.', 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe                  You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'] 
 2


#### feature vectorization
**CountVectorizer객체 생성 후 fit(), transform()으로 텍스트에 대한 feature vectorization 수행**

In [12]:
from sklearn.feature_extraction.text import CountVectorizer

# Count Vectorization으로 feature extraction 변환 수행. 
cnt_vect = CountVectorizer()
cnt_vect.fit(text)

ftr_vect = cnt_vect.transform(text)

#### **피처 벡터화 후 데이터 유형 및 여러 속성 확인**

In [18]:
print(type(ftr_vect), ftr_vect.shape)
# 열이 5만개가 넘어가는 희소행렬이다보니 메모리를 너무 많이 차지 -> csr matrix형태로 메모리 절약
## csr matrix:  0이 아닌 값에 대해 (행,열)과 값을 저장하는 매트릭스

<class 'scipy.sparse.csr.csr_matrix'> (2, 51)


In [48]:
print(ftr_vect)

  (0, 0)	1
  (0, 2)	1
  (0, 6)	1
  (0, 7)	1
  (0, 10)	1
  (0, 11)	1
  (0, 12)	1
  (0, 13)	2
  (0, 15)	1
  (0, 18)	1
  (0, 19)	1
  (0, 20)	2
  (0, 21)	1
  (0, 22)	1
  (0, 23)	1
  (0, 24)	3
  (0, 25)	1
  (0, 26)	1
  (0, 30)	1
  (0, 31)	1
  (0, 36)	1
  (0, 37)	1
  (0, 38)	1
  (0, 39)	1
  (0, 40)	2
  :	:
  (1, 1)	4
  (1, 3)	1
  (1, 4)	2
  (1, 5)	1
  (1, 8)	1
  (1, 9)	1
  (1, 14)	1
  (1, 16)	1
  (1, 17)	1
  (1, 18)	2
  (1, 27)	2
  (1, 28)	1
  (1, 29)	1
  (1, 32)	1
  (1, 33)	1
  (1, 34)	1
  (1, 35)	2
  (1, 38)	4
  (1, 40)	1
  (1, 42)	1
  (1, 43)	1
  (1, 44)	1
  (1, 47)	1
  (1, 49)	7
  (1, 50)	1


In [49]:
print(cnt_vect.vocabulary_)
## the는 38번째, matrix는 22번째 인덱스라는 의미
## 위에 (0,22)는 1이다 -> matrix는 첫번째 문서에서 1번 나왔다.

{'the': 38, 'matrix': 22, 'is': 19, 'everywhere': 11, 'its': 21, 'all': 0, 'around': 2, 'us': 41, 'here': 15, 'even': 10, 'in': 18, 'this': 39, 'room': 30, 'you': 49, 'can': 6, 'see': 31, 'it': 20, 'out': 25, 'your': 50, 'window': 46, 'or': 24, 'on': 23, 'television': 37, 'feel': 12, 'when': 45, 'go': 13, 'to': 40, 'work': 48, 'church': 7, 'pay': 26, 'taxes': 36, 'take': 35, 'blue': 5, 'pill': 27, 'and': 1, 'story': 34, 'ends': 9, 'wake': 42, 'bed': 3, 'believe': 4, 'whatever': 44, 'want': 43, 'red': 29, 'stay': 33, 'wonderland': 47, 'show': 32, 'how': 17, 'deep': 8, 'rabbit': 28, 'hole': 16, 'goes': 14}


In [50]:
## max_features=5로 제약 -> 단어 빈도 높은것 5개만 추출한다는 의미
cnt_vect = CountVectorizer(max_features=5, stop_words='english')
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
print(type(ftr_vect), ftr_vect.shape) # 단어 5개만 추출 -> shape는 2,5
print(cnt_vect.vocabulary_) # {단어: 단어의 인덱스} 딕셔너리 형태

<class 'scipy.sparse.csr.csr_matrix'> (2, 5)
{'window': 4, 'pill': 1, 'wake': 2, 'believe': 0, 'want': 3}


#### **ngram_range 확인**

In [51]:
# ngram_range: (3,3) - 3개씩. (3-gram)
# ngram_range: (1,3)하면, 1개부터 2-gram, 3-gram 모두 출력된다.
cnt_vect = CountVectorizer(ngram_range=(3,3), stop_words='english')
cnt_vect.fit(text)
ftr_vect = cnt_vect.transform(text)
print(type(ftr_vect), ftr_vect.shape)
print(cnt_vect.vocabulary_)

<class 'scipy.sparse.csr.csr_matrix'> (2, 22)
{'matrix room window': 8, 'room window television': 13, 'window television feel': 19, 'television feel work': 16, 'feel work church': 7, 'work church pay': 21, 'church pay taxes': 4, 'blue pill story': 3, 'pill story ends': 10, 'story ends wake': 15, 'ends wake bed': 6, 'wake bed believe': 17, 'bed believe want': 0, 'believe want believe': 2, 'want believe red': 18, 'believe red pill': 1, 'red pill stay': 12, 'pill stay wonderland': 9, 'stay wonderland deep': 14, 'wonderland deep rabbit': 20, 'deep rabbit hole': 5, 'rabbit hole goes': 11}


### TF-IDF도 아래처럼 가능
: 위에서 CountVectorizer한것처럼 TfidfVectorizer도 똑같이 가능하다.

In [53]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Count Vectorization으로 feature extraction 변환 수행. 
cnt_vect = TfidfVectorizer(max_features=5, stop_words='english')
cnt_vect.fit(text)

ftr_vect = cnt_vect.transform(text)
print(type(ftr_vect), ftr_vect.shape) # 단어 5개만 추출 -> shape는 2,5
print(cnt_vect.vocabulary_) # {단어: 단어의 인덱스} 딕셔너리 형태

<class 'scipy.sparse.csr.csr_matrix'> (2, 5)
{'window': 4, 'pill': 1, 'wake': 2, 'believe': 0, 'want': 3}


### 희소 행렬 - COO 형식

In [None]:
import numpy as np

dense = np.array( [ [ 3, 0, 1 ], 
                    [0, 2, 0 ] ] )

In [None]:
from scipy import sparse

# 0 이 아닌 데이터 추출
data = np.array([3,1,2])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

# sparse 패키지의 coo_matrix를 이용하여 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos,col_pos)))

In [None]:
print(type(sparse_coo))
print(sparse_coo)
dense01=sparse_coo.toarray()
print(type(dense01),"\n", dense01)

### 희소 행렬 – CSR 형식

In [None]:
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

# 0 이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환 
sparse_coo = sparse.coo_matrix((data2, (row_pos,col_pos)))

# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환 
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())


In [None]:
print(sparse_csr)

In [None]:
dense3 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)