<a href="https://colab.research.google.com/github/kkimyunjoo/24-2-ESAA/blob/main/0923_HW.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **파이썬 머신러닝 완벽 가이드 - Ch 8. 텍스트 분석**


p488~508

## **01. 텍스트 분석의 이해**
- 비정형 데이터인 텍스트를 분석하는 것
  - 피처 백터화(피처 추출): BOW텍스

**텍스트 분석 수행 프로세스**
1. 텍스트 사전 준비작업(텍스트 전처리)
2. 피처 벡터화/추출
3. ML 모델 수립 및 학습/예측/평가

**파이썬 기반의 NLP, 텍스트 분석 패키지**
- NLTK(Natural Language Toolkit for Python): 방대한 데이터 세트와 서 브 모듈을 가지고 있으며 NLP의 거의 모든 영역을 커버하고 있음. 수행 속도가 느려 실제 대량의 데이터 기반에서는 제대로 활용되지 못함.
- Gensim: 토픽 모델링 분야
- SpaCy: 뛰어난 수행 성능으로 최근 가장 주목을 받음

## **02. 텍스트 사전 준비 작업(텍스트 전처리)-텍스트 정규화**
- 클렌징: 텍스트에서 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업(HTML, XML 태그나 특정 기호 등 제거)
- 텍스트 토큰화
  - 문장 토큰화: 문장 토큰화(sentence tokenization)는 문장의 마침표(.), 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것이 일반적임. 정규 표현식에 따른 문장 토큰화도 가능함.
  - 단어 토큰화: 문장을 단어로 토큰화하는 것. 기본적으로 공백, 콤마(,), 마침표(.), 개행문자 등으로 단어를 분리하지만, 정규 표현식을 이용해 다양한 유형으로 토큰화를 수행 할수도 있음.

In [1]:
from nltk import sent_tokenize
import nltk
nltk.download('punkt')
text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


In [2]:
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [3]:
#모든 단어를 토큰화하기

from nltk import word_tokenize, sent_tokenize
# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):

  # 문장별로 분리 토큰
  sentences = sent_tokenize(text)
  # 분리된 문장별 단어 토큰화
  word_tokens = [word_tokenize(sentence) for sentence in sentences]
  return word_tokens

#여러 문장에 대해 문장별 단어 토큰화 수행.
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


**스톱 워드 제거**
- 스톱 워드: 분석에 큰 의미가 없는 단어 -> 제거하기(ex. 영어에서 is, the, a, will 등 문장을 구성하는 필수 문법 요소지만 문맥적으로 큰 의미가 없는 단어)

In [4]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [5]:
print('영어 stop words 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


바로 위 예제에서 3개의 문장별로 단어를 토큰화해 생성된 word_tokens 리스트에 대해 stopwords를 필터링으로 제거해 분석을 위한 의미 있는 단어만 추출하기

In [6]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제에서 3개의 문장별로 얻은 word_tokens list에 대해 스톱 워드를 제거하는 반복문
for sentence in word_tokens:
  filtered_words=[]
# 개별 문장별로 토큰화된 문장 list에 대해 스톱 워드를 제거하는 반복문
for word in sentence:
  # 소문자로 모두 변환합니다.
  word = word.lower()
  # 토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
  if word not in stopwords:
      filtered_words.append(word)
  all_tokens.append(filtered_words)

print(all_tokens)

[['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.'], ['feel', 

**Stemming과 Lemmatization**
- 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 것
- 두 기능 모두 원형 단어를 찾는다는 목적은 유사하지만, Lemmatization이 Stemming보다 정교하며 의미론적인 기반에서 단어의 원형을 찾음.
  - Stemming: 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향
    - Porter, Lancaster, Snowball Stemmer
  - Lemmatization: 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확 한 철자로 된 어근 단어를 찾아줌. Stemming보다 변환에 더 오랜 시간 걸림.
    - WordNetLemmatizer




In [7]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


- amuse: amus 를 원형 단어로 인식
- happy, fancy(형용사): 비교형, 최상급형으로 변형된 단어의 정확한 원형을 찾지 못하고 원형 단어에서 철자가 다른 어근 단어로 인식하는 경우 발생

In [8]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

[nltk_data] Downloading package wordnet to /root/nltk_data...


amuse amuse amuse
happy happy
fancy fancy


## **03. Bag of Words - BOW**
- Bag of Words 모델: 문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델
  - 장점: 쉽고 빠른 구축
  - 단점
    - 문맥 의미 반영 부족
    - 희소 행렬 문제(희소성, 희소 행렬)

**BOW 피처 벡터화**
- 피처 벡터화: 모든 문서에서 모든 단어를 칼럼 형태로 나열하고 각 문서에서 해당 단어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 세트 모델로 변경하는 것
  - 카운트 기반의 벡터화
  - TF-IDF(Term Frequency — Inverse Document Frequency) 기반의 벡터화

**사이킷런의 Count 및 TF-IDF 벡터화 구현: CountVectorizer, TfidfVectorizer**
- CountVectorizer: 카운트 기반의 벡터화를 구현한 클래스, 피처 벡터화만 수행하지 않으며 소문자 일괄 변환, 토큰화, 스톱 워 드 필터링 등의 텍스트 전처리도 함께 수행
  - 사전 데이터 가공 -> 토큰화 -> 텍스트 정규화 -> 피처 벡터화

**BOW 벡터화를 위한 희소 행렬**
- 희소 행렬: 대규모 행렬의 대부분의 값을 0이 차지하는 행렬
- 물리적으로 적은 메모리 공간 차지하도록 변환: COO 형식, CSR 형식

**희소 행렬 —C00 형식**
- COO(Coordinate： 좌표) 형식: 0이 아닌 데이터만 별도의 데이터 배열(Array)에 저장하고, 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식

In [10]:
import numpy as np

dense = np.array( [ [3, 0, 1 ], [0, 2, 0] ] )

from scipy import sparse
#0이 아닌 데이터 추출
data = np.array([3, 1, 2])

#행 위치와 열 위치를 각각 배열로 생성
row_pos = np.array([0, 0, 1 ])
col_pos = np.array([0, 2, 1])

#sparse 패키지의 coo_matrix를 이용해 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

In [11]:
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

**희소 행렬 - CSR 형식**
- CSR(Compressed Sparse Row) 형식: COO 형식이 행과 열의 위치를 나타내기 위해서 반복적인 위치 데이터를 사용해야 하는 문제점을 해결한 방식

In [20]:
#2차원 배열
[[0, 0, 1, 0, 0, 5], [1, 4, 0, 3, 2, 5], [0, 6, 0, 3, 0, 0], [2, 0, 0, 0, 0, 0], [0, 0, 0, 7, 0, 8], [1, 0, 0, 0, 0, 0]]

[[0, 0, 1, 0, 0, 5],
 [1, 4, 0, 3, 2, 5],
 [0, 6, 0, 3, 0, 0],
 [2, 0, 0, 0, 0, 0],
 [0, 0, 0, 7, 0, 8],
 [1, 0, 0, 0, 0, 0]]

0이 아닌 데이터 배열과 열 위치 배열, 그리고 행 위치 배열의 고유한 값의 시작 위치 배열을 csr_matrix의 생성 파라미터 로 입력하기

In [17]:
from scipy import sparse
dense2 = np.array([[0, 0, 1, 0, 0, 5],
                    [1, 4, 0, 3, 2, 5],
                    [0, 6, 0, 3, 0, 0],
                    [2, 0, 0, 0, 0, 0],
                    [0, 0, 0, 7, 0, 8],
                    [1, 0, 0, 0, 0, 0]])

#0이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1 ])

#행 위치와 열 위치를 각각 array로 생성
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

#COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

#행 위치 배열의 고유한 값의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

#CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, coI_pos, row_pos_ind))
print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [18]:
dense3 = np.array([[0, 0, 1, 0, 0, 5],
                    [1, 4, 0, 3, 2, 5],
                    [0, 6, 0, 3, 0, 0],
                    [2, 0, 0, 0, 0, 0],
                    [0, 0, 0, 7, 0, 8],
                    [1, 0, 0, 0, 0, 0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)