# **텍스트 분석**

- 비정형 데이터인 텍스트에서 의미 있는 정보를 추출

- 머신러닝, 언어 이해, 통계 등을 활용하여 모델을 수립하고, 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행

- 머신러닝 알고리즘은 숫자형의 피처 기반 데이터만 입력받을 수 있기 때문에 텍스트를 머신러닝에 적용하기 위해선, 비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고 추출된 피처에 의미 있는 값을 부여하는가가 매우 중요한 요소이다.

- 피처 벡터화(Feature Vectorization) 또는 피처 추출(Feature Extraction)은 텍스트를 word 기반의 다수의 피처로 추출하고, 이 피처에 단어 빈도수와 같은 숫자 값을 부여하면 텍스트는 단어의 조합인 벡터값으로 표현될 수 있다.

    - BOW(Bag of Words)

    - Word2Vec

## **텍스트 분류 (Text Classification = Text Categorization)**

- 문서가 특정 분류 또는 카테고리에 속하는 것을 예측

- 특정 신문 기사 내용이 연예/정치/사회/문화 중 어떤 카테고리에 속하는지

- 스팸 메일 검출

- 지도학습

## **감성 분석 (Sentiment Analysis)**

- 텍스트에서 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석

- 소셜 미디어 감정 분석, 영화나 제품에 대한 긍정 또는 리뷰, 여론조사 의견 분석

- 지도학습, 비지도학습

## **텍스트 요약 (Summarization)**

- 텍스트 내에서 중요한 주제나 중심 사상을 추출

- 토픽 모델링

## **텍스트 군집화 (Clustering)**

- 비슷한 유형의 문서에 대해 군집화

- 텍스트 분류를 비지도학습으로 수행하는 방법의 일환으로 사용될 수 있음

## **유사도 측정**

- 문서들간의 유사도를 측정해 비슷한 문서끼리 모을 수 있음

# **텍스트 분석 수행 프로세스**

- 텍스트 사전 준비작업(텍스트 전처리) = 텍스트 정규화

    - 클렌징 작업 : 대/소문자 변경, 특수문자 삭제, ...

    - 토큰화 작업

    - 의미 없는 단어 (Stop word) 제거 작업

    - 어근 추출(Stemming/Lemmatization)

## **클렌징**

- 불필요한 문자, 기호 등을 사전에 제거

- HTML, XML, 태그나 특정 기호

## **텍스트 토큰화**

- 문서에서 문장을 분리하는 문장 토큰화

- 문장에서 단어를 토큰으로 분리하는 단어 토큰화

- NLTK

### **문장 토큰화**
- 문장의 마침표(.), 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리

In [20]:
import pandas as pd
import numpy as np

from nltk import sent_tokenize
import nltk
#nltk.download('punkt')

In [21]:
text_sample = '가나 다라 마바사, 아자 차카 타파하.\nABC DEFG, HIJK LMNOP.\nQRS TUV, W XYZ.'
sentences = sent_tokenize(text=text_sample)

print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 3
['가나 다라 마바사, 아자 차카 타파하.', 'ABC DEFG, HIJK LMNOP.', 'QRS TUV, W XYZ.']


### **단어 토큰화**
- 공백, 콤마(,), 마침표(.), 개행문자 등으로 분리하지만, 정규 표현식을 이용해 다양한 유형으로 토큰화 수행

In [22]:
from nltk import word_tokenize

sentences = '가나 다라 마바사, 아자 차카 타파하.\nABC DEFG, HIJK LMNOP.\nQRS TUV, W XYZ.'
words = word_tokenize(sentences)
print(type(words), len(words))
print(words)

<class 'list'> 20
['가나', '다라', '마바사', ',', '아자', '차카', '타파하', '.', 'ABC', 'DEFG', ',', 'HIJK', 'LMNOP', '.', 'QRS', 'TUV', ',', 'W', 'XYZ', '.']


### **모든 단어에 대해서 토큰화**

In [23]:
from nltk import word_tokenize, sent_tokenize

def tokenize_text(text):

    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]

    return word_tokens

word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['가나', '다라', '마바사', ',', '아자', '차카', '타파하', '.'], ['ABC', 'DEFG', ',', 'HIJK', 'LMNOP', '.'], ['QRS', 'TUV', ',', 'W', 'XYZ', '.']]


### **Stop word 제거**

In [24]:
import nltk
#nltk.download('stopwords')

In [25]:
print('stop words 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

stop words 개수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']
