<a href="https://colab.research.google.com/github/sm-lee-1/Caba_nlp/blob/main/npl10_Text_Mining.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

NLP, 텍스트 분석
- Natural Language Processing : 기계가 인간의 언어를 이해하고 해석하는데 중점. 기계번역, 질의응답시스템
- 텍스트 분석 : 비정형 텍스트에서 의미있는 정보를 추출하는 것에 중점
- NLP는 텍스트 분석을 향상하게 하는 기반 기술
- NLP와 텍스트 분석의 근간에는 머신러닝이 존재. 과저 언어적인 룰 기반 시스템에서 텍스트 데이터 기반으로 모델을 학습하고 예측
- 텍스트 분석은 머신러닝, 언어 이해, 통계 등을 활용한 모델 수립, 정보 추출을 통해 인사이트 및 예측 분석 등의 분석 작업 수행
    - 텍스트 분류 : 신문기사 카테고리 분류, 스팸 메일 검출 프로그램. 지도학습
    - 감성 분석 : 감정/판단/믿음/의견/기분 등의 주관적 요소 분석. 소셜미디어 감정분석, 영화리뷰, 여론조사 의견분석. 지도학습, 비지도학습
    - 텍스트 요약 : 텍스트 내에서 중요한 주제나 중심 사상을 추출. 토픽 모델링
    - 텍스트 군집화화 유사도 측정 : 비슷한 유형의 문서에 대해 군집화 수행. 비지도 학습

Text 분석 수행 프로세스
- 텍스트 정규화    
    - 클랜징, 토큰화, 필터링/스톱워드 제거/철자 수정, Stemming, Lemmatization
- 피처 벡터화 변환
    - Bag of Words : Count 기반, TF-IDF 기반
    - Word2Vec
- ML 모델 수립 및 학습/예측/평가

텍스트 전처리 - 텍스트 정규화
- 클렌징 : 분석에 방해되는 불필요한 문자, 기호를 사전에 제거. HTML, XML 태그나 특정 기호
- 토큰화 : 문서에서 문장을 분리하는 문장 토큰화와 문장에서 단어를 토큰으로 분리하는 단어 토큰화
- 필터링/스톱워드 제거/철자 수정 : 분석에 큰 의미가 없는 단어를 제거
- Stemming, Lemmatization : 문법적 또는 의미적으로 변화하는 단어의 원형을 찾음
    - Stemming은 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 찾음
    - Lemmatization이 Stemming 보다 정교하며 의미론적인 기반에서 단어의 원형을 찾음

In [1]:
# 영어 분석을 위함
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [10]:
# 문장 토큰화(sent tokenize)
from nltk import sent_tokenize
text_sample = "If you want to solve a particular kind of business problem with machine learning, \
you’ll likely have no trouble finding a tutorial showing you how to extract features and train a model. \
However, building machine learning systems isn’t just about training models or even about finding the best features; \
if you want a blueprint for a real system or want to see how to address more of the data science workflow, \
many tutorials leave the hard parts as an exercise for the reader."
sentences = sent_tokenize(text=text_sample)
print(sentences)
print(type(sentences), len(sentences))

['If you want to solve a particular kind of business problem with machine learning, you’ll likely have no trouble finding a tutorial showing you how to extract features and train a model.', 'However, building machine learning systems isn’t just about training models or even about finding the best features; if you want a blueprint for a real system or want to see how to address more of the data science workflow, many tutorials leave the hard parts as an exercise for the reader.']
<class 'list'> 2


In [16]:
# 단어 토큰화(word_tokenize) :  공백, 콤마, 마침표, 개행문자, 정규표현식
from nltk import word_tokenize

sentences = 'If you want to solve a particular kind of business problem with machine learning'
words = word_tokenize(sentences)
print(words)
print(type(words), len(words))

['If', 'you', 'want', 'to', 'solve', 'a', 'particular', 'kind', 'of', 'business', 'problem', 'with', 'machine', 'learning']
<class 'list'> 14


In [22]:
from nltk import sent_tokenize
from nltk import word_tokenize

def tokenize_text(text):
  sentences = sent_tokenize(text=text)  # 문장별 분리 토큰
  word_tokens = [word_tokenize(sentence) for sentence in sentences]  # 문장별 단어 토큰화
  return word_tokens 

word_tokens = tokenize_text(text_sample)
print(word_tokens)
print(type(word_tokens), len(word_tokens))


[['If', 'you', 'want', 'to', 'solve', 'a', 'particular', 'kind', 'of', 'business', 'problem', 'with', 'machine', 'learning', ',', 'you', '’', 'll', 'likely', 'have', 'no', 'trouble', 'finding', 'a', 'tutorial', 'showing', 'you', 'how', 'to', 'extract', 'features', 'and', 'train', 'a', 'model', '.'], ['However', ',', 'building', 'machine', 'learning', 'systems', 'isn', '’', 't', 'just', 'about', 'training', 'models', 'or', 'even', 'about', 'finding', 'the', 'best', 'features', ';', 'if', 'you', 'want', 'a', 'blueprint', 'for', 'a', 'real', 'system', 'or', 'want', 'to', 'see', 'how', 'to', 'address', 'more', 'of', 'the', 'data', 'science', 'workflow', ',', 'many', 'tutorials', 'leave', 'the', 'hard', 'parts', 'as', 'an', 'exercise', 'for', 'the', 'reader', '.']]
<class 'list'> 2


In [18]:
# 스톱워드 제거 : the, is, a, will 와 같이 문맥적으로 큰 의미가 없는 단어를 제거
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [20]:
# NLTK english stopwords 갯수 확인
print(len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [23]:
# stopwords 필터링을 통한 제거
import nltk
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

for sentence in word_tokens:
  filtered_words = []
  for word in sentence:
    word = word.lower()
    if word not in stopwords:
      filtered_words.append(word)

  all_tokens.append(filtered_words)

print(all_tokens)

[['want', 'solve', 'particular', 'kind', 'business', 'problem', 'machine', 'learning', ',', '’', 'likely', 'trouble', 'finding', 'tutorial', 'showing', 'extract', 'features', 'train', 'model', '.'], ['however', ',', 'building', 'machine', 'learning', 'systems', '’', 'training', 'models', 'even', 'finding', 'best', 'features', ';', 'want', 'blueprint', 'real', 'system', 'want', 'see', 'address', 'data', 'science', 'workflow', ',', 'many', 'tutorials', 'leave', 'hard', 'parts', 'exercise', 'reader', '.']]


In [36]:
# 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 방법
# stemmer(LancasterStemmer)
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()
print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('ameses'), stemmer.stem('amused'))
print(stemmer.stem('fancier'), stemmer.stem('fancier'))

work work work
amus aums amus
fant fant


In [32]:
import nltk 
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.


True

In [37]:
# Lemmatization(WordNetLemmatizer) : 정확한 원형 단어 추출을 위해 단어의 품사를 직접 입력
from nltk.stem.wordnet import WordNetLemmatizer

lemma = WordNetLemmatizer()
print(lemma.lemmatize('working','v'), lemma.lemmatize('works','v'), lemma.lemmatize('worked','v'))
print(lemma.lemmatize('amusing','v'), lemma.lemmatize('amuses','v'), lemma.lemmatize('amused','v'))
print(lemma.lemmatize('fancier','a'), lemma.lemmatize('fancier','a'))

work work work
amuse aumses amuse
fancy fancy
