In [None]:
# 불필요한 경고 출력 방지
# import warnings 
# warnings.filterwarnings('ignore')

In [3]:
# 기본 패키지 로드
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

## 자연어 처리

### NLTK natural language toolkit 은 교육용으로  개발된 자연어 처리 및 문서 분석용 파이썬 라이브러리
- 주요 기능
    - 말뭉치
    - 토큰생성
    - 형태소 분석
    - 품사 태깅

In [2]:
import nltk
nltk.__version__

'3.9.1'

In [4]:
nltk.download() #전부 다운받으면 속편하다.

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

미설치시 다운 받으라는 에러 나올 수 있음

In [4]:
text = nltk.word_tokenize("Is it possible distinguishing cats and dogs")
print(text)

['Is', 'it', 'possible', 'distinguishing', 'cats', 'and', 'dogs']


In [5]:
#VBZ 동사, 동명사 또는 현재 분사, PRP 인칭 대명사, JJ 형용사,VBG 동사, 동명사 또는 현재 분사, NNS 명사 복수형, CC 등위 접속사
nltk.pos_tag(text)

[('Is', 'VBZ'),
 ('it', 'PRP'),
 ('possible', 'JJ'),
 ('distinguishing', 'VBG'),
 ('cats', 'NNS'),
 ('and', 'CC'),
 ('dogs', 'NNS')]

### KoNLPy 한국어 처리를 위한 파이썬 라이브러리 (JDK가 요구됨)
- 주요 기능
    - 형태소 분석
    - 품사 태깅

In [None]:
# 형태소로 변환
from konlpy.tag import Komoran
komoran = Komoran()
print(komoran.morphs('딥러닝이 뭔가요? 어렵나요??'))

['딥러닝이', '뭐', 'ㄴ가요', '?', '어렵', '나', '?']


In [5]:
#품사 태깅
print(komoran.pos('소파 위에 있는게 개냐 냥이냐'))

[('소파', 'NNP'), ('위', 'NNG'), ('에', 'JKB'), ('있', 'VV'), ('는', 'ETM'), ('게', 'EC'), ('개', 'VV'), ('냐', 'EC'), ('냥', 'NNB'), ('이', 'VCP'), ('냐', 'EC')]


### Gensim Word2Vec 라이브러리
- 주요 기능
    - 임베딩: 워드 투벡터
    - 토픽 모델링: 문서집합에서 추상적인 주제를 발견하기 위한 통계적 모델 중 하나, 텍스트 본문의 숨겨진 의미 구조를 발견하는데 사용 되는 텍스트 마이닝 기법  ==> 각 주제별로 단어 표현을 묶어 주는것
    - LDA(lATENT dIRICHLET Allocation) 주어진 문서에 대해 각문서에 어떤주제들이 존대하는지 서술하는 확률적 토픽모델 기법

### sklearn 자연어에서 측성 추출용
- 주요 기능
    - ConuntVectorizer : 텍스트에서 단어의 등장 횟루를 기준으로 특성을 추출
    - Tfidfvectorizer : TF-IDF 값을 이용해 텍스트 특징 추출
    - HashingVectorizer 카운트벡터와 같지만 해싱함수로 처리시간 줄어듬

## 토큰화
토큰화 에서 고려해야할 사항
1) 구두점이나 특수 문자를 단순 제외해서는 안 된다. ->  예시) Ph.D나 AT&T  123,456,789 $45.55
2) 줄임말과 단어 내에 띄어쓰기가 있는 경우.

In [16]:
from nltk import sent_tokenize, word_tokenize,WordPunctTokenizer,TreebankWordTokenizer
text_sample1 = 'The OpenAI Python library provides convenient access to the OpenAI REST API from any Python 3.8+ application. The library includes type definitions for all request params and response fields, and offers both synchronous and asynchronous clients powered by httpx.'
text_sample2 = '안녕하세요. 저는 홍길동 입니다. 팀에서 도적을 담당하고 있습니다.'
text_sample3 = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."

### 단어 토큰화

In [21]:
words = word_tokenize(text_sample1)
print(words)

['The', 'OpenAI', 'Python', 'library', 'provides', 'convenient', 'access', 'to', 'the', 'OpenAI', 'REST', 'API', 'from', 'any', 'Python', '3.8+', 'application', '.', 'The', 'library', 'includes', 'type', 'definitions', 'for', 'all', 'request', 'params', 'and', 'response', 'fields', ',', 'and', 'offers', 'both', 'synchronous', 'and', 'asynchronous', 'clients', 'powered', 'by', 'httpx', '.']


In [18]:
#Penn Treebank Tokenization의 규칙
#규칙 1. 하이푼으로 구성된 단어는 하나로 유지한다.
#규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.
tokenizer = TreebankWordTokenizer()
print('treebankTokenizer',tokenizer.tokenize(text_sample1))

treebankTokenizer ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


### 문장 토큰화
보통 갖고있는 코퍼스가 정제되지 않은 상태라면, 코퍼스는 문장 단위로 구분되어 있지 않아서 이를 사용하고자 하는 용도에 맞게 문장 토큰화가 필요할 수 있음

In [None]:
tokenized_sentences  = sent_tokenize(text_sample1)
tokenized_sentences

['The OpenAI Python library provides convenient access to the OpenAI REST API from any Python 3.8+ application.',
 'The library includes type definitions for all request params and response fields, and offers both synchronous and asynchronous clients powered by httpx.']

In [19]:
tokenized_sentences  = sent_tokenize(text_sample2)
tokenized_sentences

['안녕하세요.', '저는 홍길동 입니다.', '팀에서 도적을 담당하고 있습니다.']

In [20]:
tokenized_sentences  = sent_tokenize(text_sample3)
tokenized_sentences

['Starting a home-based restaurant may be an ideal.',
 "it doesn't have a food chain or restaurant of their own."]

### 한글어 토큰화

In [22]:
# 한글 토큰화
from konlpy.tag import Okt
okt = Okt()
print(okt.morphs(text_sample2))

['안녕하세요', '.', '저', '는', '홍길동', '입니다', '.', '팀', '에서', '도적', '을', '담당', '하고', '있습니다', '.']


In [23]:
print(okt.pos(text_sample2))

[('안녕하세요', 'Adjective'), ('.', 'Punctuation'), ('저', 'Noun'), ('는', 'Josa'), ('홍길동', 'Noun'), ('입니다', 'Adjective'), ('.', 'Punctuation'), ('팀', 'Noun'), ('에서', 'Josa'), ('도적', 'Noun'), ('을', 'Josa'), ('담당', 'Noun'), ('하고', 'Josa'), ('있습니다', 'Adjective'), ('.', 'Punctuation')]


In [24]:
print(okt.nouns(text_sample2))

['저', '홍길동', '팀', '도적', '담당']


In [25]:
print(okt.phrases(text_sample2))

['홍길동', '도적', '담당']
