### 텍스트 정제
- 형태소 분석 (split)
    - 태그만 추출, 사용
- .morphs() : 형태소 단위로 분리
- .nouns() : 명사만 추출
- .pos() : 품사 태깅

### okt 만 제공하는 함수
- 문장 정규화 okt.morphs(text, norm=True)
- 어간 추출 okt.morphs(text, stem=True)
- 동시사용 okt.morphs(text, norm=True,stem=true)

In [1]:
from konlpy.tag import Okt
okt=Okt()

okt.morphs('설치가 잘 되었는지 확인 해봅시다.')


['설치', '가', '잘', '되었는지', '확인', '해봅시다', '.']

In [2]:
text = '나는 오늘 친구와 함께 영화를 볼 계획이다.'

okt.morphs(text)

['나', '는', '오늘', '친구', '와', '함께', '영화', '를', '볼', '계획', '이다', '.']

In [3]:
okt.pos(text)

[('나', 'Noun'),
 ('는', 'Josa'),
 ('오늘', 'Noun'),
 ('친구', 'Noun'),
 ('와', 'Josa'),
 ('함께', 'Adverb'),
 ('영화', 'Noun'),
 ('를', 'Josa'),
 ('볼', 'Noun'),
 ('계획', 'Noun'),
 ('이다', 'Josa'),
 ('.', 'Punctuation')]

In [4]:
okt.nouns(text)

['나', '오늘', '친구', '영화', '볼', '계획']

In [5]:
text='나는 오늘 끝나고 저녁 맛있는거 먹을꺼얔ㅋㅋㅋ'

okt.morphs(text, stem=True)

['나', '는', '오늘', '끝나다', '저녁', '맛있다', '먹다', '얔', 'ㅋㅋㅋ']

In [6]:
okt.morphs(text, norm=True)

['나', '는', '오늘', '끝나고', '저녁', '맛있는거', '먹을꺼야', 'ㅋㅋㅋ']

In [7]:
okt.morphs(text, norm=True, stem=True)

['나', '는', '오늘', '끝나다', '저녁', '맛있다', '먹다', 'ㅋㅋㅋ']

In [8]:
okt.pos(text, norm=True, stem=True)

[('나', 'Noun'),
 ('는', 'Josa'),
 ('오늘', 'Noun'),
 ('끝나다', 'Verb'),
 ('저녁', 'Noun'),
 ('맛있다', 'Adjective'),
 ('먹다', 'Verb'),
 ('ㅋㅋㅋ', 'KoreanParticle')]

## 불용어 제거하기
- 자주 사용되지만 특별한 의미 부여가 어려운 단어들을 제거
- 일반적으로 불용어 사전은 리스트 형태를 만들어 사용
- 불용어 사전이 있다고 가정했을 때 불용어를 제거하는 define 함수를 만들어보자
- 불용어가 제거되고, 형용사와 동사만 추출할 수 있는 define 함수를 만들어 보자
- 태그이름 형용사 : 'Adjective', 동사 : 'Verb', 명사 : 'Noun'

In [9]:
stopwords = ['있다', '되다', '하다']
# text='나는 오늘 끝나고 저녁 맛있는거 먹을꺼얔ㅋㅋㅋ'

text = '화면이 있다. 고양이가 출근 하다'
def extract_tags(value):
    v_pos = okt.pos(value, stem=True, norm = True)
    
    n=0
    n_list =[]
    while n < len(v_pos):
        for j in stopwords:
            if v_pos[n][0] == j:
                n_list.append(n)
        n = n+1
    n_list.sort(reverse = True)
    for i in n_list:
        del v_pos[i]
        
    result =[]
    for i in v_pos:
        if i[1] == 'Adjective' or i[1] == 'Verb' or i[1] == 'Noun':
            result.append(i[0])
    return result
extract_tags(text)


['화면', '고양이', '출근']

In [10]:
def extract_tag(string):
    result_word=[]
    result = okt.pos(string, stem = True, norm = True)
    for word, tag in result:
        if tag in['Verb', 'Noun', 'Adjective']:
            if word not in stopwords:
                result_word.append(word)
    return result_word

extract_tag(text)

['화면', '고양이', '출근']

In [11]:
import nltk
from nltk import pos_tag
# nltk.download('popular')

In [12]:
text = 'The little yellow dog barked at the Persian cat'

split_text = nltk.word_tokenize(text)

split_text


['The', 'little', 'yellow', 'dog', 'barked', 'at', 'the', 'Persian', 'cat']

In [13]:
nltk.pos_tag(split_text)

[('The', 'DT'),
 ('little', 'JJ'),
 ('yellow', 'JJ'),
 ('dog', 'NN'),
 ('barked', 'VBD'),
 ('at', 'IN'),
 ('the', 'DT'),
 ('Persian', 'JJ'),
 ('cat', 'NN')]

In [14]:
nltk.corpus.stopwords.words('english') #소문자만 있음

text.lower()


'the little yellow dog barked at the persian cat'

## 불용어 제거
- 동사, 형용사, 명사 추출

In [15]:
text = 'I Love You'

def extract_tag_english(string):
    
    split_string = nltk.word_tokenize(string)
    result = nltk.pos_tag(split_string)
    
    result_word=[]
    for word, tag in result:
        # if word.lower() in nltk.corpus.stopwords.words('english'):
        #     continue
        if tag in['VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ' 'JJ', 'JJR', 'JJS', 'NN', 'NNS', 'NNP', 'NNPS']:
            if word.lower() not in nltk.corpus.stopwords.words('english'):
                result_word.append(word)
    return result_word

extract_tag_english(text)

['Love']

## pickle 라이브러리
- 데이터프레임의 형태로 저장하기 곤란할 때
- 데이터를 타입 그대로 저장해주는 파이썬 내장 라이브러리



In [16]:
import pickle

# 저장하기
# with open('파일 이름.pkl', "wb") as f:
#     pickle.dump(저장할 변수, f)
    
# 불러오기
# with open('파일 이름.pkl', "rb") as f:
#     피클 데이터의 변수이름 = pickle.load(f)

In [18]:
text = 'The little yellow dog barked at the Persian cat'
result = nltk.word_tokenize(text)

with open('save_data.pkl', 'wb') as f:
    pickle.dump(result, f)

In [19]:
with open('save_data.pkl', 'rb') as f:
    data = pickle.load(f)

data

['The', 'little', 'yellow', 'dog', 'barked', 'at', 'the', 'Persian', 'cat']