<a href="https://colab.research.google.com/github/pattangeumdduck/stack_study_record/blob/main/aice_proffesional_study1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# 토큰화(Tokenization)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "+ 본과정에서는 토큰화(Tokenization)에 대해 배워보겠습니다.\n",
    "+ 주어진 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업을 토큰화(tokenization)\n",
    "+ 즉, 문장을 주면 문장 단위나 어절 단위나 형태소 단위로 나누게 되는것을 말하며 \n",
    "+ 나누어진 토큰을 컴퓨터가 이해할수 있게 정수로 매핑해야 함"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 학습목차\n",
    "1. 단어 토큰화 : nltk word_tokenize 함수 활용\n",
    "2. 문장 토큰화 : nltk sent_tokenize 함수 활용\n",
    "3. NLTK 이용하여 영어 토큰화 및 품사 태깅\n",
    "4. KoNLPy를 이용하여 한국어 토큰화 및 품사 태깅\n",
    " + OKT 형태소 분석기\n",
    " + 꼬꼬마 형태소 분석기(Kkma)"
   ]

1. 단어 토큰화
입력: Time is an illusion. Launchtime double so!

In [None]:
import nltk
nltk.download('punkt_tab')
from nltk.tokenize import word_tokenize
print(word_tokenize("Don't be fooled by the dart sounding name, Mr.Jone's Orphanage is as cheery goes for a pastry shop."))

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


['Do', "n't", 'be', 'fooled', 'by', 'the', 'dart', 'sounding', 'name', ',', 'Mr.Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [None]:
from nltk.tokenize import WordPunctTokenizer
print(WordPunctTokenizer().tokenize("Don't be fooled by the dart sounding name, Mr.Jone's Orphanage is as cheery goes for a pastry shop."))

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dart', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


2. 문장 토큰화

In [None]:
from nltk.tokenize import sent_tokenize
text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy."
print(sent_tokenize(text))

['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.']


3.NLTK 이용하여 영어 토큰화 및 품사 태깅

In [None]:
from nltk.tokenize import word_tokenize

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
print(word_tokenize(text))

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']



태깅

In [None]:
import nltk
# 영어 전용 태거 데이터를 다운로드합니다.
nltk.download('averaged_perceptron_tagger_eng')

from nltk.tag import pos_tag
from nltk.tokenize import word_tokenize

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
x = word_tokenize(text)
pos_tag(x)

[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

4.KoNLPy 를 이용하여 한국어 토큰화 및 품사 태깅(한글 형태소 분류기 포함함)

In [None]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.5.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m45.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.5.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (494 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m494.1/494.1 kB[0m [31m25.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.2 konlpy-0.6.0


OKT 형태소 분석기

In [None]:
#okt 임포트
from konlpy.tag import Okt
okt = Okt()

In [None]:
#morphs : 형태소 추출
print(okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
#형태소 분석결과를 리스트로 반환

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [None]:
#pos : 품사 태깅(part of speech)
print(okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [None]:
# nouns : 명사 추출
print(okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']


꼬꼬마 형태소 분석기(Kkma)

In [None]:
#Kkma 임포트
from konlpy.tag import Kkma
kkma = Kkma()
#

In [None]:
#morphs : 형태소 추출
print(kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [None]:
#pos : 품사 태깅
print(kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [None]:
#nouns : 명사 추출
print(kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

['코딩', '당신', '연휴', '여행']


배운 내용 정리
1.문장을 주로 어절이나 형태소 단위로 나누는 것을 토큰화라고함
2.영어토큰화는 nltk라이브러리의 word_tokenize 사용
3.한글 토큰화는 KoNLPy라이브러리의 OKT,KKMA사용한다
4.필요할 때 라이브러리 가져다가 사용해서 토큰화 하면 된다.

한글 전처리 및 tokenization

-한글문장에 대해 불필요한 특수문자, 이메일, 다수공백 제거하는 전처리 수행후 토큰화
-읽어들인 문장들을 전처리:한글, 영문 ,숫자 ,공백이외에는 제거
-전처리된 문장들을 한글 현태소 분석기 이용하여 Tokenize

학습목차
1.한글 토크나이징 konlp 설치
2.A방송사 댓글파일 읽어오기
3.한글 전처리
4.KoNLPy 형태소 분석기 사용하여 단어 토큰화
5. kss 사용하여 문장단위 토큰

In [None]:
!pip install konlpy



A방송사 댓글 파일 읽어오기

In [None]:
!pip install openpyxl

import os
import re
import pandas as pd




In [None]:
#A_comment_train.xlsx
commnet = pd.read_excel('https://github.com/gzone2000/TEMP_TEST/raw/master/A_comment_train.xlsx', engine="openpyxl")
commnet.tail()

Unnamed: 0.1,Unnamed: 0,data,label
246,246,영상F서비스로 간편하게 설치!좋아요\n우리 회사화이팅!,긍정
247,247,모든 업무에서 맡은바 업무에 서 최선을 다하는 모습이 좋습니다! 화이팅 입니다.,긍정
248,248,"사내방송 특성상 최근 이슈화 되거나, 언급이 자주되는 '키워드'를 중심으로 뉴스를 ...",부정
249,249,방송 시간이 너무 길어요.,부정
250,250,"처음 들어보는 말들이 많은데,, 설명이 없어서 힘드네요.",부정


In [None]:
#리스트 형태로 데이터 만들기
sent_list =list(commnet.data[:100].values)
sent_list[:2]

['재미는 있는데 시간이 짧은게 아쉽네요~', 'OO 관련 내용은 우리 직원과는 거리가 멀었음, 특히, 사내에 홍보할 내용은 아니라고 봄']

3.한글 전처리
특수문자 이메일 url제거
많은 공백은 1개의 공백으로
숫자는NUM으로 표현
한글 영문 숫자 공백 이외는 제거

In [None]:
removal_list = ""

EMAIL_PATTERN = re.compile()#정규식 표현으로 컴파일
URL_PATTERN = re.compile
.
.

In [None]:
def cleansing_other(sentence) :
  """
  #문장을 전처리하는 함수
  :param sentence: 전처리 대상 문장
  :return: 전처리 완료된 문장
  """
  sentence = re.sub(EMAIL_PATTERN,' ', sentence)
  sentence = re.sub(URL_PATTERN, ' ', sentence)
  sentence = re.sub(MULTIPLE_SPACES, ' ', sentence)
  sentence = sentence.replace(",)", "")

  return sentence

In [None]:
def cleansing_numbers(sentence) :
  """
  숫자를 전처리 하는 함수
  """

이런식으로 전처리 함수를 가져다 전처리가능

In [None]:
sample_sentence = sent_list[5] #리스트 5번째 문장을 가져와 전처리 처리하
print(sample_sentence)

In [None]:
clean_sentence = preprocess_sent(sample_sentence)
clean_sentence

NameError: name 'preprocess_sent' is not defined

In [None]:
clean_sentences = [] #빈 리스트를 정의함

for sample_sentence in sent_list: #하나씩 가면서 전처리.
  clean_sentence = preprocess_sent(sample_sentence)
  clean_sentences.append(clean_sentence)

clean_sentences[:5]

4.KoNLPy 형태소 분석기 사용하여 단어 토큰화

In [None]:
import konlpy.tag import Okt, Komoran, Hannanum, Kkma

In [None]:
def get_tokenizer(tokenizer_name):
  if tokenizer_name == "komoran":
    tokenizer = Komoran()
  elif tokenizer_name == "okt":
    tokenizer = Okt()
  elif tokenizer_name == "mecab":
    tokenizer = Mecab()
  else:
    #Kkma:
    tokenizer = Mecab()
  return tokenizer

In [None]:
from os import replace
def tokenize(tokenizer_name, original_sent, pos=False):
  tokenizer = get_tokenizer(tokenizer_name)
  sentence = original_sent.replace('\n', '').strip()
  if pos:
    tokens = tokenizer.pos(sentence)
    tokens = [morph + "/" + tag for morph, tag in tokens]
  else:
    tokens = tokenizer.morphs(sentence)

  tokenized_sent = " ".join(tokens)
  return tokenized_sent

In [None]:
text = "아버지가방에들어가신다"

print(tokenize("komoran", text, pos=True))
print(tokenize("komoran", text, pos=False))

NameError: name 'Komoran' is not defined

In [None]:
text="아버지가방에들어가신다"
print(tokenize("okt",text,pos=True))
print(tokenize("okt",text,pos=False))

In [None]:
#전처리 된 한글 샘플을 OKT형태소 분석기로 토큰화함
print(clean_sentences)
print('-'*140)
print(tokenize("okt",clean_sentences,pos=True))

In [None]:
#위의 함수를 사용하지 않고 자체 OkT형태소 분석기 사용하기
okt = Okt()
print('OKT 형태소 분석:', okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))#형태소 분류
print('OKT 품사 태깅:', okt.pos('열심히 코딩한 당신, 연휴에는 여행을 가봐요'))#pos 분류
print('OKT 명사 추출:', okt.nouns('열심히 코딩한 당신, 연휴에는 여행을 가봐요'))#명사

NameError: name 'Okt' is not defined

배운내용 정리
1.A방송사 댓글 데이터 가져와 전처리 수행
2.전처리된 한글데이터를 KoNLPy OKT형태소분석기를 통해 토큰화 하였다.
3.전처리 함수를 필요할때 가져다 쓰면 된다.

벡터표현 실습
BOW(bag of words)
단어들의 순서는 고려하지 않고 단어들의 출현 빈도에만 집중하는 텍스트 데이터의 수치화 표현방법
즉 문장을 토큰화하고 각 단어의 빈도수를 나타낸것
문서를 분류하기위한 방법으로 사용

글에 포함된 단어들의 분포를 보고 어떤 종류의 문서인지 판단하는 기법으로 사용
--> 결국 벡터화 시켰음이 중요


학습 목차
1.CountVectorizer 이용해서 BoW 만들기
2.불용어("the", "a", "an", "is", "not")등을 제거한 BoW만들기