<a href="https://colab.research.google.com/github/DonghaeSuh/NLP_Pytorch/blob/main/Preprocessing/NLP_Preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tokenization

## English Tokenization

In [14]:
en_text = "A Dog Run back corner near spare bedrooms"

### spaCy

In [None]:
import spacy
spacy_en=spacy.load('en_core_web_sm')

In [None]:
def tokenize(en_text):
  return [tok.text for tok in spacy_en.tokenizer(en_text)]

In [None]:
print(tokenize(en_text))

['A', 'Dog', 'Run', 'back', 'corner', 'near', 'spare', 'bedrooms']


### NLTK

In [None]:
!pip install nltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
from nltk.tokenize import word_tokenize

In [None]:
print(word_tokenize(en_text))

['A', 'Dog', 'Run', 'back', 'corner', 'near', 'spare', 'bedrooms']


### 띄어쓰기 토큰화

In [None]:
print(en_text.split())

['A', 'Dog', 'Run', 'back', 'corner', 'near', 'spare', 'bedrooms']


## 한국어 토큰화

In [8]:
kor_text = "사과의 놀라운 효능이라는 글을 봤어. 그래서 오늘 사과를 먹으려고 했는데 사과가 썩어서 슈퍼에 가서 사과랑 오렌지 사왔어"

### 띄어쓰기 토큰화

In [9]:
print(kor_text.split())

['사과의', '놀라운', '효능이라는', '글을', '봤어.', '그래서', '오늘', '사과를', '먹으려고', '했는데', '사과가', '썩어서', '슈퍼에', '가서', '사과랑', '오렌지', '사왔어']


### KoNLPy

In [4]:
! git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git

Cloning into 'Mecab-ko-for-Google-Colab'...
remote: Enumerating objects: 122, done.[K
remote: Counting objects:   3% (1/31)[Kremote: Counting objects:   6% (2/31)[Kremote: Counting objects:   9% (3/31)[Kremote: Counting objects:  12% (4/31)[Kremote: Counting objects:  16% (5/31)[Kremote: Counting objects:  19% (6/31)[Kremote: Counting objects:  22% (7/31)[Kremote: Counting objects:  25% (8/31)[Kremote: Counting objects:  29% (9/31)[Kremote: Counting objects:  32% (10/31)[Kremote: Counting objects:  35% (11/31)[Kremote: Counting objects:  38% (12/31)[Kremote: Counting objects:  41% (13/31)[Kremote: Counting objects:  45% (14/31)[Kremote: Counting objects:  48% (15/31)[Kremote: Counting objects:  51% (16/31)[Kremote: Counting objects:  54% (17/31)[Kremote: Counting objects:  58% (18/31)[Kremote: Counting objects:  61% (19/31)[Kremote: Counting objects:  64% (20/31)[Kremote: Counting objects:  67% (21/31)[Kremote: Counting objects:  70% (22/31)[

In [5]:
cd Mecab-ko-for-Google-Colab

/content/Mecab-ko-for-Google-Colab/Mecab-ko-for-Google-Colab/Mecab-ko-for-Google-Colab/Mecab-ko-for-Google-Colab


In [None]:
!bash install_mecab-ko_on_colab_light_220429.sh

In [10]:
from konlpy.tag import Mecab
tokenizer=Mecab()
print(tokenizer.morphs(kor_text))

['사과', '의', '놀라운', '효능', '이', '라는', '글', '을', '봤', '어', '.', '그래서', '오늘', '사과', '를', '먹', '으려고', '했', '는데', '사과', '가', '썩', '어서', '슈퍼', '에', '가', '서', '사과', '랑', '오렌지', '사', '왔', '어']


## 문자 토큰화 ( Character level )

In [12]:
print(list(kor_text))

['사', '과', '의', ' ', '놀', '라', '운', ' ', '효', '능', '이', '라', '는', ' ', '글', '을', ' ', '봤', '어', '.', ' ', '그', '래', '서', ' ', '오', '늘', ' ', '사', '과', '를', ' ', '먹', '으', '려', '고', ' ', '했', '는', '데', ' ', '사', '과', '가', ' ', '썩', '어', '서', ' ', '슈', '퍼', '에', ' ', '가', '서', ' ', '사', '과', '랑', ' ', '오', '렌', '지', ' ', '사', '왔', '어']


In [15]:
print(list(en_text))

['A', ' ', 'D', 'o', 'g', ' ', 'R', 'u', 'n', ' ', 'b', 'a', 'c', 'k', ' ', 'c', 'o', 'r', 'n', 'e', 'r', ' ', 'n', 'e', 'a', 'r', ' ', 's', 'p', 'a', 'r', 'e', ' ', 'b', 'e', 'd', 'r', 'o', 'o', 'm', 's']


# 단어 집합 생성

In [16]:
import urllib.request
import pandas as pd
import numpy as np

from konlpy.tag import Mecab
from nltk import FreqDist

import matplotlib.pyplot as plt

In [18]:
urllib.request.urlretrieve('https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt',filename='ratings.txt')

('ratings.txt', <http.client.HTTPMessage at 0x7fb95829a260>)

In [21]:
# read_csv와 read_table의 차이점 : https://stackoverflow.com/questions/31362573/performance-difference-in-pandas-read-table-vs-read-csv-vs-from-csv-vs-read-e
data=pd.read_table('ratings.txt')

In [22]:
data.head()

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1


In [23]:
print(len(data))

200000


In [24]:
sample_data=data.sample(n=100)

In [25]:
sample_data.head()

Unnamed: 0,id,document,label
4271,6334208,대한민국 최고의 콘서트 꼭블루레이로 시청!,1
133688,8014139,이러지마.....제발 이러지마.........이게 뭐야..........,0
185503,8157538,어떻게 이정도의 원작을 그정도로 밖에 못만드는지 신기한 영화,0
78700,10242498,여주인공 연기가 매우 좋음 이런 배우 많이 캐스팅 되길,1
55626,10081007,갤익최고!!!!진짜 반드시크개들을것!!!,1


In [31]:
## pandas.str : https://blog.naver.com/wideeyed/221603778414
sample_data['document']=sample_data['document'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")
sample_data.head()

  sample_data['document']=sample_data['document'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")


Unnamed: 0,id,document,label
4271,6334208,대한민국 최고의 콘서트 꼭블루레이로 시청,1
133688,8014139,이러지마제발 이러지마이게 뭐야,0
185503,8157538,어떻게 이정도의 원작을 그정도로 밖에 못만드는지 신기한 영화,0
78700,10242498,여주인공 연기가 매우 좋음 이런 배우 많이 캐스팅 되길,1
55626,10081007,갤익최고진짜 반드시크개들을것,1


In [32]:
# 불용어 정의
stopwords=['의','가','이','은','들','는','좀','잘','걍','과','도','를','으로','자','에','와','한','하다']

In [34]:
tokenizer=Mecab()
tokenized=[]

for i in sample_data['document']:
  temp=tokenizer.morphs(i)
  temp=[word for word in temp if not word in stopwords]
  tokenized.append(temp)

In [35]:
vocab=FreqDist(np.hstack(tokenized)) # concat과 동이한 역할
print(len(vocab))

722


In [39]:
vocab['바보'] # key : 단어 , value: 빈도수

3

In [41]:
vocab_size=500
vocab=vocab.most_common(vocab_size)
print(len(vocab))

500
