<a href="https://colab.research.google.com/github/yunssup/Business_Text_Mining/blob/main/Tokenization_Review.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tokenization
> <b>1. spaCy <br>
> <b>2. NLTK <br>
> <b>3. Regex </b>

# <font color=blue>1. spaCy</font>



In [2]:
import spacy
nlp = spacy.load('en_core_web_sm')

In [5]:
string1 = '"we\'re moving to L.A.!"'
print(string1)

"we're moving to L.A.!"


In [8]:
doc1 = nlp(string1)

for token in doc1:
  print(token.text)

"
we
're
moving
to
L.A.
!
"


**spaCy는 단어의 필수적인 부분을 형성하지 않는 문장을 분리**합니다. 문장 끝의 따옴표, 쉼표, 문장은 각각의 토큰을 할당합니다.

 단, 이메일 주소, 웹사이트 또는 수치의 일부로 존재하는 구두점은 토큰의 일부로 유지됩니다.

In [9]:
string2 = "AT&T offers a $49.99 montly plan for N.Y. citizens who enjoy rock'n'roll."

doc2 = nlp(string2)
for token in doc2:
  print(token.text)

AT&T
offers
a
$
49.99
montly
plan
for
N.Y.
citizens
who
enjoy
rock'n'roll
.


In [10]:
string3 = "If you'd like to join Ph.D. program, email us at userid@dongguk.edu or visit at https://www.dongguk.edu"
doc3 = nlp(string3)
for token in doc3:
  print(token.text)

If
you
'd
like
to
join
Ph.D.
program
,
email
us
at
userid@dongguk.edu
or
visit
at
https://www.dongguk.edu


In [11]:
len(doc3)

17

# <font color=blue> 2. NLTK </font>
> - word_tokenize
> - WordPunctTokenizer
> - TweetTokenizer

In [12]:
import nltk
nltk.download('popular')

[nltk_data] Downloading collection 'popular'
[nltk_data]    | 
[nltk_data]    | Downloading package cmudict to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/cmudict.zip.
[nltk_data]    | Downloading package gazetteers to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/gazetteers.zip.
[nltk_data]    | Downloading package genesis to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/genesis.zip.
[nltk_data]    | Downloading package gutenberg to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/gutenberg.zip.
[nltk_data]    | Downloading package inaugural to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/inaugural.zip.
[nltk_data]    | Downloading package movie_reviews to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping corpora/movie_reviews.zip.
[nltk_data]    | Downloading package names to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/names.zip.
[nltk_data]    | Downloading package shakespeare to /root/nltk_data...
[nlt

True

## 2.1. word_tokenize()
<b> Example 1. </b><br>
- string = '"we\'re moving to L.A.!"'

In [13]:
from nltk.tokenize import word_tokenize

In [14]:
word_tokenize(string1)

['``', 'we', "'re", 'moving', 'to', 'L.A.', '!', "''"]

In [15]:
for token in doc1:
    print(token.text, end=' | ')

" | we | 're | moving | to | L.A. | ! | " | 

## 2.1. word_tokenize()
<b> Example 2. </b><br>
- string = "AT&T offers a $49.99 montly plan for N.Y. citizens who enjoy rock'n'roll."

In [16]:
word_tokenize(string2)

['AT',
 '&',
 'T',
 'offers',
 'a',
 '$',
 '49.99',
 'montly',
 'plan',
 'for',
 'N.Y.',
 'citizens',
 'who',
 'enjoy',
 "rock'n'roll",
 '.']

In [17]:
for token in doc2:
    print(token.text, end=' | ')

AT&T | offers | a | $ | 49.99 | montly | plan | for | N.Y. | citizens | who | enjoy | rock'n'roll | . | 

## 2.1. word_tokenize()
<b> Example 3. </b><br>
- string = "If you'd like to join Ph.D. program, email us at userid@dongguk.edu or visit at https://www.dongguk.edu"

In [18]:
word_tokenize(string3)

['If',
 'you',
 "'d",
 'like',
 'to',
 'join',
 'Ph.D.',
 'program',
 ',',
 'email',
 'us',
 'at',
 'userid',
 '@',
 'dongguk.edu',
 'or',
 'visit',
 'at',
 'https',
 ':',
 '//www.dongguk.edu']

In [21]:
for token in doc3:
  print(token.text, end = ' | ')

If | you | 'd | like | to | join | Ph.D. | program | , | email | us | at | userid@dongguk.edu | or | visit | at | https://www.dongguk.edu | 

## 2.2. WordPunctTokenizer

In [22]:
from nltk.tokenize import WordPunctTokenizer

In [23]:
punct_tokenizer = WordPunctTokenizer()
punct_tokenizer.tokenize(string3)

['If',
 'you',
 "'",
 'd',
 'like',
 'to',
 'join',
 'Ph',
 '.',
 'D',
 '.',
 'program',
 ',',
 'email',
 'us',
 'at',
 'userid',
 '@',
 'dongguk',
 '.',
 'edu',
 'or',
 'visit',
 'at',
 'https',
 '://',
 'www',
 '.',
 'dongguk',
 '.',
 'edu']

## 2.3. TweetTokenizer

'#'태그와 @ 태그 및 기호가 별도의 토큰으로 분리

In [24]:
tweet = "Snow White and the Seven Degrees #MakeAMovieCold@midnight :-)"

- spacy

In [25]:
doc = nlp(tweet)
for token in doc:
  print (token.text, end = ' | ')

Snow | White | and | the | Seven | Degrees | # | MakeAMovieCold@midnight | :-) | 

- TweetTokenizer

In [26]:
from nltk.tokenize import TweetTokenizer

tokenizer = TweetTokenizer()
print(tokenizer.tokenize(tweet))

['Snow', 'White', 'and', 'the', 'Seven', 'Degrees', '#MakeAMovieCold', '@midnight', ':-)']


# <font color=blue> 3. Tokenization using Regex </font>

In [30]:
import re
text = "The quick brown   fox jumps over the    lazy dog"
re.split("\s+", text)

['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog']

In [31]:
from nltk.tokenize import RegexpTokenizer

- RegexpTokenizer는 NLTK(Natural Language Toolkit) 라이브러리에서 제공하는 정규 표현식을 기반으로 한 토크나이저

In [32]:
text = "AT&T offers a $49.99 montly plan for N.Y. citizens"

In [34]:
tokenizer1 = RegexpTokenizer("\w+")
print(tokenizer1.tokenize(text))

['AT', 'T', 'offers', 'a', '49', '99', 'montly', 'plan', 'for', 'N', 'Y', 'citizens']


첫 번째 토크나이저는 **\w+라는 정규 표현식**을 사용. 여기서 **\w는 "word character"를 의미**하며, **보통 영문자, 숫자, 밑줄 문자(_)를 포함**. **+는 하나 이상의 문자에 일치한다는 것을 의미**.

따라서 이 패턴은 연속된 "단어 문자들"을 찾아내어 토큰으로 분리. 그러나 이 방식은 **공백, 특수 문자, 구두점 등을 기준으로는 분리하지 않기** 때문에, 예를 들어 "N.Y." 같은 경우는 "N", "Y"로 분리.

In [35]:
tokenizer2 = RegexpTokenizer("\s+", gaps=True)
print(tokenizer2.tokenize(text))

['AT&T', 'offers', 'a', '$49.99', 'montly', 'plan', 'for', 'N.Y.', 'citizens']


두 번째 토크나이저는 **\s+, 즉 하나 이상의 공백 문자를 기준으로 텍스트를 토큰화**하는 정규 표현식을 사용. 여기서 gaps=True 매개변수는 지정된 패턴을 토큰으로 분리하는 대신 토큰을 구분하는 구분자로 사용하라는 의미. 즉, 이 경우에는 **공백이 토큰들을 구분하는 구분자로 작용**하여, **공백을 기준으로 텍스트를 분리**합니다. 이 방식은 단어뿐만 아니라 **특수 문자와 구두점도 포함된 토큰을 생성 가능**.