In [None]:
# 언어 모델 다운로드
!python -m spacy download en_core_web_md

In [5]:
import spacy
nlp = spacy.load("en_core_web_md")
doc = nlp("I went there")

for token in doc:
    print(token, type(token), token.text, type(token.text))

I <class 'spacy.tokens.token.Token'> I <class 'str'>
went <class 'spacy.tokens.token.Token'> went <class 'str'>
there <class 'spacy.tokens.token.Token'> there <class 'str'>


In [7]:
import spacy
nlp = spacy.load("en_core_web_md")
doc = nlp("I own a pretty cat.")

print ([ token.text for token in doc ], type([ token.text for token in doc ]))

['I', 'own', 'a', 'pretty', 'cat', '.'] <class 'list'>


In [8]:
import spacy
nlp = spacy.load("en_core_web_md")
doc = nlp("It's been a crazy week!!!")

print ([ token.text for token in doc ], type([ token.text for token in doc ]))

['It', "'s", 'been', 'a', 'crazy', 'week', '!', '!', '!'] <class 'list'>


In [19]:
# custom tokenizer
import spacy
from spacy.symbols import ORTH # orthography를 의미 (맞춤법)

nlp = spacy.load("en_core_web_md")
doc = nlp("lemme that")
print ([ token.text for token in doc ], type([ token.text for token in doc ]))

special_case1 = [ {ORTH: "lem"}, {ORTH: "me"} ]
special_case2 = [ {ORTH: "Lem"}, {ORTH: "me"} ]
nlp.tokenizer.add_special_case("lemme", special_case1)
nlp.tokenizer.add_special_case("Lemme", special_case2)
doc = nlp("lemme that!!!")
print ([ token.text for token in doc ], type([ token.text for token in doc ]))

doc = nlp("Let's try again! Lemme that!, lemme")
print ([ token.text for token in doc ], type([ token.text for token in doc ]))

['lemme', 'that'] <class 'list'>
['lem', 'me', 'that', '!', '!', '!'] <class 'list'>
['Let', "'s", 'try', 'again', '!', 'Lem', 'me', 'that', '!', ',', 'lem', 'me'] <class 'list'>


In [22]:
# custom tokenizer - 문장기호도 custom tokenizer에 포함될 수 있는 경우
import spacy
from spacy.symbols import ORTH # orthography를 의미 (맞춤법)

special_case = [ {ORTH: "...lemme...?"} ]
nlp.tokenizer.add_special_case("...lemme...?", special_case)
doc = nlp("I have a dream. ...lemme...?")
print ([ token.text for token in doc ], type([ token.text for token in doc ]))

['I', 'have', 'a', 'dream', '.', '...lemme...?'] <class 'list'>


In [27]:
# tokenizer의 debugging
import spacy
nlp = spacy.load("en_core_web_md")

text = "Let's go! Lemme"
doc = nlp(text)
print ([ token.text for token in doc ])

detail_tokens = nlp.tokenizer.explain(text) 
for detail_token in detail_tokens:
    print(detail_token[1], "\t", detail_token[0])

['Let', "'s", 'go', '!', 'Lemme']
Let 	 SPECIAL-1
's 	 SPECIAL-2
go 	 TOKEN
! 	 SUFFIX
Lemme 	 TOKEN


In [31]:
# Sentence segmentation은 tokenization보다 좀더 복잡한 작업
import spacy
nlp = spacy.load("en_core_web_md")

text = "부산 해운대해수욕장에서 중학생 3명이 물놀이를 하던 중 1명이 실종되고 1명이 숨지는 사고가 발생했다. 25일 경찰과 소방당국에 따르면 이날 오전 3시 41분께 부산 해운대해수욕장에서 중학생 3명이 물놀이 하던 중 실종됐다는 신고가 접수됐다."
doc = nlp(text)
for sentence in doc.sents:
    print(sentence)

부산 해운대해수욕장에서 중학생 3명이 물놀이를 하던 중 1명이 실종되고 1명이 숨지는 사고가 발생했다.
25일 경찰과 소방당국에 따르면 이날 오전 3시 41분께 부산 해운대해수욕장에서 중학생 3명이 물놀이 하던 중
실종됐다는 신고가 접수됐다.


In [34]:
# lemma : token의 기본 형태 (base form), 사전에서 token의 기본형으로 찾을 수 있다.
# eating의 lemma => eat / eats의 lemma => eat / ate의 lemma => eat
# lemmatization : token을 자신의 lemma로 찾아가는 과정 

import spacy
nlp = spacy.load("en_core_web_md")

text = "I went there for working and worked for 3 years."
doc = nlp(text)
for token in doc:
    print(token.text, "\t", token.lemma_)

I 	 I
went 	 go
there 	 there
for 	 for
working 	 working
and 	 and
worked 	 work
for 	 for
3 	 3
years 	 year
. 	 .


In [40]:
import spacy
from spacy.symbols import ORTH, LEMMA
nlp = spacy.load("en_core_web_md")

special_case = [ {ORTH: "Angeltown", LEMMA: "Los Angeles"} ]
nlp.tokenizer.add_special_case("Angeltown", special_case)

doc = nlp("I am flying to Angeltown")
for token in doc:
    print(token.text, token.lemma_)


ValueError: [E1005] Unable to set attribute 'LEMMA' in tokenizer exception for 'Angeltown'. Tokenizer exceptions are only allowed to specify ORTH and NORM.

In [45]:
import spacy
nlp = spacy.load("en_core_web_md")

doc = nlp("I know that you have been to Korea.")
for token in doc:
    print(token)

print(doc[2:4])
print(doc[4:])
print(doc[3:-1])
print(doc[6:])


I
know
that
you
have
been
to
Korea
.
that you
have been to Korea.
you have been to Korea
to Korea.


In [49]:
import spacy
nlp = spacy.load("en_core_web_md")

doc = nlp("I know that you have been to Korea.")
span = doc[2:4]
for token in span:
    print(token)
    

that
you


In [50]:
import spacy
nlp = spacy.load("en_core_web_md")

doc = nlp("Hello, hi!")

In [52]:
doc[0].lower_

'hello'

In [None]:
doc = nlp("HELLO, Hello, hello, hEllo")
for token in doc:
    print(token.text)

In [None]:
print(doc[0].is_upper)
print(doc[0].is_lower)
print(doc[1].is_upper)
print(doc[1].is_lower)

In [57]:
doc = nlp("Cat and Cat123")
print(doc[0].is_alpha)
print(doc[1].is_alpha)
print(doc[2].is_alpha) # nonalphabetic에는 숫자, 기호, 공백 문자를 포함

True
True
False


In [60]:
doc = nlp("English and 한글!")
print(doc[0].is_ascii)
print(doc[2].is_ascii)
print(doc[3].is_ascii)

True
False
True


In [61]:
doc = nlp("Cat Cat123 123")
print(doc[0].is_digit)
print(doc[1].is_digit)
print(doc[2].is_digit)

False
False
True


In [62]:
doc = nlp("Hey, You and me!")
print(doc[1].is_punct)
print(doc[4].is_punct)
print(doc[5].is_punct)

True
False
True
