In [None]:
# spacy 설치
#!python -m spacy download en_core_web_sm

In [1]:
import spacy
nlp = spacy.load('en_core_web_sm')

In [4]:
doc = nlp(u'Tesla is looking at buying U.S. startup for $6 million')

In [5]:
# tokenize가 이미 되어 있음.
for token in doc:
    print(token.text)

Tesla
is
looking
at
buying
U.S.
startup
for
$
6
million


In [6]:
# token, 품사 태깅, token 사이에 연관성 있는 단어 추출(종속성)
for token in doc:
    print(token.text, token.pos_, token.dep_)

Tesla PROPN nsubj
is AUX aux
looking VERB ROOT
at ADP prep
buying VERB pcomp
U.S. PROPN dobj
startup VERB dep
for ADP prep
$ SYM quantmod
6 NUM compound
million NUM pobj


In [7]:
# pipeline
nlp.pipeline

[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec at 0x16bd5f127c0>),
 ('tagger', <spacy.pipeline.tagger.Tagger at 0x16bd5f12d00>),
 ('parser', <spacy.pipeline.dep_parser.DependencyParser at 0x16bd5e28d60>),
 ('attribute_ruler',
  <spacy.pipeline.attributeruler.AttributeRuler at 0x16bd6150e00>),
 ('lemmatizer', <spacy.lang.en.lemmatizer.EnglishLemmatizer at 0x16bd615f500>),
 ('ner', <spacy.pipeline.ner.EntityRecognizer at 0x16bd5e28c80>)]

In [8]:
doc2 = nlp(u"Tesla isn't looking into startups anymore.")
           
for token in doc2:
    print(token.text, token.pos_, token.dep_)

Tesla PROPN nsubj
is AUX aux
n't PART neg
looking VERB ROOT
into ADP prep
startups NOUN pobj
anymore ADV advmod
. PUNCT punct


In [9]:
doc2

Tesla isn't looking into startups anymore.

In [10]:
doc2[0]

Tesla

In [11]:
spacy.explain('PROPN') # 고유 명사

'proper noun'

In [12]:
spacy.explain('nsubj') # 명사

'nominal subject'

In [14]:
spacy.explain('pcomp')

'complement of preposition'

In [13]:
doc2[3].text

'looking'

In [15]:
doc2[3].lemma_ # 표제어 추출(사전적인 단어)

'look'

In [16]:
doc2[3].pos_ # 품사 - 동사

'VERB'

In [18]:
print(doc2[3].pos_)
print(spacy.explain(doc2[3].pos_))
print(doc2[3].tag_ + '/' + spacy.explain(doc2[3].tag_))

VERB
verb
VBG/verb, gerund or present participle


In [20]:
doc2[0].text

'Tesla'

In [21]:
doc2[0].shape_ # shape

'Xxxxx'

In [22]:
doc2[0].is_alpha # 알파벳인지 아닌지

True

In [23]:
doc2[0].is_stop # 불용어 확인

False

In [24]:
doc3 = nlp(u'Although commmonly attributed to John Lennon from his song "Beautiful Boy", \
the phrase "Life is what happens to us while we are making other plans" was written by \
cartoonist Allen Saunders and published in Reader\'s Digest in 1957, when Lennon was 17.')

In [25]:
# span - 쪼개기
life_quote = doc3[16 : 30]
print(life_quote)

"Life is what happens to us while we are making other plans"


In [26]:
type(life_quote)

spacy.tokens.span.Span

In [27]:
doc4 = nlp(u'This is the first sentence. This is another sentence. This is the last sentence.')

In [28]:
doc4

This is the first sentence. This is another sentence. This is the last sentence.

In [30]:
# 한 문장씩 끊어서
for sent in doc4.sents:
    print(sent)

This is the first sentence.
This is another sentence.
This is the last sentence.


In [39]:
# We're moving to L.A.!
mystring = '"We\'re moving to L.A.!"'
print(mystring)

"We're moving to L.A.!"


In [37]:
doc5 = nlp(mystring)

for token in doc5:
    print(token.text, end = ' | ') # 단어 사이사이에 |

" | We | 're | moving | to | L.A. | ! | " | 

In [40]:
# We're here to help! Send snail-mail, email support@oursite.com
# or visit us at http://www.oursite.com!
doc6 = nlp(u"We\'re here to help! Send snail-mail, email support@oursite.com or visit us at http://www.oursite.com!")

In [42]:
for token in doc6:
    print(token.text)

We
're
here
to
help
!
Send
snail
-
mail
,
email
support@oursite.com
or
visit
us
at
http://www.oursite.com
!


In [43]:
doc7 = nlp(r"A 5km NYC cab ride costs $10.30")

for t in doc7:
    print(t)

A
5
km
NYC
cab
ride
costs
$
10.30


In [44]:
# Let's visit St. Louis in the U.S. next year.
doc8 = nlp(u"Let's visit St. Louis in the U.S. next year.")

for t in doc8:
    print(t)

Let
's
visit
St.
Louis
in
the
U.S.
next
year
.


In [45]:
doc5

"We're moving to L.A.!"

In [46]:
# list처럼 사용 가능해서 len 확인 가능.
len(doc5)

8

In [47]:
# token의 객체 타입
for t in doc5:
    print(t)

"
We
're
moving
to
L.A.
!
"


In [49]:
# 문자 데이터만 가져옴. (문자 타입)
for token in doc5:
    print(token.text)

"
We
're
moving
to
L.A.
!
"


In [48]:
# doc5 파악할 때 사용된 단어의 개수
len(doc5.vocab)

843

### Named Entities

* 엔터티(Entity)란?
* 엔터티는 쉽게 말해 실체, 객체라고 생각할 수 있다.
* 엔터티는 사람, 장소, 물건, 사건, 개념 등과 같은 명사에 해당된다.
* 엔터티는 업무상 관리가 필요한 것에 해당된다.
* 엔터티는 저장 되기 위한 어떤 것(Thing)에 해당된다.
* 그리고 엔터티는 인스턴스의 집합으로 나타나게 됩니다. 즉 과목이라는 엔터티가 있다면, 수학, 영어, 국어와 같은 인스턴스가 과목이라는 엔터티에 포함되는 것이다.
* 이때 엔터티는 자신이 가지고 있는 인스턴스를 설명할 수 있는, 나타낼 수 있는 속성(Attribute)를 가지게 된다. 앞에서 이야기한 수학, 영어, 국어와 같은 인스턴스가 존재한다면 이들은 과목이라는 엔터티에서 이름이라는 속성을 가지고 있는 것이죠.


* 한 개의 엔터티는 두 개 이상의 인스턴스의 집합이다.
* 한 개의 엔터티는 두 개 이상의 속성을 가진다.
* 한 개의 인스턴스에는 한 개의 속성을 가진다.
* 한 개의 속성은 한 개의 속성 값을 가진다.


* 출처: https://doorbw.tistory.com/227 [Tigercow.Door]

In [50]:
doc9 = nlp(u'Apple to build a Hong Kong factory for $6 million')

for t in doc9:
    print(t.text, end = ' | ')

Apple | to | build | a | Hong | Kong | factory | for | $ | 6 | million | 

In [51]:
# 고유 명사처럼 사용 가능한 거.
for e in doc9.ents:
    print(e)

Apple
Hong Kong
$6 million


In [54]:
for e in doc9.ents:
    print(e.text + ' - ' + e.label_ + ' - ' + spacy.explain(e.label_))

Apple - ORG - Companies, agencies, institutions, etc.
Hong Kong - GPE - Countries, cities, states
$6 million - MONEY - Monetary values, including unit


In [None]:
# __init__ -> 초기화할 때
# __str__ -> 출력하고 싶은 문장 제어할 때

In [56]:
# https://spacy.io/usage/visualizers
# 시각화
from spacy import displacy

doc10 = nlp(u'Apple to build a Hong Kong factory for $6 million.')
displacy.render(doc10, style = 'dep', jupyter = True, options = {'distance':100})

In [65]:
spacy.explain('PROPN') # 명사

'proper noun'

In [66]:
spacy.explain('PART')

'particle'

In [57]:
# 시각화 - entities
doc11 = nlp(u'Over the last quarter Apple sold nearly 20 thousand iPhone for a profit of $6 million.')
displacy.render(doc11, style = 'ent', jupyter = True)

In [60]:
displacy.serve(doc11, style = 'ent')


Using the 'ent' visualizer
Serving on http://0.0.0.0:5000 ...

Shutting down server on port 5000.
