### Text Processing Pilienes
text -> nlp -> Doc. Yang akan menghasilkan token

In [2]:
import spacy

nlp = spacy.blank("en")
doc = nlp("Hallo world!")

for token in doc:
    print(token.text)

'''
Setelah proses ini baru dapat dilakukan berbagai macam pemrosessan.
Info lengkap processing pipelines (https://spacy.io/usage/processing-pipelines)
'''

Hallo
world
!


'\nSetelah proses ini baru dapat dilakukan berbagai macam pemrosessan.\nInfo lengkap processing pipelines (https://spacy.io/usage/processing-pipelines)\n'

### Lemmatization
Lemmatization adalah proses untuk mencari bentuk kata dasar. Proses ini dilaksanakan oleh lemmatizer. Pada spaCy, lemmatizer dilakukan oleh komponen lemmatizer. Informasi lengkap ada di https://spacy.io/api/lemmatizer

In [4]:
import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp(u'this product integrates both libraries for downloading and applying patches')

for token in doc:
    print(token.text, token.lemma_)


'''
Perhatikan, lemmatization ini bisa menjadi titik awal dari intent recognition. 
Misal kita akan memproses masukan dari user yang akan membeli tiket. 
Tiket bisa berupa tiket bis, pesawat, maupun kendaraan lain. Dengan demikian, diperlukan data tentang:

1. Kendaraan yang diinginkan: fly => terbang, naik pesawat
2. Kemana? => to menunjukkan tujuan
'''

this this
product product
integrates integrate
both both
libraries library
for for
downloading download
and and
applying apply
patches patch


'\nPerhatikan, lemmatization ini bisa menjadi titik awal dari intent recognition. \nMisal kita akan memproses masukan dari user yang akan membeli tiket. \nTiket bisa berupa tiket bis, pesawat, maupun kendaraan lain. Dengan demikian, diperlukan data tentang:\n\n1. Kendaraan yang diinginkan: fly => terbang, naik pesawat\n2. Kemana? => to menunjukkan tujuan\n'

In [9]:
# orth is simply an integer that indicates 
# the index of the occurrence of the word that 
# is kept in the spacy. tokens

from spacy.symbols import LOWER, LEMMA

nlp.get_pipe("attribute_ruler").add([[{"LOWER": "frisco"}]], {"LEMMA": "San Francisco"})
doc = nlp(u'I am flying to Frisco')

print(['token:%s lemma:%s' % (t.text, t.lemma_) for t in doc])

['token:I lemma:I', 'token:am lemma:be', 'token:flying lemma:fly', 'token:to lemma:to', 'token:Frisco lemma:San Francisco']


### Tagger

Merupakan komponen untuk PoS Tagging. Dokumentasi lengkap: https://spacy.io/api/tagger

In [10]:
nlp.get_pipe("attribute_ruler").add([[{"LOWER": "frisco"}]], {"LEMMA": "San Francisco"})

doc = nlp(u'I have flown to LA. Now I am flying to Frisco')

for t in doc:
    print('token:%s lemma:%s pos:%s tag:%s' % (t.text, t.lemma_, t.pos_, t.tag_))

token:I lemma:I pos:PRON tag:PRP
token:have lemma:have pos:AUX tag:VBP
token:flown lemma:fly pos:VERB tag:VBN
token:to lemma:to pos:ADP tag:IN
token:LA lemma:LA pos:PROPN tag:NNP
token:. lemma:. pos:PUNCT tag:.
token:Now lemma:now pos:ADV tag:RB
token:I lemma:I pos:PRON tag:PRP
token:am lemma:be pos:AUX tag:VBP
token:flying lemma:fly pos:VERB tag:VBG
token:to lemma:to pos:ADP tag:IN
token:Frisco lemma:San Francisco pos:PROPN tag:NNP


In [11]:
spacy.explain("PRON") 

'pronoun'

In [12]:
spacy.explain("PRP") 

'pronoun, personal'

In [13]:
spacy.explain("AUX")

'auxiliary'

In [14]:
spacy.explain("VBP") 

'verb, non-3rd person singular present'

In [15]:
spacy.explain("VBN") 

'verb, past participle'

In [16]:
spacy.explain("ADP") 

'adposition'

In [17]:
spacy.explain("IN") 

'conjunction, subordinating or preposition'

In [18]:
spacy.explain("PROPN")

'proper noun'

In [19]:
spacy.explain("NNP") 

'noun, proper singular'

In [20]:
spacy.explain("PUNCT")

'punctuation'

In [21]:
spacy.explain("ADV")

'adverb'

In [22]:
spacy.explain("RB") 

'adverb'

In [23]:
spacy.explain("VERB")

'verb'

In [24]:
spacy.explain("VBG") 

'verb, gerund or present participle'

In [25]:
for t in doc:
    print('token:%s lemma:%s pos:%s dep:%s' % (t.text, t.lemma_, t.pos_, t.dep_))

token:I lemma:I pos:PRON dep:nsubj
token:have lemma:have pos:AUX dep:aux
token:flown lemma:fly pos:VERB dep:ROOT
token:to lemma:to pos:ADP dep:prep
token:LA lemma:LA pos:PROPN dep:pobj
token:. lemma:. pos:PUNCT dep:punct
token:Now lemma:now pos:ADV dep:advmod
token:I lemma:I pos:PRON dep:nsubj
token:am lemma:be pos:AUX dep:aux
token:flying lemma:fly pos:VERB dep:ROOT
token:to lemma:to pos:ADP dep:prep
token:Frisco lemma:San Francisco pos:PROPN dep:pobj


In [26]:
for t in doc:
    print('token head text:%s dependency:%s text:%s' % (t.head.text, t.dep_, t.text))

token head text:flown dependency:nsubj text:I
token head text:flown dependency:aux text:have
token head text:flown dependency:ROOT text:flown
token head text:flown dependency:prep text:to
token head text:to dependency:pobj text:LA
token head text:flown dependency:punct text:.
token head text:flying dependency:advmod text:Now
token head text:flying dependency:nsubj text:I
token head text:flying dependency:aux text:am
token head text:flying dependency:ROOT text:flying
token head text:flying dependency:prep text:to
token head text:to dependency:pobj text:Frisco


In [27]:
for sent in doc.sents:
    print([w.text for w in sent if w.dep_ == 'ROOT' or w.dep_ == 'pobj'])

['flown', 'LA']
['flying', 'Frisco']


### NER (Named Entity Recognition)
Informasi lengkap: https://spacy.io/api/entityrecognizer

In [28]:
nlp.get_pipe("attribute_ruler").add([[{"LOWER": "frisco"}]], {"LEMMA": "San Francisco"})

doc = nlp(u'I have flown to LA. Now I am flying to Frisco')

for token in doc:
    if token.ent_type != 0:
        print(token.lemma_, token.ent_type_)

LA GPE
San Francisco ORG
