In [19]:
# importowanie bibliotek
import spacy

In [20]:
# importowanie paczek języka
nlp = spacy.load('en_core_web_sm')

In [21]:
# python -m spacy download pl_core_news_lg
nlp_p = spacy.load("pl_core_news_lg")

In [22]:
# utworzenie obieku dokumentu
doc = nlp(u'NVIDIA to Acquire Arm for $40 Billion, Creating World’s Premier Computing Company for the Age of AI')
doc_p = nlp_p(u"NVIDIA przejmuje ARM za ogromną kwotę")

# Pipeline
https://spacy.io/usage/spacy-101#pipelines

<img src="pipeline1.png" width="600">

___
## Tokenizacja
Pierwsza z nich to tokenizacja. Jest to podzielenie tekstu na tokeny – pojedyncze słowa lub wyrażenia.

In [23]:
for token in doc:
    print(token.text, token.pos_, token.dep_)

NVIDIA PROPN ROOT
to PART prep
Acquire PROPN compound
Arm PROPN pobj
for ADP prep
$ SYM quantmod
40 NUM compound
Billion NUM pobj
, PUNCT punct
Creating VERB advcl
World PROPN dobj
’s PART punct
Premier PROPN compound
Computing PROPN compound
Company PROPN appos
for ADP prep
the DET det
Age PROPN pobj
of ADP prep
AI PROPN pobj


In [24]:
for token in doc_p:
    print(token.text, token.pos_, token.dep_)

NVIDIA NOUN nsubj
przejmuje VERB ROOT
ARM NOUN obj
za ADP case
ogromną ADJ amod
kwotę NOUN obl:arg


In [6]:
doc[0]

NVIDIA

In [7]:
type(doc_p)

spacy.tokens.doc.Doc

## Część mowy (Part-of-Speech Tagging (POS))
https://spacy.io/api/annotation#pos-tagging

In [8]:
doc[0].pos_ # proper noun

'PROPN'

## Zleżności i atrubuty tokenów
https://spacy.io/api/annotation#dependency-parsing

In [9]:
doc[9].dep_

'advcl'

In [11]:
doc[9].text # oryginalne słowo

'Creating'

In [12]:
doc[9].lemma_ # podstawowa forma słowa

'create'

In [13]:
doc[9].pos_ # prosta część mowy

'VERB'

In [14]:
doc[9].tag_ # złożona część mowy

'VBG'

In [15]:
doc[9].shape_ # kształt słowa

'Xxxxx'

In [16]:
doc[9].is_alpha # czy zawiera znaki

True

In [17]:
doc[9].is_stop # czy jet zawarty w stop_words

False

In [18]:
# można także zobaczyć wyjaśnienie co oznaczają atrybuty
spacy.explain('PROPN')

'proper noun'

In [19]:
spacy.explain('compound')

'compound'

In [20]:
# przykłąd (język angielski)
example = nlp(u"looking")
print(example[0].text)
print(example[0].lemma_)

looking
look


In [21]:
print(example[0].pos_)
print(example[0].tag_ + ' / ' + spacy.explain(example[0].tag_))

VERB
VBG / verb, gerund or present participle


___
## Dokumenty
Gdy dokument jest duży praca na nim może być skomplikowana, więc można wybrać wycinek dokumentu
`Doc[start:stop]`.

In [53]:
doc_test = nlp(u'Although commmonly attributed to John Lennon from his song "Beautiful Boy", \
the phrase "Life is what happens to us while we are making other plans" was written by \
cartoonist Allen Saunders and published in Reader\'s Digest in 1957, when Lennon was 17.')

In [54]:
wycinek = doc_test[16:30]
print(wycinek)

"Life is what happens to us while we are making other plans"


In [56]:
type(wycinek)

spacy.tokens.span.Span

___
## Zdania
Podział na zdania.

In [59]:
doc4 = nlp(u'This is the first sentence. This is another sentence. This is the last sentence.')

In [60]:
for sent in doc4.sents:
    print(sent)

This is the first sentence.
This is another sentence.
This is the last sentence.
