In [1]:
import spacy

In [2]:
nlp = spacy.load("pl_core_news_sm")

In [18]:
doc = nlp("Czarny kot zjadł rybę spod stołu i poszedł spać!")

### części mowy

In [19]:
for token in doc:
    print('{:<15}{:<12}'.format(token.text, token.pos_))

Czarny         ADJ         
kot            NOUN        
zjadł          VERB        
rybę           NOUN        
spod           ADP         
stołu          NOUN        
i              CCONJ       
poszedł        VERB        
spać           VERB        
!              PUNCT       


* ADJ: adjective - przymiotnik
* ADP: adposition - przyimek
* ADV: adverb - przysłówek
* AUX: auxiliary verb - czasownik posiłkowy
* CONJ: coordinating conjunction - spójnik
* DET: determiner - określnik (the, a, an, this, my, much, some, one, all, every, what, quite, etc.)
* INTJ: interjection - wykrzyknik
* NOUN: noun - rzeczownik
* NUM: numeral - liczebnik
* PART: particle - partykuła (by, byś, byle, choć, jedynie, niech, oby, owszem, może, czy, ani, etc.)
* PRON: pronoun - zaimek (on, ktoś, ten, twój, tutaj, kiedy, tyle)
* PROPN: proper noun - nazwa własna
* PUNCT: punctuation - interpunkcja
* SCONJ: subordinating conjunction - spójnik porządkowy
* SYM: symbol - symbol
* VERB: verb - czasownik
* X: other - inne

### identyfikacja jednostek nazewniczych

In [30]:
doc = nlp("Microsoft inwestuje w Polsce.")

In [31]:
for ent in doc.ents:
    print(ent.text, ent.label_)



Microsoft orgName
Polsce placeName


### wizualizacja 

In [32]:
from spacy import displacy
displacy.render(doc, style="ent", jupyter=True)

### sprawdź co oznacza wybrany skrót (en)

In [37]:
spacy.explain("ORG")

'Companies, agencies, institutions, etc.'

### head - jak słowa są powiązane
### dep - relacja syntaktyczna

In [38]:
for token in doc:
    print(f'{token.text:<15}, {token.pos_:<15}, {token.dep_:<15}, {token.head.text:<15}')

Microsoft      , NOUN           , nsubj          , inwestuje      
inwestuje      , VERB           , ROOT           , inwestuje      
w              , ADP            , case           , Polsce         
Polsce         , NOUN           , obl            , inwestuje      
.              , PUNCT          , punct          , inwestuje      
