In [1]:
import spacy
nlp = spacy.load('pl_spacy_model')

In [2]:
# Print the names of the pipeline components
print(nlp.pipe_names)

# Print the full pipeline of (name, component) tuples
print(nlp.pipeline)

['tagger', 'parser', 'ner']
[('tagger', <spacy.pipeline.pipes.Tagger object at 0x0000024FE5ED4F98>), ('parser', <spacy.pipeline.pipes.DependencyParser object at 0x0000024FE6090888>), ('ner', <spacy.pipeline.pipes.EntityRecognizer object at 0x0000024FE60908E8>)]


In [3]:
# List the tokens
doc = nlp("Granice mojego języka oznaczają granice mojego świata") # ~Wittgenstein
for token in doc:
    print(token.text, token.lemma_, token.pos_)

Granice granica NOUN
mojego mój ADJ
języka język NOUN
oznaczają oznaczać VERB
granice granica NOUN
mojego mój ADJ
świata świat NOUN


In [4]:
# Tokenization, Tagging, Lemmatization and Dependency Parsing in a pretty table
import pandas as pd

attribs = ['orth_', 'lemma_', 'tag_', 'pos_', 'dep_', 'head']
table = [{att:tok.__getattribute__(att) for att in attribs} for tok in doc]
df = pd.DataFrame(table)
print(df[attribs])

       orth_    lemma_   tag_  pos_      dep_       head
0    Granice   granica  SUBST  NOUN     nsubj  oznaczają
1     mojego       mój    ADJ   ADJ  det:poss     języka
2     języka     język  SUBST  NOUN  nmod:arg    Granice
3  oznaczają  oznaczać    FIN  VERB      ROOT  oznaczają
4    granice   granica  SUBST  NOUN       obj  oznaczają
5     mojego       mój    ADJ   ADJ  det:poss     świata
6     świata     świat  SUBST  NOUN  nmod:arg    granice


In [5]:
# Play with the pos values
for token in doc:
    # Check if the current token is a proper noun
    if token.pos_ == "ADJ":
        # Check if the next token is a verb
        if doc[token.i + 1].pos_ == "NOUN":
            print("Found adjective before a noun:", token.text)

Found adjective before a noun: mojego
Found adjective before a noun: mojego


In [6]:
# DEP visualization
from spacy import displacy
displacy.render(doc, style="dep")

In [7]:
# Named entities
doc = nlp("Selekcjoner reprezentacji Polski Jerzy Brzęczek \
        powołał piłkarzy na mecze eliminacji mistrzostw Europy 2020,\
        6 września Polacy zagrają w Lublanie ze Słowenią.") # ~Rzeczpospolita 

for entity in doc.ents:
    print(entity.text, entity.label_)

Polski placeName
Jerzy Brzęczek persName
Europy geogName
6 września date
Polacy placeName
Lublanie placeName
Słowenią placeName


In [8]:
# NER visualization
displacy.render(doc, style="ent")

In [9]:
# Simple token attributes
for token in doc:
    # Check if the token resembles a number
    if token.like_num:
        print(token)

2020
6
