# Components: Tokenizer, Lemmatizer, Lexical Attributes

This notebook demonstrates the usage of `Polish` language class in spaCy. 

At the moment of writing this, our last pull request was not yet accepted to spaCy master branch.
You can install spaCy from our pull request branch to reproduce our results:
```
pip install https://github.com/spacy-pl/spaCy/archive/pl-release/lemmatizer-tagmap-and-tests.zip
```
and make sure to also install a model that contains Polish POS Tagger (necessary for lemmatization to work correctly):
```
pip install https://storage.googleapis.com/spacy-pl-public-models/pl_model-1.0.0.tar.gz
```

### Loading language class

Because our models are not ready yet, we use a dummy tagger that always returns unknown tag. This hack is required for other language components to work correctly, but it soon won't be necessary - we will update the notebook as soon as we have the models trained and packaged

In [1]:
import spacy
from spacy.lang.pl import Polish

In [2]:
nlp = spacy.load('pl_model')

In [3]:
pan_tadeusz = """
Litwo! Ojczyzno moja! ty jesteś jak zdrowie:
Ile cię trzeba cenić, ten tylko się dowie,
Kto cię stracił. Dziś piękność twą w całej ozdobie
Widzę i opisuję, bo tęsknię po tobie.

    Panno święta, co Jasnej bronisz Częstochowy
I w Ostrej świecisz Bramie! Ty, co gród zamkowy
Nowogródzki ochraniasz z jego wiernym ludem!
Jak mnie dziecko do zdrowia powróciłaś cudem
(Gdy od płaczącej matki, pod Twoją opiekę
Ofiarowany, martwą podniosłem powiekę;
I zaraz mogłem pieszo, do Twych świątyń progu
Iść za wrócone życie podziękować Bogu),
Tak nas powrócisz cudem na Ojczyzny łono.
Tymczasem przenoś moją duszę utęsknioną
Do tych pagórków leśnych, do tych łąk zielonych,
Szeroko nad błękitnym Niemnem rozciągnionych;
Do tych pól malowanych zbożem rozmaitem,
Wyzłacanych pszenicą, posrebrzanych żytem;
Gdzie bursztynowy świerzop, gryka jak śnieg biała,
Gdzie panieńskim rumieńcem dzięcielina pała,
A wszystko przepasane jakby wstęgą, miedzą
Zieloną, na niej z rzadka ciche grusze siedzą.
"""

### Parsing the data

Right now, the data processing takes very long (>1min for such a small document)
due to our hack for getting a lemmatizer to work:

Because we don't have a loaded POS Tagger at the moment, we created a dummy tagger
that always returns an unknown tag. This triggers lemmatizer to search all available rules
instead of the ones for a specific POS tag.

In [4]:
doc = nlp(pan_tadeusz)
doc


Litwo! Ojczyzno moja! ty jesteś jak zdrowie:
Ile cię trzeba cenić, ten tylko się dowie,
Kto cię stracił. Dziś piękność twą w całej ozdobie
Widzę i opisuję, bo tęsknię po tobie.

    Panno święta, co Jasnej bronisz Częstochowy
I w Ostrej świecisz Bramie! Ty, co gród zamkowy
Nowogródzki ochraniasz z jego wiernym ludem!
Jak mnie dziecko do zdrowia powróciłaś cudem
(Gdy od płaczącej matki, pod Twoją opiekę
Ofiarowany, martwą podniosłem powiekę;
I zaraz mogłem pieszo, do Twych świątyń progu
Iść za wrócone życie podziękować Bogu),
Tak nas powrócisz cudem na Ojczyzny łono.
Tymczasem przenoś moją duszę utęsknioną
Do tych pagórków leśnych, do tych łąk zielonych,
Szeroko nad błękitnym Niemnem rozciągnionych;
Do tych pól malowanych zbożem rozmaitem,
Wyzłacanych pszenicą, posrebrzanych żytem;
Gdzie bursztynowy świerzop, gryka jak śnieg biała,
Gdzie panieńskim rumieńcem dzięcielina pała,
A wszystko przepasane jakby wstęgą, miedzą
Zieloną, na niej z rzadka ciche grusze siedzą.

### Feature demonstration

##### Iterating over tokens

We can easily inspect every token in the document by iterating over it. This way, we can examine how well our lemmatizer works:

In [5]:
for token in doc[:50]:
    if token.is_alpha and token.lemma_ != token.lower_:
        print(f"token: {token.text}; lemma: {token.lemma_}")

token: Litwo; lemma: litwa
token: Ojczyzno; lemma: ojczyzna
token: dowie; lemma: dować
token: stracił; lemma: stracić
token: całej; lemma: cały
token: ozdobie; lemma: ozdoba
token: Widzę; lemma: widzieć
token: opisuję; lemma: opisywać
token: tęsknię; lemma: tęsknić
token: Panno; lemma: panna
token: święta; lemma: święto
token: bronisz; lemma: bronić


Token attributes:

In [6]:
for token in doc[:10]:
    print(f"Token: {token} \n - alpha: {token.is_alpha}, \n - digit: {token.is_digit}, \n - stopword: {token.is_stop}")

Token: 
 
 - alpha: False, 
 - digit: False, 
 - stopword: False
Token: Litwo 
 - alpha: True, 
 - digit: False, 
 - stopword: False
Token: ! 
 - alpha: False, 
 - digit: False, 
 - stopword: False
Token: Ojczyzno 
 - alpha: True, 
 - digit: False, 
 - stopword: False
Token: moja 
 - alpha: True, 
 - digit: False, 
 - stopword: True
Token: ! 
 - alpha: False, 
 - digit: False, 
 - stopword: False
Token: ty 
 - alpha: True, 
 - digit: False, 
 - stopword: True
Token: jesteś 
 - alpha: True, 
 - digit: False, 
 - stopword: False
Token: jak 
 - alpha: True, 
 - digit: False, 
 - stopword: True
Token: zdrowie 
 - alpha: True, 
 - digit: False, 
 - stopword: False
