In [1]:
from spacy.lang.pl.examples import sentences
import spacy
nlp = spacy.load("pl_core_news_md")

In [2]:
sentence = sentences[1]
doc = nlp(sentence)

# spaCy

### Podział na zdania

In [3]:
sentences

['Poczuł przyjemną woń mocnej kawy.',
 'Istnieje wiele dróg oddziaływania substancji psychoaktywnej na układ nerwowy.',
 'Powitał mnie biało-czarny kot, płosząc siedzące na płocie trzy dorodne dudki.',
 'Nowy abonament pod lupą Komisji Europejskiej',
 'Czy w ciągu ostatnich 48 godzin spożyłeś leki zawierające paracetamol?',
 'Kto ma ochotę zapoznać się z innymi niż w książkach przygodami Muminków i ich przyjaciół, temu polecam komiks Tove Jansson „Muminki i morze”.']

In [4]:
sentences_combined = " ".join(sentences)
sentences_combined

'Poczuł przyjemną woń mocnej kawy. Istnieje wiele dróg oddziaływania substancji psychoaktywnej na układ nerwowy. Powitał mnie biało-czarny kot, płosząc siedzące na płocie trzy dorodne dudki. Nowy abonament pod lupą Komisji Europejskiej Czy w ciągu ostatnich 48 godzin spożyłeś leki zawierające paracetamol? Kto ma ochotę zapoznać się z innymi niż w książkach przygodami Muminków i ich przyjaciół, temu polecam komiks Tove Jansson „Muminki i morze”.'

In [5]:
doc = nlp(sentences_combined)

In [6]:
for sent in doc.sents:
    print(sent)

Poczuł przyjemną woń mocnej kawy.
Istnieje wiele dróg oddziaływania substancji psychoaktywnej na układ nerwowy.
Powitał mnie biało-czarny kot, płosząc siedzące na płocie trzy dorodne dudki.
Nowy abonament pod lupą Komisji Europejskiej Czy w ciągu ostatnich 48 godzin spożyłeś leki zawierające paracetamol?
Kto ma ochotę zapoznać się z innymi niż w książkach przygodami Muminków i ich przyjaciół, temu polecam komiks Tove Jansson „Muminki i morze”.


In [7]:
sent

Kto ma ochotę zapoznać się z innymi niż w książkach przygodami Muminków i ich przyjaciół, temu polecam komiks Tove Jansson „Muminki i morze”.

In [8]:
for token in sent:
    print(f"{token.text.lower():14} : {token.lemma_:14} : {token.pos_}")

kto            : kto            : PRON
ma             : mieć           : VERB
ochotę         : ochota         : NOUN
zapoznać       : zapoznać       : VERB
się            : się            : PRON
z              : z              : ADP
innymi         : inny           : ADJ
niż            : niż            : ADP
w              : w              : ADP
książkach      : książka        : NOUN
przygodami     : przygoda       : NOUN
muminków       : muminek        : NOUN
i              : i              : CCONJ
ich            : on             : PRON
przyjaciół     : przyjaciel     : NOUN
,              : ,              : PUNCT
temu           : temu           : PRON
polecam        : polecać        : VERB
komiks         : komiks         : NOUN
tove           : tove           : PROPN
jansson        : jansson        : PROPN
„              : „              : PUNCT
muminki        : muminki        : PROPN
i              : i              : CCONJ
morze          : mór            : NOUN
”              : ”    

### Pipeline

![image.png](attachment:image.png)

### Wiele dokumentów

In [9]:
[nlp(s) for s in sentences]

[Poczuł przyjemną woń mocnej kawy.,
 Istnieje wiele dróg oddziaływania substancji psychoaktywnej na układ nerwowy.,
 Powitał mnie biało-czarny kot, płosząc siedzące na płocie trzy dorodne dudki.,
 Nowy abonament pod lupą Komisji Europejskiej,
 Czy w ciągu ostatnich 48 godzin spożyłeś leki zawierające paracetamol?,
 Kto ma ochotę zapoznać się z innymi niż w książkach przygodami Muminków i ich przyjaciół, temu polecam komiks Tove Jansson „Muminki i morze”.]

In [10]:
list(nlp.pipe(sentences))

[Poczuł przyjemną woń mocnej kawy.,
 Istnieje wiele dróg oddziaływania substancji psychoaktywnej na układ nerwowy.,
 Powitał mnie biało-czarny kot, płosząc siedzące na płocie trzy dorodne dudki.,
 Nowy abonament pod lupą Komisji Europejskiej,
 Czy w ciągu ostatnich 48 godzin spożyłeś leki zawierające paracetamol?,
 Kto ma ochotę zapoznać się z innymi niż w książkach przygodami Muminków i ich przyjaciół, temu polecam komiks Tove Jansson „Muminki i morze”.]

In [11]:
list(nlp.pipe(sentences, disable=["ner"]))

[Poczuł przyjemną woń mocnej kawy.,
 Istnieje wiele dróg oddziaływania substancji psychoaktywnej na układ nerwowy.,
 Powitał mnie biało-czarny kot, płosząc siedzące na płocie trzy dorodne dudki.,
 Nowy abonament pod lupą Komisji Europejskiej,
 Czy w ciągu ostatnich 48 godzin spożyłeś leki zawierające paracetamol?,
 Kto ma ochotę zapoznać się z innymi niż w książkach przygodami Muminków i ich przyjaciół, temu polecam komiks Tove Jansson „Muminki i morze”.]

In [12]:
full = [[(t.text.lower(), t.lemma_, t.pos_) for t in s] for s in nlp.pipe(sentences)]
full

[[('poczuł', 'poczuć', 'VERB'),
  ('przyjemną', 'przyjemny', 'ADJ'),
  ('woń', 'wonia', 'NOUN'),
  ('mocnej', 'mocny', 'ADJ'),
  ('kawy', 'kawa', 'NOUN'),
  ('.', '.', 'PUNCT')],
 [('istnieje', 'istnieć', 'VERB'),
  ('wiele', 'wiele', 'NUM'),
  ('dróg', 'drogi', 'NOUN'),
  ('oddziaływania', 'oddziaływanie', 'NOUN'),
  ('substancji', 'substancja', 'NOUN'),
  ('psychoaktywnej', 'psychoaktywny', 'ADJ'),
  ('na', 'na', 'ADP'),
  ('układ', 'układ', 'NOUN'),
  ('nerwowy', 'nerwowy', 'ADJ'),
  ('.', '.', 'PUNCT')],
 [('powitał', 'powitać', 'VERB'),
  ('mnie', 'ja', 'PRON'),
  ('biało', 'biały', 'ADJ'),
  ('-', '-', 'PUNCT'),
  ('czarny', 'czarny', 'ADJ'),
  ('kot', 'kota', 'NOUN'),
  (',', ',', 'PUNCT'),
  ('płosząc', 'płoszyć', 'VERB'),
  ('siedzące', 'siedzący', 'ADJ'),
  ('na', 'na', 'ADP'),
  ('płocie', 'płoć', 'NOUN'),
  ('trzy', 'trzy', 'NUM'),
  ('dorodne', 'dorodny', 'ADJ'),
  ('dudki', 'dudka', 'NOUN'),
  ('.', '.', 'PUNCT')],
 [('nowy', 'nowy', 'ADJ'),
  ('abonament', 'abonament', '

In [13]:
no_ner = [[(t.text.lower(), t.lemma_, t.pos_) for t in s] for s in nlp.pipe(sentences, disable=["ner"])]
no_ner

[[('poczuł', 'poczuć', 'VERB'),
  ('przyjemną', 'przyjemny', 'ADJ'),
  ('woń', 'wonia', 'NOUN'),
  ('mocnej', 'mocny', 'ADJ'),
  ('kawy', 'kawa', 'NOUN'),
  ('.', '.', 'PUNCT')],
 [('istnieje', 'istnieć', 'VERB'),
  ('wiele', 'wiele', 'NUM'),
  ('dróg', 'drogi', 'NOUN'),
  ('oddziaływania', 'oddziaływanie', 'NOUN'),
  ('substancji', 'substancja', 'NOUN'),
  ('psychoaktywnej', 'psychoaktywny', 'ADJ'),
  ('na', 'na', 'ADP'),
  ('układ', 'układ', 'NOUN'),
  ('nerwowy', 'nerwowy', 'ADJ'),
  ('.', '.', 'PUNCT')],
 [('powitał', 'powitać', 'VERB'),
  ('mnie', 'ja', 'PRON'),
  ('biało', 'biały', 'ADJ'),
  ('-', '-', 'PUNCT'),
  ('czarny', 'czarny', 'ADJ'),
  ('kot', 'kota', 'NOUN'),
  (',', ',', 'PUNCT'),
  ('płosząc', 'płoszyć', 'VERB'),
  ('siedzące', 'siedzący', 'ADJ'),
  ('na', 'na', 'ADP'),
  ('płocie', 'płoć', 'NOUN'),
  ('trzy', 'trzy', 'NUM'),
  ('dorodne', 'dorodny', 'ADJ'),
  ('dudki', 'dudka', 'NOUN'),
  ('.', '.', 'PUNCT')],
 [('nowy', 'nowy', 'ADJ'),
  ('abonament', 'abonament', '

In [14]:
full == no_ner

True

- spaCy
- tokenizacja
- stopwords
- lematyzacja
- części mowy
- podział na zdania
- przetwarzanie wielu dokumentów