In [29]:
import spacy

In [30]:
text = "To jest pierwsze zdanie. To jest drugie zdanie. Stał przy ul. Karkowskiej. Kurs opracował inż. Kwiatkowski"

Za podział dokumentu na zdania odpowiedzialny jest moduł "parser"

### Domyślny moduł do podziału na zdania.

Dzieli tekst na zdania zgodnie ze znakami interpunkcyjnymi. Nie określa, czy kropka występuje jako skrót, czy jako koniec zdania.

In [32]:
from spacy.lang.pl import Polish

nlp = Polish() # zawiera jedynie tokenizację
sentencizer = nlp.create_pipe("sentencizer")
nlp.add_pipe(sentencizer)
docs = nlp(text)

print(nlp.pipe_names) # występujące moduły

['sentencizer']


In [47]:
for sent in docs.sents:
    print(sent.__class__)
    print(f"{sent.start:<2} {sent.end:<2} {sent.text}")

<class 'spacy.tokens.span.Span'>
0  5  To jest pierwsze zdanie.
<class 'spacy.tokens.span.Span'>
5  10 To jest drugie zdanie.
<class 'spacy.tokens.span.Span'>
10 14 Stał przy ul.
<class 'spacy.tokens.span.Span'>
14 16 Karkowskiej.
<class 'spacy.tokens.span.Span'>
16 20 Kurs opracował inż.
<class 'spacy.tokens.span.Span'>
20 21 Kwiatkowski


### Moduł do podziału na zdania - sm

In [35]:
nlp_sm = spacy.load('pl_core_news_sm')

In [36]:
docs = nlp_sm(text)

In [37]:
for sent in docs.sents:
  print(f"{sent.start:<2} {sent.end:<2} {sent.text}")

0  5  To jest pierwsze zdanie.
5  10 To jest drugie zdanie.
10 16 Stał przy ul. Karkowskiej.
16 20 Kurs opracował inż.
20 21 Kwiatkowski


Jak można zauważyć skrót "ul." został rozpoznany i nie został potraktowany jako ostatni token w zdaniu. Natomiast skrót "inż." został potraktowany jako token kończący zdanie

### Moduł do podziału na zdania - lg

Gdy chcemy dzielić tekst na zdania należy użyć model "lg"

In [38]:
nlp_lg = spacy.load("pl_core_news_lg")

In [39]:
docs = nlp_lg(text)

In [40]:
for sent in docs.sents:
  print(f"{sent.start:<2} {sent.end:<2} {sent.text}")

0  5  To jest pierwsze zdanie.
5  10 To jest drugie zdanie.
10 16 Stał przy ul. Karkowskiej.
16 21 Kurs opracował inż. Kwiatkowski


In [42]:
for idx, t in enumerate(docs):
  print(f"{idx}) {t.text:<10} {t.is_sent_start} {t.is_sent_end}")

0) To         True None
1) jest       None None
2) pierwsze   None None
3) zdanie     None None
4) .          None True
5) To         True None
6) jest       None None
7) drugie     None None
8) zdanie     None None
9) .          None True
10) Stał       True None
11) przy       None None
12) ul         None None
13) .          None None
14) Karkowskiej None None
15) .          None True
16) Kurs       True None
17) opracował  None None
18) inż        None None
19) .          None None
20) Kwiatkowski None True
