# spaCy

```
pip install spacy
python -m spacy download pl_core_news_md
```

In [1]:
import spacy

In [2]:
nlp = spacy.load("pl_core_news_md")

In [3]:
from spacy.lang.pl.examples import sentences

In [4]:
sentences

['Poczuł przyjemną woń mocnej kawy.',
 'Istnieje wiele dróg oddziaływania substancji psychoaktywnej na układ nerwowy.',
 'Powitał mnie biało-czarny kot, płosząc siedzące na płocie trzy dorodne dudki.',
 'Nowy abonament pod lupą Komisji Europejskiej',
 'Czy w ciągu ostatnich 48 godzin spożyłeś leki zawierające paracetamol?',
 'Kto ma ochotę zapoznać się z innymi niż w książkach przygodami Muminków i ich przyjaciół, temu polecam komiks Tove Jansson „Muminki i morze”.']

In [5]:
sentence = sentences[1]
sentence

'Istnieje wiele dróg oddziaływania substancji psychoaktywnej na układ nerwowy.'

### Model

In [6]:
doc = nlp(sentence)

In [7]:
doc

Istnieje wiele dróg oddziaływania substancji psychoaktywnej na układ nerwowy.

### Tokenizacja

In [8]:
for token in sentence.split(" "):
    print(token)

Istnieje
wiele
dróg
oddziaływania
substancji
psychoaktywnej
na
układ
nerwowy.


In [9]:
"nerwowy" == "nerwowy."

False

In [10]:
for token in doc:
    print(token.text)

Istnieje
wiele
dróg
oddziaływania
substancji
psychoaktywnej
na
układ
nerwowy
.


In [11]:
for token in doc:
    if token.is_alpha:
        print(token.text)

Istnieje
wiele
dróg
oddziaływania
substancji
psychoaktywnej
na
układ
nerwowy


In [12]:
for token in doc:
    if token.is_alpha:
        print(token.text.lower())

istnieje
wiele
dróg
oddziaływania
substancji
psychoaktywnej
na
układ
nerwowy


In [13]:
"istnieje" == "Istnieje"

False

### Dodatkowe białe znaki

In [14]:
sent = "Istnieje wiele dróg\noddziaływania substancji  psychoaktywnej na układ\tnerwowy."
print(sent)

Istnieje wiele dróg
oddziaływania substancji  psychoaktywnej na układ	nerwowy.


In [15]:
doc = nlp(sent)

In [16]:
for token in doc:
    print(token.text)

Istnieje
wiele
dróg


oddziaływania
substancji
 
psychoaktywnej
na
układ
	
nerwowy
.


### regex

https://regex101.com/

In [17]:
import re

In [18]:
re.sub(r"\s+", " ", sent)

'Istnieje wiele dróg oddziaływania substancji psychoaktywnej na układ nerwowy.'

In [19]:
sent_fixed = re.sub(r"\s+", " ", sent)

In [20]:
doc = nlp(sent_fixed)

In [21]:
for token in doc:
    print(token.text)

Istnieje
wiele
dróg
oddziaływania
substancji
psychoaktywnej
na
układ
nerwowy
.


In [22]:
re.findall(r"\w+", sent)

['Istnieje',
 'wiele',
 'dróg',
 'oddziaływania',
 'substancji',
 'psychoaktywnej',
 'na',
 'układ',
 'nerwowy']