# Wprowadzenie do biblioteki spaCy

spaCy to biblioteka służąca do Przetwarzania Języka Naturalnego (ang. _NLP - Natural Language Processing_).
Jej pełna dokumentacja techniczna, wraz z dużą ilością dodatków oraz samouczków znajduje się na stronie: https://spacy.io/

## Instalacja biblioteki

Programując w Pythonie często korzystamy z różnego rodzaju gotowych bibliotek (lub tzw. pakietów), które możemy instalować za pomocą komendy `pip install __nazwa_pakietu__` __Terminala__ lub bezpośrednio w komórce notatnika, poprzedzając w/w instrukcję wykrzyknikiem: `!`


In [ ]:
# Instalacja biblioteki spaCy
!pip install spacy

Collecting spacy
  Downloading spacy-2.2.4-cp37-cp37m-manylinux1_x86_64.whl (10.6 MB)
[K     |████████████████████████████████| 10.6 MB 3.3 MB/s eta 0:00:01
[?25hCollecting preshed<3.1.0,>=3.0.2
  Downloading preshed-3.0.2-cp37-cp37m-manylinux1_x86_64.whl (118 kB)
[K     |████████████████████████████████| 118 kB 49.6 MB/s eta 0:00:01
[?25hCollecting wasabi<1.1.0,>=0.4.0
  Downloading wasabi-0.6.0-py3-none-any.whl (20 kB)
Collecting murmurhash<1.1.0,>=0.28.0
  Downloading murmurhash-1.0.2-cp37-cp37m-manylinux1_x86_64.whl (19 kB)
Collecting catalogue<1.1.0,>=0.0.7
  Downloading catalogue-1.0.0-py2.py3-none-any.whl (7.7 kB)
Collecting blis<0.5.0,>=0.4.0
  Downloading blis-0.4.1-cp37-cp37m-manylinux1_x86_64.whl (3.7 MB)
[K     |████████████████████████████████| 3.7 MB 38.1 MB/s eta 0:00:01                        | 665 kB 38.1 MB/s eta 0:00:01
[?25hCollecting thinc==7.4.0
  Downloading thinc-7.4.0-cp37-cp37m-manylinux1_x86_64.whl (2.2 MB)
[K     |████████████████████████████████| 2.2

Aby móc korzystać z zainstalowanych pakietów należy je każdorazowo importować za pomocą instrukcji `import`:

In [ ]:
import spacy

## Modele językowe

spaCy natywnie obsługuje kilkanaście pretrenowanych (!) modeli języka, są to:
* Angielski
* Niemiecki
* Francuski
* Hiszpański
* Portugalski
* Włoski
* Holenderski
* Grecki
* Norweski
* Bokmål
* Litewski

Obiekt `nlp`

Najważniejszym obiektem, z którego będziemy korzystać w bibliotece spaCy jest obiekt zawierający _potok przetwarzania_ (ang. _pipeline_). Zwykle nazywamy tę zmienną `nlp`.
Na przykład, aby utworzyć obiekt nlp w języku angielskim, musisz zaimportować klasę `English` ze `spacy.lang.en` i zainicjować ją, właśnie poprzez stworzenie zmiennej `nlp`.

In [ ]:
# Import klasy English
from spacy.lang.en import English
# Inicjacja klasy poprzez stworzenie zmiennej 'nlp'
nlp = English()

Pod nazwą zmiennej `nlp` przechowywany jest najbardziej podstawowy składnik każdego kodu pisanego w Pythonie, czyli __obiekt__.
Obiekt `nlp`, zawiera:

* potok przetwarzania
* specyficzne dla języka zasady dotyczące np. tokenizacji (dzielenia tekstu na segmenty, czyli tzw. __tokeny__), lematyzacji (sprowadzania wszystkich słów do ich form bazowych, tzw. __lematów__)

Aby sprawdzić listę __atrybutów__ i __metod__ dowolnego obiektu w Pythonie, posłuż się funkcją `dir()`

In [ ]:
dir(nlp)

['Defaults',
 '__call__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_format_docs_and_golds',
 '_meta',
 '_multiprocessing_pipe',
 '_optimizer',
 '_path',
 'add_pipe',
 'begin_training',
 'create_pipe',
 'disable_pipes',
 'entity',
 'evaluate',
 'factories',
 'from_bytes',
 'from_disk',
 'get_pipe',
 'has_pipe',
 'lang',
 'linker',
 'make_doc',
 'matcher',
 'max_length',
 'meta',
 'parser',
 'path',
 'pipe',
 'pipe_factories',
 'pipe_labels',
 'pipe_names',
 'pipeline',
 'preprocess_gold',
 'rehearse',
 'remove_pipe',
 'rename_pipe',
 'replace_pipe',
 'resume_training',
 'tagger',
 'tensorizer',
 'to_bytes',
 'to_disk',
 'tokenizer',
 'update',
 'use_params',
 'v

### Obiekt `Doc`


Podczas przetwarzania tekstu za pomocą obiektu nlp spaCy tworzy obiekt `Doc` - skrót od „dokument”. Dokument umożliwia dostęp do informacji o tekście w uporządkowany sposób.
`Doc` zachowuje się jak normalny obiekt sekwencjy Pythona (np. lista) i pozwala iterować po swoich tokenach lub uzyskać token według jego indeksu. Ale więcej o tym później!

In [ ]:
# Tworzenie obiektu 'doc' dla dowolnego tekstu w języku angielskim
doc = nlp("Hello world!")

# iteracja po tokenach
for token in doc:
    print(token.text)

Hello
world
!


Obiekty `token` reprezentują __tokeny__ w dokumencie - na przykład słowo lub znak interpunkcyjny.

![tokeny](images/doc.png)

Aby uzyskać token w określonej pozycji, możesz korzystać z indeksowania tak samo jak w przypadku list, czyli za pomocą nawiasów kwadratowych `[]`, w których podajesz pozycję, w której znajduje się interesujące Cię słowo (w Pythonie indeksujemy od zera!)

In [ ]:
token = doc[1]
print(token)

world


Obiekty token `token` posiadają również różne atrybuty, które umożliwiają dostęp do dodatkowych informacji o tokenach. Na przykład atrybut `.text` zwraca pełny tekst tokenu.

In [ ]:
print(token.text)

world


### Obiekt `span`

Obiekt `span` to wycinek dokumentu składający się z jednego lub więcej tokenów. To tylko widok Dokumentu i nie zawiera żadnych danych.

![Span](images/doc_span.png)

Aby utworzyć obiekt `span`, możesz użyć notacji _wycinka_ Pythona. Na przykład `[1:3]` utworzy wycinek, zaczynając od tokena na pozycji 1, aż do - ale nie wliczając! - tokena na pozycji 3.

In [ ]:
doc = nlp("Hello world!")
span = doc[1:3]
print(span.text)

world!


### Atrybuty leksykalne

Oto niektóre z dostępnych atrybutów dla tokenów:
* `i` jest indeksem (numerem pozycji) tokena w dokumencie nadrzędnym.
* `text` zwraca napis przyporządkowany do tokena
* `is_alpha`, `is_punct` i `like_num` zwracają wartości logiczne wskazujące, czy token składa się ze znaków alfabetycznych (liter), czy to znak interpunkcyjny, czy też przypomina liczbę, np. token „10” - jeden, zero - lub słowo „ten” ("dziesięć").

Te atrybuty są również nazywane __atrybutami leksykalnymi__: odnoszą się do pozycji w słowniku i nie zależą od kontekstu tokena.

In [ ]:
doc = nlp("It costs $5.")
print("Index:   ", [token.i for token in doc])
print("Text:    ", [token.text for token in doc])

print("is_alpha:", [token.is_alpha for token in doc])
print("is_punct:", [token.is_punct for token in doc])
print("like_num:", [token.like_num for token in doc])

Index:    [0, 1, 2, 3, 4]
Text:     ['It', 'costs', '$', '5', '.']
is_alpha: [True, True, False, False, False]
is_punct: [False, False, False, False, True]
like_num: [False, False, False, True, False]


### Instalacja modelu języka polskiego

Dokumentacja dla modelu języka polskiego znajduje się na stronie: http://spacypl.sigmoidal.io/#home

Instalacja modelu:
* Wejdź na stronę: http://zil.ipipan.waw.pl/SpacyPL
* Pobierz arichwum z modelem o nazwie `pl_spacy_model-0.1.0.tar.gz` (kliknij w nazwę modelu, następnie `download`)
* Dodaj plik do projektu w DeepNote, w tym celu klikaj kolejno:
    * _Data source_
    * _Create new Connection_
    * _Drag and drop files here_
    * Wybierz z dysku plik o nazwie `pl_spacy_model-0.1.0.tar.gz` i poczekaj aż się załaduje
    * W polu _Connection name_ podaj nazwę połączenia: "spacy_pl_model"
    * Submit
    * Na liście połączeń zobaczysz nowe o nadanej przez Ciebie nazwie, przy tym połączeniu kliknij _Add_
    * Lokalizacja nowego połączenia: `/datasets/spacy_pl_model`
* Zainstaluj model za pomocą komendy: `!python -m pip install /datasets/spacy_pl_model/pl_spacy_model-0.1.0.tar.gz`

In [ ]:
# Pokaż listę lokalizacji w katalogu, w którym się znajdujesz
!ls /datasets/spacy_pl_model

pl_spacy_model-0.1.0.tar.gz


In [ ]:
!python -m pip install /datasets/spacy_pl_model/pl_spacy_model-0.1.0.tar.gz

Processing /datasets/spacy_pl_model/pl_spacy_model-0.1.0.tar.gz
Building wheels for collected packages: pl-spacy-model
  Building wheel for pl-spacy-model (setup.py) ... [?25ldone
[?25h  Created wheel for pl-spacy-model: filename=pl_spacy_model-0.1.0-py3-none-any.whl size=170055759 sha256=4ba85bcfabac34eff6b2fe6cd882e8dd5e952c441f6428dd22cb9691fa27a90f
  Stored in directory: /home/jovyan/.cache/pip/wheels/47/fc/81/8b78f42f00780dd8a3976730076f93250ca98ca5babeb24a14
Successfully built pl-spacy-model
Installing collected packages: pl-spacy-model
Successfully installed pl-spacy-model-0.1.0


Obiekt `nlp` dla modelu języka polskiego tworzymy w następujący sposób:

In [ ]:
nlp = spacy.load('pl_spacy_model')

## Zadanie 1

* Utwórz obiekt `nlp` dla modelu języka polskiego.
* Przetwórz tekst i utwórz instancję obiektu `Doc` w zmiennej `doc`.
* Wybierz pierwszy token obiektu `Doc` i wydrukuj jego tekst.

Uzupełnij luki:

In [None]:
#Utwórz obiekt nlp dla modelu języka polskiego.
nlp = spacy.____(____)

# Przetwórz tekst i utwórz instancję obiektu Doc w zmiennej doc
doc = nlp("Bezbarwne zielone idee wściekle śpią.")

# Wybierz pierwszy token obiektu Doc
first_token = doc[____]

# Wydrukuj jego tekst
____(first_token.____)

* Wytnij następujące fragmenty tekstu:
    * `"Bezbarwne zielone"`
    * `"zielone idee"`
    * `"idee wściekle śpią"` (zwróć uwagę na brak kropki)
* przypisz je do kolejnych zmiennych `slice_1`, `slice_2`, `slice_3`

In [ ]:
# "Bezbarwne zielone"
slice_1 = ____
print(slice_1.text)

NameError: name '____' is not defined

In [None]:
# "zielone idee"
slice_2 = ____
print(slice_2.text)

In [ ]:
# "idee wściekle śpią"
slice_3 = ____
print(slice_3.text)

NameError: name '____' is not defined

## Wizualizacja ScatterText

In [ ]:
# Instalacja biblioteki ScatterText
!pip install scattertext

Collecting scattertext
  Downloading scattertext-0.0.2.64-py3-none-any.whl (6.9 MB)
[K     |████████████████████████████████| 6.9 MB 2.9 MB/s eta 0:00:01     |████████████████▋               | 3.6 MB 2.9 MB/s eta 0:00:02     |████████████████████▎           | 4.4 MB 2.9 MB/s eta 0:00:01
Collecting statsmodels
  Downloading statsmodels-0.11.1-cp37-cp37m-manylinux1_x86_64.whl (8.7 MB)
[K     |████████████████████████████████| 8.7 MB 20.9 MB/s eta 0:00:01     |██████████████████▌             | 5.0 MB 20.9 MB/s eta 0:00:01
Collecting mock
  Downloading mock-4.0.2-py3-none-any.whl (28 kB)
Collecting patsy>=0.5
  Downloading patsy-0.5.1-py2.py3-none-any.whl (231 kB)
[K     |████████████████████████████████| 231 kB 33.9 MB/s eta 0:00:01
Installing collected packages: patsy, statsmodels, mock, scattertext
Successfully installed mock-4.0.2 patsy-0.5.1 scattertext-0.0.2.64 statsmodels-0.11.1


In [ ]:
import scattertext as st

Aby móc pracować na danych należy załadować korpus do notatnika.
W tym celu:
* Kliknij _Add files_
* _New folder_
* Nadaj nazwę folderowi, np. _korpus_
* Przy nazwie folderu rozwiń dodatkowe menu za pomocą trzech kropek
* Wybierz _Upload into folder_
* Następnie wskaż pliki korpusu

Wszytanie plików do ramki danych

In [ ]:
import os

In [ ]:
files_list = os.listdir('/datasets/korpus')

In [ ]:
# Sprawdź długość
print(len(files_list))
# Wyświetl nazwy pierwszych trzech plików
print(files_list[:3])

898
['KP_01_01.txt', 'KP_01_02.txt', 'KP_01_03.txt']


In [ ]:
data = []
for file_ in files_list:
    if file_.startswith('KP'):
        portal = 'Krytyka Polityczna'
    elif file_.startswith('RM'):
        portal = 'Radio Maryja'
    else:
        continue
    with open('/datasets/korpus/' + file_, "r", encoding='utf8', errors="ignore") as text_file:
        text = text_file.read()
    data.append({
        'portal' : portal,
        'text' : " ".join([word.lemma_ for word in nlp(text)])
    })

In [ ]:
data[:3]

[{'portal': 'Krytyka Polityczna',
  'text': 'kierowniczka z ikea usłyszeć zarzut ograniczania prawo pracowniczy z wzgląd na wyznanie . przypadek ? nie sądzić . \n nie mieć przypadek , być tylko znak – powtarzać sobie mało rozgarnięty katolik , gdy chcieć jakiś anomalia dowieść cudowny ingerencja . o ile jednak warto wierzyć w przypadkowość , gdy rozmawiać o cudowny uzdrowienie , o tyle nie warto w on wierzyć w polityka . dlatego trudno uznać za przypadek , że dopiero teraz , po wiele miesiąc , kierowniczka ds. zarządzanie zasób ludzki z ikei przedstawić zarzut ograniczania prawo pracowniczy z wzgląd na wyznanie . \n sprawa , rzecz jasny , dęta być od początek . oto pracownik ikei w odpowiedź na akcja nawoływać do nieprześladowania osoba lgbt+ zamieszczać na intranet firmowy cytata z biblia , w który mowa być o mordowaniu gej . mężczyzna zostać zwolnić . zdanie prokuratura „ analiza intranetowy wpis pokrzywdzony , oprzeć na ekspertyza biegły , nie potwierdzić stawiać przez pracodawca te

In [ ]:
import pandas as pd
lgbt_df = pd.DataFrame(data)

In [ ]:
lgbt_df

Unnamed: 0,portal,text
0,Krytyka Polityczna,kierowniczka z ikea usłyszeć zarzut ograniczan...
1,Krytyka Polityczna,„ strefa wolny od ideologia lgbt ” zajmować ju...
2,Krytyka Polityczna,"znaleźć w Polska gmina , powiat albo województ..."
3,Krytyka Polityczna,agresja na tło homo- i transfobicznym codzienn...
4,Krytyka Polityczna,"nie milknąć echo po publikacja wywiad , który ..."
5,Krytyka Polityczna,"około 80 gmina w Polska przyjąć już uchwała , ..."
6,Krytyka Polityczna,– elektorat lgbt wraz z sojusznik i sojusznicz...
7,Krytyka Polityczna,małżeństwo jednopłciowy nie być wywróceniem do...
8,Krytyka Polityczna,polski użytkownik mieć do wybór tylko dwa okre...
9,Krytyka Polityczna,"rodzina zrzeszyć w stowarzyszenie matka , ojco..."


In [ ]:
len(data)

896

In [ ]:
corpus = st.CorpusFromPandas(lgbt_df,
                            category_col='portal',
                            text_col='text',
                            nlp=nlp).build()

In [ ]:
html = st.produce_scattertext_explorer(corpus,
                    category='Krytyka Polityczna',
                    category_name='Krytyka Polityczna',
                    not_category_name='Radio Maryja',
                    width_in_pixels=1000)

In [ ]:
open("lgbt-visualization2.html", 'wb').write(html.encode('utf-8'))

11956569

## New markdown cell

## New markdown cell

## New markdown cell