# Analiza danych tekstowych -- wstęp

## Środowisko analityczne

Przed Wami krótkie wprowadzenie do podstwowych zadań z obszaru NLP. Wykonamy je na dostępnych danych, mało wymagającym pipelinie i dla języka angielskiego. Ale uwaga: analogiczne zadania będziecie robić dla języka polskiego (praca samodzielna, analogiczna do prezentowanej dla języka angielskiego).

Będziemy używać pakietu `spacy`, który sprawdza się przy analizie tekstu, `scikit-learn` do obliczeń i `matplotlip`, który pomoże zaprezentować dane na wykresach. Jako dane anglojęzyczne weźmiemy sobie `en_core_web_sm` --> model od SpaCy trenowany na tekstach newsów z języka angielskiego. Pierwsze zadanie dla Was: Jaki pakiet danych odpowiada za dane z języka polskiego?

Moduł `datasets` odpowiada za łatwe ładowanie danych. Dane pochodzą z [HuggingFace](https://huggingface.co/docs/datasets/v1.8.0/loading_datasets.html).

In [None]:
!pip install spacy scikit-learn matplotlib datasets
!python -m spacy download en_core_web_sm

In [None]:
# Miejsce na Twój kod

## Tokenizacja

Pierwsze zadanie polega na stokenizowaniu tekstu, co oznacza ni mniej ni więcej jak podział tekstu na najmniejsze znaczące elementy, które wspólnie tworzą wyrazy tekstowe i tekst. Tokenizacja dla każdego języka jest inna, co możecie zaobserwować zestawiając dane dla języka angielskiego z danymi dla języka polskiego i porównując wyniki uzyskane na tekstach.

Tokenizacja przydaje się w życiu. Pracując na tokenach, pracujemy na uniwersalnych danych i porównujemy dane w sposób niestronniczy.

Porównajcie zdania:
"I'd like you to have some fun working with all those excercises like mice have fun with every piece of chees. It's all we need to have some fun in life."
"Chciałabym, żebyście mieli tyle zabawy z ćwiczeniami, ile ubawu mają myszy z każdym jednym kawałeczkiem sera. Wszystko, czego potrzebujemy w żyćku, to zabawa."


Wyjaśnienie:
Dowiadujemy się tu jak tokenizować tekst, a za chwilę dowiemy się, że te tokeny mogą być przetwarzane w wektory, na podstawie których możemy przewidywać kolejne wyrazy tekstowe. Jeśli jednak wynik tokenizacji nie ma być użyty bezpośrednio jako dane wejściowe sieci neuronowej, możemy użyć przyjaznej tokenizacji z pakietu `spacy`.

Zainicjujmy więc pakiet `spacy`.

In [None]:
import spacy

nlp_en = spacy.load('en_core_web_sm')

In [None]:
# Miejsce na Twój kod

Najpierw stokenizujmy tekst dla języka angielskiego:

In [None]:
text = """I'd like you to have some fun working with all those excercises like mice have fun with every piece of chees. It's all we need to have some fun in life."""

tokens_en = nlp_en(text)
[token.text for token in tokens_en]

A potem dla polskiego:
(pamiętajmy o innej nazwie zmiennych!)

In [None]:
# Miejsce na Twój kod

A teraz podzielmy teksty na zdania.

In [None]:
[sentence.text for sentence in tokens_en.sents]

In [None]:
# Miejsce na Twój kod

### ⭐ Zadanie sprawdzające umiejętności⭐

Stwórz zdanie, które:
- zawiera skróty (USA, U.S., i.e., ww.)
- zawiera nazwy (McDonald's, Kelly's)
- zawiera czasowniki w formach warunkowych, przypuszczających (I would like, chciałabym).

```
np. We have been to U.K. before we got to the very special country, i.e. Poland.
```

In [None]:
# Miejsce na Twój kod

## Wykrywanie kategorii morfologicznych

`spacy` można używać też do analizy kategorii morfologicznych (morfoskładniowych, zwanych też *częściami mowy*, które -- o zgrozo -- odmieniają się przez przypadki, osoby i stopnie). Tagowanie morfoskładniowe, inaczej Part-of-Speech Tagging (POS Tagging) przydaje się w bardziej zaawansowanych zadaniach, może też pozwolić na wnikliwy wgląd w właściwości tekstu.

W tym zadaniu możemy użyć tokenów (`tokens_en`) z poprzednich ćwiczeń.

In [None]:
[(token.text, token.pos_) for token in tokens_en]

In [None]:
# Miejsce na Twój kod

### ⭐ Zadanie sprawdzające umiejętności⭐

**A teraz** zobaczmy, ile i jakich tagów (w tekstach można znaleźć też określenie POS tagów) mamy w naszych przykładach. Jakie problemy mogą być poruszone przy okazji takiego zadania? Jak zrobić wykres? (Za wykres jest bonus 📊 😀)

In [None]:
# Miejsce na Twój kod

Lematyzacja
Wchodzimy na kolejny poziom abstrakcji. Liczymy teraz nie tokeny, a typy. Załóżmy, że chcemy policzyć dzieci z przedszkola bawiące się głośno na placu zabaw za naszym oknem. Chcemy dowiedzieć się, kto krzyczy głośniej, dziewczynki czy chłopcy. W tym celu przyglądamy się każdemu dziecku i stwierdzamy, czy jest chłopcem czy dziewczynką. Sprowadzamy patrzenie na obiekt do binarnego wyboru płci, czasem mamy wątpliwości, co jest normalne. Możemy (z wahaniem lub bez) powiedzieć, że na placu zabaw są dwa typy dzieci: krzyczące i nie, dziewczynki i chłopcy. I podobnie jest z lematyzacją, choć trochę inaczej. Żeby zobaczyć, co jest w zdaniu, musimy przyjrzeć się okazom i stwiedzić, że jeśli w tekście dziecko drze się (jakby jutra nie było), darło się (aż do momentu, kiedy nie zagłuszyły go syreny policyjne) lub będzie się darło (do ukończenia 18 roku życia), to mówimy o jednej czynności darcia się wyrażonej jako różne formy czasownika DRZEĆ SIĘ. To jak w słowniku. Jeśli chcemy sprawdzić pisownię, szukamy czegoś co jest w mianowniku liczby pojedynczej i rodzaju męskim, albo w bezokoliczniku, albo w stopniu równym i też rodzaju męskim.

Co i kiedy liczymy? Wypisując wszystkie elementy (tokeny), liczyliśmy budulec tekstu. Wypisując lematy (typy), liczymy użycie konkretnych pojęć niezależnie od ich formy.

Jeśli chcesz policzyć, ile słów zostało wymienionych w tekście, bardzo przydatne jest sprowadzenie wszystkich słów do ich form podstawowych. Proces ten nazywany jest lematyzacją. Tekst przetworzony za pomocą spacy zawiera już lematy dla każdego tokena. Wykorzystamy tę technikę w dalszej części laboratorium.

In [None]:
[(token.text, token.lemma_) for token in tokens_en]

In [None]:
# Miejsce na Twój kod

⭐ Zadanie sprawdzające umiejętności ⭐
> Dla nietypowych rzeczowników w języku angielskim:

* entities
* was
* mice
*cacti
* octopi

znajdź lematy i oceń, czy spacy rozpoznał je poprawnie. Czy możesz wskazać analogiczne przykłady dla polskiego?

In [None]:
# Miejsce na Twój kod

## Named entity recognition

Analiza tekstu przy użyciu `spacy` może być bardziej zaawansowana (do tej pory analizowaliśmy składnię, teraz czas na odrobinę semantyki). Takim bardziej złożonym zadaniem jest rozpoznawanie encji nazwanych (NER), a więc pewnego typu obiektów, które mogą być nazwą własną, ale wcale nie muszą.

### Zatem

In [None]:
ner_result = nlp("""Israel is being urged by the international community - including close ally the US - to do more to limit civilian casualties.

Hamas officials say at least 16,248 people have been killed in Gaza since the start of the conflict, about three quarters of them women and children.

Defending Israel's war strategy, former PM Naftali Bennett has told the BBC that Israel has been showing restraint in Gaza.

If we wanted to harm civilians, we could have won the whole war in one day on October 8th, he said.

We could have indiscriminately bombed Gaza.

It could have been the easiest thing in the world... [but] we're not doing that.""")
[(e.text, e.label_, e.start_char, e.end_char) for e in ner_result.ents]

Każda kategoria ma w SpaCy rozwinięcie:

In [None]:
spacy.explain('GPE')

⭐ Zadanie sprawdzające umiejętności ⭐

> Zobacz na to samo zadanie, ale w języku polskim.



In [None]:
# Miejsce na Twój kod

#### ⭐ Zadanie sprawdzające umiejętności ⭐

Znajdź tekst, który zawiera typ `WORK_OF_ART`.

In [None]:
# Miejsce na Twój kod

### Obrazki
Moduł displacy odpowiada za wizualizację wyników działania NERa. Podkreślenie / wyróżnienie kolorystyczne sprawiają, że łatwiej odczytać wyniki, żeby pobieżnie je przeanalizować.

In [None]:
spacy.displacy.render(ner_result, style="ent", jupyter=True)

Korzystając z modułu `displacy` możemy też przeszukiwać informacje pod kątem jednej wybranej lub kilku pożądanych kateogrii. Żeby tego dokonać, musimy skorzystać z funkcji `displacy.render`.

In [None]:
spacy.displacy.render(ner_result, style="ent", jupyter=True, options={"ents": ["PERSON", "DATE"]})

#### ⭐ Zadanie sprawdzające umiejętności ⭐

Spróbuj przeanalizować dłuższy tekst za pomocą `spacy` i zwizualizuj wynik NER za pomocą `displacy`. Użyj jakiegoś artykułu znalezionego w sieci.

Następnie policz ile razy każdy typ encji został wykryty w tekście i wyświetl statystyki. Dodatkowy bonus za wykres 📊 😀

In [None]:
# Miejsce na Twój kod

## Wykrywanie podobieństwa tekstów

### Bag of words

Do tej pory analizowaliśmy problem interpretacji formy tekstu, wskazywania konkretnych struktur i przypisywania ich do specyficznej klasy. Teraz zajmiemy się problemem interpretacji znaczenia. Przyjrzyjmy się różnym tekstom i sprawdźmy, jak te teksty są do siebie podobne. Dla uproszczenia tekstem będą pojedyncze zdania.

> The quick brown fox jumps over the lazy dog.

> The dog kept barking over the night.

> A lazy fisherman with his dog met a fox last night.

Przy niedużej liczbie tekstów jesteśmy w stanie naocznie porównać próbki i określić ich podobieństwo. Czym jest owo podobieństwo? Gdybyśmy mieli scharakteryzować sposoby, na jakie teksty są podobne, jakbyśmy je określili?

Bardzo często stosowanym sposobem na znalezienie zdefiniowanego podobieństwa jest technika zwana *bag of words* (https://en.wikipedia.org/wiki/Bag-of-words_model). Polega ona na obliczeniu częstotliwości występowania słów we wszystkich tekstach, uporządkowaniu tekstu wg najpopularniejszych z nich, a następnie przedstawieniu tekstu jako listy liczb całkowitych zawierających liczbę wystąpień tych słów. Co ważne, to podejście zupełnie ignoruje

Przykład lepszy niż wykład!

Do obliczenia metryk tekstowych użyjemy modułu `sklearn`. Klasa `CountVectorizer` wykonuje wszystkie obliczenia za nas. Parametr `max_features=5` mówi wektoryzatorowi, że chcemy wybrać co najwyżej 5 najpopularniejszych tokenów ze wszystkich tekstów.


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

texts = [
    "The quick brown fox jumps over the lazy dog.",
    "The dog kept barking very loud barking and barking again over the night.",
    "A lazy fisherman with his dog met a fox last night.",
]

count_vector = CountVectorizer(max_features=5)
data_count = count_vector.fit_transform(texts)
data_count.toarray()

In [None]:
# Miejsce na Twój kod

OK, co oznaczają dane liczbowe, które uzyskaliśmy?

In [None]:
count_vector.get_feature_names_out()

In [None]:
# Miejsce na Twój kod

# Tokeny dla angielskiego to:

```
[ 'barking', 'dog', 'fox', 'over', 'the']
```

z reprezentacją wektorową:

```
array([[1, 1, 1, 0, 2],
       [1, 0, 0, 1, 2],
       [1, 1, 1, 1, 0]])
```

Co oznacza, że:
* słowo `barking` pojawia się w ogóle trzy razy, ale w jednym zdaniu
* słowo `dog` w pierwszym tekście pojawia się tylko raz, podobnie w trzecim
* słowo `fox` pojawia się raz w pierwszym i raz w trzecim tekście
* słowo `over` nie występuje w pierwszym tekście
* słowo `the` pojawia się dwukrotnie w pierwszym i drugim tekście, w trzecim nie występuje wcale

Now you should understand the *bag of words* text representation. We can say that the more similar the vectors are, the more similar the texts are, too. We can obviously calculate the distance between them and even visualize them on a chart, but we need a few more exercies and obviously - more data!

#### ⭐ Zadania sprawdzające umiejętności ⭐

Przeprowadź analogiczny eksperyment dla języka polskiego i wyciągnij wnioski podobnie jak w powyższym ćwiczeniu.

Zwróć uwagę na parametr `max_features` i spróbuj zmieniać jego wartość, obserwując zmianę reprezentacji wyników. Wyciągnij wnioski na temat przełożenia wartości parametru na jakość prezentowanych wyników.

In [None]:
# Miejsce na Twój kod

Modele typu transformers korzystają z modyfikacji tego podejścia. Więcej o rozwiązaniu problemu podobieństwa tu: https://huggingface.co/tasks/sentence-similarity.

### Stopwords

Semantyczne rozważania nad językiem prowadzą do obserwacji, że słowa nie przekazują porównywalnie istotnych informacji. Co to znaczy? W przypadku przykładu z języka angielskiego, słowo `the` mówi nam nieco mniej niż słowo `dog` czy `lazy`, a jednak to ono pojawia się w tekstach najczęściej. Nie oznacza to oczywiście, że to słowo nic nie znaczy bądź nie pełni w systemie językowym istotnej funkcji. W tym zadaniu rozpatrujemy tylko istotność słowa w przełożeniu na znaczenie całego tekstu lub grupy tekstów i przez taki pryzmat będziemy patrzeć na `stopwords`, a więc słowa popularne, budulce tekstu, nienosące znaczenia.
`Stopwords` obsługiwane są w pakiecie `SpaCy` przez moduł `sklearn` (https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html), który identyfikuje je, a następnie usuwa z reprezentacji zbioru danych.

In [None]:
from sklearn.feature_extraction._stop_words import ENGLISH_STOP_WORDS

list(ENGLISH_STOP_WORDS)[:100]

Nie musisz importować stopwords, aby z nich korzystać, ponieważ są one zarządzane wewnętrznie w pakiecie (`_` w nazwie pakietu).

Teraz wszystko, co musisz zrobić, to zdefiniować wbudowaną listę stopwords, których chcesz użyć przed obliczeniem wektorów.

In [None]:
count_vector = CountVectorizer(max_features=10, stop_words = 'english')
data_count = count_vector.fit_transform(texts)
count_vector.get_feature_names_out()

### Wizualizacja danych


Wykrywanie podobnych tekstów w przypadku dużej ilości danych może stanowić wyzwanie. Zawsze pomocna jest wizualizacja danych na ekranie, więc możemy wykreślić wektory i sprawdzić, czy możemy wykryć jakieś grupy na ekranie. Będzie to trudne w przypadku trzech tekstów, na których obecnie pracujemy, ale zrozumiesz ideę.

Możemy teraz zawiesić to laboratorium i poczekać do 2048 roku, kiedy ekrany 5D będą dostępne, lub użyć popularnego algorytmu `t-SNE` do *spłaszczenia* danych, a następnie ich wizualizacji. Wybierzemy drugie rozwiązanie 😉.

Nie zagłębiając się zbytnio w działanie tego algorytmu, jest on w stanie zredukować wektory XD do wektorów YD, z X>Y, zachowując odległości między nimi. W przypadku naszego tekstu chcemy zredukować wektory 5D (5 cech tekstu) do wektorów 2D (czyli do formatu, który można wykreślić na ekranie).


In [None]:
from sklearn.manifold import TSNE

tsne_model = TSNE(n_components=2, perplexity=2)
tsne_data = tsne_model.fit_transform(data_count.toarray())

tsne_data
#data_count.toarray()

Algortym zredukował wektory, co możemy zobaczyć, zamiast musieć sobie to wyobrażać.

In [None]:
import matplotlib.pyplot as plt

fig, ax = plt.subplots()
ax.scatter(tsne_data[:, 0], tsne_data[:, 1])

for i, label in enumerate(["quick fox", "barking dog", "lazy fisherman"]):
    ax.annotate(label, (tsne_data[i, 0], tsne_data[i, 1]))

plt.show()

Istnieją tylko trzy punkty danych, więc trudno powiedzieć, czy teksty można uznać za podobne do siebie, czy nie. Gdybyśmy jednak mieli znacznie więcej tekstów, moglibyśmy podejrzewać, że punkty danych utworzyłyby pewne rozróżnialne grupy, co oznacza, że teksty mówią o podobnych tematach.

## Zbiory danych

Do ostatniego zadania potrzebujemy więcej danych, żeby zaobserwować proces klasteryzacji. Jedną z możliwych dróg pozyskania danych jest skorzystanie z modułu [HuggingFace](https://huggingface.co/docs/datasets/v1.8.0/loading_datasets.html) `datasets`, aby pobrać kilka tekstów, nad którymi możemy pracować.

Zobaczmy, co jest w środku.

In [None]:
import datasets
datasets.list_datasets()

Zbiorów danych jest sporo, a ich liczba stale rośnie. Na potrzeby tego eksperymentu wybierzmy dowolny zbiór (zadanie nie jest tak wyspecyfikowane, by nakładać na nas konieczność wyboru wg konkretnych kryteriów).

---



In [None]:
dataset = datasets.load_dataset('ag_news', split='train')
dataset

Jak widzieliśmy w poprzednich przykładach, lista tekstów będzie na razie łatwiejszą strukturą do pracy. Mając powyższy zbiór danych z polami `text` i `label`, możemy utworzyć listę tekstów z prostym zrozumieniem.

In [None]:
large_texts = [item['text'] for item in dataset]
large_texts[:10]

## ⭐ Zadanie sprawdzające umiejętności 🗻 ⭐

Masz wszystkie narzędzia!

Zbierz duży zbiór danych tekstów z *HF* i:

1.   Przygotuj je do analizy, np.
  
  a. Stokenizuj je.

  b. Przekształć tokeny w lematy (tak, aby `dog` i `dogs` były traktowane jako ta sama funkcja).
2. Przedstaw teksty jako bag of words, pamiętając o stopwords. Eksperymentuj z liczbą cech. Jeśli okaże się, że istnieją cechy, które wpływają na reprezentację, wróć do kroku 1. i weź to pod uwagę podczas przygotowywania danych.
3. Zwizualizuj dane na wykresie (bez etykiet dla lepszej wydajności). Czy możesz wyróżnić jakieś grupy tekstów? O czym są te teksty?
4. Wykryj nazwane jednostki w reprezentantach grup. Czy nazwane jednostki sugerują również temat tekstu?


In [None]:
# Miejsce na Twój kod