# 1. Bag of Words (BoW)
- **Czym jest model BoW i dlaczego jest potrzebny do reprezentacji tekstu?**
    
    Model BoW to technika reprezentacji tekstu, w której tekst jest rozdzielany na pojedyncze słowa, a następnie każde słowo jest traktowane jako pojedyncza jednostka, bez uwzględnienia jego kolejności i kontekstu.
        
    W modelu Bag of Words każde słowo w tekście jest reprezentowane przez unikalny identyfikator liczbowy. Dzięki temu modelowi, możemy przetwarzać tekst w sposób numeryczny i wykorzystywać go w algorytmach uczenia maszynowego. Wadą modelu BoW jest brak uwzględnienia kontekstu i sekwencji słów, co może prowadzić do utraty pewnej ilości informacji zawartej w tekście.
        
    Model BoW jest przydatny w analizie tekstu, ponieważ pozwala na łatwe i efektywne przetwarzanie dużych zbiorów danych tekstowych. Może być stosowany w różnych zastosowaniach, takich jak analiza sentymentu, klasyfikacja tekstu czy generowanie rekomendacji.
    
- **Czym jest model BoW i dlaczego jest potrzebny do reprezentacji tekstu?Jak opracować model Bag of Words dla zbioru dokumentów?**
    1. Przygotowanie danych: Przed przystąpieniem do tworzenia modelu, należy przygotować zbiór danych, który będzie składał się z dokumentów tekstowych. W tym kroku, można zastosować techniki preprocessingu, takie jak usuwanie znaków interpunkcyjnych, stop words, normalizacja tekstu, itp.

    2. Stworzenie słownika: Następnie, trzeba stworzyć słownik wszystkich słów występujących w zbiorze dokumentów. Każde słowo w słowniku otrzymuje unikalny identyfikator liczbowy.

    3. Przygotowanie reprezentacji Bag of Words: Na podstawie słownika, tworzy się reprezentację Bag of Words dla każdego dokumentu. W reprezentacji tej, dla każdego słowa zdefiniowanego w słowniku, tworzona jest kolumna, a dla każdego dokumentu tworzony jest wiersz. W komórce w kolumnie i wierszu, odpowiadającej danemu słowu i danemu dokumentowi, umieszcza się liczbę wystąpień tego słowa w danym dokumencie.

    4. Zastosowanie modelu
    
- **Jak korzystać z różnych technik w celu przygotowania słownictwa i punktacji słów?**
    - ignorowanie: wersalików, interpunkcji, zaimki przyimki liczebniki - stop words, lematyzacja
    - grupowanie: generowanie z tekstu tokenów więcej niż jednoskładnikowych - np dwuskładnikowy token = bigram, czyli używanie sekwencji słów jako tokenu
    - ocenianie: ocenianie występowania tokenu w danym dokumencie na zasadzie:
            - licznika - częstość występowania słowa w dokumencie (n = x*token)
        - częstotliwości - częstotliwość z jaką token pojawia się w tekście spośród wszystkich słów (token/n-słów_w_dokumencie)
            - Term Frequency
            - Inverse Document Frequency
    - Hashing: nadawanie tokenowi przedstawienia numerycznego, w przypadku duzych korpusów ma to sens ze względu na możliwość manipulacji hashowaniem

## 1.2 Przykład BoW

In [106]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

In [107]:
text = ["Fix this game please", "Wait for performance fixes", "Performance Issues cant be overlooked", "Crashes make it unplayable", "Performance issues are bad", "Game crashes contantly"]

vectorizer = CountVectorizer()
vectorizer.fit(text)

(sorted(vectorizer.vocabulary_))

['are',
 'bad',
 'be',
 'cant',
 'contantly',
 'crashes',
 'fix',
 'fixes',
 'for',
 'game',
 'issues',
 'it',
 'make',
 'overlooked',
 'performance',
 'please',
 'this',
 'unplayable',
 'wait']

In [108]:
vector = vectorizer.transform(text)

print(vector.shape)
print(vector.toarray())

(6, 19)
[[0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 1 0 0]
 [0 0 0 0 0 0 0 1 1 0 0 0 0 0 1 0 0 0 1]
 [0 0 1 1 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0]
 [0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 0 1 0]
 [1 1 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0]
 [0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0]]


IDF na tym samym korpusie

In [109]:
vectorizer = TfidfVectorizer()
vectorizer.fit(text)

print(sorted(vectorizer.vocabulary_))
vector = vectorizer.transform([text[0]])

['are', 'bad', 'be', 'cant', 'contantly', 'crashes', 'fix', 'fixes', 'for', 'game', 'issues', 'it', 'make', 'overlooked', 'performance', 'please', 'this', 'unplayable', 'wait']


In [110]:
vectorizer.idf_ 

array([2.25276297, 2.25276297, 2.25276297, 2.25276297, 2.25276297,
       1.84729786, 2.25276297, 2.25276297, 2.25276297, 1.84729786,
       1.84729786, 2.25276297, 2.25276297, 2.25276297, 1.55961579,
       2.25276297, 2.25276297, 2.25276297, 2.25276297])

## 1.3 Modele BoW moga byc wykorzystywane np. przy klasyfikacji komentarzy w celu automatycznego usuwania/banowania użytkowników

# 2. Word Embeddings (WE)

- **Czym jest metoda WE w reprezentacji tekstu i czym różni się ona od innych metod?**
    Metoda Word Embeddings to technika reprezentacji tekstu w postaci wektorów liczb rzeczywistych, które opisują semantyczne znaczenie słów w kontekście tekstu. W przeciwieństwie do modelu Bag of Words, metoda Word Embeddings uwzględnia kontekst i sekwencję słów w tekście, co pozwala na bardziej dokładne reprezentowanie znaczenia słów.

- **Główne algorytmy osadzania słów z danych tekstowych**
    1. Word2Vec: Word2Vec to algorytm opierający się on na trenowaniu sieci neuronowej, w celu reprezentacji słów w postaci wektorów, tak aby słowa, które często występują razem w kontekście, miały podobne reprezentacje wektorowe
        - Continous Bag of Words (CBoW): przewidywanie słów na podstawie kontekstu sąsiadujących słów
        - SkipGram: przewidywanie kontekstu na podstawie par słów
    2. GloVe (GlobalVectors): Algorytm oparty na liniowej redukcji wymiarów, który pozwala na uzyskanie reprezentacji słów w postaci wektorów o mniejszej liczbie wymiarów, tak aby słowa, które są często używane razem, były blisko siebie w przestrzeni wektorowej
    3. FastText: podobny do Word2Vec ale oparty na n-gramach a nie pojedynczych tokenach

- **Techniki ekstrakcji cech - techniki pozwalające na efektywne wykorzystanie danych w machine learningu**
    w przypadku NLM polegają na zamianie tekstu na cyfry - wektory, a różne techniki podchodzą w inny sposób do przedstawienia dokumentu/słowa np w formie par, ilości w dokumencie/korpusie itd
        - one hot encoding - przypisanie dokumentowi ciągu zer i jedynek w postaci tabeli
            #reszta przedstawiona w jakiś sposób wyżej w punkcie 2 lub 1#
        - bag of words
        - bag of n-grams
        - Term frequency 
        - Inverse Document frequency
        - word2vec

- **Jak wytrenować nowe osadzenie, albo uzyć wytrenowane osadzenia w zadaniach przetwarzania języka:**

    trenowanie osadzenia:
        do wytrenowania nowego osadzenia wykrozystuje się jeden z algorytmów na dużych danych tekstowych w celu trenowania sieci neuronowej do wyznaczenie wektorowej reprezentacji słów
        Proces:
            1. przygotowanie danych:
                - tokenizacja
                - usunięcie stop words
                - stemming itd
            2. wybór algorytmu i hiperparametrów (rozmiary wektrów osadzenia, wartości minimalnej częstości, epoki itp; można do tego wykorzystać optymalizacje)
            3. trenowanie modelu na danych tekstowych
            4. ewaluacja modelu

    reuse:
        - statycznie - używanie osadzeń udostępnianych np. word2vec albo GloVe jako komponentów modelu w formie takiej jakiej już istnieją
        - updated - gdzie osadzenie jest wykorzystywane jako podstawa i wykorzystywane razem z nowymi osadzeniami w trakcie trenowania modelu


## 2.2 Przykład Word2Vec

In [111]:
import pandas as pd
import re
import gensim
from gensim.models import Word2Vec
import nltk
nltk.download('punkt') #do tokenizacji zdań

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

nltk.download('stopwords')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\sjkli\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\sjkli\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [112]:
#lista list dla inputu do wrod2vec
lower_text = [sentence.lower() for sentence in text]

dokumenty = []

for dokument in lower_text:
    tokens = word_tokenize(dokument)
    dokumenty.append(tokens)

dokumenty

[['fix', 'this', 'game', 'please'],
 ['wait', 'for', 'performance', 'fixes'],
 ['performance', 'issues', 'cant', 'be', 'overlooked'],
 ['crashes', 'make', 'it', 'unplayable'],
 ['performance', 'issues', 'are', 'bad'],
 ['game', 'crashes', 'contantly']]

In [113]:
model = Word2Vec(dokumenty, min_count=1, vector_size=100)

#podsumowanie modelu
print('Rozmiar wektora słów:', model.vector_size)
print('Liczba słów w korpusie:', model.corpus_count)
print('Liczba unikalnych słów:', len(model.wv.key_to_index))
print('Lista unikalnych słów:', list(model.wv.key_to_index.keys()))

Rozmiar wektora słów: 100
Liczba słów w korpusie: 6
Liczba unikalnych słów: 19
Lista unikalnych słów: ['performance', 'issues', 'game', 'crashes', 'contantly', 'this', 'please', 'wait', 'for', 'fixes', 'cant', 'bad', 'be', 'overlooked', 'make', 'it', 'unplayable', 'are', 'fix']


In [114]:
#wektor dla konkretnego słowa
display(pd.DataFrame(model.wv['performance']).transpose())

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,90,91,92,93,94,95,96,97,98,99
0,-0.000535,0.000237,0.005104,0.009009,-0.009303,-0.007117,0.006459,0.008974,-0.005016,-0.003764,...,0.001632,0.00019,0.003473,0.000218,0.009619,0.00506,-0.008918,-0.007042,0.000901,0.006392


In [115]:
#zapis modelu
model.save('model.bin')