# Vaje 12: Analiza besedil in vpetja podatkov

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

Uporabljali bomo podatkovno množico recenzij filmov iz IMDB-ja

In [None]:
!pip install datasets

In [2]:
from datasets import load_dataset

# Naloži podatkovno množico IMDb
imdb_dataset = load_dataset('imdb')

# Izbremo 20000 podatkov iz učne množice
data = pd.DataFrame(imdb_dataset['train'].shuffle(seed=42).select(range(20000)))

# Ciljno vrednost spremenimo iz True v "pos" in iz False v "neg"
data['label'] = data['label'].apply(lambda x: 'pos' if x else 'neg')

data.head()

  from .autonotebook import tqdm as notebook_tqdm


Unnamed: 0,text,label
0,There is no relation at all between Fortier an...,pos
1,This movie is a great. The plot is very true t...,pos
2,"George P. Cosmatos' ""Rambo: First Blood Part I...",neg
3,In the process of trying to establish the audi...,pos
4,"Yeh, I know -- you're quivering with excitemen...",neg


# Predprocesiranje: Čiščenje podatkov

Ena izmed najbolj pomembnih nalog pri analizi besedil je predprocesiranje podatkov. Besedila moramo torej spraviti v format, ki je ustrezen za algoritme strojnega učenja (torej matrike/tenzorje). Poglejmo si torej nekaj tehnik predprocesiranja, ki so skoraj obvezne, ko delamo z besedili:

1. **Tokenizacija**: Čeprav na besede ponavadi gledamo kot na celoto, so le-te ponavadi sestavljene iz več delov, ki so skupni več besedam (naprimer: nogomet, rokomet, ...). Da bolje ujamemo te povezave med besedami, jih zato ponavadi razbijemo na manjše dele. Dodatno nam tokenizacija omogoča sestavljanje/kodiranje novih (še ne videnih) besed in manjšo množico vhodnih besed.

2. **Lowercasing**: Da se izognemu razlikovanja med isto besedo, ko je napisana z veliko in malo začetnico, vse velike črke pretvorimo v male brez da bi izgubili veliko informacije o strukturi in vsebini besedila.

3. **Odstranjevanje besed brez pomena**: Če pogledamo porazdelitev besed v besedilu opazimo, da so nekatere besede, ki se pogosto pojavijo brez veliko pomena (v angleščini naprimer "the", "is", "and"). Ker te besede pogosto ne prispevajo k naši analizi, jih pogosto odstranimo.

4. **Odstranjevanje ločil**: Pogosto odstranimo tudi ločila, saj ponavadi ne dodajo nič informacije, ki bi bila za nas pomembna.

5. **Normalizacija**: Posebaj v slovenščini, se lahko beseda pojavi v zelo različnih oblikah, na primer z različnimi končnicami. Z lematizacijo vse oblike besede poenotimo v eno, imenovano lema.


In [None]:
!pip install nltk

In [None]:
import nltk
import string
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
from nltk.stem import PorterStemmer

# Naložimo potrebne datoteke, ki nam bodo pomagale pri predprocesiranju
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')

# Inicializiramo lematizaro in stemmer
lemmatizer = WordNetLemmatizer()
stemmer = PorterStemmer()

In [4]:
# Sestavimo funkcijo, ki bo besedilo predprocesiralo
def preprocess_text(text):
    # Besedilo tokeniziramo
    words = word_tokenize(text.lower())  # Črke spremenimo v male

    # Znebimo se ločil
    table = str.maketrans('', '', string.punctuation)
    words = [word.translate(table) for word in words if word.isalpha()]

    # Odstranimo pogoste besede z malo informacije
    stop_words = set(stopwords.words('english'))
    words = [word for word in words if word not in stop_words]

    # Besedilo lematiziramo 
    lemmatized_words = [lemmatizer.lemmatize(word) for word in words]

    # Namesto lematizacije lahko s stemmingom odstanimo prefixe in suffixe besed
    # stemmed_words = [stemmer.stem(word) for word in words]

    # Predelane besede združimo nazaj v string
    preprocessed_text = ' '.join(lemmatized_words)
    return preprocessed_text

In [5]:
# Pokličemo funckijo na podatkih
data['clean_text'] = data['text'].apply(preprocess_text)

Preverimo, kako sedaj besedilo zgleda.

In [None]:
data['clean_text'][0]

In [7]:
# Podatke razdelimo na učno in testno množico
X_train, X_test, y_train, y_test = train_test_split(data[['clean_text', 'text']], data['label'], test_size=0.2, random_state=42)

## Naloga 1: Pretvarjanje besedil v numerične spremenljivke z TD-IDF-jem

Term Frequency-Inverse Document Frequency (TD-IDF) je numerična statistična metoda, ki se pri procesiranju naravnega jezika uporablja za ocenjevanje pomembnosti besed v dokumentu znotraj zbirke dokumentov (korpusa).

Izračuna se na sledeč način:

1. **Term Frequency (TF):** meri kako pogosto se term (beseda) pojavi v besedilu.To izračunamo tako, da število pojav besede delimo s številom besed v dokumentu. Ideja je, da so bolj pogoste besede v besedilu bolj pomembne.

   $ \text{TF}(t, d) = \frac{\text{Število pojavitev terma } t \text{ znotraj dokumenta } d}{\text{Število vseh pojavitev termov v dokumentu } d} $

2. **Inverse Document Frequency (IDF):** Ta del izračuna pomembnost posamezne besede znotraj zbirke dokumentov. Ideja za tem je, da so besede, ki se redko pojavijo znotraj zbirke besedil bolj pomembne.
   $ \text{IDF}(t, D) = \log{\left(\frac{\text{Število dokumentov v korpusu } D}{\text{Število dokumentov, ki vsebuje term } t}\right)} + 1$

3. **TF-IDF:** Produkt TF in IDF-ja. Da visoko težo besedam, ki se pogosto pojavijo znotraj sprecifičnega dokumenta, a redko znotraj zbirke dokumentov. Besede, ki se pojavijo v veliko dokumentih imajo torej nizko težo.
   $ \text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D) $

Using TF-IDF, you can represent each document as a numerical vector where each dimension represents a term and its importance in that document. This technique is widely used in information retrieval, text mining, and search engine optimization, helping to determine the relevance of a document to a query or to analyze the significance of terms within documents.

1.a: S pomočjo razreda TfidfVectorizer pretvori predelana besedila v vektorje in preveri točnost Logistične regresije.

## Naloga 2: Pretvarjanje besedil v numberične spremenljivke z vpetji

Na 8ih vajah smo si ogledali samokodirnike, ki stisnejo originalne podatke v vektorski prostor nizke dimenzije, imenovan latentni prostor. Preslikavi iz originalnega v latentni prostor imenujemo vpetje. Z vpetjem podatkov zmanjšamo razsežnost podatkov in (v primeru dobrega vpetja) ujamemo skrite povezave med podatki. Najbolj znan primer povezav oz lastnosti, ki se pojaviju v vpetju je: od vektorja kralj odštejemo vektor moški in prištejemo vektor ženska in dobimo vektor, ki se dekodira v besedo kraljica.

En izmed najpopularnejših pristopov za vpetje besed v vektorski prostor je Word2Vec. Ideja za pristopom je, da se besede s podobnim pomenom pojavijo v podobnih kontekstih in morajo zato biti njihove predstavitve v latentnem prostoru blizu.

Obstajata dve glavni arhitekturi za Word2vec:

1. **Continuous Bag-of-Words (CBOW):** Model napoveduje verjetnost ciljne besede glede na dane besedi v njeni okolici. Če na primer podamo besede "mačka sedi na", bo model napovedal "preprogi".

2. **Skip-gram:** model deluje v obratni smeri. Na vhod dobi besedo "preproga" in poskusi napovedati besede v okolici, torej "mačka", "sedi", "na"

Oba modela uporabljata usmerjeno nevronsko mrežo z enim samim skritim slojem, s katero se učimo uteži za predstavitev besed z vektorjem. Uteži skritega sloja postanejo vpetja oziroma predstavitev besed z vektorjem.

Word2Vec je imel na procesiranje naravnega jezika velik vpliv, saj se njegova vpetja lahko uporabi za različne naloge, ki so povezane z besedili. En izmed razlogov za to je, da zelo dobro ujame semantične povezave med besedami.

2.a: Natreniraj model Word2Vec iz knjižnjice gensim ([gensim.models.Word2Vec](https://radimrehurek.com/gensim/models/word2vec.html)). Uporabi parametre: vector_size=100, window=5, min_count=1, workers=4, epochs=10. Pred trening vsako besedilo v učni in testni množici razreži na besede s funkcijo `split()`

In [None]:
!pip install gensim

2.b: Model Word2Vec si shrani vse besede in pripadajoče vektorje v spremenljivki wv. Vse besede v vokabularju lahko dobimo v spremenljivki `model.wv.index_to_key`, vektorje pa z ukazom `model.wv[beseda]`. Sestavi slover iz prvih petih besed in pripadajočih vektorjev ter gesla in vrednosti v slovarju izpiši.

2.c: Ukazom `model.wv.most_similar` in parametrom topn, lahko najdemo n najbolj podobnih besed znotraj slovarja. Izpiši prvih 10 najbližjih besed besedi "cat"

2.d: Model Word2Vec vsaki besedi priredi vektor. V naši nalogi delamo z besedili, ki so dolga več besed zato moramo te vektorje nekako zagregirat, na primer tako, da vektorje besed znotraj vsakega besedila povprečimo. Definiraj funkcijo, ki bo vsako besedilo iz učne in testne množice spremenila v vektor dolžine 100 (če v besedilu ni nobene besede naj bo to vektor ničel). Z dobljeno množico vektorjev preveri točnost logistične regresije za klasifikacijo iz naloge 1.

## Naloga 3: Vnaprej naučeni modeli

Zadnje čase se za procesiranje naravnega jezika uporabljajo predvsem vnaprej naučeni modeli. Vnaprej naučeni modeli so (ponavadi) velike nevronske mreže, ki so naučeni na veliki množici podatkov. Vnaprej naučene modele ponavadi uporabimo kot začetno točko, ki jo dotreniramo za našo nalogo. Ti modeli so uporabni iz več razlogov.

1. **Generalizacija**: Vnaprej naučeni modeli so naučeni na velikih in raznolikih besedilnih korpusih, kar jim omogoča učenje posplošenih reprezentacij jezika. To jim omogoča, da se dokaj dobro izkažejo pri številnih nadaljnjih nalogah brez potrebe dotreniranja za posamezno nalogo.

2. **Učinkovitost virov**: Uporaba Vnaprej naučenih modelov prihrani računalniške vire in čas. Namesto da bi uporabnik modele treniral od začetka, za kar potrebuje precej podatkov in računalniške moči, lahko izkoristi te vnaprej obstoječe, dobro trenirane modele.

3. **Transfer learning**: Vnaprej naučeni modeli omogočajo, da znanje, pridobljeno pri eni nalogi, prenesemo na drugo sorodno nalogo. S dotreniranjem (finetuningom) na določenih naborih podatkov ali nalogah se lahko njihova zmogljivost znatno izboljša z minimalnim dodatnim učenjem.

Dotreniranje se nanaša na postopek, pri katerem se vzame vnaprej naučen model in ga dotrenira na posebnem naboru podatkov ali nalogi. Posledično se njegovi parametri prilagodijo za boljše delovanje v tem posebnem kontekstu. Dotreniranje je pomembno saj:

- **Prilagajanje na posamezno nalogo**: Dotreniranje omogoča modelu, da se prilagodi podatkov ali nalogi.

- **Povečana zmogljivost**: Z dotreniranjem na podatkih, specifičnih za domeno ali nalogo, se lahko model nauči več značilnosti, specifičnih za nalogo, kar izboljša natančnost in učinkovitost za predvideno uporabo.

- **Zmanjšana zahteva po podatkih**: Za dotreniranje modela je pogosto potrebnih manj podatkov kot za učenje modela od začetka. Če začnemo z vnaprej naučenim modelom, se lahko učinkovito učimo iz manjšega nabora podatkov, specifičnega za določeno področje, kar je koristno v scenarijih, kjer je na voljo omejena količina anotiranih podatkov.

In [None]:
!pip install transformers

In [33]:
from transformers import pipeline

# Inicializiramo model za analizo sentimenta
sentiment_analysis = pipeline("sentiment-analysis")

text = "I absolutely love this product! It's fantastic!"

# Naredimo analizo sentimenta za zgornji vzorec
result = sentiment_analysis(text)

# Izpišemo sentiment vzorca in koliko je model "prepričan" v napoved
print(f"Sentiment: {result[0]['label']}, Confidence: {result[0]['score']:.4f}")

No model was supplied, defaulted to distilbert/distilbert-base-uncased-finetuned-sst-2-english and revision af0f99b (https://huggingface.co/distilbert/distilbert-base-uncased-finetuned-sst-2-english).
Using a pipeline without specifying a model name and revision in production is not recommended.


Sentiment: POSITIVE, Confidence: 0.9999


3.a: Preveri, če se sentiment prvih 500 primerov sklada s ciljnimi vrednosti (torej, če model vrne "POSITIVE" je napovedana vrednost "pos", če ne "neg"). V model daj le prvih 1500 črk posameznega primera.

In [None]:
from tqdm import tqdm

trans_y_pred = []
y_test_reset = y_test.reset_index(drop=True)
n = 500

for test_text in tqdm(X_test['text'][:n]):
    pass

trans_accuracy = accuracy_score(y_test_reset[:n], trans_y_pred)
print("Transformer Accuracy:", trans_accuracy)

## Dodatna naloga (v ang.): Stanza & POS tagging


Stanza is an NLP library developed by the Stanford NLP Group. It's designed for a wide range of natural language processing tasks, including tokenization, part-of-speech tagging, named entity recognition, dependency parsing, and more. Stanza aims to provide efficient and accurate pre-trained models for various languages.

Key features of Stanza include:
- **Pre-Trained Models**: Stanza comes with pre-trained models for multiple languages, allowing users to perform various NLP tasks without training models from scratch.
- **Ease of Use**: It offers a simple and intuitive API for performing different NLP tasks, making it accessible for both beginners and experienced researchers.
- **Accuracy**: Stanza models are known for their high accuracy in different NLP tasks due to their robust training on extensive datasets.
- **Multiple Languages**: Stanza supports multiple languages, making it suitable for multilingual NLP applications.

Stanza provides state-of-the-art performance in various NLP tasks and continues to evolve with advancements in the field of natural language processing.

### Use Case: Text Analysis with Universal POS Tagging using Stanza

Stanza's Universal POS tagging can be highly beneficial in various text analysis tasks. Let's consider a scenario where you have a dataset of customer reviews for a product. By utilizing Stanza's Universal POS tagging, you can perform the following analysis:

1. **Extracting Key Features**: Identify the key features or attributes of the product mentioned in the reviews by analyzing nouns (NOUN) and adjectives (ADJ) tagged using Stanza. This helps in understanding what aspects of the product are being praised or criticized.

2. **Sentiment Analysis**: Analyze sentiments associated with specific parts of speech. For instance, adjectives (ADJ) often reflect sentiments or opinions. By associating adjectives with their corresponding nouns, you can determine the sentiment expressed towards various product features.

3. **Customer Feedback Categorization**: Categorize customer feedback into different categories based on the identified parts of speech. For instance, categorize reviews mentioning "customer service" (PROPN) separately to analyze the sentiment specifically related to that aspect.

4. **Comparative Analysis**: Compare the frequency and sentiment of different parts of speech across different products or time frames to identify trends and patterns in customer opinions.

By utilizing Stanza's Universal POS tagging, you can effectively extract meaningful insights from textual data, enabling better decision-making and improving products or services based on customer feedback.

### Universal POS Tags
- **ADJ**: Adjective
- **ADP**: Adposition
- **ADV**: Adverb
- **AUX**: Auxiliary
- **CCONJ**: Coordinating conjunction
- **DET**: Determiner
- **INTJ**: Interjection
- **NOUN**: Noun
- **NUM**: Numeral
- **PART**: Particle
- **PRON**: Pronoun
- **PROPN**: Proper noun
- **PUNCT**: Punctuation
- **SCONJ**: Subordinating conjunction
- **SYM**: Symbol
- **VERB**: Verb
- **X**: Other

In [None]:
!pip install stanza

In [None]:
import stanza

# Download English model (change 'en' to the appropriate language code if needed)
stanza.download('en')

# Initialize the English pipeline
nlp = stanza.Pipeline('en', processors='tokenize,pos')

# Sample customer review
sample_review = "The camera quality is amazing, but the battery life could be better."

# Process the review
doc = nlp(sample_review)

# Extract nouns and adjectives
nouns = []
adjectives = []

for sentence in doc.sentences:
    for word in sentence.words:
        if word.upos == 'NOUN':
            nouns.append(word.text)
        elif word.upos == 'ADJ':
            adjectives.append(word.text)

# Print extracted nouns and adjectives
print("Extracted Nouns:", nouns)
print("Extracted Adjectives:", adjectives)


Prirejeno pa vajah Boshko-ta Koloskega (Inteligentni sistemi, FRI)