# Tekstklassifisering, sentiment, vectorisering og topic modeling (mini-rapport)

Dette er en “eksamen-klar” mini-rapport som forklarer:

- sentiment (rule-based vs ML vs Transformers)
- vectorisering (BoW vs TF-IDF)
- klassiske modeller (LogReg, Naive Bayes, Linear SVM)
- evaluering (accuracy vs precision/recall/F1)
- topic modeling (LDA/LSA) + coherence

+ fallgruver du allerede har identifisert (A-nivå sensor-ting).


## 1) Pipeline (hva du faktisk bygger)

1. tekst + label
2. preprocessing
3. vectorisering (tekst → tall)
4. modell (LogReg / NB / Linear SVM)
5. evaluering (accuracy, precision, recall, F1)
6. feilanalyse

Dette er standard i spamfilter, support-ticket tagging, SOC-klassifisering.


## 2) Sentiment: rule-based vs transformers (hvorfor du fikk “rare” resultater)

### Rule-based (TextBlob, VADER)

- ordlister + regler
- sliter med kontekst/ironi/negasjon

**TextBlob vs negasjon**

- “wasn’t great” kan bli feil hvis modellen overvekter “great” og ikke håndterer negasjon-scope robust.

**VADER**

- ofte mer intuitiv på “social text” (bedre regler for negasjon/forsterkere).

### Transformers

Her er datasett/labels alt:

- mange standardmodeller er trent binært (POS/NEG), f.eks. SST-2
- da kan nøytrale setninger tvinges til POS eller NEG

**Eksamen-gull:**

> Hvis modellen ikke har NEU-klasse, kan den ikke produsere ekte nøytral.


## 3) Vectorisering: BoW vs TF-IDF

### BoW (CountVectorizer)

- teller ord
- ignorerer rekkefølge

Felle: “not good” vs “good” (uten n-grams ser den bare ord, ikke frasen).

### TF-IDF

- gir lav vekt til vanlige ord
- gir høyere vekt til sjeldne/informative ord

Ofte en stor forbedring for klassisk tekstklassifisering.


## 4) Modeller (eksamenforklaring)

### Logistic Regression

- lineær modell som lærer en vekt per feature
- sterk baseline med TF-IDF

### Multinomial Naive Bayes

- sannsynlighetsmodell, antar (naivt) uavhengige ord gitt klassen
- ekstremt rask, ofte sterk i spam-lignende data

### Linear SVM

- maksimerer margin
- ofte veldig sterk på høy-dimensjonale sparse features (TF-IDF)

**Viktig detalj (du hadde helt rett):**

- `SGDClassifier()` er ikke automatisk SVM
- for “SVM-ish”: `SGDClassifier(loss="hinge")` eller `LinearSVC()`


## 5) Evaluering: accuracy vs precision/recall/F1

Når testsettet er lite (f.eks. 6 setninger), blir accuracy “hoppete”.

- 3/6 riktig = 0.50
- 2/6 riktig = 0.33

Derfor:

- bruk mer data
- eller k-fold cross validation

### Metrikker

- **precision**: av det jeg kalte positivt/spam, hvor mye var riktig?
- **recall**: av det som faktisk var positivt/spam, hvor mye fanget jeg?

Tradeoff:

- spam/SOC: høy recall kan være viktig (ikke misse angrep), men kan gi flere false positives.


## 6) Topic modeling: LDA/LSA + coherence

### LDA (Latent Dirichlet Allocation)

- dokument = miks av topics
- topic = miks av ord

Felle i nyheter:

- ord som “said”, “mr”, “would” dominerer → bruk domene-stopwords.

### LSA (SVD)

- lineær algebra på TF-IDF
- kan gi “latente dimensjoner”

### Coherence

- velg ofte topic-antall ved “knekkpunktet” (økning flater ut)


In [None]:
# Kode-mal (klassisk pipeline) — krever scikit-learn

# from sklearn.model_selection import train_test_split
# from sklearn.feature_extraction.text import TfidfVectorizer
# from sklearn.linear_model import LogisticRegression
# from sklearn.metrics import classification_report
#
# texts = [
#     "This was great!",
#     "This wasn't great.",
#     "Terrible experience.",
#     "I went to see a movie.",
# ]
# labels = [1, 0, 0, 0]  # eksempel
#
# X_train, X_test, y_train, y_test = train_test_split(texts, labels, test_size=0.3, random_state=7)
#
# vec = TfidfVectorizer(ngram_range=(1,2))
# X_train_vec = vec.fit_transform(X_train)
# X_test_vec = vec.transform(X_test)
#
# clf = LogisticRegression(max_iter=1000)
# clf.fit(X_train_vec, y_train)
#
# preds = clf.predict(X_test_vec)
# print(classification_report(y_test, preds))
