In [1]:
import sys
sys.path.insert(0, "..")

%load_ext autoreload
%autoreload 2

In [2]:
import pandas as pd
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.feature_extraction.text import CountVectorizer

from utils import configure_pandas
from preprocess import spacy_tokenizer
from preprocess import stopwords

configure_pandas()

In [3]:
DATAPATH = "../data/raw/data/"
df = pd.read_csv(f"{DATAPATH}ton.csv", low_memory=False)

In [4]:
# Test custom tokenizer
example = df.loc[0, "text"][:1000]
print(example)
print("\n=== Tokenized ===")
tokens = spacy_tokenizer(example)
print(" ".join(tokens))

Ærede medrepresentanter! Tidligere stortingsrepresentant Sjur Lindebrække er død – 89 år gammel. Etter juridisk embetseksamen i 1931 var Sjur Lindebrække først dommerfullmektig i Nordfjord og deretter universitetsstipendiat i rettsvitenskap. Selv om jusen som vitenskap ikke ble hans karriere, var Sjur Lindebrække en fremragende jurist. I 1940 fikk han Kongens gullmedalje for skriftet «Eiendomsrettens overgang ved frivillig overdragelse av løsøre», og i 1948 tok han doktorgraden på avhandlingen «Eiendomsrett og konkursbeslag». I 1936 ble Lindebrække ansatt i Bergens Privatbank. Bortsett fra årene i Stortinget, kom banken til å bli hans yrkesmessige hjem. I ulike perioder av sitt liv besatt Lindebrække omtrent alle posisjonene i banken. Han var banksjef, formann i bankens styre, arbeidende styreformann og administrerende direktør. I tillegg var han i en periode formann i Den norske bankforening. Sjur Lindebrække ble valgt til Stortinget høsten 1945, som representant for Høyre i Bergen. P

In [5]:
# Remove outlier text lengths
df = df[df["text"].str.len() < 3000]
print(len(df))

# Limit for faster runs
# N = 1000
# df = df.loc[:N, :]

216922


## Bag of Words

In [6]:
vectorizer = CountVectorizer(
    tokenizer=spacy_tokenizer,
    analyzer="word",
    max_df=0.9,
    min_df=5,
    ngram_range=(1, 2),
)
data_vectorized = vectorizer.fit_transform(df["text"])
print(len(vectorizer.get_feature_names()))
print(vectorizer.get_feature_names()[:20])

403672
['', ' ', ' a', ' abid', ' absolutt', ' adgang', ' advare', ' aetat', ' afghanistan', ' aftenposte', ' agde', ' akershus', ' akkurat', ' akseptere', ' aksje', ' aksjeselskap', ' aktiv', ' aktivitet', ' aktuell', ' aktør']


## Topic Model: Latent Dirichlet Allocation

In [7]:
num_topics = 10
lda_model = LatentDirichletAllocation(
    n_components=num_topics,
    max_iter=10,
    learning_method="online",
    verbose=True,
)

data_lda = lda_model.fit_transform(data_vectorized)

iteration: 1 of max_iter: 10
iteration: 2 of max_iter: 10
iteration: 3 of max_iter: 10
iteration: 4 of max_iter: 10
iteration: 5 of max_iter: 10
iteration: 6 of max_iter: 10
iteration: 7 of max_iter: 10
iteration: 8 of max_iter: 10
iteration: 9 of max_iter: 10
iteration: 10 of max_iter: 10


In [8]:
import pyLDAvis
import pyLDAvis.sklearn

pyLDAvis.enable_notebook()
panel = pyLDAvis.sklearn.prepare(lda_model, data_vectorized, vectorizer, mds='tsne')
panel

