# Non-Negativ Matrix Factorization Model on 1-gram Tokens

In [1]:
import warnings
warnings.simplefilter('ignore')
from pathlib import Path
import sys
sys.path.append(str(Path.cwd().parent))
import pandas as pd
import numpy as np
from sklearn.decomposition import NMF
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import pyLDAvis
import pyLDAvis.sklearn
from src.models.build_topic_model import show_topics

scipy.sparse.sparsetools is a private module for scipy.sparse, and should not be used.
  _deprecated()


### Load dataset

In [2]:
path_to_data = Path('../data')
df = pd.read_csv(path_to_data / 'processed' /'tokenized1gram_data.csv', converters={'tokenized': eval, 'tokenized_mults': eval, 'tokenized_mults_extr': eval})

In [14]:
df.head()

Unnamed: 0,file_name,text,word_count,tokenized_raw,tokenized_raw_cnt,tokenized_mults,tokenized_mults_cnt,tokenized_mults_extr,tokenized_mults_extr_cnt
0,07211613C1,Üdvözlöm Ha rádióra vagyok miben segíthetek le...,275,"['üdvözlö', 'rádió', 'miben', 'segíthet', 'les...",143,"[üdvözlö, rádió, miben, segíthet, lesz, csókol...",133,"[rádió, helyzet, elcsúszik, kötelező, gépjármű...",98
1,07313221C2,Üdvözlöm miről Barbara vagyok miben segíthetek...,197,"['üdvözlö', 'mi', 'miben', 'segíthet', 'ön', '...",90,"[üdvözlö, mi, miben, segíthet, ön, nap, kíván,...",86,"[nap, probléma, lejár, úgymond, kötelező, éves...",60
2,07372317C1,esti Papp Ildikó biztosítótól és ki tudunk bes...,385,"['esti', 'biztosító', 'tud', 'beszél', 'igazáb...",171,"[esti, biztosító, tud, beszél, igazából, szüle...",164,"[esti, biztosító, tud, beszél, szüleim, lakás,...",127
3,07452941C2,Üdvözlöm Lőrincz Barbara vagyok miben segíthet...,448,"['üdvözlö', 'miben', 'segíthet', 'ön', 'nap', ...",216,"[üdvözlö, miben, segíthet, ön, nap, eszik, elő...",204,"[nap, eszik, beszél, ügyintéző, tud, jármű, bi...",155
4,07504737C1,Üdvözlöm Horváthné Papp Linda vagyok miben seg...,671,"['üdvözlöm', 'miben', 'segíthet', 'reggel', 'k...",299,"[üdvözlöm, miben, segíthet, reggel, kíván, seg...",288,"[reggel, segítség, szükség, gépjármű, biztosít...",223


### Fit model for full token set (incl. extra stops)

In [3]:
tfidf = TfidfVectorizer(analyzer='word', tokenizer=lambda doc: doc, preprocessor = lambda doc: doc, token_pattern=None)
dtm_tfidf = tfidf.fit_transform(df['tokenized_mults'])
vocab = np.array(tfidf.get_feature_names())

nmf_tfidf = NMF(init='random', n_components=6, max_iter=100, random_state = 0)
nmf_tfidf.fit(dtm_tfidf)

pyLDAvis.enable_notebook()
vis_nmf = pyLDAvis.sklearn.prepare(nmf_tfidf, dtm_tfidf, tfidf)
vis_nmf

In [4]:
W1 = nmf_tfidf.fit_transform(dtm_tfidf)
H1 = nmf_tfidf.components_

show_topics(H1, num_top_words = 8, vocab = vocab)

['díj ugye évforduló biztosítás éves ft szerződés fizet',
 'csekk küld fizet tud befizet kap hónap hó',
 'tud cím email jelszó küld felület ön online',
 'tud szia utal mond szerződés ügyfél összeg lát',
 'bank hónap csoportos megbízás levon tud von terhelés',
 'hozzájárul ajánlat adat köszön elérhetőség szerződés megkeres akció']

### Fit model for cleaned token set (excl. extra stops)

In [21]:
tfidf = TfidfVectorizer(analyzer='word', tokenizer=lambda doc: doc, preprocessor = lambda doc: doc, token_pattern=None)
dtm_tfidf = tfidf.fit_transform(df['tokenized_mults_extr'])
vocab = np.array(tfidf.get_feature_names())

nmf_tfidf = NMF(init='random', n_components=8, max_iter=100, random_state = 0)
nmf_tfidf.fit(dtm_tfidf)

pyLDAvis.enable_notebook()
vis_nmf = pyLDAvis.sklearn.prepare(nmf_tfidf, dtm_tfidf, tfidf)
vis_nmf

In [22]:
W1 = nmf_tfidf.fit_transform(dtm_tfidf)
H1 = nmf_tfidf.components_

show_topics(H1, num_top_words = 8, vocab = vocab)

['levél kap biztosítás kötelező casco küld gépjármű nap',
 'jelszó tud cím email felület online felhasználónév regisztráció',
 'díj évforduló éves fizet szerződés hó következő biztosítás',
 'bank csoportos megbízás levon von beszedési levonás terhelés',
 'hozzájárul ajánlat adat elérhetőség akció megkeres szerződés álló',
 'tud szerződés név információ ért telefon meghatalmazás szerződő',
 'utal összeg közlemény számlaszám lát ír utalás pénz',
 'csekk küld befizet fizet kap hó negyedév darab']

In [65]:
print(W1.shape, H1.shape, vocab.shape)

(1000, 8) (8, 5410) (5410,)


#### Drop irrelevant topics

In [70]:
W1_clean = W1[:, [0,2,3,6,7]]
H1_clean = H1[[0,2,3,6,7], :]
show_topics(H1_clean, num_top_words = 10, vocab = vocab)

['levél kap biztosítás kötelező casco küld gépjármű nap email autó',
 'díj évforduló éves fizet szerződés hó következő biztosítás negyedéves első',
 'bank csoportos megbízás levon von beszedési levonás terhelés beszedés tud',
 'utal összeg közlemény számlaszám lát ír utalás pénz ügyfél számla',
 'csekk küld befizet fizet kap hó negyedév darab levél tud']

In [67]:
pd.DataFrame(show_topics(H1_clean, num_top_words = 10, vocab = vocab), columns = ['top_words'])

Unnamed: 0,top_words
0,levél kap biztosítás kötelező casco küld gépjá...
1,díj évforduló éves fizet szerződés hó következ...
2,bank csoportos megbízás levon von beszedési le...
3,utal összeg közlemény számlaszám lát ír utalás...
4,csekk küld befizet fizet kap hó negyedév darab


In [68]:
pd.DataFrame(W1_clean.argmax(axis = 1), columns = ['key'])

Unnamed: 0,key
0,1
1,1
2,1
3,3
4,1
...,...
995,1
996,1
997,4
998,0


In [69]:
df = pd.DataFrame(W1_clean.argmax(axis = 1), columns = ['topic']).groupby(['topic'])['topic'].count()
df

topic
0    193
1    244
2    153
3    243
4    167
Name: topic, dtype: int64