In [55]:
import pandas as pd
import re, os, operator
import numpy as np

import spacy

import nltk
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer

import gensim
from gensim.corpora import Dictionary
from gensim.utils import simple_preprocess
from gensim.models import CoherenceModel

#### Reading and cleaning the dataframe

In [2]:
# read csv file 'description.csv
df = pd.read_csv('description_.csv', header=None)

In [3]:
pd.set_option('display.max_colwidth', None)

In [4]:
df.head(2)

Unnamed: 0,0,1,2,3
0,https://www.innovasjonnorge.no/no/tjenester/kundehistorier/2022/wonderland/,Med 350 millioner kroner i omsetning er Wonderland en av de største sengeprodusentene i Norge. Nå vil selskapet på Åndalsnes øke eksporten til Europa.,"En høyteknologisk robotlinje sørger for at skumgummi, fjærer og andre komponenter plasseres riktig og blir til en «liggeflate» i andre enden. For femti år siden ble den første skummadrassen laget, og nå produserer Wonderland over 90 000 madrasser i året i fabrikkanlegget på Åndalsnes.\n","\n- I robotlinja har vi mulighet til å produsere to-tre ganger flere madrasser om markedet skulle ønske det. Vi tenker at en vekst skal skje på eksport, der Norden og deler av EU vil være vår prioritet, sier administrerende direktør i Wonderland, Lars Stenerud.\nSengeprodusenten kan se tilbake på fem tiår med skiftende eierskap, krevende markeder og hard konkurranse. Wonderland har klart seg godt og vil nå vokse videre. De eksporterer noe til Norden allerede, men har et mål om å øke eksporten til Europa. Ved å delta i Innovasjon Norges program for eksportutvikling, Global Gateways, får de tett oppfølging gjennom hele eksportprosessen. Vi bidrar med kompetanse, rådgivning og nettverk for å sikre raskere tilgang til nye markeder.\n \n"
1,https://www.innovasjonnorge.no/no/tjenester/kundehistorier/2022/c-food-norway/,Bedre utnyttelse av fiskefangst la grunnlaget for C Food Norway. Nå bistår Innovasjon Norge bedriften med å utvikle en bærekraftig forretningsmodell for bruk av fiskehoder.,"Norge er en stor og viktig sjømatnasjon, men vi har potensial for å bli både mer bærekraftig og skape større verdier av det vi fangster. Målet er at alt vi fangster skal utnyttes, og ikke noe av fangsten skal gå til spille.\nDrahjelp ut i verden\n","\nC Food Norway har jobbet mye med å utnytte rester av hvitfisk til mat og helsekostprodukter siden etableringen i 2013. Ålesund-bedriften har kommet langt med å utnytte fiskerygger og svømmeblærer, og er i gang med å utvikle bærekraftige og lønnsomme verdikjeder for fiskehoder. I mange land blir nettopp hodet betraktet som den beste delen av fisken.\n- For å lykkes med nye sjømatprodukter i et globalt marked, trenger vi å lære andre lands kulturer og matvaner. Innovasjon Norges utekontor er viktige samarbeidspartnere for å øke bedriftenes markedskunnskap og kulturforståelse. Utekontorene gir nødvendig drahjelp for å introdusere produktene i mulige markeder, forteller Claus Opshaug, daglig leder i C Food Norway.\nStort potensial i Asia\nI prosjektet kalt «Fishhead» skal bedriften utvikle et nytt grønt forretningskonsept i tett og langsiktig samarbeid med leverandører, utstyrsprodusenter og kunder. Planen er å produsere både tørkede, fryste, salta og hermetiserte hvitfiskhoder til bruk i måltider.\n- Dette er et interessant og et viktig prosjekt med stort potensial, spesielt i Asia. C Food Norway er en foregangsbedrift for bransjen, sier Kari-Anne Lade Gjørvad, kunderådgiver for Innovasjon Norge Møre og Romsdal.\n \n"


In [5]:
df.shape

(149, 4)

In [6]:
# create a new column with last word between '/' from each link
# this is the product name
df[4] = df[0].str.split('/').str[-2]

In [7]:
# create list from column with product names
product_names = df[4].tolist()

In [8]:
len(product_names)

149

In [9]:
for product in product_names:
    print(product)

wonderland
c-food-norway
exotek
miljo-norge
oceangrid
appsens
beefutures-holding
oso-hotwater
gronn-gjodsel
gudbrandsdalens-uldvarefabrik
diffia
synergy-sky
windsim
trysil-maskin
slettvoll-mobler
novelda
hardanger-siderprodusentlag
ducky
pixii
nammo-raufoss
tunable
sunlit-sea
ca-technology-systems
origo-solutions
vil-gjore-kysten-utslippsfri-med-hydrogen
easee
kongsberg-satellite-services
zooca
arbaflame
bright-products
yedlik
falstadsenteret-drift
elliptic-labs
drytech
innovern
deep-purple
hycast
link-analytix
touchnetix
greentech-innovators
cycled-technologies
innsep
fixrate
secure-practice
corvus-energy-og-lmg-marin
oceanize
checkware
jentene-pa-tunet
turbulent-flux
leroy-sjotroll
waterise
exentric
e-plug
vestre
beyonder
planktonic
cinderella-eco-group
borregaard
sevendof
kobler
bliksund
csub
onio
gardsbrenneriet
airthings
skala-maskon
decon-x-international
nordkontakt
anue
bridgehill
weisstech
elop
laviair
vixel
attensi
oliasoft
marine-recycling-cluster
spilltech
maritech-systems
w

In [10]:
# copy dataframe to continue with concatenation and cleaning
df_copy = df.copy()

In [11]:
# concatenate columns 1, 2 and 3 into a new column
df_copy[5] = df_copy[1] + ' ' + df_copy[2] + ' ' + df_copy[3]

In [12]:
# delete columns 1, 2 and 3
df_copy.drop(columns=[1, 2, 3], inplace=True)

In [13]:
# replace NaN values with empty string in all columns
df_copy.fillna('', inplace=True)

In [14]:
# function to clean the description text
# creates a new column with cleaned text
def cleanhtml():
    # remove html tags
    cleanr = re.compile('<.*?>')
    
    rows = df_copy[5]
    listcleantext = []
    for r in rows:
        cleantext = re.sub(cleanr, '', r)
        
        # replace new line \n with empty space
        cleantext = cleantext.replace('\n', ' ')
        
        # replace &quot; with single quote
        cleantext = cleantext.replace('&quot;', "''")
        
        # replace &nbsp with empty space
        cleantext = cleantext.replace('&nbsp', ' ')
        
        listcleantext.append(cleantext)
    df_copy[6] = listcleantext
    return

In [15]:
cleanhtml()

In [17]:
# remove column 5
df_copy.drop(columns=[5], inplace=True)

In [18]:
df_copy.head()

Unnamed: 0,0,4,6
0,https://www.innovasjonnorge.no/no/tjenester/kundehistorier/2022/wonderland/,wonderland,"Med 350 millioner kroner i omsetning er Wonderland en av de største sengeprodusentene i Norge. Nå vil selskapet på Åndalsnes øke eksporten til Europa. En høyteknologisk robotlinje sørger for at skumgummi, fjærer og andre komponenter plasseres riktig og blir til en «liggeflate» i andre enden. For femti år siden ble den første skummadrassen laget, og nå produserer Wonderland over 90 000 madrasser i året i fabrikkanlegget på Åndalsnes. - I robotlinja har vi mulighet til å produsere to-tre ganger flere madrasser om markedet skulle ønske det. Vi tenker at en vekst skal skje på eksport, der Norden og deler av EU vil være vår prioritet, sier administrerende direktør i Wonderland, Lars Stenerud. Sengeprodusenten kan se tilbake på fem tiår med skiftende eierskap, krevende markeder og hard konkurranse. Wonderland har klart seg godt og vil nå vokse videre. De eksporterer noe til Norden allerede, men har et mål om å øke eksporten til Europa. Ved å delta i Innovasjon Norges program for eksportutvikling, Global Gateways, får de tett oppfølging gjennom hele eksportprosessen. Vi bidrar med kompetanse, rådgivning og nettverk for å sikre raskere tilgang til nye markeder."
1,https://www.innovasjonnorge.no/no/tjenester/kundehistorier/2022/c-food-norway/,c-food-norway,"Bedre utnyttelse av fiskefangst la grunnlaget for C Food Norway. Nå bistår Innovasjon Norge bedriften med å utvikle en bærekraftig forretningsmodell for bruk av fiskehoder. Norge er en stor og viktig sjømatnasjon, men vi har potensial for å bli både mer bærekraftig og skape større verdier av det vi fangster. Målet er at alt vi fangster skal utnyttes, og ikke noe av fangsten skal gå til spille. Drahjelp ut i verden C Food Norway har jobbet mye med å utnytte rester av hvitfisk til mat og helsekostprodukter siden etableringen i 2013. Ålesund-bedriften har kommet langt med å utnytte fiskerygger og svømmeblærer, og er i gang med å utvikle bærekraftige og lønnsomme verdikjeder for fiskehoder. I mange land blir nettopp hodet betraktet som den beste delen av fisken. - For å lykkes med nye sjømatprodukter i et globalt marked, trenger vi å lære andre lands kulturer og matvaner. Innovasjon Norges utekontor er viktige samarbeidspartnere for å øke bedriftenes markedskunnskap og kulturforståelse. Utekontorene gir nødvendig drahjelp for å introdusere produktene i mulige markeder, forteller Claus Opshaug, daglig leder i C Food Norway. Stort potensial i Asia I prosjektet kalt «Fishhead» skal bedriften utvikle et nytt grønt forretningskonsept i tett og langsiktig samarbeid med leverandører, utstyrsprodusenter og kunder. Planen er å produsere både tørkede, fryste, salta og hermetiserte hvitfiskhoder til bruk i måltider. - Dette er et interessant og et viktig prosjekt med stort potensial, spesielt i Asia. C Food Norway er en foregangsbedrift for bransjen, sier Kari-Anne Lade Gjørvad, kunderådgiver for Innovasjon Norge Møre og Romsdal."
2,https://www.innovasjonnorge.no/no/tjenester/kundehistorier/2022/exotek/,exotek,"Ønsket om at mennesker med funksjonsnedsettelser også kan ta seg frem i naturen, dannet grunnlaget for Exotek. Den første helelektriske, terrenggående firhjulingen er snart i salg. Etter en sykkelulykke i 2015 mistet Sigurd Groven følelsen fra brystet og ned, men ønsket om å være aktiv og å være med familien ut i naturen var fortsatt stort. Sigurd hadde prøvd forskjellige kjøretøy, blant annet en franskprodusert firhjuling, men ingenting som var godt nok til det behovet han hadde. Da Mattias Storvestre og kjæresten, som sitter i rullestol, ble foreldre for første gang i 2016 merket de etter hvert hvor vanskelig det var for familien å være ute sammen i skog og mark, med rullestolen. Mattias, som har bakgrunn som flymekaniker, utviklet derfor en helelektrisk firhjuling til samboeren sin, basert på en franskproduserte ramme. Utviklet for eget behov Litt senere møttes Mattias og Sigurd på en aktivitetscamp for ryggmargsskadde. Sigurd hadde den samme franskproduserte firhjulingen, og spurte om Mattias ville bygge om den også. Mattias bygde om flere modeller før han til slutt utviklet en helt egen ramme for å få best mulig fremkommelighet og komfort. Resultatet ble Exoquad. – Den nye firhjulingen åpnet opp en helt ny verden for meg, sier Sigurd. Mennene konkluderte med at her er det et hull i markedet og startet opp Exotek i 2020. – Vi ønsker at flest mulig får tilgang til «Exoquad», men siden den er såpass kostbar vil vi se på ulike løsninger som utleie og salg til stiftelser, aktivitetsparker og organisasjoner, i tillegg til å selge til privatkunder, forteller Sigurd. Finansieringsrådgiver Mari Dorte Jønland Michaelsen for Innovasjon Norge Møre og Romsdal, har hatt dialog med selskapet hele veien. - Teamet i Exotek har demonstrert meget god gjennomføringsevne siden starten, og de er genuint opptatt av å levere på kundenes behov. De har planlagt grundig og benyttet relevante tjenester for hver utviklingsfase. Vi ser nå en spennende vekst, med etablering av produksjon for å møte etterspørselen, forteller hun."
3,https://www.innovasjonnorge.no/no/tjenester/kundehistorier/2022/miljo-norge/,miljo-norge,"De fleste brannslukningsapparater i Norge kastes etter bruk eller når de er utdatert. Dette vil det Lier-baserte selskapet Miljø Norge gjøre noe med. Deres løsning kan skape arbeidsplasser og bidra til stor reduksjon av CO2-utslipp, og de har nå fått miljøteknologitilskudd på 26 millioner kroner fra Innovasjon Norge. - Dette tilskuddet vil sørge for at færre brannslukkere kastes, og miljøeffekten av dette er enorm. Vi er veldig glade for dette tilskuddet fra Innovasjon Norge, sier Nils Aulie, administrerende direktør i Miljø Norge. Stort miljøproblem I Norge estimeres det å være over ti millioner brannslukkere. Årlig må omtrent en million av disse på service eller erstattes. Ved å gjenbruke brannslukkere i Norge vil selskapet redusere behovet for import og dermed redusere det totale CO2-uslippet kraftig. Det blir mindre transport og mindre uttak av råvarer. Det kreves hele fire kilo stål for å produsere en ny brannslukker i dag. - Resertifisering av brannslukkere er et godt eksempel på hvordan sirkulære løsninger kan ta ned ressursforbruket, forteller spesialrådgiver for Innovasjon Norge i Oslo og Viken, Ann-Mari Skinne. - Etablering av en automatisert produksjonslinje for resertifisering av slukkere er nytt. Overgangen til en sirkulær forretningsmodell krever innovasjon i mange ledd, sier hun. Sirkulær forretningsmodell Selskapet har designet en sirkulær forretningsmodell, der utdaterte brannslukkere tas inn for service og returneres tilbake til kunden - like god som ny. Service på brannslukkere foregår ved at apparatet tømmes, inspiseres, refylles og trykksettes på nytt. Gjennom automasjon og digitalisering har selskapet utviklet en produksjonslinje som sikrer både stabil høy kvalitet og et høyt produksjonsvolum. Miljøbesparelsene ved en gjenbrukt brannslukker er 38 kg CO2. Over tid forventes det å skape opp til seksti nye arbeidsplasser ved anlegget i Lier. Ved å samarbeide med flere aktører i verdikjeden som avfallsmottakere, detaljhandel, byggevarekjeder, brannforebyggende aktører, distributører med flere, ønsker selskapet å forenkle retur- og anskaffelsesprosessen for kundene. Markedspotensialet inn mot næring, offentlige bygg, infrastruktur og eiendomsutvikling er stort, og selskapet har en klar målsetning om å løse dagens utfordringer og tilby sirkulære alternativer. - Vi er i dialog med en rekke store aktører, som kan sette ny standard i sin bransje. Responsen hittil har vært entydig positiv, og vi får bekreftelse på at dette er en etterlengtet løsning, sier Aulie. Tilskudd til miljøteknologi Tilskuddet på 26 millioner de nå har fått fra Innovasjon Norge skal gå til investeringer i produksjonslinjen, og å sette i gang nye arbeidsprosesser i bedriftens lokaler i Lier utenfor Drammen. - Innovasjon Norge har bevilget penger til prosjektet for å ta ned risikoen for selskapet og styrke gjennomføringsevnen. Vi er flinke på innsamling i Norge, men vi trenger flere gode eksempler på løsninger høyt opp i avfallshierarkiet, sier spesialrådgiver Skinne. - Vi skal gjøre det enkelt for kunden å ta bærekraftige valg når de bytter ut eller handler ny brannslukker. Gjennom tilskuddet fra Innovasjon Norge får vi bygd en produksjonslinje som vil sørge for at andelen gjenbrukte brannslukkere øker betraktelig, forteller Aulie."
4,https://www.innovasjonnorge.no/no/tjenester/kundehistorier/2022/oceangrid/,oceangrid,"Ein mangeårig fascinasjon for vind og bølgjekrefter var utløysande for etableringa av Oceangrid. Dei utviklar ein ny metode for havbotninstallasjonar av flytande havvindplattformar. Med på laget har dei fått tre solide investorar, og Innovasjon Norge får delar av æra for dette. 99 prosent av dagens havvindparkar er botnfaste og ligg relativt nær land, kor det ikkje er så djupt. Lenger ute i havet ligg det eit stort potensial i vindkraft, men jo djupare havet er, desto dyrare vert havvindparkane. Det er her løysinga til Oceangrid kjem inn i biletet. - Vår plattform er designa for å være optimal der havdjupna er 50-300 meter, seier gründer Bjarte Nordvik. Samanstilling til havs Nordvik meiner at dei har teke det beste frå fleire kjente teknologiar og sett dei saman på ein måte som vil effektivisere prosessane for korleis ein samanstillar og installerer plattformar for flytande havvind. - Vårt konsept går ut på at plattforma i hovudsak skal settast saman av to modular, der vi kan gjere samanstillinga flytande utan at modular på fleire 1000 tonn vert løfta på land. Slik kan samanstilling av ein havvindplattform gjennomførast i løpet av eit par veker, i staden for tre til fire månader som er dagens situasjon, fortel Nordvik. Gjennom designet av plattforma med tilhøyrande forankring og el-kabel, er det vidare lagt stor vekt på at installasjonane skal sette minst mogleg avtrykk i havet og på havbotnen elles. Dette for å sikre best mogleg sameksistens mellom havvindsutbyggingar, marint liv og annan type havbruksnæring innanfor same havområde. Inspirasjon frå ubåtmiljøet Gründeren er utdanna mariningeniør gjennom sjøkrigsskulen og har tenestegjort på ubåt i ei årrekke. - Eg har meir eller mindre vakse opp i «bølgjesonen», som har bidrege til stor interesse og respekt for dette som fagfelt. Det er ingen tvil om at prosjektet er kapitalkrevjande med eit langt utviklingsløp, og til no har det handla om å rigge prosjektet og å starte på verifiseringa av teknologien. Oceangrid har motteke både tilskot til marknadsavklaring og tilskot til miljøteknologi frå Innovasjon Norge. - Eg trur ikkje vi hadde vore der vi er i dag utan støtte frå Innovasjon Norge i tidleg fase. Vi brukte marknadsavklaringstilskotet på å avklare teknologien og markanden, og videre danne eit realistisk bilde av korleis framtidas flytande havvindsprosjekt vil bli gjennomført frå designfase til montering, installasjon, drift og avvikling. Gjennom støtta frå miljøteknologiordninga er målet no å ta løysinga til TRL-nivå 4-5, seier Nordvik. Store ambisjonar I tillegg til det finansielle bidraget frå Innovasjon Norge, peikar Nordvik også på viktigheita av sparring i tidleg fase. - Rådgjevaren har vore ein god støttespelar for oss, med korrekte og ærlege tilbakemeldingar. Han har mellom anna bidrege til å guide oss i riktig retning. Gründeren meiner også at støtta frå Innovasjon Norge har vore viktig i prosessen med å hente inn investorar og samarbeidspartnarar. Og det er ikkje kven som helst dei har fått med seg. - Når ein snakkar med investorar, så er det eit kvalitetsstempel å vise til at ein har motteke støtte frå Innovasjon Norge. Vi har fått med oss fire solide investorar; Valinor, Mosvold Kapital, Zukunftige Werte og Fjord Base Holding. Med dette har vi med oss eit energiselskap som kan industrien, vi har dei som skal bygge og stå for logistikk, og så har vi ein finansiell investor. Dersom Oceangrid lukkast med å få verifisert konseptet i miljøteknologi-prosjektet, er neste mål å søke om EU-finansiering til å bygge pilot. Ein draumekunde Finansieringsrådgjevar Kjell Haganes ved Innovasjon Norges Vestland-kontor er ikkje i tvil om at det er mogleg for Oceangrid å nå målsetnadane. - Det er dyrt å bygge ut havvind, spesielt flytande. Dette prosjektet har potensialet til å redusere kostnad per produsert kilowatt betydeleg. Her snakkar vi om et sterkt team, som har fått med seg gode samarbeidspartnarar, og som er audmjuke og lyttar til dei råda dei får undervegs. Haganes peikar vidare på at løysingar innanfor havvind er noko som vert etterspurt av norske myndigheiter, og at Oceangrid sitt prosjekt er veldig relevant i denne samanheng. - For Innovasjon Norge er dette ein draumekunde, seier Haganes."


#### Creating a bag of word from all descriptions

We group all our descriptions in a list of lists.

In [22]:
descriptions_list = df_copy[6].values.tolist()

In [23]:
# quick example with first list element
print(descriptions_list[0:1])

['Med 350 millioner kroner i omsetning er Wonderland en av de største sengeprodusentene i Norge. Nå vil selskapet på Åndalsnes øke eksporten til Europa. En høyteknologisk robotlinje sørger for at skumgummi, fjærer og andre komponenter plasseres riktig og blir til en «liggeflate» i andre enden. For femti år siden ble den første skummadrassen laget, og nå produserer Wonderland over 90\xa0000 madrasser i året i fabrikkanlegget på Åndalsnes.   - I robotlinja har vi mulighet til å produsere to-tre ganger flere madrasser om markedet skulle ønske det. Vi tenker at en vekst skal skje på eksport, der Norden og deler av EU vil være vår prioritet, sier administrerende direktør i Wonderland, Lars Stenerud. Sengeprodusenten kan se tilbake på fem tiår med skiftende eierskap, krevende markeder og hard konkurranse. Wonderland har klart seg godt og vil nå vokse videre. De eksporterer noe til Norden allerede, men har et mål om å øke eksporten til Europa. Ved å delta i Innovasjon Norges program for ekspo

We use regex (re) to do some more cleaning

In [24]:
descriptions_list_re = []

for sentence in range(0, len(descriptions_list)):
    
    # Remove single characters from the start
    newcol = re.sub(r'\^[a-zA-Z]\s+', ' ', str(descriptions_list[sentence]))
    
    # Remove all the special characters
    newcol = re.sub(r'\W', ' ', newcol)

    # Substituting multiple spaces with single space
    newcol = re.sub(r'\s+', ' ', newcol, flags=re.I)

    descriptions_list_re.append(newcol)

In [25]:
print(descriptions_list_re[0:1])

['Med 350 millioner kroner i omsetning er Wonderland en av de største sengeprodusentene i Norge Nå vil selskapet på Åndalsnes øke eksporten til Europa En høyteknologisk robotlinje sørger for at skumgummi fjærer og andre komponenter plasseres riktig og blir til en liggeflate i andre enden For femti år siden ble den første skummadrassen laget og nå produserer Wonderland over 90 000 madrasser i året i fabrikkanlegget på Åndalsnes I robotlinja har vi mulighet til å produsere to tre ganger flere madrasser om markedet skulle ønske det Vi tenker at en vekst skal skje på eksport der Norden og deler av EU vil være vår prioritet sier administrerende direktør i Wonderland Lars Stenerud Sengeprodusenten kan se tilbake på fem tiår med skiftende eierskap krevende markeder og hard konkurranse Wonderland har klart seg godt og vil nå vokse videre De eksporterer noe til Norden allerede men har et mål om å øke eksporten til Europa Ved å delta i Innovasjon Norges program for eksportutvikling Global Gatewa

Creating bag of words from list of lists

In [37]:
def sent_to_words(sentences):
    for sentence in sentences:
        yield(gensim.utils.simple_preprocess(str(sentence), deacc=False))  # deacc=False keeps accents on Norwegian letters

bag_of_words = list(sent_to_words(descriptions_list_re))

In [38]:
print(bag_of_words[0:1])

[['med', 'millioner', 'kroner', 'omsetning', 'er', 'wonderland', 'en', 'av', 'de', 'største', 'norge', 'nå', 'vil', 'selskapet', 'på', 'åndalsnes', 'øke', 'eksporten', 'til', 'europa', 'en', 'høyteknologisk', 'robotlinje', 'sørger', 'for', 'at', 'skumgummi', 'fjærer', 'og', 'andre', 'komponenter', 'plasseres', 'riktig', 'og', 'blir', 'til', 'en', 'liggeflate', 'andre', 'enden', 'for', 'femti', 'år', 'siden', 'ble', 'den', 'første', 'skummadrassen', 'laget', 'og', 'nå', 'produserer', 'wonderland', 'over', 'madrasser', 'året', 'fabrikkanlegget', 'på', 'åndalsnes', 'robotlinja', 'har', 'vi', 'mulighet', 'til', 'produsere', 'to', 'tre', 'ganger', 'flere', 'madrasser', 'om', 'markedet', 'skulle', 'ønske', 'det', 'vi', 'tenker', 'at', 'en', 'vekst', 'skal', 'skje', 'på', 'eksport', 'der', 'norden', 'og', 'deler', 'av', 'eu', 'vil', 'være', 'vår', 'prioritet', 'sier', 'administrerende', 'direktør', 'wonderland', 'lars', 'stenerud', 'kan', 'se', 'tilbake', 'på', 'fem', 'tiår', 'med', 'skiftend

Removing stop words from bag of words

In [41]:
stop_words = stopwords.words('norwegian')
# stop_words.extend(['på'])
# --> we can add extra words here that we want to remove from the bag of words

def remove_stopwords(texts):
    return [[word for word in simple_preprocess(str(doc)) if word not in stop_words] for doc in texts]

bag_of_words_no_stop = remove_stopwords(bag_of_words)

In [42]:
print(bag_of_words_no_stop[0:1])

[['millioner', 'kroner', 'omsetning', 'wonderland', 'største', 'norge', 'selskapet', 'åndalsnes', 'øke', 'eksporten', 'europa', 'høyteknologisk', 'robotlinje', 'sørger', 'skumgummi', 'fjærer', 'andre', 'komponenter', 'plasseres', 'riktig', 'liggeflate', 'andre', 'enden', 'femti', 'år', 'første', 'skummadrassen', 'laget', 'produserer', 'wonderland', 'madrasser', 'året', 'fabrikkanlegget', 'åndalsnes', 'robotlinja', 'mulighet', 'produsere', 'to', 'tre', 'ganger', 'flere', 'madrasser', 'markedet', 'ønske', 'tenker', 'vekst', 'skje', 'eksport', 'norden', 'deler', 'eu', 'prioritet', 'sier', 'administrerende', 'direktør', 'wonderland', 'lars', 'stenerud', 'se', 'tilbake', 'fem', 'tiår', 'skiftende', 'eierskap', 'krevende', 'markeder', 'hard', 'konkurranse', 'wonderland', 'klart', 'godt', 'vokse', 'videre', 'eksporterer', 'norden', 'allerede', 'mål', 'øke', 'eksporten', 'europa', 'delta', 'innovasjon', 'norges', 'program', 'global', 'gateways', 'får', 'tett', 'oppfølging', 'gjennom', 'hele', 

In [43]:
len(bag_of_words_no_stop) # --> this should still return the same length of our original dataframe :)

149

##### Processing Bag of Words using spaCy library

In [49]:
# path to our spaCy language model
path_spacy_model = '/Users/Anne/anaconda3/envs/python37/lib/python3.7/site-packages/nb_core_news_md/nb_core_news_md-3.0.0'

# loading the model
nlp = spacy.load(path_spacy_model, disable=['parser', 'ner'])

In [50]:
type(nlp)

spacy.lang.nb.Norwegian

Reducing the term count

We have already removed our stop words.<br>
The lemmatization will allow us to select a specific type of word, for instance 'NOUN'

In [51]:
def lemmatization(texts, allowed_postags=['NOUN', 'ADJ', 'VERB', 'ADV', 'PROPN']):
    texts_out = []
    for sent in texts:
        doc = nlp(" ".join(sent))    # remember: nlp is defined in our previous cell, it is the spaCey language model
        texts_out.append([token.lemma_ for token in doc if token.pos_ in allowed_postags])
    return texts_out

In [52]:
bag_of_words_no_stop_lemma = lemmatization(bag_of_words_no_stop, allowed_postags=['NOUN'])

In [53]:
print(bag_of_words_no_stop_lemma[0:1])

[['million', 'krone', 'omsetning', 'wonderland', 'norge', 'selskap', 'åndalsnes', 'eksport', 'europe', 'robotlinje', 'skumgummi', 'fjære', 'komponent', 'ende', 'år', 'skummadrasse', 'lag', 'wonderland', 'madrass', 'år', 'fabrikkanlegg', 'åndalsnes', 'mulighet', 'ganger', 'madrass', 'marked', 'ønske', 'vekst', 'eksport', 'norde', 'prioritet', 'direktør', 'tiår', 'eierskap', 'marked', 'konkurranse', 'wonderland', 'norde', 'mål', 'eksport', 'europe', 'innovasjon', 'program', 'gateways', 'oppfølging', 'kompetanse', 'rådgivning', 'nettverk', 'tilgang', 'marked']]


Inspect most frequest terms from our lemmatized bag of words

In [66]:
def detoken(texts):
    """detokenizer"""
    texts_out = []
    for sent in texts:
        texts_out.append(" ".join(s for s in sent))
    return texts_out

bag_of_words_no_stop_lemma_test = detoken(bag_of_words_no_stop_lemma)    # reassembling lists of tokens into continuous lists of strings

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(bag_of_words_no_stop_lemma_test)
freq = np.ravel(X.sum(axis=0)) 

vocab = [v[0] for v in sorted(vectorizer.vocabulary_.items(), key=operator.itemgetter(1))]
fdist = dict(zip(vocab, freq))

# Save all terms as CSV file to inspect all

with open('term_dict.csv', 'w', encoding='utf-8') as f:
    for key in fdist.keys():
        f.write("%s,%s\n"%(key,fdist[key]))

In [69]:
# Reading term_dict csv file into a pandas and sort the df by frequencies 
# to see which words are very frequent (ubiquitous).
df_term_dict = pd.read_csv('term_dict.csv', names=['token', 'frequency'])
df_term_dict.sort_values('frequency', ascending= False, inplace=True)

In [70]:
df_term_dict.head(20)

Unnamed: 0,token,frequency
1505,innovasjon,730
2358,norge,563
2985,selskap,385
2059,marked,291
2029,løsning,269
256,bedrift,246
2697,prosjekt,190
3446,teknologi,189
2672,produkt,177
3328,støtte,176
