In [16]:
import pandas as pd
import wikipediaapi
import spacy

df = pd.read_csv('data/companies.csv')

df

Unnamed: 0,company,address,municipality,income,employees,municipality_code
0,NorthTech ApS,"Wildersgade 51, København K",København,5,20,1
1,PFA,"Sundkrogsgade 4, København Ø",København,-79000,1464,1
2,Netcompany A/S,"Grønningen 17, København K",København,583573,2340,1
3,Elbek-vejrup,"Tangen 6, Aarhus N",Aarhus,43935,171,2
4,ELLAB A/S,"Trollesmindealle 25, Hillerød",Hillerød,136500,166,3
5,Wilke A/S,"Gråbrødrepassagen 9, Odense C",Odense,3834,175,4
6,Novo Nordisk,"Novo Alle 1, Bagsværd",Gladsaxe,47523000,22150,5
7,KMD A/S,"Lautrupparken 40, Ballerup",Ballerup,53926,1855,6
8,Alpha Solutions,"Gothersgade 14, København K",København,3477,59,1
9,Formpipe,"Lautrupvang 1, Ballerup",Ballerup,36583,87,6


In [17]:
# Choose three companies for text processing:

chosen_companies = df.loc[[1, 6, 7], 'company']

print(chosen_companies)

1             PFA
6    Novo Nordisk
7         KMD A/S
Name: company, dtype: object


In [20]:
# Get company wikipedia information with WikipediaAPI
wiki_wiki = wikipediaapi.Wikipedia('dk')

company_wiki_texts = []

for company in chosen_companies:
    company_stripped = company.replace("A/S", "")
    wikipage = wiki_wiki.page(company_stripped)
    company_wiki_texts.append(wikipage.text)

In [23]:
# Spacy text proccessing

# Load danish tokenizer
nlp = spacy.load("da_core_news_sm")

# Create a spacy doc on the KMD wikipedia text
doc = nlp(company_wiki_texts[2])

In [None]:
# Get tokens
for token in doc:
    print(token.text)

In [24]:
# Get verbs
print("Verbs:", [token.lemma_ for token in doc if token.pos_ == "VERB"])

Verbs: ['høre', 'levere', 'serviceløsninge', 'erhvervssegmente', 'udvalgte', 'afdeling', 'være', 'dattervirksomhede', 'have', 'have', 'ansætte', 'administrere', 'håndtere', 'svare', 'modtage', 'etablere', 'være', 'eje', 'eje']


In [25]:
# Get nouns
print("Noun phrases:", [chunk.text for chunk in doc.noun_chunks])

Noun phrases: ['KMD A/S', 'de største danske it-virksomheder', 'udvikler', 'kommune-', 'Danmark', 'segmenter', 'Skandinavien', 'KMD', 'København', 'Århus', 'Odense', 'Aalborg', 'et datterselskab', 'NEC Corporation', 'integration', 'netværksteknologier', 'KMD-koncernen', 'Danmark', 'Norge', 'Sverige', 'Finland', 'Polen', 'KMD-koncernen', 'en årlig omsætning', '4,8 mia.', 'kr.', "KMD's administrerende direktør", '2021 Per Erik Mikael Johansson', 'der', 'afløste Eva', 'Berneke', 'Hvert', 'år', 'KMD’', 's system beløb', 'der', 'Danmarks', 'Det', 'KMD', '’', 's', 'systemer', 'danskerne', 'ydelser', 'kontanthjælp', 'børnepenge', 'barselsdagpenge', 'arbejdsløshedsdagpenge', 'førtidspension', 'folkepension', 'KMD', '1.500 danske og internationale kunder', 'den offentlige og private sektor', 'danske og udenlandske virksomheder', 'KMD A/S', 'det tidligere kommunedata', 'en sammenlægning', 'kommunale edb-centraler', 'KMD', 'marts', 'Kommune Holding A/S', '–', 'det nuværende KOMBIT', 'der', 'Kommu

In [26]:
# Find named entities, phrases and concepts
for entity in doc.ents:
    print(entity.text, entity.label_)

danske MISC
it-virksomheder MISC
Danmark LOC
Skandinavien LOC
København LOC
Århus LOC
Odense LOC
Aalborg LOC
NEC Corporation ORG
KMD-koncernen MISC
Danmark LOC
Norge LOC
Sverige LOC
Finland LOC
Polen LOC
KMD-koncernen MISC
Per Erik Mikael Johansson PER
Eva Berneke PER
KMD ORG
s ORG
Danmarks LOC
KMD ORG
s ORG
danskerne MISC
KMD ORG
danske MISC
danske MISC
A/S ORG
KMD ORG
Kommune Holding A/S ORG
KOMBIT PER
Kommunernes Landsforening ORG
