## Dieser Teil des Notebooks befasst sich mit den Aufgabenteilen 1A und 1B 

Im ersten Schritt sollen hierbei die Daten von einer Wikipedia-Schnittstelle heruntergeladen und extrahiert werden. 
Die Dump-Dateien, welche alle nötigen Wikipedia-Inhalte umfassen, können über das Ausführen der in der **Readme**-Datei aufgelisteten Befehlen gewählt und geladen werden.
Zur Auswahl stehen hier 1) eine Dumpdatei mit einer kleineren Größe von ca. 5GB (im Prozess entstehend) für ein effizientes Arbeiten und 2) die allumfassende Dumpdatei mit einer Größe von ca. 28GB (im Prozess entstehend)

Sobald über die README-Datei und die Bash-Skripte u.a. das Aufsetzen der Datenstruktur erfolgt ist, kann eine erste Extraktion des gewählten Dumps stattfinden:

### Extraktion des Dumps:

Die Bibliothek "MediaWiki XML Processing" oder auch "mwxml" ermöglicht ein vereinfachtes Streamen XML-Dumps über eine Abstrahierung.
Über den mwxml.Dump werden die Wikipediaartikel auf eine iterative Weise über mwxml.Page‘s zugänglich gemacht.
Im Folgenden werden über die angegebene Datei (entweder die kleine oder große XML-Datei) ein mwxml-Dump erstellt, welcher eben diese Attribute bereitstellt.
Um die Funktionalität und Fehlerfreiheit zu prüfen werden im Folgenden zudem die Info der Seite und der Name der untersuchten Datenbank ausgegeben. Zu erwarten wären hier Hinweise auf die deutsche Wikipediafassung.

In [1]:
# Importieren der Bibliotheken und Module
import mwxml # Für Untersuchung der XMLs
import re # Für spätere regex-Operationen
from tqdm import tqdm # Für die Integration von Fortschrittsbannern, Ladebalken etc.

dump = mwxml.Dump.from_file(open("../data/dewiki-20220520-pages-articles-multistream1.xml")) #dewiki-20220620-pages-articles-multistream.xml als Alternative, falls großer Dump genutzt werden soll.
print(dump.site_info.name, dump.site_info.dbname) # Ausgabe der Informationen zum Dump

Wikipedia dewiki


Im Folgenden wird vorläufig eine später verwendete Methodik und Funktion zur weiteren Verbesserung der Firmenklassifikation implementiert.
Für eine spätetere Ausräumung von Unsicherheiten in deutscher Wiki werden sowohl deutsches NER-Modell auf deutscher Wiki und englisches Modell auf englischer Wiki genutzt. 
Auch mit deutschem Modell auf rein deutscher Wikipedia möglich.

In [2]:
!python -m spacy download en_core_web_sm # Herunterladen des englischen Spacy-Sprachmodells per Bash-Skript - erfahrungsgemäß bessere Zuverlässigkeit.
!python -m spacy download de_core_news_sm # Herunterladen des deutschsprachigen Spacy-Sprachmodells per Bash-Skript

Collecting en-core-web-sm==3.3.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.3.0/en_core_web_sm-3.3.0-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m4.1 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0mm
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
Collecting de-core-news-sm==3.3.0
  Downloading https://github.com/explosion/spacy-models/releases/download/de_core_news_sm-3.3.0/de_core_news_sm-3.3.0-py3-none-any.whl (14.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m14.6/14.6 MB[0m [31m4.0 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('de_core_news_sm')


Nachdem die nötigen Modelle heruntergeladen wurden, kann nun die Funktion zur Verbesserung der Genauigkeit implementiert werden.

In [3]:
# Firmenerkennung über NER
import spacy # spacy ist eine Bibliothek für fortgeschrittene Natürliche Sprachverarbeitung
import wikipediaapi # Vorteil: sowohl für 'de' als auch 'en' nutzbar: die wikipediapi ist eine Implementierung der Wikipedia-Api als eine "Wikipedia Python API". So können sehr effizient Zusammenfassungen und Seiten zu gesuchten Titeln angefordert werden.


en_nlp = spacy.load("en_core_web_sm") # Laden des englischen Spacy-Modells für NER
de_nlp = spacy.load("de_cor_news_sm") # Laden des deutschen Spacy-Modells für NER
en_wiki = wikipediaapi.Wikipedia('en') # Laden der englischen wikipediaapi-Version
de_wiki = wikipediaapi.Wikipedia('de') # Laden des deutschen wikipediaapi-Version


def reduceUncertainty(page_title): # Diese Funktion soll abgerufen werden können, falls bei einer erkannten Entität nicht klar ist, ob es sich um eine Firma handelt. Hierdurch sollen Unsicherheiten reduziert werden.
    en_page = en_wiki.page(page_title) # Das Funktionsattribut page_title enthält den gesuchten Firmenname/Wikipediatitel und wird hier in der englischen API gesucht. 
    de_page = de_wiki.page(page_title) # Das Funktionsattribut page_title enthält den gesuchten Firmenname/Wikipediatitel und wird hier über die deutsche API gesucht. 
    org_list = [] # Diese Liste wird leer erklärt, um später alle erwähnten Organisationen in dem Betrefflichen Firmenartikel zu erkennen.

    if not en_page.exists(): # Englische Wikipedia-Seite existiert nicht
        if not de_page.exists(): # Deutsche  Wikipedia-Seite existiert auch nicht
            print("01 - ", page_title) 
            return True # gibt True("company exists") zurück, wenn die Seite nicht gefunden werden kann. So werden nur Seiten entfernt über die wir Zusatzwissen erlangen konnten und am wenigsten drastisch eingegriffen. Je nach Business Case kann dies anders Implementiert werden.
        else: # Deutsche Seite existiert aber Englische Seite existiert nicht - in diesem Fall muss idealerweise ein deutsches NER-Modell verwendet werden
            doc = de_nlp(de_page.summary) # Die Zusammenfassung sollte in den meisten Fällen für die Urteilsfällung ausreichen
            for ent in doc.ents: # Alle erkannten Entitäten werden hier gesammelt
                if (ent.label_ == 'ORG') and (page_title in ent.text): # ... Und anschließend gefiltert: Zunächst sollen nur erkannte Organisationen behalten werden, welche zudem in ihrem Eigennamen den Titel der untersuchten Seite als String enthalten. Zukünftig könnten hier erweiterte Regex-Operationen verwendet werden.
                    org_list.append(ent) # Nur diese, den Kriterien unterliegende Entitäten, werden der Liste von erkannten Organisationen hinzugefügt.
            if(len(org_list)>0): 
                print("11 - ", page_title)
                return True
            else: 
                print("10 - ", page_title)
                return False

    else: # Englische Seite existiert und wird aufgrund Informationsgehalt sowie zuverlässigkeit des englischen Sprachmodells bevorzugt.
        doc = en_nlp(en_page.summary) # hier findet das selbige Vorgehen wie oben statt, nur mit einem englischen NER-Modell, da dieses idealerweise für die englischen Wikipediaseiten verwendet werden sollte.
        for ent in doc.ents: 
          if (ent.label_ == 'ORG') and (page_title in ent.text):
            org_list.append(ent)
        if(len(org_list)>0):
            print("11 - ", page_title)
            return True
        else: 
            print("10 - ", page_title)
            return False

  from .autonotebook import tqdm as notebook_tqdm


Das Obiges Skript durchläuft also den folgenden logischen Prozess bzw. Algorithums:

**existiert Artikel im Englischen Wiki?**
- **JA:** versuche Organisationen mit englischem Modell zu erkennen
- **NEIN:** existiert Artikel im Deutschen Wiki? 
    - **JA:** versuche Organisationen mit deutschem Modell zu erkennen
    - **NEIN:** aus Toleranz als Firma oder nicht Firma zählen.

Im Folgenden wird diese Methode kurz getestet, um Sie später in der Sammlung von Firmennamen anwenden zu können:

In [2]:
# Tests:

page = en_wiki.page("Aldi") # Benennung der gesuchten Wikipediaseite als "Aldi"

print(page.exists()) # Überprüfung ob Seite existiert

print("Page - Summary: %s" % page.summary[0:60]) # Ausgabe eines Zusammenfassungteils

doc = en_nlp(page.summary) # Laden der Seitenzusammenfassung in englisches NLP-Modell

for ent in doc.ents: # Iterieren über erkannte Entitäten
    print(ent.text, ent.label_) # Ausgabe der Entitätenart und des Titels

# Nun kann sich ein Bild gemacht werden, ob die Zusammenfassung Entitäten liefert, die darauf hindeuten, dass es sich bei "Aldi" um eine Firma handelt.

NameError: name 'en_wiki' is not defined

### Sammeln der Firmennamen aus Dump:

Nun können mithilfe der obigen Funktionen und mithilfe von im Folgenden erklärten regex-Mustern mit erhöhter Zuverlässigkeit Firmen aus dem Dump extrahiert werden.
Diese werden anschließend in einer Textdate names "title-categories-map.txt" abgelegt.

In [4]:
pattern = re.compile('.*\[\[Kategorie:(.*)\]\].*') # Regex-Kriterium für Erkennung von "Kategorie" Feld, welches sich unten auf jeder Wikipedia-Seite befindet.
list_of_words = ['hersteller', 'unternehmen', 'Unternehmen', 'Hersteller'] # Sollten keywords dieser Liste in dem "Kategorien"-Feld enthalten sein, liefert dies Hinweise darauf, dass es sich bei dem Thema des Artikels um ein Unternehmen handelt.
uncertainty_markers = ['unternehmens', 'Unternehmens'] # Allerding gibt es auch Ausschlusskriterien, die zunächst nur auf mögliche Unsicherheiten hinweisen: könnte es sich in der Kategorie z.B. um einen Untenehmensberater handeln und nicht direkt ein Unternehmen?
words_re = re.compile("|".join(list_of_words)) # Erstellung des Regex-Musters mit Liste
uncertainty_re = re.compile("|".join(uncertainty_markers)) # Erstellung des Regex-Musters mit Liste

with open("../data/title-categories-map.txt", mode="w") as outfile: # Eine Textdatei wird im Schreibemodus erstellt oder geöffnet und bildet Ablage für erkannte Firmen.
    for i, page in enumerate(tqdm(dump)): # Iteration über Seiten im Dump
        try: # Try-Catch-Block, damit einzelne Fehler nicht zu Abbruch des Schreibprozesses führen - gerade bei großem Dump sehr wichtig
            line = "" # Erstellung der Lines, welche später in Textdatei abgebildet werden.
            line += page.title + "," # Der Titel der Wikipediaseite bildet das erste Attribut der Zeile und wird per Komma separiert
            for revision in page: # Iteration über revisions
                for match in pattern.finditer(revision.text): # Anwendung des ersten Regex-Patterns, welches auf Kategorienfeld hindeutet oder nicht.
                    line += match.group(1) + "," 
            line = line.strip(",")
            #lines.append(line)
            if words_re.search(str(line)): # Anwendung des zweiten Regex-Patterns, um grob zu erkennen, ob es sich bei der seite um die eines Unternehmens handeln könnte, oder nicht.
                if uncertainty_re.search(str(line)): # Das nächste Regex-Pattern weist auf Unsicherheiten hin, da oft "Unternehmens" + "andere Wortteil", darauf hindeuten, dass Artikel selbst nur etwas, mit der Firma im Zusammenhang setehendes, thematisiert.
                    if not reduceUncertainty(page.title): # Um hier mehr Gewissheit zu erlangen werden in den vereinzelten Fällen die eigenen Wikipediaartikel der Entitätenuntersucht. True wird zurückgegeben, wenn es sich um Firma handeln könnte.
                        print(page.title,reduceUncertainty(page.title)) # True bei reduceUncertainty() weist auf Firma hin, in welchem Fall der for-Loop fortgesetzt wird über continue.
                        continue
                    else:
                        outfile.write(line+"\n") 
                else:
                        outfile.write(line+"\n")
        except:
            print("An exception occurred") # Hier wird ein, falls notwendig erweiterbarer Fehlerhinweis ausgegeben.
            continue

38it [00:00, 143.14it/s]

10 -  Liste von Unternehmen mit Namensherkunftserklärungen


178it [00:06, 39.92it/s]

11 -  Aldi


192it [00:08, 15.47it/s]

11 -  Aldi
Aldi True


762it [00:23, 15.59it/s]

10 -  Discounter


1501it [00:41, 27.68it/s]

10 -  Handwerk


1725it [00:48, 21.96it/s]

10 -  Kooperation


2374it [01:07, 28.85it/s]

11 -  Nichtregierungsorganisation


2397it [01:10, 11.94it/s]

11 -  Nichtregierungsorganisation
Nichtregierungsorganisation True


2487it [01:13, 12.04it/s]

10 -  Ole von Beust


2736it [01:19, 15.45it/s]

10 -  Partnerschaft (Rechtsform)


3826it [01:44, 17.72it/s]

10 -  Zentralbank


6851it [02:27, 36.38it/s] 

10 -  Öffentlich-private Partnerschaft


7196it [02:34, 23.74it/s]

10 -  Jürgen Möllemann


7315it [02:37, 29.77it/s]

10 -  Konzern


10621it [03:36, 65.94it/s] 

11 -  Holding


10628it [03:37, 19.20it/s]

11 -  Holding
Holding True


11663it [03:56, 48.92it/s]

11 -  Ich-AG


11674it [03:57, 14.02it/s]

11 -  Ich-AG
Ich-AG True


12179it [04:06, 101.37it/s]

10 -  Genossenschaft


12954it [04:19, 34.26it/s] 

10 -  Fusion (Wirtschaft)


14768it [04:42, 61.98it/s] 

10 -  Leasing


15169it [04:46, 56.45it/s] 

10 -  Sweatshop


19979it [05:36, 116.42it/s]

11 -  Solidarische Landwirtschaft


20010it [05:38, 37.41it/s] 

11 -  Solidarische Landwirtschaft
Solidarische Landwirtschaft True


20746it [05:45, 128.37it/s]

11 -  Compiere


20772it [05:46, 42.83it/s] 

11 -  Compiere
Compiere True


21044it [05:48, 64.08it/s] 

10 -  Supermarkt


21319it [05:51, 94.92it/s] 

11 -  Fleischerei


21330it [05:53, 19.51it/s]

11 -  Fleischerei
Fleischerei True


22691it [06:06, 69.72it/s] 

10 -  Apotheke


22811it [06:08, 57.91it/s] 

10 -  Unternehmensberater


25575it [06:36, 50.97it/s] 

10 -  Due-Diligence-Prüfung


25971it [06:39, 109.54it/s]

10 -  Fürstlich Fürstenbergische Brauerei


26810it [06:46, 82.26it/s] 

10 -  Unternehmensstandort


27961it [06:55, 116.27it/s]

11 -  Handelsvertreter


27975it [06:57, 29.03it/s] 

11 -  Handelsvertreter
Handelsvertreter True


27997it [06:58, 27.40it/s]

10 -  Makler


28098it [06:59, 84.17it/s]

11 -  Unternehmensziel


28135it [07:00, 37.63it/s]

11 -  Unternehmensziel
Unternehmensziel True


28511it [07:04, 108.04it/s]

11 -  Ferienwohnung


28524it [07:05, 28.61it/s] 

11 -  Ferienwohnung
Ferienwohnung True


29251it [07:13, 76.82it/s] 

10 -  Mittelstand
11 -  Familien-AG


29300it [07:14, 44.13it/s]

11 -  Familien-AG
Familien-AG True


30832it [07:29, 35.03it/s] 

10 -  Offener Investmentfonds


32787it [07:47, 88.48it/s] 

10 -  Gewerbe


33432it [07:53, 52.50it/s] 

10 -  Vereinigung beratender Betriebs- und Volkswirte


35568it [08:12, 174.44it/s]

11 -  Antiquariat


35587it [08:13, 33.57it/s] 

11 -  Antiquariat
Antiquariat True


37211it [08:21, 158.74it/s]

11 -  Finanzdienstleistung


37231it [08:23, 38.99it/s] 

11 -  Finanzdienstleistung
Finanzdienstleistung True


38990it [08:29, 133.26it/s] 

10 -  Magnat


41184it [08:41, 206.14it/s] 

10 -  Volker Hauff


43175it [09:00, 36.62it/s] 

10 -  Kommunales Unternehmen


44721it [09:13, 73.54it/s] 

10 -  Asfa-Wossen Asserate


46603it [09:27, 77.45it/s] 

10 -  Florian Gerster


46890it [09:30, 83.56it/s] 

10 -  Marktkapitalisierung


48345it [09:41, 70.69it/s] 

10 -  Bundesverband Deutscher Unternehmensberater


48874it [09:46, 20.88it/s] 

10 -  Einkaufszentrum


49851it [09:52, 75.39it/s] 

10 -  Tabaktrafik


50050it [09:55, 48.47it/s] 

10 -  Jugendherberge


52504it [10:15, 32.96it/s] 

10 -  Albrecht Müller (Publizist)


53892it [10:27, 63.25it/s] 

10 -  Joint Venture


54698it [10:35, 61.79it/s] 

10 -  Unternehmenswert


57796it [10:59, 76.35it/s] 

10 -  Freibank


61827it [11:28, 188.23it/s]

11 -  Outlet


61872it [11:29, 80.25it/s] 

11 -  Outlet
Outlet True


62533it [11:33, 193.27it/s]

11 -  Immobilienfonds


62591it [11:35, 67.79it/s] 

11 -  Immobilienfonds
Immobilienfonds True


62702it [11:36, 61.99it/s]

10 -  Unternehmensberatung


65587it [11:57, 49.36it/s] 

10 -  Wissensbasierte Unternehmenssicht


65986it [12:01, 31.85it/s] 

10 -  Non-Profit-Organisation


66141it [12:04, 35.01it/s]

10 -  Baumarkt


66782it [12:09, 60.41it/s] 

10 -  Baumschule


67246it [12:12, 125.74it/s]

10 -  Kaufhaus
10 -  Warenhaus


67485it [12:16, 41.72it/s] 

10 -  Großhandel


69390it [12:33, 141.78it/s]

11 -  Unternehmensziele


69429it [12:35, 44.71it/s] 

11 -  Unternehmensziele
Unternehmensziele True


70913it [12:46, 64.62it/s] 

10 -  Handelsgewerbe


72341it [13:00, 42.25it/s] 

10 -  Reederei


73522it [13:13, 44.49it/s] 

10 -  Finanzunternehmen


74148it [13:19, 174.63it/s]

10 -  Konsortium
11 -  Landwirtschaftliche Produktionsgenossenschaft


74196it [13:22, 34.88it/s] 

11 -  Landwirtschaftliche Produktionsgenossenschaft
Landwirtschaftliche Produktionsgenossenschaft True


76045it [13:38, 51.63it/s] 

10 -  Bauernhof


77896it [13:54, 57.88it/s] 

10 -  Discounted Cash-Flow


78659it [13:59, 154.22it/s]

11 -  Sowchos


78676it [14:00, 33.02it/s] 

11 -  Sowchos
Sowchos True


78880it [14:02, 99.39it/s] 

11 -  Mergers & Acquisitions


78903it [14:03, 43.46it/s]

11 -  Mergers & Acquisitions
Mergers & Acquisitions True


79244it [14:07, 45.07it/s] 

10 -  Kolchos


79363it [14:08, 60.50it/s] 

10 -  Unternehmensverbindung


79432it [14:09, 67.92it/s]

10 -  Klaus Zumwinkel


79501it [14:10, 97.43it/s] 

11 -  Konsumgenossenschaft


79527it [14:12, 27.66it/s]

11 -  Konsumgenossenschaft
Konsumgenossenschaft True


79930it [14:17, 39.02it/s] 

10 -  Zusammenschlusskontrolle


80145it [14:19, 66.05it/s] 

10 -  Internetagentur


80666it [14:24, 62.81it/s] 

10 -  Charter


81656it [14:31, 67.62it/s] 

10 -  Michael Groß


81752it [14:32, 152.00it/s]

11 -  Value Investing


81793it [14:33, 56.27it/s] 

11 -  Value Investing
Value Investing True


83113it [14:43, 63.67it/s] 

10 -  Unternehmenszusammenschluss


83707it [14:48, 46.46it/s] 

10 -  Reiseveranstalter


83986it [14:50, 120.74it/s]

11 -  Briefkastengesellschaft


84024it [14:52, 44.08it/s] 

11 -  Briefkastengesellschaft
Briefkastengesellschaft True


85450it [15:03, 53.64it/s] 

10 -  Weißer Ritter (Wirtschaft)


86279it [15:09, 127.02it/s]

10 -  Substanzwert


86315it [15:11, 40.58it/s] 

10 -  Liquidationswert


86658it [15:14, 128.70it/s]

11 -  Heimarbeit


86672it [15:15, 30.13it/s] 

11 -  Heimarbeit
Heimarbeit True


87078it [15:18, 256.08it/s]

11 -  Netzwerk-Marketing


87130it [15:21, 38.61it/s] 

11 -  Netzwerk-Marketing
Netzwerk-Marketing True


89918it [15:40, 69.72it/s] 

10 -  Trinkhalle (Verkaufsstelle)


90197it [15:42, 76.39it/s] 

10 -  Studentische Unternehmensberatung


92884it [16:00, 128.68it/s]

10 -  Michael Bürsch


93353it [16:04, 79.05it/s] 

10 -  Cluster (Wirtschaft)


93859it [16:08, 46.81it/s] 

10 -  Tonträgerunternehmen


95106it [16:18, 90.24it/s] 

10 -  Ferienhaus


95839it [16:26, 60.59it/s] 

10 -  Freier Beruf (Deutschland)


98197it [16:40, 101.34it/s]

10 -  Kleine und mittlere Unternehmen


98278it [16:41, 92.14it/s] 

10 -  Rittergut


99688it [16:50, 80.31it/s] 

10 -  Auffanggesellschaft


100702it [16:56, 144.26it/s]

11 -  Versicherungsvermittler


100745it [16:58, 43.71it/s] 

11 -  Versicherungsvermittler
Versicherungsvermittler True


100820it [16:59, 61.31it/s]

10 -  Gutshof


101170it [17:02, 82.99it/s] 

10 -  Margareta Wolf


101954it [17:07, 60.92it/s] 

10 -  Laurenz Meyer


101977it [17:08, 47.39it/s]

10 -  Eigenbetrieb


102857it [17:15, 99.62it/s] 

10 -  Squeeze-out


103144it [17:17, 47.60it/s] 

10 -  Verkehrsunternehmen


103584it [17:21, 63.72it/s] 

10 -  Regiebetrieb (Gebietskörperschaft)


103674it [17:22, 82.15it/s] 

10 -  Günter Verheugen


104110it [17:25, 99.61it/s] 

10 -  Pilgerherberge


105613it [17:34, 82.55it/s] 

10 -  Liste von Konsumvereinen


106780it [17:43, 59.17it/s] 

10 -  Fundamentalanalyse


107280it [17:49, 43.91it/s] 

10 -  Altenheim


109509it [18:02, 96.85it/s] 

10 -  Sexshop


112008it [18:14, 97.79it/s] 

10 -  Headshop


112028it [18:15, 72.83it/s]

10 -  Smartshop


112043it [18:16, 48.05it/s]

10 -  Growshop


112089it [18:17, 56.31it/s]

10 -  Tochtergesellschaft


112598it [18:19, 115.17it/s]

10 -  Trust (Wirtschaft)


114252it [18:27, 78.79it/s] 

10 -  Verbrauchermarkt


115593it [18:35, 105.91it/s]

10 -  Ausbildungsbetrieb


116148it [18:37, 282.15it/s]

11 -  Reformhaus


116178it [18:38, 76.33it/s] 

11 -  Reformhaus
Reformhaus True


118443it [18:49, 212.73it/s]

11 -  Kapitalerhöhung


118499it [18:51, 60.69it/s] 

11 -  Kapitalerhöhung
Kapitalerhöhung True


118807it [18:52, 219.46it/s]

11 -  Schering AG


118832it [18:54, 61.60it/s] 

11 -  Schering AG
Schering AG True


119651it [18:58, 236.59it/s]

11 -  Parfümerie


119712it [18:59, 67.39it/s] 

11 -  Parfümerie
Parfümerie True


121909it [19:12, 188.54it/s]

10 -  Investmentgesellschaft


124168it [19:27, 100.92it/s]

11 -  Unternehmen


124181it [19:32, 11.30it/s] 

11 -  Unternehmen
Unternehmen True


125137it [19:57,  8.89it/s] 

10 -  Wulf von Schimmelmann


126314it [20:07, 25.72it/s] 

10 -  Unternehmer


126446it [20:09, 37.77it/s]

10 -  Buchwert


128244it [20:22, 23.89it/s] 

10 -  Betriebswirtschaftslehre


128483it [20:39,  6.32it/s] 

10 -  Brockenhaus


129825it [21:02,  6.78it/s] 

10 -  Konglomerat (Firmen)


131482it [21:15, 230.85it/s]

11 -  Reisegewerbe


131538it [21:22, 18.91it/s] 

11 -  Reisegewerbe
Reisegewerbe True


133076it [21:36, 15.33it/s] 

10 -  Henninger-Turm


135175it [21:50, 97.98it/s] 

10 -  Strategische Unternehmensführung


135505it [21:51, 237.33it/s]

11 -  Gordon-Formel


135558it [21:54, 60.60it/s] 

11 -  Gordon-Formel
Gordon-Formel True


136463it [22:01, 26.15it/s] 

10 -  Maria Rauch-Kallat


136905it [22:06, 34.98it/s] 

10 -  Weighted Average Cost of Capital


137514it [22:12, 29.16it/s] 

10 -  Gesetz zur Kontrolle und Transparenz im Unternehmensbereich


142150it [22:34, 209.01it/s]

11 -  Unternehmensethik


142174it [22:40, 13.07it/s] 

11 -  Unternehmensethik
Unternehmensethik True


142210it [22:43, 14.38it/s]

10 -  Bäckerei


142932it [22:49, 50.11it/s] 

10 -  Verkehrsverbund


144585it [22:58, 35.37it/s] 

10 -  Aussiedlerhof


144784it [23:01, 46.70it/s] 

10 -  Auerbräu


145578it [23:06, 103.97it/s]

10 -  Heino Wiese


147099it [23:16, 38.13it/s] 

10 -  Sparkassen-Finanzgruppe


155401it [23:57, 108.07it/s]


## C) Extraktion der Infobox

Der Aufbau einer Infobox eines Unternehmens in dessen Wikipedia Artikel ist streng definiert. Die Infobox beginnt mit zwei geschweiften Klammern und dem Typ des Eintrags, in diesem Fall {{{Infobox Unternehmen. Sie enthält maximal 14 Einträge: Name, Logo, Unternehmensform, ISIN, Gründungsdatum, Auflösungsdatum, Sitz, Leitung, Mitarbeiterzahl, Umsatz, Stand, Branche, Website. Erforderlich sind hiervon Unternehmensform sowie Sitz. 

Die Infobox wird mit folgendem Regex Pattern definiert: ((?<={{Infobox Unternehmen.).*?(?<=Homepage).*?(}})).
Es wird der Inhalt nach {{Infobox Unternehmen bis einschließlich dem letzten Eintrag Homepage.*?}} ausgelesen. 

Verbesserungsvorschlag: Einträge einzeln auslesen, sodass nur die Parameter ausgegeben werden, die einen Wert besitzen.

In [None]:
#getting the infobox of a company

infobox = re.compile('((?<={{Infobox Unternehmen.).*?(?<=Homepage).*?(}}))') #regex pattern gets text between keyword 'Infobox Unternehmen' and 'Homepage' 

with open("../data/infobox.txt", mode="w") as outfile:
    for i, page in enumerate(tqdm(dump)):
        line = ''
        for revision in page: 
            revision = re.sub(r'\n', '', revision.text) #removing linebreaks 
            for match in infobox.finditer(revision):
                line += match.group(1) + "\n" 
                line = " ".join(line.split()) #if there are multiple whitespaces, all except for one get deleted 
                outfile.write(line+"\n")
    

In [None]:
num_lines = sum(1 for line in open('../data/infobox.txt'))
print(num_lines)
#Output:697

Nun soll auch für Unternehmen ohne Infobox deren Namen sowie dessen Webseite ausgegeben werden. 

Hierfür wird im ersten Schritt geprüft, ob der Wikipedia Artikel des Unternehmens das Wort Infobox enthält. Dies wird mit folgendem Regex Pattern geprüft: (?!.*?Infobox)^.*$ 
Enthält der Artikel das Wort nicht, so erkennt das Regex Pattern den gesamten Artikel. 
Wird der Artikel als Unternehmensartikel klassifiziert und enthält er das Wort Infobox nicht, wird der Artikelname (=Unternehmensname) ausgegeben. 

Um nun auch die Webseite des Unternehmens ausgeben zu lassen, wird folgendes Regex Pattern angewandt: 
.*((?<=Weblinks...).*?(?=...Einzelnachweise)).*
Dies gibt alle in der Sektion Weblinks eingetragnenen Webseiten aus, worunter oftmals auch die offizielle Unternehmenswebseite fällt. 

Verbesserungsvorschlag: Es werden viele Artikel ausgelesen, die die Kategorie Unternehmsart enthalten, aber keine Unternehmen sind. Diese sind oftmals allgemeine Informationsseiten und enthalten daher auch keine Infobox, weshalb sie vermehrt ausgelesen werden. 
Darüber hinaus wird für die Unternehmenswebseite die ganze Sektion der Weblinks ausgelesen, die oftmals auch andere weiterführende Links enthält. Eine Verbesserungsmöglichkeit bestände darin, den Namen des Unternehmens in den Links zu suchen und nur die Links, die den Namen enthalten, auszugegeben. 

In [None]:
#Companies without infobox
pattern = re.compile('.*\[\[Kategorie:(.*)\]\].*')
list_of_words = ['hersteller', 'unternehmen', 'Unternehmen', 'Hersteller']
words_re = re.compile("|".join(list_of_words))

no_infobox = re.compile('(?!.*?Infobox)^.*$') #gets the whole article if it doesn´t contain 'Infobox'
pattern_website = re.compile('.*((?<=Weblinks...).*?(?=...Einzelnachweise)).*') 


with open("../data/company_name&website.txt", mode="w") as outfile:
    for i, page in enumerate(tqdm(dump)):
        line = ""
        line += page.title
        website = ""
        for revision in page:
            revision = re.sub(r'\n', '', revision.text) #removing the line breaks 
            for match in pattern.finditer(revision):
                line += match.group(1)  
        
        if words_re.search(str(line)):
            for match in no_infobox.finditer(revision): #getting companies without an infobox 
                for match in pattern_website.finditer(revision): #getting the weblinks which contain the company url 
                    outfile.write(page.title+"\n") #printing the page title = company name 
                    website += match.group(1)
                    outfile.write(website+"\n"+"\n")

In [None]:
companies_without_infobox = sum((1/3) for line in open('../data/company_name&website.txt'))
print(companies_without_infobox)
#Output: 136 

Um nun eine Kurzbeschreibung des Unternehmens zu erhalten, wird der erste Satz des Artikels erfasst. Dieser enthält bei Unternehmen den Unternehmensnamen eingefasst in ''' '''. Aus diesem Grund wird folgendes Regex Pattern angewandt, um den ersten Satz auszulesen: 
((?<=\''' ).*?(?<=\.)+) 

In [None]:
pattern = re.compile('.*\[\[Kategorie:(.*)\]\].*')
pattern = re.compile('.*\[\[Kategorie:(.*)\]\].*')
list_of_words = ['hersteller', 'unternehmen', 'Unternehmen', 'Hersteller']
words_re = re.compile("|".join(list_of_words))

pattern_firstsentence = re.compile('((?<=\''' ).*?(?<=\.))')
#Erster Satz fängt meistens mit dem Firmennamen in ''' ''' an. Dann wird der erste Punkt gesucht.

with open("../data/firstsentence.txt", mode="w") as outfile:
    for i, page in enumerate(tqdm(dump)):
        line = ""
        line += page.title
        firstsentence = ""
        for revision in page:
            for match in pattern.finditer(revision.text):
                line += match.group(1)  
        
        if words_re.search(str(line)):
            for match in pattern_firstsentence.finditer(revision.text):
                firstsentence += match.group(1)
                firstsentence.replace(r'\*', '')
            outfile.write(page.title+"\n")
            outfile.write(firstsentence+"\n"+"\n")

In [None]:
firstsentences = sum((1/3) for line in open('../data/firstsentence.txt'))
print(firstsentences)
#Output: 1570