Skip to content

notesjor/corpusexplorer2.0

master
Switch branches/tags

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Code

Latest commit

 

Git stats

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
 
 
 
 
 
 
 
 
 
 

CorpusExplorer2.0

Software für Korpuslinguist*innen und Text-/Data-Mining Interessierte. Der CorpusExplorer vereint über 45 interaktiven Auswertungsmöglichkeiten mit einer einfachen Bedienung. Routineaufgaben wie z. B. Textakquise, Taggen oder die grafische Aufbereitung von Ergebnissen werden vollständig automatisiert. Die einfache Handhabung erleichtert den Einsatz in der universitären Lehre und führt zu schnellen sowie gehaltvollen Ergebnissen. Dabei ist der CorpusExplorer offen für viele Standards (XML, CSV, JSON, R, uvm.) und bietet darüber hinaus ein eigenes Software Development Kit (SDK) an, mit dem es möglich ist, alle Funktionen in eigene Programme zu integrieren.

Key Features

  • Unterstützt über 100 unterschiedliche Datei-/Textformate für Im-/Export - inkl. vieler linguistischer XML-Formate.
  • Integrierter Webcrawler zum Sammeln eigener Webkorpora.
  • Sehr einfache Programmoberfläche / Korpus mit wenigen Mausklicks automatisch bereinigen und annotieren - direkt analysefertig.
  • Anbindung unterschiedlicher Tagger - z. B. TreeTagger, OpenNLP, Stanford POS, uvm.
  • Erlaubt Analyse unterschiedlichster Quellen - z. B. Transkripte, Zeitungsartikel, PDF, E-Mails, Tweets, Webseiten, eBooks, uvm.
  • Im Hintergrund arbeitet eine sehr schnelle In-Memory Datenbank - speziell für die Korpusanalyse entwickelt. Diese Datenbank kann gegen verschiedene SQL- (MySQL, SQLite) und NoSQL-Datenbanken (ElasticSearch) ausgetauscht werden.
  • Unbegrenzte Korpusgröße - Verteilte Verarbeitung möglich.
  • Über 45 Visualisierungen - z. B.: Frequenzanalyse, N-Gramme, Phrasen, Kookkurrenzen, KWIC, DIFF, Stilmetriken, Korpusverteilung.
  • Auswertungen/Visualisierungen werden vom Ausgangsmaterial/Korpora vollständig durch Schnappschüsse isoliert. Dadurch sind Ergebnisse reproduzierbar, selbst wenn sich das Korpusmaterial ändert.
  • Per Shell/Konsole steuerbar (siehe https://github.com/notesjor/CorpusExplorer.Terminal.Console). Dies ist eine gute Anlaufstelle, wenn Sie den CorpusExplorer in eigene Skripte (R, python, etc.) integrieren möchten.
  • Flexibles SDK (Software Development Kit) für alle .NET-Sprachen (https://de.wikipedia.org/wiki/Liste_von_.NET-Sprachen). Erlaubt eigene Erweiterungen für den CorpusExplorer zu entwickeln oder den CorpusExplorer in eigene Anwendungen zu integrieren.

Systemvoraussetzungen:

Download / Handbuch / Video-Anleitung / Erweiterungen

http://www.corpusexplorer.de