# Projekt: Erkennung von unwissenschaftlicher Sprache in Hausarbeiten

Eine professionelle Hausarbeit sollte eine wissenschaftliche, akademische und objektive Sprache verwenden. Mit den Kenntnissen und Werkzeugen von Natural Language Processing (NLP) führe ich eine Analyse einer Hausarbeit in diesem Projekt durch, damit der Computer unwissenschaftliche Sprache in der Hausarbeit automatisch erkennt. 

1. Tabuwörter erkennen:

    - Vage Formulierungen
    - Subjekte Wörter
    - Überstreibungen
    - Subjekte Pesonalpronomen
    - Unnötig komplizierte Formulierungen
    - Füllwörter
    - „welches“ nicht als Relativpronomen verwenden
    
    
2. Anfang der Sätze mit Konjunktion erkennen:

    Die mit der Konjunktionen zum Beispiel: *weil, wenn, dass, dann, und*, beginnende Sätze machen die Hausarbeit unprofessionelle.
   

In [1]:
# Liste der Tabuwörter 

vage_formulierungen = ["ziemlich", "ein bischen", "ein paar", "im Großen und Ganzen", "viel", "wenig", "Dinge", "Sache"]

subjekt_woerter = ["schön", "hässlich", "wunderschön", "fantastisch", "super"]

uebertreibungen = ["sehr", "unglaublich", "massenhaft", "extrem", "hervorragend", "verhältnismäßig", "relativ", "super"]

subjekte_personalpronomen = ["ich", "man", "mich", "mir", "du", "dich", "dir", "Sie", "wir"]

unnoetig_komplex = ["mittels", "ist es von Wichtigkeit", "nebst", "Methodiken", "Thematiken", "von Erfolg gekrönt", "Erbringung von Leistungen",
                    "Fragen meinerseits", "folglich", "letzten Endes", "Zu guter Letzt", "Abänderungen", "bis dato", "ist nicht von Nöten", 
                    "die wirkliche Realität", "die genommene Entwicklung", "Unmengen"]

fuellwoerter = ["allgemein", "also", "bekanntlich", "bloß", "doch", "eher", "einfach", "einigermaßen", "etwa", "freilich", "gar", "halt", 
                "immerhin", "jedenfalls", "lediglich", "letztlich", "natürlich", "offenbar", "schließlich", "schon", "tatsächlich", "überhaupt", 
                "unbedingt", "völlig", "wohl", "gewisse", "bzw.", "etwas", "usw.", "ein bestimmtes", "evtl.", "u.a.", "letztendlich", "schlussendlich", 
                "sicherlich", "bei Bedarf", "in der Tat", "üblicherweise", "Problematiken", "weitestgehend", "nämlich", "im Grunde genommen", 
                "in gewisser Weise", "auf unterschiedlichste Weise", "Sinn und Zweck", "dementsprechend", "schlichtweg", "selbstverständlich", 
                "sprich", "durchaus", "bereits", "sozusagen", "Unmengen", "ab und zu", "ab und an"]

relativpronomen  = ["welche", "welches", "welchem", "welcher"]



Wir machen eine Liste der Konjunktionen mit Großschreibung, um Sätze zu finden, die mit diesen Wörtern beginnen.

In [2]:
# Liste der Konjunktionen mit Großschreibung

neben_satz = ["Wenn", "Weil", "Denn", "Und", "Dass"]

In [3]:
# spacy importieren 

import spacy
nlp = spacy.load("de_core_news_sm")

# Den Text öffnen, zeilenweise einlesen und wieder schließen
textin = open('phan_hausarbeit.txt', 'r', encoding='utf-8')
lines = textin.readlines()
textin.close()


word_list = []      # Öffnen einer Liste für alle Tabuwörter und en, mit der die Sätze beginnen
sent_list = []      # Liste für alle Sätze, die unwissenschaftliche Sprache enthalten
summe = []          # Liste alle Fehler

for line in lines:
    line = line.replace('\n', ' ') 
    doc = nlp(line)
    for sent in doc.sents:
        sdoc = nlp(str(sent))
        for token in sdoc:
            # alle Tabuwörter in der Hausarbeit suchen   
            if token.text in vage_formulierungen:        # Wenn Token eine vage Formulierung ist
                word_list.append(token.text)             # Dann nehme ich ihn in Tabuwörterliste auf
                sent_list.append(sent.text)              # Dann nehme ich den Satz auf, der den Token hat
                summe.extend(word_list)                  # Alle Token von word_list werden auf der summe addiert
                print(list(zip(word_list, sent_list)))   # der Token und der Satz anzeigen
                print("    =>  Das Wort oder der Ausdruck " "\"" + token.text + "\" " "ist eine vage Formulierung. Präzisieren Sie Ihre Aussage. \n")
                word_list = []                           # schließen die vage Formulierung ab 
                sent_list = []                           # schließen den Satz ab
                
            elif token.text in subjekt_woerter:
                word_list.append(token.text)
                sent_list.append(sent.text)
                summe.extend(word_list)
                print(list(zip(word_list, sent_list)))
                print("    =>  Das Wort " "\"" + token.text + "\" " "ist ein subjetives Wort. Formulieren Sie Ihre Aussage um. \n")
                word_list = []
                sent_list = []
                
            elif token.text in uebertreibungen:
                word_list.append(token.text)
                sent_list.append(sent.text)
                summe.extend(word_list)
                print(list(zip(word_list, sent_list)))
                print("    =>  Das Wort " "\"" + token.text + "\" " "ist eine Übertreibung. Formulieren Sie Ihre Aussage um. \n")
                word_list = []
                sent_list = []
                
            elif token.text in subjekte_personalpronomen:
                word_list.append(token.text)
                sent_list.append(sent.text)
                summe.extend(word_list)
                print(list(zip(word_list, sent_list)))
                print("    =>  Das Wort oder der Ausdruck " "\"" + token.text + "\" " "ist ein sujektives oder unklares Personalpronomen. Formulieren Sie Ihre Aussage um. \n")
                word_list = []
                sent_list = []
            
            elif token.text in unnoetig_komplex:
                word_list.append(token.text)
                sent_list.append(sent.text)
                summe.extend(word_list)
                print(list(zip(word_list, sent_list)))
                print("    =>  Das Wort oder der Ausdruck " "\"" + token.text + "\" " "ist eine unnötig komplizierte Formulierung. Ersetzen Sie einfachere Formulierung. \n")
                word_list = []
                sent_list = []
                
            elif token.text in fuellwoerter:
                word_list.append(token.text)
                sent_list.append(sent.text)
                summe.extend(word_list)
                print(list(zip(word_list, sent_list)))
                print("    =>  Das Wort oder der Ausdruck " "\"" + token.text + "\" " "ist ein Füllwort oder hat wenig oder keinen Inhalt. Entfernen Sie das Wort aus Ihren Aussage. \n")
                word_list = []
                sent_list = []
            
            elif token.text in relativpronomen:
                word_list.append(token.text)
                sent_list.append(sent.text)
                summe.extend(word_list)
                print(list(zip(word_list, sent_list)))
                print("    =>  Das Wort " "\"" + token.text + "\" " "sollte nicht als Relativpronomen verwenden. Ersetzen Sie andere Formulierung. \n")
                word_list = []
                sent_list = []
             
            # alle Konjunktionen, die den Satz anfangen, suchen
            elif token.text in neben_satz:
                word_list.append(token.text) 
                sent_list.append(sent.text)
                summe.extend(word_list)
                print(list(zip(word_list, sent_list)))
                print("    =>  Das Wort " "\"" + token.text + "\" " "sollte nicht am Anfang des Satzes stehen. Formulieren Sie Ihre Aussage um. \n")
                word_list = []
                sent_list = []

print("Die Anzahl der Fehler in der Hausarbeit:")
print(len(summe)) 

[('wunderschön', 'Das ist total wunderschön.')]
    =>  Das Wort "wunderschön" ist ein subjetives Wort. Formulieren Sie Ihre Aussage um. 

[('Dinge', 'Heutzutage erscheinen die Begriffe "Industrie 4.0", künstliche Intelligenz, Internet der Dinge oder Big Data populär auf den Medien.')]
    =>  Das Wort oder der Ausdruck "Dinge" ist eine vage Formulierung. Präzisieren Sie Ihre Aussage. 

[('viel', 'Kurz gesagt, er muss viel Zeit damit verbringen, dutzende von Websites zu besuchen, bevor er eine Entscheidung trifft.  ')]
    =>  Das Wort oder der Ausdruck "viel" ist eine vage Formulierung. Präzisieren Sie Ihre Aussage. 

[('man', 'Grundsätzlich kann man jederzeit und überall auf Informationen zugreifen.')]
    =>  Das Wort oder der Ausdruck "man" ist ein sujektives oder unklares Personalpronomen. Formulieren Sie Ihre Aussage um. 

[('usw.', 'Obwohl Suchmaschinen wie Google, Bing usw. ausgefeilte statistische Methoden verwenden, liefert diese Technik nur stichwortbasierte Ergebnisse bei B

### Nachteil:

Es gibt noch Problem, wenn das Wort "sie" (Singular und Plural, informel) den Satz anfangt, ist es mit der Großschreibung. Es kann sich "sie" und "Sie" unterscheiden.

### Quelle: 

1. Melanie Siegel, *Wissenschaftliche Sprache in Hausarbeiten und Abschlussarbeiten*
2. Daniela Maizner (23. September 2015, aktualisiert am 27. Juli 2020) in Scribbr *‚Verbotene‘ Wörter in einer Abschlussarbeit*,
https://www.scribbr.de/wissenschaftliches-schreiben/verbotene-woerter-in-einer-abschlussarbeit/
3. Blog von topcorrect (28. Juli 2017), *Tabuwörter in wissenschaftlichen Arbeiten*, 
https://www.topcorrect.de/blog/tabuwoerter-in-wissenschaftlichen-arbeiten/
