# Intro: Der Fall Enron

Nach dem wir uns Vorgehensweisen und unterschiedliche Technologien angeschaut haben, ist es nun an der Zeit uns einer ersten Projektidee zu widmen und das Datenbeschaffen zu üben.

Dies machen wir im Rahmen von Enron, einem der größten Wirtschaftsskandale in der Geschichte.

## Zum Hintergrund von Enron:
Enron galt einst einmal als eines der wertvollsten Vorzeigeunternehmen bis es 2001 zur Auflösung auf Grund von dreisten Bilanzfälschungen kam. 22000 Mitarbeiter verloren von einem Tag auf den anderen ihren Job. Millionen Privatinvestoren ihre Investitionen und Aktienanteile.

Der Fall erregte großes Aufsehen und führte zu drastischen Verschärfungen in den gesetzlichen Vorschriften zur Unternehmensberichterstattung. 






---

# Aufgabe 1: Daten herunterladen

Um die Idee nun aufzugreifen, benötigen wir Daten. 
Im Allgemeinen fallen uns drei Beschaffungsmöglichkeiten ein, um an Daten heranzukommen:

A) Die Daten liegen im Netz zum direkten Download bereit (wenn wir Glück haben sogar im kuratierten Zustand). Dabei können die Daten beispielhaft in folgenden Formaten sein:

- strukturiert: csv, xls, xlsx, parquet, orc 
- semistrukturiert: html, json, yaml, xml, rdf, sql 
- unstrukturiert: ppt, pptx, pdf, docx, zip, pst, png, img, mp3, avi, mp4 

B) Die Daten werden über eine Schnittstelle (API) angeboten und können darüber abgegriffen werden

C) Die Daten, die uns interessieren sind nicht einfach herunterladbar und wir müssen sie von Webseiten aus der HTML-Repräsentation abgreifen (web scraping).


## Enron Dataset
Im Fall von Enron haben wir Glück.
Beim Aufrollen des Falles wurden von 158, weitesgehend aus dem Management, 0,6 Mio E-Mail Nachrichten gesammelt und im Nachgang über die Federal Energy Regulatory Commision der Öffentlichkeit zur Verfügung gestellt.

Die Daten sind u.a. hier zu finden:
https://www.cs.cmu.edu/~./enron/

Seitdem wird dieser Enron-Datensatz auch gerne für eDiscovery/EDA/ML/NLP/Spam oder im Rahmen von Research verwendet.

Der Datensatz ist so populär, dass es dafür sogar einen eigenen Wikipedia-Artikel dazu gibt:
https://en.wikipedia.org/wiki/Enron_Corpus

Wir möchten als erstes  die Datei herunterladen. Dafür gibt es in Python zahlreiche Module. Ein sehr populäres ist `requests`. 
`requests` macht es uns einfach Webseiten mit Python anzusteuern. Für dieses Modul wird in der Regel kein Spitzname verwendet. Importiere `requests`.

Daten werden im Internet meist mit Hilfe von HTTPS (Hypertext Transfer Protocol Secure) übertragen. Das ist eine verschlüsselte Variante von HTTP ([Hyptertext Transfer Protocol](https://de.wikipedia.org/wiki/Hypertext_Transfer_Protocol)). Dabei wird durch den Browser eine Anfrage an den Server geschickt und dieser schickt eine Antwort zurück.

Durch `requests` können wir die Anfrage auch ohne Browser an den Webserver schicken. Dazu stellt das Modul die Funktion `requests.get()` bereit. Speichere die Adresse einer Zip-Datei als *string* in der Variablen `website_url`. Überreiche diese Variable an `requests.get()` und speichere das Ergebnis als `response`. Drucke es anschließend aus.

Hinweis: Falls der Download über https://www.cs.cmu.edu zu lange dauert, gibt es hier eine Alternative: https://github.com/AlexHiesch/Enron/blob/master/enron.tar.gz?raw=true



Du solltest etwas wie `<Response [200]>` erhalten haben. Was bedeutet das jetzt? Auf unsere Anfrage, uns alle Informationen zum Abbilden der Wikipediaseite zu senden, haben wir eine Antwort erhalten. Diese hat den Statuscode 200. Für Statuscodes gibt es einige Standardcodes. Sie lassen sich in 5 Kategorien einteilen, die durch die erste Zahl angegeben werden:

| Zahlenraum | Bedeutung |
| ---------- | --------- |
| 1XX | Die Anfrage wurde erhalten (Information) |
| 2XX | Die Anfrage wurde erhalten und akzeptiert (Erfolgreiche Anfrage) |
| 3XX | Weitere Aktionen werden durchgeführt, um die Anfrage zu erfüllen (Umleitung) |
| 4XX | Die Anfrage kann nicht umgesetzt werden, was vermutlich am Client liegt (Client-Fehler) |
| 5XX | Die Anfrage kann nicht umgesetzt werden, was vermutlich am Server liegt (Server-Fehler) |

Die nächsten beiden Zahlen spezifizieren die Antwort. Eine umfangreiche Liste der Codes kannst du [hier](https://en.wikipedia.org/wiki/List_of_HTTP_status_codes) finden.

Wir haben eine 200 erhalten. Dieser Code steht dafür, dass alles rund gelaufen ist. Weitere wichtige Codes sind folgende:
* 401 (der Zugriff auf die gesuchten Informationen wurde verweigert, evtl. wegen fehlender/fehlerhafter Authentifizierung)
* 404 (die gesuchten Informationen wurden nicht gefunden)
* 429 (zu viele Anfragen wurden in einem bestimmten Zeitfenster gestellt)

Schauen wir uns unsere Antwort nun etwas genauer an. Welchen Datentyp hat sie?

`response` hat den Typen `Response`. Eine `Response` enthält einige Informationen, die in unterschiedlichen Attributen stecken. Der Statuscode steckt als `int` im Attribut `my_response.status_code`. Wenn wir automatisierte Anfragen stellen, macht es Sinn den Status zu überprüfen, bevor wir weiter damit arbeiten. Dazu bietet uns `requests.codes` alle Codes für Menschen lesbar an. So können auch Personen den Code verstehen, die keine oder nur wenig Erfahrung mit Webseiten haben.

Wir werden nur den Code `requests.codes.ok` brauchen. Er sagt uns, dass alles ok ist (Code 200). Vergleiche diesen mit `response.status_code`, sind sie gleich?

Der Statuscode sollte gleich  zu `requests.codes.ok` sein. Wenn wir auf Nummer sicher gehen möchten, können wir eine Fehlermeldung ausgeben, falls der Statuscode nicht passt. Dazu haben wir die Methode `my_response.raise_for_status()`. Das probieren wir mal aus. Nutze `requests`, um die Website-Daten von https://httpbin.org/status/404 zu erhalten. Speichere die Antwort als `response_404` ab und nutze die Methode `my_response.raise_for_status()`. Was passiert?

In [None]:
website_url = 'https://httpbin.org/status/404'
response_404 = requests.get(website_url)
response_404.raise_for_status()

Wir erhalten die Fehlermeldung `HTTPError: 404 Client Error: NOT FOUND for url: https://httpbin.org/status/404`. Den Statuscode 404 hast du vielleicht schon einmal in deinem Browser gesehen, wenn eine Website nicht erreichbar ist. Was passiert, wenn du versuchst eine Fehlermeldung für die Wikipediaseite, also mit `response`, zu erzeugen?

Bei mir ist nichts passiert. Das ist ein gutes Zeichen! Wenn `my_response.raise_for_status()` keine Fehlermeldung erzeugt, dann wurde die Anfrage vom Server verarbeitet und wir haben eine Antwort erhalten, mit der wir weiterarbeiten können.

Neben dem Statuscode können wir weitere Informationen aus unserer Antwort ziehen. Drucke das Attribut `my_response.headers`.

Der Output ist auf den ersten Blick etwas unübersichtlich. Aber an den geschweiften Klammern erkennen wir, dass es sich vermutlich um ein *dictionary* handelt. Das stimmt so aber noch nicht ganz. Da die Headerdaten für die Kommunikation mittels HTTP als *case-insensitive* definiert wurden, gilt das auch für `my_response.headers`. Es ist also egal, ob die Buchstaben der *keys* groß oder klein sind.
`my_response.headers` enthält Metadaten zu der Antwort, die wir erhalten haben. Welche Werte stecken hinter den *keys* `'content-type'` und `'Last-Modified'`? Gib sie aus.

Tipp: Wie eben erwähnt sind die *keys* hier, im Gegensatz zum normalen `dict`, nicht anfällig für Groß- und Kleinschreibung. Es ist also egal, ob du `'content-type'` oder `'CONTENT-type'` schreibst.

Vergleiche die `'content-length` mit dem tatsächlich erhalten Inhalt in `response.content` in MB. Sind die Angaben identisch? 

Der Download läuft über Colab statt über unsere Internetleitung zuhause.


Lasst uns das Ganze erst mal aus unserem Speicher über ein file handler `with open(Dateizumrausschreiben) as file:` und der `write`-Methode lokal auf die Festplatte unter `enron.tar.gz` ablegen.

---

# Aufgabe 2: Daten entpacken

Ob dies auch geklappt hat, sehen wir über `os.listdir()`. Vergesst den notwendigen import vorher dafür nicht.

Jetzt heißt es, die gepackte Datei zu entpacken. Auch hier wieder gibt es viele Module in Python. Wir importieren dafür `tarfile` und benutzen die Methode `open` in r:gz-Mode und `extractall`

Wir haben jetzt 2,6GB an Daten in entpackter Form. Ein erneutes `os.listdir("neues Verzeichnis")` verrät uns die Dateistruktur. 



Wie wir sehen, ist nach maildir alles nach den Mitarbeiterkürzeln angeordnet. Vielleicht wäre es interessantest direkt an der Spitze anzufangen und Nachforschungen anzustellen, welche E-Mail Inhalte für `lay-k` vorliegen. Dies war der CEO Kenneth Lee Lay, der zusammen mit Jeffrey Skilling ins Gefängnis musste.

Wir benutzen hier os.walk, was uns drei Sachen bei einem gegeben Verzeichnis erforscht und zurückgibt: 
- Verzeichnis
- Unterverzeichnis
- Dateinamen

Probier dies mal aus und druck die Werte aus.

---

# Aufgabe 3: Daten einlesen


Wir sehen die ganzen Daten so, wie sie damals im eingesetzten E-Mail Programm vorlagen. Die Dateien selbst MIME-Format:
https://en.wikipedia.org/wiki/MIME

Dies ist ein Standard, der sich für E-Mails entwickelt hat und inwischen auch darüber hinaus im Web als auch in Linux Desktops Einsatz findet. MIME ermöglicht 

Wir können die Dateien zwar nativ einlesen mit open, aber um hier nur den Content zu parsen müssen wir auch hier wieder ein Python-Model namens `email.parse` einsetzen. Dies können wir über `from email.parser import Parser` importieren.

Probier das mit einer ersten E-Mail aus:

Erstelle einen File-Handler wie für die tar.gz s.o. und lies die Datei `maildir/lay-k/all_documents/1` als Variable `data`
ein, um es dann an `Parser().parsestr(data)` zu übergeben. Speichere die Rückgabe unter der Variable `email`



Die Metadaten sind jetzt einzeln abrufbar über das email-Objekt. 

Gib folgende Inhalte aus:

`mail['to']`

`email['from']`

`mail['subject']`

Der eigentliche Inhalt der E-Mail ist im Body. Diesen erhält man über `email.get_payloud()`

Gib ihn bitte aus

--- 

# Aufgabe 4: Metadaten auswerten

Prima!

Jetzt können wir E-Mails lesen und verbinden das mit oder `os.walk`-Methode von weiter oben, um als erster Mal zu analyisieren mit wem der CEO am häufigsten Kontakt hatte.

Anbei hast du eine vordefinierte Funktion.

Um diese zu nutzen erstelle bitte drei leere Listen:

`to_email_list = []`

`from_email_list = []`

`email_body = []`



In [None]:
# hier Listen initialisieren


In [None]:
def clean_string(s: str) -> str:
  '''Funktion um Strings von Leerzeichen, Tabs und Umbrüchen zu bereinigen'''
  s = s.replace("\n", "")
  s = s.replace("\n\\", "")
  s = s.replace("\t", "")
  s = s.replace(" ", "")
  return s

def email_analyse(inputfile, to_email_list, from_email_list, email_body):
  '''Funktion um jeweilige E-Mails zu parsen und daraus eine Absender-/Empfänger- 
  als auch eine E-Mail-Body-Liste zu erstellen''' 
  with open(inputfile, "r",errors="ignore") as f:  
      data = f.read()
 
  # email to enthält unter Umständen viele Empfänger und muss separat 
  # behandelt werden 
  email = Parser().parsestr(data)

  if email['to']:
    email_to = clean_string(email['to'])
    email_to = email['to'].split(",")

    for email_to_1 in email_to:
      email_to_1 = clean_string(email_to_1)
      to_email_list.append(email_to_1)  

  from_email_list.append(email['from'])

  email_body.append(email.get_payload())

In [None]:
# wir iterieren nun über alle E-Mail vom CEO und benutzen dabei os.path.join um auch den absoluten Dateipfad zu erhalten
# jede einzelne E-Mail jagen wir über die email_analyse-Funktion, dafür bist du wieder hier an der Reihe


In [None]:
# Mit wie vielen Personen stand der CEO in Kontakt?


In [None]:
# Wir werten die Top 10 Absender und Empfänger aus
import collections
print("\nTo email adresses: \n")
print(collections.Counter(to_email_list).most_common(10))

 
print("\nFrom email adresses: \n")
print(collections.Counter(from_email_list).most_common(10))

Versucht beide Listen nun zu visualisieren

In [None]:
# Top 10 E-Mail Empfänger

In [None]:
# Top 10 E-Mail Sender

hmm die meisten E-Mails stammen von Rosalee Flemming. Könnt ihr ahnen weshalb das so war?

---

# Aufgabe 5: Daten aufbereiten über POS-Tagging





*Natural Language Processing*, kurz NLP, ist ein Teilgebiet der Informatik und künstlichen Intelligenz, das sich mit der Interaktion zwischen Computern und menschlichen (natürlichen) Sprachen befasst.

Im Deutschen nennen wir dies auch Computerlinguistik.
https://de.wikipedia.org/wiki/Computerlinguistik

Viele der uns bekannten Technologien basieren auf Anwendungen von NLP. Zum Beispiel haben viele Smartphones und Online-Suchmaschinen Textvorhersagefunktionen, die vorhersagen, was du eingeben möchtest. Das machen sie basierend auf den Buchstaben oder Wörtern, die du bereits getippt hast. Online-Übersetzungstools basieren auf NLP-Techniken, um Wörter zwischen Sprachen zu übersetzen. Die automatische Rechtschreibprüfung ist ebenfalls ein Produkt von NLP.

In unserem Beispiel gibt es bestimmt viele interessante Möglichkeiten, die wir hier umsetzen könnten. Spontan fällt mir hier ein: 

- Welche Wörter treten am häufigsten auf?
- Zu welchen Uhrzeiten werden die meisten E-Mails empfangen/versendet?
- Wer schreibt/empfängt die kürzesten/längsten E-Mails?
- Zu welchen Themen (Topic Modeling)?
- Können wir die E-Mails auch klassifizieren hinsichtlich SPAM/Kein-SPAM? (Text-Tagging)
- Welches Sentiment haben die meisten E-Mails (Natural Language Understanding)?
- Wie hat sich dies über die Zeit hin entwickelt?
- Können wir anhand von bestimmten Wörtern oder Topics Beweise ausfinden machen für die damaligen Straftaten?
- Lassen sich Graphen erstellen um Beziehungsmuster in der Organisation zu identifizieren?
- Können E-Mail Text antrainiert werden, so dass man komplett neue Texte kreieren kann? (Natural Language Generation)

Und vieles mehr....ihr habt bestimmt auch einige Ideen, die euch in den Sinn kommen.

Da wir uns mit NLP jedoch nur am Rande befassen, beschränken wir es hier an der Stelle bei der Textaufbearbeitung und einer einfachen Analyse. 


Gib hierzu die letzten 20 E-Mails vom CEO aus.

Starker Tobak

Man liest regelrecht die Untergangsstimmung und Verzweiflung aus den Texten heraus:

- *I realize that times are tough, but this is really twisting the knife that is already deeply embedded in the majority of employees.  Have you ever gone down to the Body Shop in the mornings or at noon to see how many employees use the facility for health and stress relief purposes?  We've done a lot of things during the past few weeks to kill morale, but this is a new low.  Are you going to do anything about it?  I think that a lot of people would like to know.*


- *The NYSE's delisting of our stock will not have an impact on Enron's business, and we will continue to trade in the OTC market.*

- *The road to Enron was not an easy one, and  my  decision to seek employment here was difficult in light of the way Enron is portrayed in the back offices of the energy industry.  Enron is said to be a sweatshop, a backstabbing work environment and that the executive levels of management at Enron fuel, foster and support this type of mentality.*


In Python gibt es eine Reihe von NLP-Modulen. In diesem Kapitel verwenden wir `spacy` ([siehe offizielle Dokumentation](https://spacy.io/)) und `nltk` ([siehe offizielle Dokumentation](https://www.nltk.org/)). Importiere diese beiden Module in der untenstehenden Zelle.

`spacy` und `nltk` bieten ähnliche Werkzeuge für NLP, haben aber unterschiedliche Ansätze. 

Funktionen aus `nltk` nehmen `str`-Werte entgegen und geben `str`-Werte als Ausgabe zurück. `spacy` verwendet einen objektorientierten Ansatz und gibt meist Dokumentenobjekt mit eigenen Attributen und Methoden zurück. Viele Anwender empfinden `spacy` als zeit- und speichereffizienter als `nltk` und damit als besser geeignet für die Produktion. 

Aus diesem Grund werden wir `spacy` verwenden, um die meisten NLP-Aufgaben zur Bereinigung von Textdaten durchzuführen, mit Unterstützung bestimmter Funktionen und Methoden von `nltk`, `re` und `string`.

Um dies zu tun, brauchen wir ein statistisches Modell von `spacy`. Die Wahl des Modells sollte von der Sprache des zu analysierenden Korpus abhängen. Die vollständige Liste findest du [hier](https://spacy.io/usage/models). 

Importiere `sentences` von `spacy.lang.en.examples` und lade das statistische Modell für Englisch `en_core_web_sm` als `str` mit der Funktion `spacy.load()`. Speichere das Ergebnis in der Variable `nlp`.

`nlp` hat den Datentyp `Language`, welcher alle Komponenten enthält, die zur Verarbeitung von englischsprachigem Text benötigt werden. Gib den Typ aus.

Um Textdaten richtig zu analysieren, sollten Modelle des maschinellen Lernens in der Lage sein, Strukturen im Text zu erkennen, wie z.B. einzelne Wörter und deren Sprachanteile. Deshalb müssen wir zunächst eine Tokenisierung durchführen, bei der der Korpus in sinnvolle linguistische Einheiten, wie Wörter oder Sätze, unterteilt wird. Diese werden dann *token* genannt.

In unserem Beispiel, macht es Sinn, die Daten in einzelne Wörter zu trennen, da wir bereits viele Textnachrichten haben.

Um dies zu tun, müssen wir ein `Doc`-Objekt erstellen, das den Text im Korpus enthält. Dazu nutzen wir das `Language`-Objekt (in unserem Beispiel ist das die Variable `nlp`) und überreichen ihm den Text, den wir analysieren möchten. 

Wir schauen uns mal die 2. Mail an und wandeln sie in ein `Doc`-Objekt.

In [None]:
print(email_body[2])
doc = nlp(email_body[2])

Ein `Doc`-Objekt ist eine Folge von `token`-Objekten, die die einzelnen linguistischen Einheiten sind, die wir für unsere Analyse benötigen. Durch sie können wir mit einer `for`-Schleife durchiterieren. der Text eines `token` steckt im Attribut `my_token.text`.

In der folgenden Zelle erzeuge bitte mit Hilfe einer *list comprehension* eine Liste mit den Textinhalten der einzelnen `token`.

In [None]:
doc_tokens = [token.text for token in doc]

print(doc_tokens)
print(len(doc_tokens))

`doc` ist nun in Wörter und Satzzeichen unterteilt. `spacy` erkennt einzelne `token` vor allem durch die Trennung durch Leerzeichen. Es gibt jedoch einige Ausnahmen. Zum Beispiel würden Kontraktionen von zwei Wörtern im Englischen wie *"I'll"* als "I" und *"will"* tokenisiert werden. [Hier](https://spacy.io/usage/spacy-101#annotations-token) kannst du mehr darüber erfahren, wie Tokenisierung mit `spacy` funktioniert.

Führe diesen Vorgang bitte für die 5093. Mail aus und benutze hierfür andere Variablennamen. 

`spacy` teilt eine Nachricht nicht nur auf, sondern führt auch *parts of speech tagging* (POS-Tagging) durch. Für jeden `token` wird also angegeben, um welche Art Wort es sich handelt, wie z.B. Substantive (`'NOUN'`) oder Satzzeichen (`'PUNCT'`).

Darauf können wir mit dem Attribut `my_token.pos_` zugreifen.

In [None]:
token_pos = [[token.text, token.pos_] for token in doc]
print(token_pos)

Probier das auch mal mit der 5093. Mail.

Die vollständige Liste der Tags und deren Bedeutung findest du [hier](https://universaldependencies.org/u/pos/index.html). Diese Tags basieren auf einem Standard für POS-Tags, die im Projekt [Universal Dependencies](https://universaldependencies.org/) definiert werden.

---

# Aufgabe 6: Textdaten bereinigen

Textdaten können in verschiedenen Formen vorliegen: in Büchern, Zeitschriften, Webseiten, Online-Nachrichten usw. Auch die Länge des Textes variiert: Textnachrichten sind in der Regel viel kürzer als Romane. Damit unsere Modelle mit ihnen Umgehen können, müssen all diese Textformen zuerst aufbereitet und in ein Format, das aus Zahlen besteht, überführt werden.

Einige Reinigungs- und Aufbereitungstechniken sind:
1. Lemmatisierung 
2. Stoppwort-Entfernung
3. Entfernung von Satzzeichen

Lemmatisierung bedeutet, dass Wörter auf ihre Grundform reduziert werden, auch bekannt als *lemma*. Aus grammatikalischen Gründen können verschiedene Formen desselben Wortes in einem Text verwendet werden, z.B. *make*, *makes*, *making* oder *maker*. Python würde diese Variationen des Wortes *make* als getrennte Wörter betrachten, obwohl ihre Bedeutung die gleiche ist. Durch die Lemmatisierung bringen wir alle Variationen von *make* auf diese Grundform.

Mit dem Attribut `my_token.lemma_` können wir die Grundform des entsprechenden `token` erhalten. Dabei wird POS-Tagging verwendet, um das passende Lemma zu bestimmen. Führe folgende Zelle aus, um die Grundformen der Wörter in `doc` als Liste zu erhalten.

In [None]:
type(nlp(email_body[2]))

In [None]:
# Original
print("ORIGINAL TEXT:\n", doc)

# die Lemmas von den doc Elementen erhalten und ausgeben
lemma_token = [token.lemma_ for token in doc]
print("AFTER LEMMATIZATION:\n",lemma_token)

Pronomen werden in `spacy` als `'-PRON-'` lemmatisiert. Möchten wir diese nicht in der Liste haben, können wir der *list comprehension* eine `if`-Anweisung hinzufügen. Hier überschreiben wir `doc` mit der Liste der *strings*, die wir aus dem Lemmata erhalten. Diese Liste bereinigen wir dann Schritt für Schritt ohne die Daten als `token`-Dateityp zu benötigen.

In [None]:
doc_lemma = [token.lemma_ for token in doc if token.lemma_ != "-PRON-"]
print('\n')
print(doc_lemma)

Mache dies nun auch für die 5093. Mail

*Stoppwort-Entfernung* beinhaltet gängige Wörter aus einem Text zu entfernen. Stoppwörter sind in der Regel Artikel ("the" und "a"), Pronomen wie "I" und "you" (die bereits im vorherigen Schritt entfernt wurden) oder gängige Verben ("be", "can"). Diese Wörter kommen in den meisten Texten häufig vor. Das Entfernen dieser Wörter würde die Datenmenge reduzieren, die analysiert werden muss und gleichzeitig ermöglichen, dass maschinelle Lernalgorithmen mehr Gewicht auf Token legen, die einem Text seine echte Bedeutung geben.

Verwenden wir für diese Übung die Stoppwörter, die vom Modul `nltk` bereitgestellt werden. Führe die folgende Zelle aus, um sie zu importieren, zu speichern und zu drucken. Dabei wandeln wir die Stoppwörter in ein `set` um. Das ist ein Datentyp in Python, der dafür optimiert wurde, Elemente darin zu suchen. Wenn wir also später  überprüfen, ob ein bestimmtes Wort ein Stoppwort ist, dann ist unser Code mit einem `set` viel schneller als mit einer `list`.

In [None]:
import nltk
nltk.download('stopwords')

# import stopwords from nltk
from nltk.corpus import stopwords

# convert stopwords to set
stopWords = set(stopwords.words('english'))

# print stopwords
print(stopWords)

Anstatt eine `token`-Methode aus `spacy` anzuwenden, verwenden wir einfach eine *list comprehension* mit einer `if`-Anweisung, um nur Wörter zu erhalten, die nicht im Satz der Stoppwörter enthalten sind.

In [None]:
# Nachricht mit Stopwords
print("LEMMATIZED TEXT:\n", doc_lemma)

# Nachricht ohne
doc_lemma_stop = [token for token in doc_lemma if token not in stopWords ]
print("NO STOP WORDS:\n", doc_lemma_stop)

Genau wie die Stoppwort-Entfernung beinhaltet die *Satzzeichen-Entfernung* das Entfernen von Satzzeichen und Symbolen, die nicht zur Bedeutung des Textes beitragen. Wir können `punctuation` aus dem Modul`string` verwenden. Dabei handelt es sich um einen *string*, der aus Satzzeichen und Symbolen besteht. Diese können wir wie die Stoppwörter aus unserem Text entfernen.

In [None]:
import string
punctuations = string.punctuation
print(punctuations)

Um die Satzzeichen zu entfernen, gehen wir so vor, wie bei den Stoppwörtern: Wir nutzen eine *list comprehension* mit `if`-Abfrage. Dabei können wir durch einen *string* iterieren, als ob es eine Liste wäre. Python greift dann auf die einzelnen Buchstaben zu und erlaub nur vergleiche mit *strings*.

In [None]:
# print message
print("TEXT WITH NO STOP WORDS:\n", doc_lemma_stop)

# remove punctuations
doc_lemma_stop_punct = [token for token in doc_lemma_stop if token not in punctuations and token != "\n"]
print("NO PUNCTUATIONS:\n", doc_lemma_stop_punct)

Jetzt bist du wieder an der Reihe und bereinige jetzt auch die 5093. E-Mail:

- Stopwords entfernen
- Satzzeichen entfernen
- Ausgabe

--- 

# Aufgabe 7: Eine benutzerdefinierte Funktion zur Aufbereitung und Bereinigung

Im vorherigen Abschnitt wurden für die Reinigung und Vorbehandlung mindestens 4 Schritte durchgeführt. Diesen Vorgang wollen wir auf jede Nachricht anwenden, deshalb ist es am besten, eine eigene Funktion für diese Aufgaben zu erstellen.

Folge der untenstehenden Vorlage von `text_cleaner()`, die einen `str`-Wert `sentence` entgegennimmt. Vorerst sollte die Funktion eine `list` aus *strings* zurückgeben. Nutze dieselben Schritte, wie in der letzten Codezelle.

In [None]:
import re
# Definiere die Funktion `text_cleaner()` mit dem Parameter `sentence` 
def funktionsname(parameter):
    # Erstelle das Doc-Objekt `sentence` unter Verwendung von `nlp()`
     
    # Lemmatisierung
     
    # Stoppwort Entfernung
     
    # Satzzeichen Entfernung
     
    # Ausgabe    
    return doc

Führe die untenstehende Zelle aus, um zu überprüfen, ob die Funktion ordnungsgemäß funktioniert. Das Ergebnis sollte das gleiche sein wie bei der vorherigen Übung.

In [None]:
print(text_cleaner(email_body[5093]))

---

# Aufgabe 8: Text-Sentiment-Analyse

Die Sentimentanalyse ist ein Untergebiet des Text Mining und versucht automatisch die geäußerte Haltung als positiv oder negativ zu erkennen.

In unserem Fall bedienen wir uns einem vorab trainiertem Modell namens Valence Aware Dictionary and sEntiment Reasoner ([VADER](https://github.com/cjhutto/vaderSentiment)) aus dem NLTK-Modul. VADER ist lexika- und regelbasiert und sepziell auf Social Media-Inhalte ausgelegt. Dies passt zwar in unserem Kontext nicht zu 100%, da unsere Texte womöglich länger und förmlicher sind aber dies rechtfertigt wieder der geringe Aufwand, den man hier unternehmen muss.

Alternativ gibt es von diversen Hyperscalern auch kostenpflichtige APIs, die man hierfür einsetzen könnte.


- Zuerst müsst ihr über `nltk.download()` die `vader_lexicon` herunterladen.
- Anschließend importiert ihr den `SentimentIntensityAnalzyer` aus dem `nltk.sentiment`-Modul.
- `SentimentIntensityAnalzyer` muss instantiiert werden, was ihr am besten als Variable `sia` zurückgebt
- Probiert mal erste Einschätzungen über `sia.polarity_scores("< hier Beispielsatz einfügen>")`
Ihr erhaltet vier Werte zurück.
  - *compound* = normalisierte, gewichtite zusammengesetzte Punktzahl zwischen -1 und +1
  - *neg* = negativer Wert
  - *neu* = neutraler Wert
  - *pos* = positiver Wert



Probiert das Ganze jetzt einmal auf die 5093. E-Mail vom CEO

---

# Aufgabe 9: Kompletten Datensatz auswerten

Nachdem wir uns einzelne E-Mails angeschaut haben, ist es an der Zeit uns dem kompletten Datensatz zu widmen.

Hierfür iterieren wir über die `email_body`-Liste vom CEO und übergeben die jeweiligen Inhalte an die zuvor definierte Bereinigungsfunktion.

In [None]:
# Wir entfernen hier noch Leerzeichen, Zeilenumbrüche über einen Regularen Ausdruck


In [None]:
# Gib die 20 häufigsten Wörter in den E-Mails vom CEO


In [None]:
# Erstelle eine Wordcloud über https://pypi.org/project/wordcloud/


In [None]:
# Abschlussplot: Plote in einer ansprechenden Darstellung das Gesamtergebnis



---

# Fazit

Dies war nur der Anfang und soll einen ersten Eindruck geben, wie Daten programmatisch heruntergeladen und aufbereitet werden können.

Bei einer Häufigkeitsanalyse würde sich auch eine Vektorisierung nach Bag of Words (BoW) und Term frequency-inverse document frequency(TF-IDF) anbieten. 