# Notebook: Einführung in NLP für Python

Dieses Notebook behandelt grundlegende Konzepte des NLP (Natural Language Processing) wie Tokenisierung, Stemming und Lemmatisierung. Diese Techniken sind wesentlich für die Verarbeitung und Analyse von Textdaten.

Quelle: https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf

In [3]:
# Für dieses Projekt müssen wir zunächst die folgenden Pakete installieren:
!uv add spacy
!uv add nltk
!python -m spacy download de_core_news_sm
!python -m spacy download en_core_web_sm
!uv add email-validator

[2K[2mResolved [1m127 packages[0m [2min 1.92s[0m[0m                                       [0m
[2K[2mPrepared [1m31 packages[0m [2min 3.90s[0m[0m                                            
[2K[2mInstalled [1m31 packages[0m [2min 44ms[0m[0m                               [0m
 [32m+[39m [1mannotated-types[0m[2m==0.7.0[0m
 [32m+[39m [1mblis[0m[2m==1.3.0[0m
 [32m+[39m [1mcatalogue[0m[2m==2.0.10[0m
 [32m+[39m [1mclick[0m[2m==8.3.0[0m
 [32m+[39m [1mcloudpathlib[0m[2m==0.23.0[0m
 [32m+[39m [1mconfection[0m[2m==0.1.5[0m
 [32m+[39m [1mcymem[0m[2m==2.0.11[0m
 [32m+[39m [1mlangcodes[0m[2m==3.5.0[0m
 [32m+[39m [1mlanguage-data[0m[2m==1.3.0[0m
 [32m+[39m [1mmarisa-trie[0m[2m==1.3.1[0m
 [32m+[39m [1mmarkdown-it-py[0m[2m==4.0.0[0m
 [32m+[39m [1mmdurl[0m[2m==0.1.2[0m
 [32m+[39m [1mmurmurhash[0m[2m==1.0.13[0m
 [32m+[39m [1mnumpy[0m[2m==2.3.4[0m
 [32m+[39m [1mpreshed[0m[2m==3.0.10[0m
 [32m+[

## Beispiele

### Beispiel 1: Tokenization

Wir haben bereits im Python-Notebook gelernt, wie wir Texte splitten können. Wiederholen wir das kurz:

In [29]:
text = "Hallo Welt! Python ist eine ziemlich coole Programmiersprache. Ich hoffe, Sie mögen sie auch!"
tokens_spaces = text.split()
print("Split nach Leerzeichen:", tokens_spaces)

Split nach Leerzeichen: ['Hallo', 'Welt!', 'Python', 'ist', 'eine', 'ziemlich', 'coole', 'Programmiersprache.', 'Ich', 'hoffe,', 'Sie', 'mögen', 'sie', 'auch!']


Wie wir in der Ausgabe sehen, trennt die einfache `split()`-Methode Wörter, aber sie behandelt Satzzeichen nicht korrekt. Zum Beispiel wird "Welt!" als ein Token betrachtet, was in vielen NLP-Anwendungen nicht ideal ist. Daher verwenden wir spezialisierte **Tokenizer**, um dieses Problem zu lösen.

In [30]:
# Wir laden NLTK, eine Bibliothek für natürliche Sprachverarbeitung
import nltk

# Punkt-Tokenizer herunterladen, ein Package, dass wir für die Tokenisierung benötigen. Punkt enthält Regeln für die Tokenisierung von Wörtern und Sätzen.
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/nils_hellwig/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [31]:
# Um die Tokenisierung durchzuführen, importieren wir die word_tokenize-Funktion aus dem nltk.tokenize Modul.
from nltk.tokenize import word_tokenize

# Wir verwenden die word_tokenize-Funktion, um den Text in Wörter zu zerlegen.
tokens_nltk = word_tokenize(text)

# Ausgabe der tokenisierten Wörter
print("NLTK Word Tokenize:", tokens_nltk)

NLTK Word Tokenize: ['Hallo', 'Welt', '!', 'Python', 'ist', 'eine', 'ziemlich', 'coole', 'Programmiersprache', '.', 'Ich', 'hoffe', ',', 'Sie', 'mögen', 'sie', 'auch', '!']


Wir sehen, dass der Tokenizer Satzzeichen korrekt behandelt und jedes Wort sowie Satzzeichen als separate Tokens ausgibt. Des weiteren können wir auch Sätze tokenisieren:

In [32]:
# NLTK bietet auch eine Funktion zur Satz-Tokenisierung an.
sentences = nltk.sent_tokenize("Hallo Welt! Dies ist ein Test. Hier ist noch ein Satz.")
print("Satz-Tokenisierung:", sentences)

Satz-Tokenisierung: ['Hallo Welt!', 'Dies ist ein Test.', 'Hier ist noch ein Satz.']


### Beispiel 2: Part-of-Speech (POS) Tagging

POS-Tagging ermöglicht es uns, die grammatikalische Rolle jedes Wortes in einem Satz zu identifizieren. Wir verwenden die `nltk`-Bibliothek, um dies zu demonstrieren.

In [33]:
# Definieren wir zunächst zwei Beispieltexte, einen auf Englisch und einen auf Deutsch.
text_en = "The quick brown fox jumps over the lazy dog."
text_de = "Der schnelle braune Fuchs springt über den faulen Hund."

# NLTK-Modelle herunterladen. averaged_perceptron_tagger ist ein vortrainiertes Modell für POS-Tagging.
nltk.download("averaged_perceptron_tagger_eng")

# Tokenisieren und POS-Tagging (Englisch)
tokens_en = nltk.word_tokenize(text_en)
pos_tags_en = nltk.pos_tag(tokens_en)
print("NLTK POS-Tagging (Englisch):")
print(pos_tags_en)

NLTK POS-Tagging (Englisch):
[('The', 'DT'), ('quick', 'JJ'), ('brown', 'NN'), ('fox', 'NN'), ('jumps', 'VBZ'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog', 'NN'), ('.', '.')]


[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /Users/nils_hellwig/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!


In [34]:
# Auch mit spaCy können wir POS-Tagging durchführen. SpaCy (https://spacy.io/) ist eine sehr beliebte Bibliothek für NLP in Python, 
# da sie viele Tools und vortrainierte Modelle bietet für verschiedenste Anwendungen.
import spacy

# Laden wir zunächst die vortrainierten Modelle für Englisch.
nlp_en = spacy.load("en_core_web_sm")

# Mit nlp_en können wir den Text in eine Liste von Tokens umwandeln.
doc_en = nlp_en(text_en)

# Tokens besitzen verschiedene Attribute, z.B. den Text und die Wortart (POS).
print("\nspaCy POS-Tagging (Englisch):")
for token in doc_en:
    print(f"{token.text:10} {token.pos_:10}") # :10 sorgt für eine feste Breite von 10 Zeichen

# Deutsches Modell
nlp_de = spacy.load("de_core_news_sm")
doc_de = nlp_de(text_de)
print("\nspaCy POS-Tagging (Deutsch):")
for token in doc_de:
    print(f"{token.text:10} {token.pos_:10}")


spaCy POS-Tagging (Englisch):
The        DET       
quick      ADJ       
brown      ADJ       
fox        NOUN      
jumps      VERB      
over       ADP       
the        DET       
lazy       ADJ       
dog        NOUN      
.          PUNCT     

spaCy POS-Tagging (Deutsch):
Der        DET       
schnelle   ADJ       
braune     ADJ       
Fuchs      NOUN      
springt    VERB      
über       ADP       
den        DET       
faulen     ADJ       
Hund       NOUN      
.          PUNCT     


### Beispiel 3: Lemmatization und Stemming

Wie in der Vorlesung besprochen, ist es bei der Verarbeitung natürlicher Sprache eine Herausforderung, dass es viele verschiedene Formen eines Wortes gibt, diese aber die gleiche Bedeutung haben. Zum Beispiel sind "running", "ran" und "runs" alles Formen des Verbs "run". Um diese Herausforderung zu bewältigen, verwenden wir Techniken wie **Lemmatisierung** und **Stemming**.

In [35]:
# Beispieltext
text = "The striped bats were hanging on their feet and ate best fishes"
doc = nlp_en(text)

# Lemmatization reduziert Wörter auf ihre Grundform (Lemma), unter Berücksichtigung von Wortart, Morphologie und Kontext.
# Beispiel: "ate" → "eat", "feet" → "foot"
for token in doc:
    # Jedes token hat ein Attribut lemma_, das die Grundform des Wortes enthält.
    print(f"{token.text:12} → {token.lemma_}") 


The          → the
striped      → striped
bats         → bat
were         → be
hanging      → hang
on           → on
their        → their
feet         → foot
and          → and
ate          → eat
best         → good
fishes       → fish


In [36]:
# NLTK bietet außerdem eine Schnittstelle für Stemming an. Wir verwenden den Porter Stemmer, einen der bekanntesten Stemmer (https://de.wikipedia.org/wiki/Porter-Stemmer-Algorithmus)
# Stemming kürzt Wörter auf einen Wortstamm durch heuristische Regeln.
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()

for word in text.split():
    print(f"{word:12} → {stemmer.stem(word)}")

The          → the
striped      → stripe
bats         → bat
were         → were
hanging      → hang
on           → on
their        → their
feet         → feet
and          → and
ate          → ate
best         → best
fishes       → fish


### Beispiel 4: Reguläre Ausdrücke

Reguläre Ausdrücke (RegEx) sind ein Werkzeug zur Textverarbeitung. Sie ermöglichen es uns, Muster in Texten zu erkennen und zu extrahieren. Hier sind einige Beispiele, wie wir RegEx in Python verwenden können, um spezifische Informationen aus einem Text zu extrahieren.

Ich empfehle euch [RegExr.com](https://regexr.com/) zum Testen von regulären Ausdrücken. Außerdem wird dort ein guter Überblick über die RegEx-Syntax gegeben.

In [37]:
import re
from email_validator import validate_email, EmailNotValidError

text = "Sie haben noch 45GB Speicher und Ihre E-Mail ist mi@ur.de und sie haben 3 Dateien mit 100MB, 250MB und 1GB."

# Einfach: Wortsuche mit RegEx
pattern_word = r"\bSpeicher\b"
print("Speicher gefunden?", bool(re.search(pattern_word, text)))

# Zahlen extrahieren (RegEx)
numbers = re.findall(r"\d+", text)
print("Gefundene Zahlen:", numbers)

# Angaben von Speicherplatz
pattern_storage = r"\b\d+\s*(GB|MB|KB)\b"
storage_matches = re.findall(pattern_storage, text)
print("Gefundene Speicherplatzangaben:", storage_matches)

# E-Mail-Adresse mit RegEx validieren
pattern_email = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"
email_matches = re.findall(pattern_email, text)
if email_matches:
    print("Gefundene E-Mail-Adressen:", email_matches)
else:
    print("Keine gültige E-Mail-Adresse gefunden.")

# E-Mail-Adresse mit externer Library validieren
try:
    result = validate_email("mi@ur.de")  # findet man z. B. aus dem Text
    print("Gültige E-Mail:", result.email)
except EmailNotValidError as e:
    print("Ungültige E-Mail:", e)

# --------------------------------------------------------
# Erklärung warum externe Packages sinnvoll sind:
#
# Komplexe Muster wie E-Mail-Adressen oder internationale Telefonnummern
# lassen sich nur sehr schwer mit einfachen regulären Ausdrücken korrekt
# und vollständig erfassen.
#
# Externe Libraries wie `email_validator` und `phonenumbers` sind
# speziell darauf ausgelegt, Standards und viele Sonderfälle korrekt zu behandeln.
# Sie validieren nicht nur das Format, sondern z.B. bei E-Mails auch die
# Domain, bei Telefonnummern Ländercodes und Nummernlängen.
#
# Das macht deinen Code robuster, wartbarer.


Speicher gefunden? True
Gefundene Zahlen: ['45', '3', '100', '250', '1']
Gefundene Speicherplatzangaben: ['GB', 'MB', 'MB', 'GB']
Gefundene E-Mail-Adressen: ['mi@ur.de']
Gültige E-Mail: mi@ur.de


### Beispiel 5: Embeddings und Vector Space Model

In [38]:
from sklearn.metrics.pairwise import cosine_similarity
import spacy

# spaCy Modell laden (englisch, mit Vektoren)
nlp = spacy.load("en_core_web_sm")

# Wörter für Vergleich
word_pairs = [
    ("cat", "dog"), # Beispiel mit ähnlichen Wörtern
    ("car", "bike"), # Beispiel mit ähnlichen Wörtern
    ("cheesecake", "swimming"), # Beispiel mit unähnlichen Wörtern
    ("death", "google") # Beispiel mit unähnlichen Wörtern
]

print("Cosinus-Ähnlichkeiten zwischen Wortpaaren:")

for w1, w2 in word_pairs:
    # 1. Wandeln wir die Wörter in Vektoren.
    # Dafür nutzen wir wieder das spaCy Modell und nutzen das Attribut .vector, das den Vektor/Embedding des Wortes zurückgibt.
    # 2. Da cosine_similarity 2D-Arrays erwartet, müssen wir die Vektoren noch reshapen in 2D.
    # cosine_similarity erwartet 2D-Arrays, da es prinzipiell auch für Matrizen-Vergleiche genutzt werden kann.
    # .reshape(1, -1) sorgt dafür, dass die Vektoren die Form (1, n) bekommen, also eine Zeile und n Spalten. -1 bedeutet, dass die Anzahl der Spalten automatisch bestimmt wird.
    vec1 = nlp(w1).vector.reshape(1, -1)
    vec2 = nlp(w2).vector.reshape(1, -1)
    print("Dimensionen:", vec1.shape, vec2.shape)
    
    # 3. Berechnen wir die Cosinus-Ähnlichkeit mit sklearns cosine_similarity Funktion.
    # [0][0] am Ende extrahiert den Skalarwert aus dem 2D-Array, das zurückgegeben wird.
    cos_sim = cosine_similarity(vec1, vec2)[0][0]
    print(f"'{w1}' vs. '{w2}': {cos_sim:.3f}")

Cosinus-Ähnlichkeiten zwischen Wortpaaren:
Dimensionen: (1, 96) (1, 96)
'cat' vs. 'dog': 0.742
Dimensionen: (1, 96) (1, 96)
'car' vs. 'bike': 0.766
Dimensionen: (1, 96) (1, 96)
'cheesecake' vs. 'swimming': 0.299
Dimensionen: (1, 96) (1, 96)
'death' vs. 'google': 0.275


### 🐼 Einschub: Pandas Basics – Arbeiten mit `sentiment_texts.csv`

Da wir für die nachfolgenden Beispiele eine CSV-Datei mit Textdaten verwenden, hier ein kurzer Einschub zu `pandas`.
Gerade, wenn man mit Textdaten arbeitet, sind Daten oft in Tabellenform gespeichert. Ein gängiges Format ist CSV (Comma-Separated Values). In diesem Beispiel verwenden wir die Bibliothek `pandas`, um eine CSV-Datei zu laden und zu analysieren. 

Wir arbeiten mit der CSV-Datei `sentiment_texts.csv`, die Tweets umfasst und Annotationen für das Sentiment (positiv, negativ, neutral) enthält. Es handelt sich um Tweets, bei denen Accounts von Politikern der 2021 im Bundestag vertretenen Parteien von Twitter-Nutzern erwähnt wurden mit einem `@`-Zeichen.

In [39]:
# Importieren der Pandas-Bibliothek
import pandas as pd

# 1️⃣ CSV-Datei laden: Mit pd.read_csv() können wir Daten aus einer CSV-Datei in ein DataFrame laden.
df = pd.read_csv("tweets.csv")
df

Unnamed: 0,id,source_account,source_party,tweet,sentiment
0,1459496838629839104,Beatrix_vStorch,AFD,@LisaLies12 @Beatrix_vStorch Ich habe NICHT be...,NEGATIVE
1,1366816957236977920,cducsubt,CDU_CSU,@ChristianHirte @CDU @dieLinke @cducsubt Gewis...,NEUTRAL
2,1437742901186993920,_FriedrichMerz,CDU_CSU,@PeterBofinger @_FriedrichMerz @handelsblatt @...,NEUTRAL
3,1352576248560706048,SWagenknecht,LINKE,@KunzlerManuel @DnielSchmlhofer @Stefan_Hajek ...,NEUTRAL
4,1439569370217340928,Alice_Weidel,AFD,@cem_oezdemir @ABaerbock Dachte erst Sie meine...,NEUTRAL
...,...,...,...,...,...
1868,1411004773126509056,CDU,CDU_CSU,@Ruebenhorst @MenschgbMensch @CDU ist das Euer...,NEGATIVE
1869,1436672257682779904,Markus_Soeder,CDU_CSU,@dcremer_ @Markus_Soeder @CSU Ohne göttliche I...,NEUTRAL
1870,1464183001588376064,Karl_Lauterbach,SPD,@Karl_Lauterbach das sieht schlecht aus. Da hi...,NEGATIVE
1871,1389635614975348992,CDU,CDU_CSU,@MatthiasRieger3 @EskenSaskia @MEtzold @CDU ja...,NEUTRAL


In [40]:
# Mit df.head() können wir die ersten 5 Zeilen des DataFrames bequem anzeigen.
df.head(5)

Unnamed: 0,id,source_account,source_party,tweet,sentiment
0,1459496838629839104,Beatrix_vStorch,AFD,@LisaLies12 @Beatrix_vStorch Ich habe NICHT be...,NEGATIVE
1,1366816957236977920,cducsubt,CDU_CSU,@ChristianHirte @CDU @dieLinke @cducsubt Gewis...,NEUTRAL
2,1437742901186993920,_FriedrichMerz,CDU_CSU,@PeterBofinger @_FriedrichMerz @handelsblatt @...,NEUTRAL
3,1352576248560706048,SWagenknecht,LINKE,@KunzlerManuel @DnielSchmlhofer @Stefan_Hajek ...,NEUTRAL
4,1439569370217340928,Alice_Weidel,AFD,@cem_oezdemir @ABaerbock Dachte erst Sie meine...,NEUTRAL


In [41]:
# Wir können auch die Werte einer bestimmten Spalte auswählen, z.B. "source_party":
df["source_party"].head(10)

0        AFD
1    CDU_CSU
2    CDU_CSU
3      LINKE
4        AFD
5        FDP
6        SPD
7    CDU_CSU
8        SPD
9      LINKE
Name: source_party, dtype: object

In [42]:
'''
Filtermöglichkeiten: Mit df[df["sentiment"] == "POSITIVE"] können wir nur die Zeilen mit positivem Sentiment anzeigen. 

df["sentiment"] wählt die Spalte sentiment aus dem DataFrame df aus.
Ergebnis: eine Series – also eine eindimensionale, beschriftete Datenstruktur.
'''
df[df["sentiment"] == "POSITIVE"]

Unnamed: 0,id,source_account,source_party,tweet,sentiment
7,1347612879810425088,n_roettgen,CDU_CSU,@n_roettgen auch mit Blick auf andere Aspekte ...,POSITIVE
10,1471842111062429952,_FriedrichMerz,CDU_CSU,@ToshimaDE @CDU @_FriedrichMerz Wie? Sitzt die...,POSITIVE
25,1411032162929872896,ArminLaschet,CDU_CSU,@steps0815 @Arndt_Klocke @MaAhl5 @Oliver_Krisc...,POSITIVE
34,1382766358790868992,Karl_Lauterbach,SPD,@Karl_Lauterbach Ach na endlich!! Da kann ich ...,POSITIVE
43,1346511916173304064,_FriedrichMerz,CDU_CSU,@BorisNMoellers @_FriedrichMerz Ich übrigens a...,POSITIVE
...,...,...,...,...,...
1832,1473352625554963968,fdpbt,FDP,@Patrickweedmob @spdbt @GrueneBundestag @fdpbt...,POSITIVE
1841,1355126553882063104,Markus_Soeder,CDU_CSU,@1xKlaudius @Markus_Soeder Mit Scheuer im Wahl...,POSITIVE
1847,1411631133259973120,ArminLaschet,CDU_CSU,@RadtkeMdEP 1.) Ein #guterplan #wegenmorgen wä...,POSITIVE
1850,1352647722801757952,ArminLaschet,CDU_CSU,#Herzlichen #Glückwunsch an alle #nun #offizie...,POSITIVE


In [43]:
# Mit .value_counts() können wir die Häufigkeit der einzigartigen Werte in der Spalte "sentiment" anzeigen.
# Wir sehen beim Output, dass die Stimmung nicht ausgewogen ist: Es gibt deutlich mehr negative als positive Tweets, wobei fast so viele neutrale Tweets wie positive Tweets vorhanden sind.
df["sentiment"].value_counts()

sentiment
NEGATIVE    976
NEUTRAL     777
POSITIVE    120
Name: count, dtype: int64

In [44]:
# mit .apply() können wir eine Funktion auf jede Zeile oder Spalte eines DataFrames anwenden.
def shout(text):
    return text.upper() + "!!!"

df["shouted"] = df["tweet"].apply(shout)
df["shouted"] 

0       @LISALIES12 @BEATRIX_VSTORCH ICH HABE NICHT BE...
1       @CHRISTIANHIRTE @CDU @DIELINKE @CDUCSUBT GEWIS...
2       @PETERBOFINGER @_FRIEDRICHMERZ @HANDELSBLATT @...
3       @KUNZLERMANUEL @DNIELSCHMLHOFER @STEFAN_HAJEK ...
4       @CEM_OEZDEMIR @ABAERBOCK DACHTE ERST SIE MEINE...
                              ...                        
1868    @RUEBENHORST @MENSCHGBMENSCH @CDU IST DAS EUER...
1869    @DCREMER_ @MARKUS_SOEDER @CSU OHNE GÖTTLICHE I...
1870    @KARL_LAUTERBACH DAS SIEHT SCHLECHT AUS. DA HI...
1871    @MATTHIASRIEGER3 @ESKENSASKIA @METZOLD @CDU JA...
1872          @GERDMLL42564793 @MARKUS_SOEDER BESTIMMT!!!
Name: shouted, Length: 1873, dtype: object

In [45]:
# Mit .sort_values() können wir den DataFrame nach einer bestimmten Spalte sortieren.
def text_length(text):
    return len(text)

df["text_length"] = df["tweet"].apply(text_length)
df = df.sort_values(by="text_length")
df

Unnamed: 0,id,source_account,source_party,tweet,sentiment,shouted,text_length
1724,1389713588659625984,CDU,CDU_CSU,LG an @CDU und @CSU,POSITIVE,LG AN @CDU UND @CSU!!!,19
1319,1377675573435191040,Die_Gruenen,GRUENE,@Die_Gruenen so schwarz.,NEUTRAL,@DIE_GRUENEN SO SCHWARZ.!!!,24
32,1432400536498810880,CDU,CDU_CSU,@CDU Was für ein Unsinn.,NEGATIVE,@CDU WAS FÜR EIN UNSINN.!!!,24
351,1424771876837024000,Die_Gruenen,GRUENE,@Die_Gruenen Zeit wirds!,NEUTRAL,@DIE_GRUENEN ZEIT WIRDS!!!!,24
189,1409483299207122944,Karl_Lauterbach,SPD,@Karl_Lauterbach Ab wann?,NEUTRAL,@KARL_LAUTERBACH AB WANN?!!!,25
...,...,...,...,...,...,...,...
575,1389137005326618880,SWagenknecht,LINKE,@StimmederVernu9 @DerEchteGrubert @AlfredNeuma...,NEGATIVE,@STIMMEDERVERNU9 @DERECHTEGRUBERT @ALFREDNEUMA...,523
1657,1399462761541911040,c_lindner,FDP,@chris_pyak @holgerkopp @HLiepelt @MartinWalth...,NEGATIVE,@CHRIS_PYAK @HOLGERKOPP @HLIEPELT @MARTINWALTH...,566
635,1442227712869940992,cem_oezdemir,GRUENE,@GGahnt @CartmanTB2 @Andrew1023054 @NurZoabe @...,NEGATIVE,@GGAHNT @CARTMANTB2 @ANDREW1023054 @NURZOABE @...,570
804,1345808822544326912,CDU,CDU_CSU,@cat_spass @Abtreibpranger @Peacecakex @nelson...,NEUTRAL,@CAT_SPASS @ABTREIBPRANGER @PEACECAKEX @NELSON...,655


In [46]:
# mit .mean() können wir den Durchschnitt einer Spalte berechnen.
def word_count(text):
    return len(text.split())

df["word_count"] = df["tweet"].apply(word_count)

# Mit .groupby() können wir den DataFrame nach einer bestimmten Spalte gruppieren.
# df.groupby("sentiment")["word_count"] gibt uns eine SeriesGroupBy-Objekt zurück, das die Wortanzahl für jede Sentiment-Kategorie gruppiert.
# Mit .mean() berechnen wir den Durchschnitt der Wortanzahl für jede Sentiment-Kategorie.
df.groupby("sentiment")["word_count"].mean()

sentiment
NEGATIVE    26.861680
NEUTRAL     19.772201
POSITIVE    19.016667
Name: word_count, dtype: float64

In [47]:
def has_berlin(text):
    return "Berlin" in text

# Zeilen filtern
df_berlin = df[df["tweet"].apply(has_berlin)]
df_berlin.head(3)

Unnamed: 0,id,source_account,source_party,tweet,sentiment,shouted,text_length,word_count
872,1464916983108062976,MiKellner,GRUENE,@MonikaHerrmann1 @MiKellner @ABaerbock Wieder ...,NEUTRAL,@MONIKAHERRMANN1 @MIKELLNER @ABAERBOCK WIEDER ...,61,7
1725,1363624003278151936,PaulZiemiak,CDU_CSU,@PaulZiemiak @BerlinReporter Keine Aufregung. ...,NEGATIVE,@PAULZIEMIAK @BERLINREPORTER KEINE AUFREGUNG. ...,98,10
1781,1362817043549069056,CDU,CDU_CSU,@GirkeHanjo @BerlinReporter @MIT_bund @christo...,POSITIVE,@GIRKEHANJO @BERLINREPORTER @MIT_BUND @CHRISTO...,107,13


### 🔢 Einschub: NumPy Basics – Arbeiten mit Arrays

NumPy (Numerical Python) ist die grundlegende Bibliothek für wissenschaftliches Rechnen in Python. Es bietet ein mächtiges N-dimensionales Array-Objekt und Funktionen für deren Bearbeitung.

In [48]:
# Importieren der NumPy-Bibliothek
import numpy as np

# 1️⃣ Arrays erstellen: Mit np.array() können wir Listen in NumPy Arrays umwandeln.
numbers = [1, 2, 3, 4, 5]
arr = np.array(numbers)
print("NumPy Array:", arr)
print("Typ:", type(arr))
print("Shape (Form):", arr.shape)
print("Data Type:", arr.dtype)

NumPy Array: [1 2 3 4 5]
Typ: <class 'numpy.ndarray'>
Shape (Form): (5,)
Data Type: int64


In [49]:
# 2️⃣ Zweidimensionale Arrays: Mit np.array() können wir auch 2D-Arrays (Matrizen) erstellen.
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("2D Array:")
print(matrix)
print("Shape:", matrix.shape)  # (3, 3) bedeutet 3 Zeilen, 3 Spalten

# Arrays mit bestimmten Werten erstellen
zeros = np.zeros((2, 3))  # 2x3 Array mit Nullen
ones = np.ones((2, 3))    # 2x3 Array mit Einsen
print("\nZeros Array:")
print(zeros)
print("\nOnes Array:")
print(ones)

2D Array:
[[1 2 3]
 [4 5 6]
 [7 8 9]]
Shape: (3, 3)

Zeros Array:
[[0. 0. 0.]
 [0. 0. 0.]]

Ones Array:
[[1. 1. 1.]
 [1. 1. 1.]]


In [50]:
# 3️⃣ Array-Indexierung und Slicing: Ähnlich wie bei Python-Listen
arr = np.array([10, 20, 30, 40, 50])
print("Original Array:", arr)
print("Erstes Element:", arr[0])      # Index 0
print("Letztes Element:", arr[-1])    # Index -1
print("Slice [1:4]:", arr[1:4])       # Elemente von Index 1 bis 3

# 2D Array Indexierung
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("\n2D Array:")
print(matrix)
print("Element [0,0]:", matrix[0, 0])  # Erste Zeile, erste Spalte
print("Element [1,2]:", matrix[1, 2])  # Zweite Zeile, dritte Spalte
print("Erste Zeile:", matrix[0, :])    # Ganze erste Zeile
print("Erste Spalte:", matrix[:, 0])   # Ganze erste Spalte

Original Array: [10 20 30 40 50]
Erstes Element: 10
Letztes Element: 50
Slice [1:4]: [20 30 40]

2D Array:
[[1 2 3]
 [4 5 6]
 [7 8 9]]
Element [0,0]: 1
Element [1,2]: 6
Erste Zeile: [1 2 3]
Erste Spalte: [1 4 7]


In [51]:
# 4️⃣ Mathematische Operationen: NumPy macht Berechnungen sehr effizient
arr1 = np.array([1, 2, 3, 4])
arr2 = np.array([10, 20, 30, 40])

print("Array 1:", arr1)
print("Array 2:", arr2)

# Element-weise Operationen
print("Addition:", arr1 + arr2)
print("Subtraktion:", arr1 - arr2)
print("Multiplikation:", arr1 * arr2)
print("Division:", arr2 / arr1)

# Operationen mit Skalaren
print("\nArray * 2:", arr1 * 2)
print("Array + 10:", arr1 + 10)

Array 1: [1 2 3 4]
Array 2: [10 20 30 40]
Addition: [11 22 33 44]
Subtraktion: [ -9 -18 -27 -36]
Multiplikation: [ 10  40  90 160]
Division: [10. 10. 10. 10.]

Array * 2: [2 4 6 8]
Array + 10: [11 12 13 14]


In [52]:
# 5️⃣ Nützliche NumPy-Funktionen für statistische Berechnungen
data = np.array([1, 5, 2, 8, 3, 7, 4, 6])
print("Data:", data)

print("Summe:", np.sum(data))
print("Mittelwert:", np.mean(data))
print("Median:", np.median(data))
print("Standardabweichung:", np.std(data))
print("Minimum:", np.min(data))
print("Maximum:", np.max(data))

# Index des Minimums/Maximums
print("Index des Minimums:", np.argmin(data))
print("Index des Maximums:", np.argmax(data))

# Array sortieren
print("Sortiert:", np.sort(data))

Data: [1 5 2 8 3 7 4 6]
Summe: 36
Mittelwert: 4.5
Median: 4.5
Standardabweichung: 2.29128784747792
Minimum: 1
Maximum: 8
Index des Minimums: 0
Index des Maximums: 3
Sortiert: [1 2 3 4 5 6 7 8]


In [53]:
# 6️⃣ Array-Reshaping: Die Form von Arrays ändern
arr = np.array([1, 2, 3, 4, 5, 6])
print("Original Array:", arr)
print("Shape:", arr.shape)

# Zu 2x3 Matrix umformen
reshaped = arr.reshape(2, 3)
print("\nReshape zu 2x3:")
print(reshaped)
print("Shape:", reshaped.shape)

# Zu 3x2 Matrix umformen
reshaped2 = arr.reshape(3, 2)
print("\nReshape zu 3x2:")
print(reshaped2)

# Automatische Dimensionsbestimmung mit -1
auto_reshape = arr.reshape(-1, 2)  # -1 bedeutet: bestimme automatisch
print("\nAuto-Reshape (-1, 2):")
print(auto_reshape)
print("Shape:", auto_reshape.shape)

Original Array: [1 2 3 4 5 6]
Shape: (6,)

Reshape zu 2x3:
[[1 2 3]
 [4 5 6]]
Shape: (2, 3)

Reshape zu 3x2:
[[1 2]
 [3 4]
 [5 6]]

Auto-Reshape (-1, 2):
[[1 2]
 [3 4]
 [5 6]]
Shape: (3, 2)


## 👩🏼‍💻 Aufgaben 

In [54]:
# 1. Aufgabe: Gebe für die ersten 3 Tweets die Tokens als List mit print() aus.

# Hier Code einfügen...


<details>
<summary><b>Lösung anzeigen</b></summary>

```python
for tweet in df["tweet"].head(3):
    tokens = tweet.split(" ")
    print(tokens)
```

</details>

In [55]:
# 2. Aufgabe: Geben sie für die ersten 3 Tweets die POS-Tags als List mit print() aus.
# Beispiel: "Ich habe Lust auf Pizza." -> [("Ich", "PRON"), ("habe", "VERB"), ("Lust", "NOUN"), ("auf", "ADP"), ("Pizza", "NOUN")]
import spacy
nlp = spacy.load("de_core_news_sm")  # Deutsches Modell laden

# Hier Code einfügen...


<details>
<summary><b>Lösung anzeigen</b></summary>

```python
for tweet in df["tweet"].head(3):
    doc = nlp(tweet)
    pos_tags = [(token.text, token.pos_) for token in doc]
    print(pos_tags)
```

</details>

In [56]:
# 3. Aufgabe: Geben sie für die ersten 3 Tweets die Lemmas als List mit print() aus.
# Beispiel: "Ich habe Lust auf Pizza." -> [("Ich", "ich"), ("habe", "haben"), ("Lust", "Lust"), ("auf", "auf"), ("Pizza", "Pizza")]

# Hier Code einfügen...


<details>
<summary><b>Lösung anzeigen</b></summary>

```python
for tweet in df["tweet"].head(3):
    doc = nlp(tweet)
    lemmas = [(token.text, token.lemma_) for token in doc]
    print(lemmas)
```

</details>

In [57]:
import re
# 4.1 Aufgabe: Erstellen sie einen regulären Ausdruck, der alle Hashtags in einem Tweet findet. Nutzen Sie gerne ein Cheatsheet: https://web.mit.edu/hackl/www/lab/turkshop/slides/regex-cheatsheet.pdf
text = "Loving the new features in #Python3! #programming #NLP is fun. Visit us at https://example.com #AI"

# Ihre Lösung hier...

<details>
<summary><b>Lösung anzeigen</b></summary>

```python
pattern_hashtag = r"#\w+"
hashtags = re.findall(pattern_hashtag, text)
print("Gefundene Hashtags:", hashtags)
```

</details>

In [58]:
# 4.2 Aufgabe: Der Vorname Maier. Erstellen sie einen regulären Ausdruck, der alle möglichen Schreibweisen des Vornamens "Maier" findet, z.B. "Maier", "Meyer", "Meier", "Mayer", "Mayr".
text = "Meyer, Maier, Meier, Mair, Meir, Mayr, Meyr"

# Ihre Lösung hier...

<details>
<summary><b>Lösung anzeigen</b></summary>

```python
pattern_maier_variants = r"\bM[ae][iy]?[ae]?[iy]?r\b"
maier_variants = re.findall(pattern_maier_variants, text)
print("Gefundene Varianten von 'Maier':", maier_variants)
```

</details>

In [59]:
# 4.3 Wie lassen sich Datumsangaben in einem regulären Ausdruck zusammenfassen?
text = "1. Januar 1901 29. Februar 2099, 02. März 1234, 1. Oktober 2015"

# Ihre Lösung hier...

<details>
<summary><b>Lösung anzeigen</b></summary>

```python
pattern_dates = r"\b\d{1,2}\. (?:Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember) \d{4}\b"
dates = re.findall(pattern_dates, text)
print("Gefundene Datumsangaben:", dates)
```

</details>