In [None]:
# Standardibliotheken importieren
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# NLP Bibliotheken
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
import spacy
import re


In [2]:
# Download für englischensprachigen Datensatz
!python -m spacy download en_core_web_sm

Collecting en-core-web-sm==3.7.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl (12.8 MB)
     ---------------------------------------- 0.0/12.8 MB ? eta -:--:--
     ------------------ --------------------- 6.0/12.8 MB 33.5 MB/s eta 0:00:01
     --------------------------------------  12.6/12.8 MB 32.9 MB/s eta 0:00:01
     --------------------------------------- 12.8/12.8 MB 28.7 MB/s eta 0:00:00
[+] Download and installation successful
You can now load the package via spacy.load('en_core_web_sm')


In [3]:
# Initialisierungen & Downloads
try:
    nltk.download('punkt')
    nltk.download('stopwords')
    nltk.download('wordnet')
    nlp = spacy.load('en_core_web_sm')
    print("NLP-Bibliotheken erfolgreich initialisiert.")
except Exception as e:
    print("Fehler beim Laden der NLP-Komponenten:")
    print(e)

# Spacy-Modell laden
nlp = spacy.load('en_core_web_sm')

# Prüfen ob der Datensatz vorhanden ist und laden
try: 
    # Pfad ggf. anpassen
    data = pd.read_csv('../data/consumer_complaints.csv', low_memory=False)
    print(f"Datensatz vorhanden und geladen: {data.shape[0]} Zeilen und {data.shape[1]} Spalten")
except FileNotFoundError:
    print("Datei nicht gefunden. Bitte lade den Datensatz herunter und speichere ihn im 'data'-Ordner.")

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\adrig.AG-1337\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\adrig.AG-1337\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\adrig.AG-1337\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


NLP-Bibliotheken erfolgreich initialisiert.
Datensatz vorhanden und geladen: 555957 Zeilen und 18 Spalten


In [4]:
# Zeigt die ersten 5 Zeilen des DataFrames an (Vorschau auf den Datensatz)
data.head()

Unnamed: 0,date_received,product,sub_product,issue,sub_issue,consumer_complaint_narrative,company_public_response,company,state,zipcode,tags,consumer_consent_provided,submitted_via,date_sent_to_company,company_response_to_consumer,timely_response,consumer_disputed?,complaint_id
0,08/30/2013,Mortgage,Other mortgage,"Loan modification,collection,foreclosure",,,,U.S. Bancorp,CA,95993,,,Referral,09/03/2013,Closed with explanation,Yes,Yes,511074
1,08/30/2013,Mortgage,Other mortgage,"Loan servicing, payments, escrow account",,,,Wells Fargo & Company,CA,91104,,,Referral,09/03/2013,Closed with explanation,Yes,Yes,511080
2,08/30/2013,Credit reporting,,Incorrect information on credit report,Account status,,,Wells Fargo & Company,NY,11764,,,Postal mail,09/18/2013,Closed with explanation,Yes,No,510473
3,08/30/2013,Student loan,Non-federal student loan,Repaying your loan,Repaying your loan,,,"Navient Solutions, Inc.",MD,21402,,,Email,08/30/2013,Closed with explanation,Yes,Yes,510326
4,08/30/2013,Debt collection,Credit card,False statements or representation,Attempted to collect wrong amount,,,Resurgent Capital Services L.P.,GA,30106,,,Web,08/30/2013,Closed with explanation,Yes,Yes,511067


In [5]:
# Zeigt die Struktur des DataFrames: Spaltennamen, Datentypen und Anzahl der Nicht-Null-Werte
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 555957 entries, 0 to 555956
Data columns (total 18 columns):
 #   Column                        Non-Null Count   Dtype 
---  ------                        --------------   ----- 
 0   date_received                 555957 non-null  object
 1   product                       555957 non-null  object
 2   sub_product                   397635 non-null  object
 3   issue                         555957 non-null  object
 4   sub_issue                     212622 non-null  object
 5   consumer_complaint_narrative  66806 non-null   object
 6   company_public_response       85124 non-null   object
 7   company                       555957 non-null  object
 8   state                         551070 non-null  object
 9   zipcode                       551452 non-null  object
 10  tags                          77959 non-null   object
 11  consumer_consent_provided     123458 non-null  object
 12  submitted_via                 555957 non-null  object
 13 

In [6]:
# Zeigt statistische Kennzahlen für numerische Spalten (z. B. Mittelwert, Standardabweichung, Min/Max)
data.describe()

Unnamed: 0,complaint_id
count,555957.0
mean,960051.0
std,550429.6
min,1.0
25%,486323.0
50%,973783.0
75%,1441702.0
max,1895894.0


In [7]:
# Zählt die Anzahl der fehlenden (NaN) Werte in jeder Spalte
data.isnull().sum()

date_received                        0
product                              0
sub_product                     158322
issue                                0
sub_issue                       343335
consumer_complaint_narrative    489151
company_public_response         470833
company                              0
state                             4887
zipcode                           4505
tags                            477998
consumer_consent_provided       432499
submitted_via                        0
date_sent_to_company                 0
company_response_to_consumer         0
timely_response                      0
consumer_disputed?                   0
complaint_id                         0
dtype: int64

In [8]:
# Prüft, ob die Spalte 'consumer_complaint_narrative' im DataFrame existiert
if 'consumer_complaint_narrative' in data.columns:
    # Filtert nur die Zeilen, in denen ein Beschwerdetext vorhanden ist (ohne NaN)
    complaints = data[data['consumer_complaint_narrative'].notna()]['consumer_complaint_narrative']
    # Gibt die Anzahl der Beschwerden mit Text aus
    print(f"Anzahl der Beschwerden mit Text: {len(complaints):,} von {len(data):,}".replace(",","."))
else:
    print("Spalte mit Beschwerdetexten nicht gefunden. Überprüfe die Spaltennamen:")
    print(data.columns.tolist())

Anzahl der Beschwerden mit Text: 66.806 von 555.957


In [9]:
# Funktion zur Textvorverarbeitung
def preprocess_text(text):
    # Prüfen ob text ein string ist
    if not isinstance(text, str):
        return ""

    # 1. Kleinbuchstaben
    text = text.lower()

    # 2. Entfernen von Sonderzeichen und Zahlen (nur Buchstaben und Leerzeichen behalten)
    text = re.sub(r'[^a-z\s]', '', text) # Nur Kleinbuchstaben und Leerzeichen beibehalten, wegen ^ nicht diese Zeichen entfernen !!!

    # 3. Tokenisierung (Text in Wörter zerlegen)
    tokens = word_tokenize(text, preserve_line=True)

    # 4. Stoppwörter entfernen (häufige Wörter wie 'the', 'is', 'in')
    stop_words = set(stopwords.words('english'))
    tokens = [word for word in tokens if word not in stop_words]

    # 5. Lemmatisierung (Wörter auf ihre Grundform zurückführen, z.B. 'running' -> 'run')
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(word) for word in tokens]

    # 6. Entfernen von sehr kurzen Wörtern (oft Rauschen)
    tokens = [word for word in tokens if len(word) > 2]

    # Rückgabe als einzelner String mit Leerzeichen getrennt
    return ' '.join(tokens)

# Vorverarbeitung auf einer kleinen Stichprobe testen
print("\nTest der Vorverarbeitung an Beispielen:")
sample = complaints.sample(5)
for i, text in enumerate(sample):
    print(f"Original {i+1}: {text[:100]}...")
    print(f"Verarbeitet {i+1}: {preprocess_text(text)[:100]}...")
    print("-" * 80)


Test der Vorverarbeitung an Beispielen:
Original 1: Experian Credit Reporting Company allowed : 1. Allowed XXXX XXXX XXXX to grant credit against my SSN...
Verarbeitet 1: experian credit reporting company allowed allowed xxxx xxxx xxxx grant credit ssn hard inquiry made ...
--------------------------------------------------------------------------------
Original 2: MY ACCOUNTS ARE ALL LOCKED DOWN AND SAYING THAT I HAVE BEEN MARRIED AND ALSO HAVE A NEW HOUSE I AM R...
Verarbeitet 2: account locked saying married also new house renting...
--------------------------------------------------------------------------------
Original 3: I had Applied for a Loan with Countrywide Mortgage now Bank of America XXXX/XXXX/2005 ( Exhibit ( B ...
Verarbeitet 3: applied loan countrywide mortgage bank america xxxxxxxx exhibit later withdrew exhibit countrywideba...
--------------------------------------------------------------------------------
Original 4: Our home mortgage loan is serviced by Seterus ,

In [None]:
'''
Muss nicht mehr ausgeführt werden, da bereits im data Ordner vorhanden, kann dennoch getestet und vergleichen werden.

Wendet die Bereinigung auf alle Texte anwenden (kann etwas dauern)

Zum Ausführen # vor dem Code entfernen
'''
#processed_complaints = complaints.apply(preprocess_text)

# Speichern für die nächste Phase
#processed_df = pd.DataFrame({'processed_text': processed_complaints})
#processed_df.to_csv('../data/processed_complaints.csv', index=False)