pandas -> CSV-Datein einlesen;
spacy -> Satzzeichen und Stopwörter;
collections/Counter -> Häufigkeitsverteilung der Wörter;

In [2]:
import pandas as pd
import spacy
from collections import Counter

Einlesen des Datensatzes und Definierung der Stopwörter (muss noch erweiter werden auf alle unnötigen Stopwörter)

In [3]:
data = pd.read_csv("20 newsgroups/20newsgroups.csv", on_bad_lines='skip', sep=';')
data = data.iloc[:,1:3]

doppelte_zeilen = data.duplicated().sum()
na_zeilen = data.isna().sum()
data = data.dropna()
data = data.drop_duplicates()
print("Anzahl doppelter Zeilen:", doppelte_zeilen)
print("Anzahl null Zeilen:", na_zeilen)


nlp = spacy.load("en_core_web_sm")


Anzahl doppelter Zeilen: 89
Anzahl null Zeilen: text     90
group     0
dtype: int64


Erstellung der Häufigkeitsverteilung, mit gleichzeitiger Entfernung von Satzzeichen/Stopwörtern, und Ausgabe der 20 häufigsten Wörter (Ausführung auch hier nicht notwendig, dauert 2min)

In [4]:
word_freq = Counter()

for text in data["text"]:
    doc = nlp(text)  # NLP-Pipeline auf den Text anwenden
    
    # Filter und Lemmatisierung in einem Schritt
    filtered_words = [
        token.lemma_.lower() 
        for token in doc 
        if not token.is_stop and not token.is_punct and token.is_alpha
    ]
    
    # Aktualisiere die Häufigkeitsverteilung
    word_freq.update(filtered_words)

# Ausgabe der Top 20 Wörter
print("Top 20 häufigste Wörter:")
for word, count in word_freq.most_common(20):
    print(f"{word}: {count}")


Top 20 häufigste Wörter:
image: 1816
know: 1408
space: 1361
god: 1301
think: 1242
like: 1233
people: 1223
file: 1119
time: 1090
system: 1023
say: 966
use: 937
good: 933
program: 906
find: 861
point: 823
thing: 821
jpeg: 770
way: 768
look: 759


Erstellung der neuen CSV-Datei mit n most common words

In [5]:
name_list_length = 1000
wort_namen_list = [wort for wort, _ in word_freq.most_common(name_list_length)]
wort_namen_list.append('groupID')
processedData = pd.DataFrame(columns=wort_namen_list)
processedData.to_csv("20newsgroups_processed_lemmatized.csv", index=False)
processedData.head()

Unnamed: 0,image,know,space,god,think,like,people,file,time,system,...,ability,parallel,technique,bright,modern,commit,galaxy,previous,potential,groupID


Gesamte CSV-Datei (dauert fast 3min --> CSV-Datei ist schon erstellt, ausführen nicht notwendig)

In [7]:
# Liste zum Speichern der Ergebnisse
rows = []

for _, row in data.iterrows():
    text = str(row['text'])
    group = str(row['group'])

    doc = nlp(text)
    count_in_top_n = Counter(
        token.lemma_.lower() for token in doc if token.is_alpha and not token.is_stop and not token.is_punct
    )

    haeufigkeiten = {word: count_in_top_n.get(word, 0) for word in wort_namen_list}
    haeufigkeiten['groupID'] = group
    rows.append(haeufigkeiten)

# Erstelle einen DataFrame aus der Liste der Ergebnisse
processedData = pd.DataFrame(rows)

# Speichere den DataFrame und gib die ersten Zeilen aus
processedData.to_csv("20newsgroups_processed_lemmatized.csv", index=False)
print(processedData.head())

   image  know  space  god  think  like  people  file  time  system  ...  \
0      0     1      0    0      0     1       0     6     0       0  ...   
1      0     0      0    0      1     1       0     0     0       0  ...   
2      0     0      0    0      0     0       0     0     0       0  ...   
3      0     0      0    0      1     2       0     0     0       0  ...   
4      0     1      0    0      0     0       0     0     0       0  ...   

   ability  parallel  technique  bright  modern  commit  galaxy  previous  \
0        0         0          0       0       0       0       0         0   
1        0         0          0       0       0       0       0         0   
2        0         0          0       0       0       0       0         0   
3        0         0          0       0       0       0       0         0   
4        0         0          0       0       0       0       0         0   

   potential  groupID  
0          0        1  
1          0        3  
2       

Einfache Ausgabe

In [74]:
processedData.head()

Unnamed: 0,Unnamed: 1,=,Unnamed: 3,>,Unnamed: 5,space,Unnamed: 7,don\'t,people,like,...,media,charge,washington,let\,moment,published,fairly,refer,child,groupID
0,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,1
1,0,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,3
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,2
3,0,0,0,0,0,0,0,0,0,2,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,2
