In [3]:
import pandas as pd
import re
import spacy
import numpy as np
import matplotlib.pyplot as plt
from spacy.lang.de.stop_words import STOP_WORDS as de_stop
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.linear_model import SGDClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neural_network import MLPClassifier
from tqdm import tqdm

In [25]:
df=pd.read_csv('./data/news_data.csv', sep=',')
df.head(2)

Unnamed: 0,title,text,category
0,Dortmund siegt spät und rückt bis auf einen Pu...,"Bis in die Schlussphase sah es aus, als könnte...",sport
1,Richtig sauer,Die erneute Quarantäne für den ungeimpften Kim...,sport


In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 86341 entries, 0 to 86340
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   title     86341 non-null  object
 1   text      85063 non-null  object
 2   category  86341 non-null  object
dtypes: object(3)
memory usage: 2.0+ MB


In [27]:
df["category"].value_counts()

politik         9959
ausland         9956
wirtschaft      9955
panorama        9953
sport           9918
wissenschaft    9788
netzwelt        9741
kultur          9648
geschichte      7423
Name: category, dtype: int64

In [28]:
nlp = spacy.load("de_core_news_lg")
def text_preprocessing(text):
    doc= nlp(text)
    result =  [token.text.lower().strip() for token in doc if not token.is_stop and not token.is_punct and not token.lemma_ == '-PRON-']
    return " ".join(result)



In [None]:
for index, row in tqdm(df.iterrows(), total=df.shape[0]):
    df.at[index,"title"]= text_preprocessing(str(row['title']) + " " + str(row["text"]))
df.drop(columns='text')
df.head()

  0%|                                      | 123/86341 [00:01<13:07, 109.47it/s]

In [None]:
df[df.isnull().any(axis=1)]

In [None]:
df=df.dropna()
df.isnull().sum()

In [None]:
df.to_pickle("news_data.pkl")

In [4]:
saved_df = pd.read_pickle("news_data.pkl")
saved_df.head()

Unnamed: 0,title,text,category
0,dortmund siegt spät rückt punkt bayern heran s...,"Bis in die Schlussphase sah es aus, als könnte...",sport
1,sauer erneute quarantäne ungeimpften kimmich b...,Die erneute Quarantäne für den ungeimpften Kim...,sport
2,kontrovers 2 g fußballprofis gestritten halten...,"Die einen halten es für »schwer umsetzbar«, an...",sport
3,anfangs gefälschtes impfzertifikat markus anfa...,Ein wohl gefälschtes Impfzertifikat von Markus...,sport
4,anfang tritt coach werder bremen donnerstag er...,Am Donnerstag wurden Ermittlungen gegen den We...,sport


In [5]:
list_all_category=saved_df["category"].unique()
#convert list with categorys to dict
dict_category = { i + 1: list_all_category[i] for i in range(0, len(list_all_category) ) }
dict_category

{1: 'sport',
 2: 'wirtschaft',
 3: 'netzwelt',
 4: 'wissenschaft',
 5: 'kultur',
 6: 'geschichte',
 7: 'politik',
 8: 'ausland',
 9: 'panorama'}

In [6]:

# takes the current value of column category and searches for the key in dict_category and write it in colum "id" 
saved_df["id"]= [list(dict_category.keys())[list(dict_category.values()).index(i)] for i in saved_df["category"]]
saved_df

Unnamed: 0,title,text,category,id
0,dortmund siegt spät rückt punkt bayern heran s...,"Bis in die Schlussphase sah es aus, als könnte...",sport,1
1,sauer erneute quarantäne ungeimpften kimmich b...,Die erneute Quarantäne für den ungeimpften Kim...,sport,1
2,kontrovers 2 g fußballprofis gestritten halten...,"Die einen halten es für »schwer umsetzbar«, an...",sport,1
3,anfangs gefälschtes impfzertifikat markus anfa...,Ein wohl gefälschtes Impfzertifikat von Markus...,sport,1
4,anfang tritt coach werder bremen donnerstag er...,Am Donnerstag wurden Ermittlungen gegen den We...,sport,1
...,...,...,...,...
86335,schüler falscher todesanzeige cybermobbings ve...,"Morddrohungen, Links zu Pornoseiten, eine fals...",panorama,9
86336,zentralrat juden fordert bestrafung härte gese...,Zum Beginn des Prozesses gegen den Attentäter ...,panorama,9
86337,baby ausgesetzt 32-jährige haft verurteilt neu...,Sie hatte ihr Neugeborenes auf einer Wiese aus...,panorama,9
86339,bewaffneter mann nimmt mindestens geiseln ukra...,In der ukrainischen Stadt Luzk hat es eine Gei...,panorama,9


In [7]:
train, test = train_test_split(saved_df, test_size=0.2)
train_x= train['title']
train_y= train['id']
test_x = test['title']
test_y = test['id']
train

Unnamed: 0,title,text,category,id
30349,covid-19-patienten beschwerden patienten covid...,"Patienten, die mit Covid-19 im Krankenhaus lag...",wissenschaft,4
36367,forscher entdecken möglicherweise spezies tief...,Tief im indischen Ozean stieß eine Expedition ...,wissenschaft,4
85804,frachter mauritius zerbricht teile mauritius ...,"Der vor Mauritius havarierte Frachter ""Wakashi...",panorama,9
61901,merkel-bonus zustimmungswerte pandemie verscha...,Nie waren ihre Zustimmungswerte so hoch wie he...,politik,7
7981,absolut schockiert freunde fans kobe bryant üb...,Freunde und Fans von Kobe Bryant können den üb...,sport,1
...,...,...,...,...
52220,top of the flops erzwungene playback-auftritte...,Erzwungene Playback-Auftritte und Kuchenschlac...,geschichte,6
13797,betonlobby holzhäuser kämpft zwölf sekunden wa...,Alle zwölf Sekunden wachsen in Deutschland gen...,wirtschaft,2
84497,fungie tauchte 37 südwestküste irlands blieb f...,Er tauchte vor 37 Jahren vor der Südwestküste ...,panorama,9
57426,verluste bitter jens spahn fordert historische...,Jens Spahn fordert nach dem historischen Abstu...,politik,7


In [8]:
text_clf = Pipeline([
    ('vect', CountVectorizer()),
    ('tfidf', TfidfTransformer()),
    ('clf', MultinomialNB()),
])
text_clf.fit(train_x, train_y)

    
predicted = text_clf.predict(test_x)
np.mean(predicted == test_y)


0.785516957620643

In [9]:
len(predicted)

17013

In [19]:
docs_new= ["Ich schieße ein Tor"]
predicted = text_clf.predict(docs_new)
for doc, id in zip(docs_new, predicted):
    print(docs_new[0][:50]+ "... ==> prediction: ",dict_category[id])

Ich schieße ein Tor... ==> prediction:  sport
