In [12]:
import os
import pandas as pd
import numpy as np
import nltk
from nltk import sent_tokenize
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

In [2]:
df = pd.read_csv('G:/Extractive-Summarisation-of-German-Wikipedia/dataset/data_train.csv', delimiter=',')
df.head()

Unnamed: 0,source,summary
0,Minghella war der Sohn italienisch-schottische...,"Anthony Minghella, CBE war ein britischer Film..."
1,Ende der 1940er Jahre wurde eine erste Auteur-...,Die Auteur-Theorie ist eine Filmtheorie und di...
2,"Al Pacino, geboren in Manhattan, ist der Sohn ...","Alfredo James ""Al"" Pacino ist ein US-amerikani..."
3,Der Name der Alkalimetalle leitet sich von dem...,Als Alkalimetalle werden die chemischen Elemen...
4,Die Arbeit ist bereits seit dem Altertum Gegen...,Das deutsche Arbeitsrecht ist ein Rechtsgebiet...


In [3]:
lemmatizer = nltk.stem.WordNetLemmatizer()

def lemmatize_text(text):
    lemmatized_tokens = [lemmatizer.lemmatize(w) for w in nltk.word_tokenize(text)]
    lemmatized_text = ' '.join(lemmatized_tokens)
    return lemmatized_text

df['text_lemmatized'] = df['source'].apply(lemmatize_text)

df.head()

Unnamed: 0,source,summary,text_lemmatized
0,Minghella war der Sohn italienisch-schottische...,"Anthony Minghella, CBE war ein britischer Film...",Minghella war der Sohn italienisch-schottische...
1,Ende der 1940er Jahre wurde eine erste Auteur-...,Die Auteur-Theorie ist eine Filmtheorie und di...,Ende der 1940er Jahre wurde eine erste Auteur-...
2,"Al Pacino, geboren in Manhattan, ist der Sohn ...","Alfredo James ""Al"" Pacino ist ein US-amerikani...","Al Pacino , geboren in Manhattan , ist der Soh..."
3,Der Name der Alkalimetalle leitet sich von dem...,Als Alkalimetalle werden die chemischen Elemen...,Der Name der Alkalimetalle leitet sich von dem...
4,Die Arbeit ist bereits seit dem Altertum Gegen...,Das deutsche Arbeitsrecht ist ein Rechtsgebiet...,Die Arbeit ist bereits seit dem Altertum Gegen...


In [14]:
def identify_tokens(row):
    tokens = sent_tokenize(row, language='german')
    return tokens

df['sent_token'] = df['source'].apply(identify_tokens)

df.head()

Unnamed: 0,source,summary,text_lemmatized,filtered_text,sent_token
0,Minghella war der Sohn italienisch-schottische...,"Anthony Minghella, CBE war ein britischer Film...",Minghella war der Sohn italienisch-schottische...,Minghella Sohn italienisch-schottischer Eltern...,[Minghella war der Sohn italienisch-schottisch...
1,Ende der 1940er Jahre wurde eine erste Auteur-...,Die Auteur-Theorie ist eine Filmtheorie und di...,Ende der 1940er Jahre wurde eine erste Auteur-...,Ende 1940er Jahre wurde erste Auteur-Theorie f...,[Ende der 1940er Jahre wurde eine erste Auteur...
2,"Al Pacino, geboren in Manhattan, ist der Sohn ...","Alfredo James ""Al"" Pacino ist ein US-amerikani...","Al Pacino , geboren in Manhattan , ist der Soh...","Al Pacino , geboren Manhattan , Sohn Salvatore...","[Al Pacino, geboren in Manhattan, ist der Sohn..."
3,Der Name der Alkalimetalle leitet sich von dem...,Als Alkalimetalle werden die chemischen Elemen...,Der Name der Alkalimetalle leitet sich von dem...,Der Name Alkalimetalle leitet arabischen Wort ...,[Der Name der Alkalimetalle leitet sich von de...
4,Die Arbeit ist bereits seit dem Altertum Gegen...,Das deutsche Arbeitsrecht ist ein Rechtsgebiet...,Die Arbeit ist bereits seit dem Altertum Gegen...,Die Arbeit bereits seit Altertum Gegenstand re...,[Die Arbeit ist bereits seit dem Altertum Gege...


In [6]:
stopword_list = nltk.corpus.stopwords.words('german')

def remove_stopwords(text):
    filtered_words = [word for word in nltk.word_tokenize(text) if word not in stopword_list]
    filtered_text = ' '.join(filtered_words)
    return filtered_text

df["filtered_text"] = df["text_lemmatized"].apply(remove_stopwords)

df.head()

Unnamed: 0,source,summary,text_lemmatized,filtered_text
0,Minghella war der Sohn italienisch-schottische...,"Anthony Minghella, CBE war ein britischer Film...",Minghella war der Sohn italienisch-schottische...,Minghella Sohn italienisch-schottischer Eltern...
1,Ende der 1940er Jahre wurde eine erste Auteur-...,Die Auteur-Theorie ist eine Filmtheorie und di...,Ende der 1940er Jahre wurde eine erste Auteur-...,Ende 1940er Jahre wurde erste Auteur-Theorie f...
2,"Al Pacino, geboren in Manhattan, ist der Sohn ...","Alfredo James ""Al"" Pacino ist ein US-amerikani...","Al Pacino , geboren in Manhattan , ist der Soh...","Al Pacino , geboren Manhattan , Sohn Salvatore..."
3,Der Name der Alkalimetalle leitet sich von dem...,Als Alkalimetalle werden die chemischen Elemen...,Der Name der Alkalimetalle leitet sich von dem...,Der Name Alkalimetalle leitet arabischen Wort ...
4,Die Arbeit ist bereits seit dem Altertum Gegen...,Das deutsche Arbeitsrecht ist ein Rechtsgebiet...,Die Arbeit ist bereits seit dem Altertum Gegen...,Die Arbeit bereits seit Altertum Gegenstand re...


TypeError: expected string or bytes-like object

In [None]:
y = df.iloc[:, 3].values()
X_train, X_test, y_train, y_test = train_test_split(df["filtered_text"], y, test_size=0.30, random_state=0)


In [None]:
vectorizer = CountVectorizer(min_df=2)
bow_train_features = vectorizer.fit_transform(X_train)
bow_test_features = vectorizer.transform(X_test)

mnb = MultinomialNB()
mnb.fit(bow_train_features,y_train)

predictions = mnb.predict(bow_test_features)

score = mnb.score(bow_test_features, y_test)
print("Bag of words accuracy ", score)