# Corpus Preprocessing

In [22]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import CountVectorizer

%matplotlib inline
plt.rcParams.update({'figure.figsize':(8,6), 'figure.dpi':150})

## Load reduced corpus

In [2]:
corpus = pd.read_csv("../data/rcorpus.csv")

In [3]:
corpus.head()

Unnamed: 0,filename,author,title,year,textlength,text
0,Max_Eyth_-_Der_Schneider_von_Ulm_(1906),Max Eyth,Der Schneider von Ulm,1906,272961,"[ cover ] Historischer Roman um den Mann , der..."
1,Friedrich_Spielhagen_-_Platt_Land_(1878),Friedrich Spielhagen,Platt Land,1878,205088,"Erstes Buch Erstes Kapitel . Der Wagen hielt ,..."
2,Jakob_Christoph_Heer_-_Der_Wetterwart_(1905),Jakob Christoph Heer,Der Wetterwart,1905,120934,1925 I Die feierliche Abendhelle steht über de...
3,Robert_Kraft_-_Detektiv_Nobody's_Erlebnisse_un...,Robert Kraft,Detektiv Nobodys Erlebnisse und Reiseabenteuer...,1904,203192,. Detektiv Nobody 's Erlebnisse und Reiseabent...
4,Johannes_Richard_zur_Megede_-_Der_Ueberkater_-...,Johannes Richard zur Megede,Der Ueberkater - Band 1,1904,107779,Johann Richard zur Megede Der Ueberkater Erste...


## Remove title and author from text column (again, but this time with the help of the cosine similarity)

In [17]:
def remove_columnname_from_text(df: pd.DataFrame, column_name: str) -> pd.DataFrame:
    for index, row in df.iterrows():
        column = row[column_name]
        text = row["text"]
    
        for idx, string in enumerate(text):
            cut_text = text[:idx]
            sen = [column, cut_text]
            if idx >= 200:
                break

            vectorizer = CountVectorizer()
            vec = vectorizer.fit_transform(sen).toarray()
            csim = cosine_similarity(vec)

            if csim[0][1] >= 0.60:
                df.at[index, "text"] = text[len(cut_text):]
                break
                
    return df

In [19]:
%%time
ncorpus = remove_columnname_from_text(corpus, "author")

CPU times: user 1min 25s, sys: 968 ms, total: 1min 26s
Wall time: 1min 33s


In [20]:
ncorpus.head()

Unnamed: 0,filename,author,title,year,textlength,text
0,Max_Eyth_-_Der_Schneider_von_Ulm_(1906),Max Eyth,Der Schneider von Ulm,1906,272961,"[ cover ] Historischer Roman um den Mann , der..."
1,Friedrich_Spielhagen_-_Platt_Land_(1878),Friedrich Spielhagen,Platt Land,1878,205088,"Erstes Buch Erstes Kapitel . Der Wagen hielt ,..."
2,Jakob_Christoph_Heer_-_Der_Wetterwart_(1905),Jakob Christoph Heer,Der Wetterwart,1905,120934,1925 I Die feierliche Abendhelle steht über de...
3,Robert_Kraft_-_Detektiv_Nobody's_Erlebnisse_un...,Robert Kraft,Detektiv Nobodys Erlebnisse und Reiseabenteuer...,1904,203192,Reiseabenteuer . 6 . Band . 1 . Die Magnetins...
4,Johannes_Richard_zur_Megede_-_Der_Ueberkater_-...,Johannes Richard zur Megede,Der Ueberkater - Band 1,1904,107779,Fräulein Elisabeth von Skal in dankbarem Gede...
