# Exploration and Preprocessing Patrick

In [2]:
# Import relevant packages
import pandas as pd
import numpy as np
import os

Inspiration:
https://www.analyticsvidhya.com/blog/2021/06/text-preprocessing-in-nlp-with-python-codes/

## Data Loading

In [3]:
# Test for the first 1750 txt files
directory = "/Users/patrickmuller/Desktop/Studium/4. FS/Business Data Analytics/Start-Up Clustering/bda-startup-clustering/data/raw/txt_files_0_1750" # Replace with the actual directory
data = [] # List to store the content of each file

for filename in os.listdir(directory):
    if filename.endswith(".txt"):
        file_path = os.path.join(directory, filename)
        try:
            with open(file_path, "r") as file:
                content = file.read()
                # Append content to the data list
                data.append(content)
        except FileNotFoundError:
            print(f"File {filename} not found.")
        except IOError:
            print(f"Error reading the file {filename}.")

# Create a DataFrame from the data list
df = pd.DataFrame(data, columns=["Content"])
df

Unnamed: 0,Content
0,ARIVE | Your favorite brandsGet the appOur Vis...
1,Rückabwicklung - von Lebensversicherungen\nWir...
2,\nStarke Versicherungen für deinen Lifestyle...
3,\nRESTUBE - the airbag for more freedom and s...
4,CureVac - Wir revolutionieren die mRNA für das...
...,...
1125,Home Page - Finstep\n \nFür Eltern\nFür Jugend...
1126,com:con solutions | CRM/xRM Softwarelösungen |...
1127,Joavina Organics – Wir lieben Bio!\n\t\t\t\t\t...
1128,Digitales Marketing Für Kleine Und Mittlere ...


## Data Cleaning

### Remove line breaks

In [4]:
import re # library for RegEx

# remove line breaks
def remove_line_breaks(text):
    without_line_breaks = df.replace('\n', '', regex=True)

    return without_line_breaks

# apply function
df['without_line_breaks'] = remove_line_breaks(df['Content'])
df

Unnamed: 0,Content,without_line_breaks
0,ARIVE | Your favorite brandsGet the appOur Vis...,ARIVE | Your favorite brandsGet the appOur Vis...
1,Rückabwicklung - von Lebensversicherungen\nWir...,Rückabwicklung - von LebensversicherungenWir h...
2,\nStarke Versicherungen für deinen Lifestyle...,Starke Versicherungen für deinen Lifestyle |...
3,\nRESTUBE - the airbag for more freedom and s...,RESTUBE - the airbag for more freedom and saf...
4,CureVac - Wir revolutionieren die mRNA für das...,CureVac - Wir revolutionieren die mRNA für das...
...,...,...
1125,Home Page - Finstep\n \nFür Eltern\nFür Jugend...,Home Page - Finstep Für ElternFür JugendlicheR...
1126,com:con solutions | CRM/xRM Softwarelösungen |...,com:con solutions | CRM/xRM Softwarelösungen |...
1127,Joavina Organics – Wir lieben Bio!\n\t\t\t\t\t...,Joavina Organics – Wir lieben Bio!\t\t\t\t\t\t...
1128,Digitales Marketing Für Kleine Und Mittlere ...,Digitales Marketing Für Kleine Und Mittlere ...


### Remove punctuation

In [5]:
# library that contains punctuation
import string

# function to remove punctuation
def remove_punctuation(text):
    punctuationfree = "".join([i for i in text if i not in string.punctuation])
    
    return punctuationfree

# storing the punctuation free texr
df['clean_msg'] = df['without_line_breaks'].apply(lambda x: remove_punctuation(x))
df.head()

Unnamed: 0,Content,without_line_breaks,clean_msg
0,ARIVE | Your favorite brandsGet the appOur Vis...,ARIVE | Your favorite brandsGet the appOur Vis...,ARIVE Your favorite brandsGet the appOur Visi...
1,Rückabwicklung - von Lebensversicherungen\nWir...,Rückabwicklung - von LebensversicherungenWir h...,Rückabwicklung von LebensversicherungenWir ho...
2,\nStarke Versicherungen für deinen Lifestyle...,Starke Versicherungen für deinen Lifestyle |...,Starke Versicherungen für deinen Lifestyle ...
3,\nRESTUBE - the airbag for more freedom and s...,RESTUBE - the airbag for more freedom and saf...,RESTUBE the airbag for more freedom and safe...
4,CureVac - Wir revolutionieren die mRNA für das...,CureVac - Wir revolutionieren die mRNA für das...,CureVac Wir revolutionieren die mRNA für das ...


### Lowering the text

In [6]:
# lower text
df['msg_lower'] = df['clean_msg'].apply(lambda x: x.lower())
df

Unnamed: 0,Content,without_line_breaks,clean_msg,msg_lower
0,ARIVE | Your favorite brandsGet the appOur Vis...,ARIVE | Your favorite brandsGet the appOur Vis...,ARIVE Your favorite brandsGet the appOur Visi...,arive your favorite brandsget the appour visi...
1,Rückabwicklung - von Lebensversicherungen\nWir...,Rückabwicklung - von LebensversicherungenWir h...,Rückabwicklung von LebensversicherungenWir ho...,rückabwicklung von lebensversicherungenwir ho...
2,\nStarke Versicherungen für deinen Lifestyle...,Starke Versicherungen für deinen Lifestyle |...,Starke Versicherungen für deinen Lifestyle ...,starke versicherungen für deinen lifestyle ...
3,\nRESTUBE - the airbag for more freedom and s...,RESTUBE - the airbag for more freedom and saf...,RESTUBE the airbag for more freedom and safe...,restube the airbag for more freedom and safe...
4,CureVac - Wir revolutionieren die mRNA für das...,CureVac - Wir revolutionieren die mRNA für das...,CureVac Wir revolutionieren die mRNA für das ...,curevac wir revolutionieren die mrna für das ...
...,...,...,...,...
1125,Home Page - Finstep\n \nFür Eltern\nFür Jugend...,Home Page - Finstep Für ElternFür JugendlicheR...,Home Page Finstep Für ElternFür JugendlicheRe...,home page finstep für elternfür jugendlichere...
1126,com:con solutions | CRM/xRM Softwarelösungen |...,com:con solutions | CRM/xRM Softwarelösungen |...,comcon solutions CRMxRM Softwarelösungen Köln,comcon solutions crmxrm softwarelösungen köln
1127,Joavina Organics – Wir lieben Bio!\n\t\t\t\t\t...,Joavina Organics – Wir lieben Bio!\t\t\t\t\t\t...,Joavina Organics – Wir lieben Bio\t\t\t\t\t\t\...,joavina organics – wir lieben bio\t\t\t\t\t\t\...
1128,Digitales Marketing Für Kleine Und Mittlere ...,Digitales Marketing Für Kleine Und Mittlere ...,Digitales Marketing Für Kleine Und Mittlere ...,digitales marketing für kleine und mittlere ...


### Tokenization

In [7]:
# function for tokenization
def tokenize(text):
    tokens = re.split(r'\W+', text)

    return tokens

# applying function to the column
df['tokenized_msg'] = df['msg_lower'].apply(lambda x: tokenize(x))
df

Unnamed: 0,Content,without_line_breaks,clean_msg,msg_lower,tokenized_msg
0,ARIVE | Your favorite brandsGet the appOur Vis...,ARIVE | Your favorite brandsGet the appOur Vis...,ARIVE Your favorite brandsGet the appOur Visi...,arive your favorite brandsget the appour visi...,"[arive, your, favorite, brandsget, the, appour..."
1,Rückabwicklung - von Lebensversicherungen\nWir...,Rückabwicklung - von LebensversicherungenWir h...,Rückabwicklung von LebensversicherungenWir ho...,rückabwicklung von lebensversicherungenwir ho...,"[rückabwicklung, von, lebensversicherungenwir,..."
2,\nStarke Versicherungen für deinen Lifestyle...,Starke Versicherungen für deinen Lifestyle |...,Starke Versicherungen für deinen Lifestyle ...,starke versicherungen für deinen lifestyle ...,"[, starke, versicherungen, für, deinen, lifest..."
3,\nRESTUBE - the airbag for more freedom and s...,RESTUBE - the airbag for more freedom and saf...,RESTUBE the airbag for more freedom and safe...,restube the airbag for more freedom and safe...,"[, restube, the, airbag, for, more, freedom, a..."
4,CureVac - Wir revolutionieren die mRNA für das...,CureVac - Wir revolutionieren die mRNA für das...,CureVac Wir revolutionieren die mRNA für das ...,curevac wir revolutionieren die mrna für das ...,"[curevac, wir, revolutionieren, die, mrna, für..."
...,...,...,...,...,...
1125,Home Page - Finstep\n \nFür Eltern\nFür Jugend...,Home Page - Finstep Für ElternFür JugendlicheR...,Home Page Finstep Für ElternFür JugendlicheRe...,home page finstep für elternfür jugendlichere...,"[home, page, finstep, für, elternfür, jugendli..."
1126,com:con solutions | CRM/xRM Softwarelösungen |...,com:con solutions | CRM/xRM Softwarelösungen |...,comcon solutions CRMxRM Softwarelösungen Köln,comcon solutions crmxrm softwarelösungen köln,"[comcon, solutions, crmxrm, softwarelösungen, ..."
1127,Joavina Organics – Wir lieben Bio!\n\t\t\t\t\t...,Joavina Organics – Wir lieben Bio!\t\t\t\t\t\t...,Joavina Organics – Wir lieben Bio\t\t\t\t\t\t\...,joavina organics – wir lieben bio\t\t\t\t\t\t\...,"[joavina, organics, wir, lieben, bio, free, sh..."
1128,Digitales Marketing Für Kleine Und Mittlere ...,Digitales Marketing Für Kleine Und Mittlere ...,Digitales Marketing Für Kleine Und Mittlere ...,digitales marketing für kleine und mittlere ...,"[, digitales, marketing, für, kleine, und, mit..."


### Stop Word Removal

In [9]:
import nltk
from nltk.corpus import stopwords

# Get stop words in english and german
# Check if these two are the only languages in our data

# Stop words present in the library
# stopwords = nltk.corpus.stopwords.words('english')
nltk.download('stopwords')

# Save stop words for english and german
stopwords = nltk.corpus.stopwords.words(['english', 'german'])

# defining the function to remove stopwords from tokenized text
def remove_stopwords(text):
    text_without_stopwords = [i for i in text if i not in stopwords]

    return text_without_stopwords

# apply function
df['no_stopwords'] = df['tokenized_msg'].apply(lambda x: remove_stopwords(x))
df


[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/patrickmuller/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


Unnamed: 0,Content,without_line_breaks,clean_msg,msg_lower,tokenized_msg,no_stopwords
0,ARIVE | Your favorite brandsGet the appOur Vis...,ARIVE | Your favorite brandsGet the appOur Vis...,ARIVE Your favorite brandsGet the appOur Visi...,arive your favorite brandsget the appour visi...,"[arive, your, favorite, brandsget, the, appour...","[arive, favorite, brandsget, appour, visionpar..."
1,Rückabwicklung - von Lebensversicherungen\nWir...,Rückabwicklung - von LebensversicherungenWir h...,Rückabwicklung von LebensversicherungenWir ho...,rückabwicklung von lebensversicherungenwir ho...,"[rückabwicklung, von, lebensversicherungenwir,...","[rückabwicklung, lebensversicherungenwir, hole..."
2,\nStarke Versicherungen für deinen Lifestyle...,Starke Versicherungen für deinen Lifestyle |...,Starke Versicherungen für deinen Lifestyle ...,starke versicherungen für deinen lifestyle ...,"[, starke, versicherungen, für, deinen, lifest...","[, starke, versicherungen, lifestyle, heldende..."
3,\nRESTUBE - the airbag for more freedom and s...,RESTUBE - the airbag for more freedom and saf...,RESTUBE the airbag for more freedom and safe...,restube the airbag for more freedom and safe...,"[, restube, the, airbag, for, more, freedom, a...","[, restube, airbag, freedom, safety, water, re..."
4,CureVac - Wir revolutionieren die mRNA für das...,CureVac - Wir revolutionieren die mRNA für das...,CureVac Wir revolutionieren die mRNA für das ...,curevac wir revolutionieren die mrna für das ...,"[curevac, wir, revolutionieren, die, mrna, für...","[curevac, revolutionieren, mrna, leben, mensch..."
...,...,...,...,...,...,...
1125,Home Page - Finstep\n \nFür Eltern\nFür Jugend...,Home Page - Finstep Für ElternFür JugendlicheR...,Home Page Finstep Für ElternFür JugendlicheRe...,home page finstep für elternfür jugendlichere...,"[home, page, finstep, für, elternfür, jugendli...","[home, page, finstep, elternfür, jugendlichere..."
1126,com:con solutions | CRM/xRM Softwarelösungen |...,com:con solutions | CRM/xRM Softwarelösungen |...,comcon solutions CRMxRM Softwarelösungen Köln,comcon solutions crmxrm softwarelösungen köln,"[comcon, solutions, crmxrm, softwarelösungen, ...","[comcon, solutions, crmxrm, softwarelösungen, ..."
1127,Joavina Organics – Wir lieben Bio!\n\t\t\t\t\t...,Joavina Organics – Wir lieben Bio!\t\t\t\t\t\t...,Joavina Organics – Wir lieben Bio\t\t\t\t\t\t\...,joavina organics – wir lieben bio\t\t\t\t\t\t\...,"[joavina, organics, wir, lieben, bio, free, sh...","[joavina, organics, lieben, bio, free, shippin..."
1128,Digitales Marketing Für Kleine Und Mittlere ...,Digitales Marketing Für Kleine Und Mittlere ...,Digitales Marketing Für Kleine Und Mittlere ...,digitales marketing für kleine und mittlere ...,"[, digitales, marketing, für, kleine, und, mit...","[, digitales, marketing, kleine, mittlere, unt..."


## Stemming

In [10]:
# Import PorterStemmer from nltk library
from nltk.stem.porter import PorterStemmer

# define object for stemming
porter_stemmer = PorterStemmer()

# define function for stemming
def stemming(text):
    stem_text = [porter_stemmer.stem(word) for word in text]

    return stem_text

# apply function
df['msg_stemmed'] = df['no_stopwords'].apply(lambda x: stemming(x))
df

Unnamed: 0,Content,without_line_breaks,clean_msg,msg_lower,tokenized_msg,no_stopwords,msg_stemmed
0,ARIVE | Your favorite brandsGet the appOur Vis...,ARIVE | Your favorite brandsGet the appOur Vis...,ARIVE Your favorite brandsGet the appOur Visi...,arive your favorite brandsget the appour visi...,"[arive, your, favorite, brandsget, the, appour...","[arive, favorite, brandsget, appour, visionpar...","[ariv, favorit, brandsget, appour, visionpartn..."
1,Rückabwicklung - von Lebensversicherungen\nWir...,Rückabwicklung - von LebensversicherungenWir h...,Rückabwicklung von LebensversicherungenWir ho...,rückabwicklung von lebensversicherungenwir ho...,"[rückabwicklung, von, lebensversicherungenwir,...","[rückabwicklung, lebensversicherungenwir, hole...","[rückabwicklung, lebensversicherungenwir, hole..."
2,\nStarke Versicherungen für deinen Lifestyle...,Starke Versicherungen für deinen Lifestyle |...,Starke Versicherungen für deinen Lifestyle ...,starke versicherungen für deinen lifestyle ...,"[, starke, versicherungen, für, deinen, lifest...","[, starke, versicherungen, lifestyle, heldende...","[, stark, versicherungen, lifestyl, heldendeho..."
3,\nRESTUBE - the airbag for more freedom and s...,RESTUBE - the airbag for more freedom and saf...,RESTUBE the airbag for more freedom and safe...,restube the airbag for more freedom and safe...,"[, restube, the, airbag, for, more, freedom, a...","[, restube, airbag, freedom, safety, water, re...","[, restub, airbag, freedom, safeti, water, res..."
4,CureVac - Wir revolutionieren die mRNA für das...,CureVac - Wir revolutionieren die mRNA für das...,CureVac Wir revolutionieren die mRNA für das ...,curevac wir revolutionieren die mrna für das ...,"[curevac, wir, revolutionieren, die, mrna, für...","[curevac, revolutionieren, mrna, leben, mensch...","[curevac, revolutionieren, mrna, leben, mensch..."
...,...,...,...,...,...,...,...
1125,Home Page - Finstep\n \nFür Eltern\nFür Jugend...,Home Page - Finstep Für ElternFür JugendlicheR...,Home Page Finstep Für ElternFür JugendlicheRe...,home page finstep für elternfür jugendlichere...,"[home, page, finstep, für, elternfür, jugendli...","[home, page, finstep, elternfür, jugendlichere...","[home, page, finstep, elternfür, jugendlichere..."
1126,com:con solutions | CRM/xRM Softwarelösungen |...,com:con solutions | CRM/xRM Softwarelösungen |...,comcon solutions CRMxRM Softwarelösungen Köln,comcon solutions crmxrm softwarelösungen köln,"[comcon, solutions, crmxrm, softwarelösungen, ...","[comcon, solutions, crmxrm, softwarelösungen, ...","[comcon, solut, crmxrm, softwarelösungen, köln]"
1127,Joavina Organics – Wir lieben Bio!\n\t\t\t\t\t...,Joavina Organics – Wir lieben Bio!\t\t\t\t\t\t...,Joavina Organics – Wir lieben Bio\t\t\t\t\t\t\...,joavina organics – wir lieben bio\t\t\t\t\t\t\...,"[joavina, organics, wir, lieben, bio, free, sh...","[joavina, organics, lieben, bio, free, shippin...","[joavina, organ, lieben, bio, free, ship, 50, ..."
1128,Digitales Marketing Für Kleine Und Mittlere ...,Digitales Marketing Für Kleine Und Mittlere ...,Digitales Marketing Für Kleine Und Mittlere ...,digitales marketing für kleine und mittlere ...,"[, digitales, marketing, für, kleine, und, mit...","[, digitales, marketing, kleine, mittlere, unt...","[, digital, market, klein, mittler, unternehme..."


## Lemmatization

In [12]:
# import WordNetLemmatizer from nltk
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer

# define object for lemmatization
wordnet_lemmatizer = WordNetLemmatizer()

# define function for lemmatization
def lemmatizer(text):
    lemm_text = [wordnet_lemmatizer.lemmatize(word) for word in text]

    return lemm_text

# apply function
df['msg_lemmatized'] = df['no_stopwords'].apply(lambda x: lemmatizer(x))
df

[nltk_data] Downloading package wordnet to
[nltk_data]     /Users/patrickmuller/nltk_data...


Unnamed: 0,Content,without_line_breaks,clean_msg,msg_lower,tokenized_msg,no_stopwords,msg_stemmed,msg_lemmatized
0,ARIVE | Your favorite brandsGet the appOur Vis...,ARIVE | Your favorite brandsGet the appOur Vis...,ARIVE Your favorite brandsGet the appOur Visi...,arive your favorite brandsget the appour visi...,"[arive, your, favorite, brandsget, the, appour...","[arive, favorite, brandsget, appour, visionpar...","[ariv, favorit, brandsget, appour, visionpartn...","[arive, favorite, brandsget, appour, visionpar..."
1,Rückabwicklung - von Lebensversicherungen\nWir...,Rückabwicklung - von LebensversicherungenWir h...,Rückabwicklung von LebensversicherungenWir ho...,rückabwicklung von lebensversicherungenwir ho...,"[rückabwicklung, von, lebensversicherungenwir,...","[rückabwicklung, lebensversicherungenwir, hole...","[rückabwicklung, lebensversicherungenwir, hole...","[rückabwicklung, lebensversicherungenwir, hole..."
2,\nStarke Versicherungen für deinen Lifestyle...,Starke Versicherungen für deinen Lifestyle |...,Starke Versicherungen für deinen Lifestyle ...,starke versicherungen für deinen lifestyle ...,"[, starke, versicherungen, für, deinen, lifest...","[, starke, versicherungen, lifestyle, heldende...","[, stark, versicherungen, lifestyl, heldendeho...","[, starke, versicherungen, lifestyle, heldende..."
3,\nRESTUBE - the airbag for more freedom and s...,RESTUBE - the airbag for more freedom and saf...,RESTUBE the airbag for more freedom and safe...,restube the airbag for more freedom and safe...,"[, restube, the, airbag, for, more, freedom, a...","[, restube, airbag, freedom, safety, water, re...","[, restub, airbag, freedom, safeti, water, res...","[, restube, airbag, freedom, safety, water, re..."
4,CureVac - Wir revolutionieren die mRNA für das...,CureVac - Wir revolutionieren die mRNA für das...,CureVac Wir revolutionieren die mRNA für das ...,curevac wir revolutionieren die mrna für das ...,"[curevac, wir, revolutionieren, die, mrna, für...","[curevac, revolutionieren, mrna, leben, mensch...","[curevac, revolutionieren, mrna, leben, mensch...","[curevac, revolutionieren, mrna, leben, mensch..."
...,...,...,...,...,...,...,...,...
1125,Home Page - Finstep\n \nFür Eltern\nFür Jugend...,Home Page - Finstep Für ElternFür JugendlicheR...,Home Page Finstep Für ElternFür JugendlicheRe...,home page finstep für elternfür jugendlichere...,"[home, page, finstep, für, elternfür, jugendli...","[home, page, finstep, elternfür, jugendlichere...","[home, page, finstep, elternfür, jugendlichere...","[home, page, finstep, elternfür, jugendlichere..."
1126,com:con solutions | CRM/xRM Softwarelösungen |...,com:con solutions | CRM/xRM Softwarelösungen |...,comcon solutions CRMxRM Softwarelösungen Köln,comcon solutions crmxrm softwarelösungen köln,"[comcon, solutions, crmxrm, softwarelösungen, ...","[comcon, solutions, crmxrm, softwarelösungen, ...","[comcon, solut, crmxrm, softwarelösungen, köln]","[comcon, solution, crmxrm, softwarelösungen, k..."
1127,Joavina Organics – Wir lieben Bio!\n\t\t\t\t\t...,Joavina Organics – Wir lieben Bio!\t\t\t\t\t\t...,Joavina Organics – Wir lieben Bio\t\t\t\t\t\t\...,joavina organics – wir lieben bio\t\t\t\t\t\t\...,"[joavina, organics, wir, lieben, bio, free, sh...","[joavina, organics, lieben, bio, free, shippin...","[joavina, organ, lieben, bio, free, ship, 50, ...","[joavina, organic, lieben, bio, free, shipping..."
1128,Digitales Marketing Für Kleine Und Mittlere ...,Digitales Marketing Für Kleine Und Mittlere ...,Digitales Marketing Für Kleine Und Mittlere ...,digitales marketing für kleine und mittlere ...,"[, digitales, marketing, für, kleine, und, mit...","[, digitales, marketing, kleine, mittlere, unt...","[, digital, market, klein, mittler, unternehme...","[, digitales, marketing, kleine, mittlere, unt..."


The overview above is just for illustration purposes. It should show the differences of the preprocessing techniques.

# Preprocessing Pipeline

First draft of the preprocessing function below. The function as it is, wouldn't work as supposed to because every preprocessing step depends on the step before and each individual function gets the input of the previous step. Maybe put the code above (individual functions) in an `utils.py` script, so this notebook doesn't get messy?
Consider using the `sklearn.pipeline` for this.

In [16]:
# define preprocessing function
def preprocess_text(text, line_breaks=True, punctuation=True, tokens=True, stemm=True, lemm=True):
    
    if line_breaks == True:
        # remove line breaks
        remove_line_breaks(text)

    if punctuation == True:
        # remove punctuation
        remove_punctuation(text)

    # lower text
    text = text.lower()

    if tokens == True:
        # tokenize
        tokenize(text)

    if stemm == True:
        # stemming
        stemming(text)

    if lemm == True:
        # lemmatize
        lemmatizer(text)

    return preprocessed_text


In [18]:
# generate requirements.txt without some weird paths instead of the package version
!pip list --format=freeze > requirements_preprocessing.txt

# Word Embedding