# Import necassary libraries and files

In [1]:
from pathlib import Path
import pandas as pd
from email import policy
from email.parser import BytesParser
import os
import re
from bs4 import BeautifulSoup
import numpy as np
import nltk.corpus
nltk.download('stopwords')
nltk.download('punkt')
from nltk.corpus import stopwords
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.stem.snowball import DutchStemmer
import spacy
import dutch_words
lemmaModel = spacy.load('nl_core_news_lg', disable = ['parser','ner'])

# Checked wordlist
#dutchCorpusFile = open(Path(os.getcwd() + '/opentaal-wordlist-master/elements/basiswoorden-gekeurd.txt'))

# Unchecked wordlist
dutchCorpusFile = open(Path(os.getcwd() + '/opentaal-wordlist-master/wordlist.txt'))
dutchCorpusData = dutchCorpusFile.read()
dutchCorpus = dutchCorpusData.replace('\n', '.').split(".")
dutchCorpusFile.close()

# set column width to maximum for better visibility of data
pd.set_option('display.max_colwidth', None)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\jensk\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\jensk\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


# Extract content from the emails

In [2]:
# define and print path to .eml files (emails)
pathString = os.getcwd() + '//BrainjarMails'
path = Path(pathString)
pathLength = len(pathString)
print(path)

# grab every file with the extension .eml
email_files = list(path.glob('*.eml'))

# create lists for the names and content of the emails + filecounter
names = []
contents = []
counter = 1
fileCount = len(email_files)
totalCharacterCount = 0

# loop over all found files
for email in email_files:
    
    #open each file in read bytes mode
    with open(email,'rb') as filepointer:
        
        # name is original filename minus the path and extension
        name = filepointer.name[pathLength:-4]
        
        # Parse data from email to message object
        message = BytesParser(policy=policy.default).parse(filepointer)
        
    # pass the plain text from the body of the email to a string variable. If no plain text is availible, 
    # just pass everything in the body
    try:
        content = message.get_body(preferencelist=('plain')).get_content()
    except:
        content = message.get_body().get_content()
    
    # Extract text from any HTML that is present.
    content = BeautifulSoup(content).get_text()
    
    # Remove escape characters (for example newlines)
    escapes = ''.join([chr(char) for char in range(1, 32)])
    #translator = str.maketrans(escapes, ' ')
    #content = content.translate(translator)
    content = re.sub(r'[' + escapes + r']',' ', content)
    
    # Remove any non-ascii characters
    # content = content.encode('ascii', errors='ignore').decode()
    
    # Remove websites from mails (maybe not necassary)
    content = re.sub(r'http\S+', '', content)
    
    # Function for removing excess non-alphanumeric characters (and punctuation)
    def RemoveNonAlphanumeric(contentInput, removePunctuation = False):
        # with punctuation
        if removePunctuation == True:
            contentOutput = re.sub(r'[^A-Za-z0-9 ]+', '',contentInput)
        
        # without punctuation
        else:
            contentOutput = re.sub(r'[^A-Za-z0-9 ,?.:;!]+', '',contentInput)
            contentOutput = re.sub(r'(, ){2,}','',contentOutput)
        
        return contentOutput
    
    # Remove non-alphanumeric characters
    content = RemoveNonAlphanumeric(content, removePunctuation = True)
    
    # additional filtering for privacy may be necessary
    content = re.sub(r'(BIC:) [A-Z]*','',content)
    content = re.sub(r'\w*\d\w*', '', content).strip()
    
    # Remove extra whitespaces
    content = re.sub(' +', ' ', content)
    
    # function for text to lower case
    def toLowerCase(contentInput):
        contentOutput = contentInput.lower()
        return contentOutput
    
    # remaining text to lower case
    #content = toLowerCase(content)
    
    # Get amount of characters in all text
    totalCharacterCount += len(content)
    
    # Stopwords removal function
    def StopwordRemoval(contentInput, languageCode):
        stop = stopwords.words(languageCode)
        contentOutput =  " ".join([word for word in contentInput.split() if word not in (stop)])
        return contentOutput
    
    # Stemming function
    def Stemmer(contentInput):
        tokenizedWords = word_tokenize(contentInput, language='dutch')
        stemmedContent = []
        stemmer = DutchStemmer()
        for word in tokenizedWords:
            stemmedContent.append(stemmer.stem(word))
            stemmedContent.append(" ")
        return "".join(stemmedContent)
       
    # Lemmatization function
    def Lemmatizer(contentInput):
        document = lemmaModel(contentInput)
        return " ".join([token.lemma_ for token in document])
    
    # remove stopwords
    #content = StopwordRemoval(content, 'dutch')
    
    # Stemming or lemmatization
    #content = Stemmer(content)
    #content = Lemmatizer(content)
    
    # remove words that are not in a dictionary (dutch in this case)
    # content =  " ".join([word for word in content.split() if word in (dutchCorpus)])
    
    # add name and content of current email to their respective lists
    names.append(name)
    contents.append(content)
    
    #close the current file
    filepointer.close()
    
    # filecounter
    print("Counter: " + str(counter) + '/' + str(fileCount), end="\r")
    counter += 1
    
print('Total character count: ' + str(totalCharacterCount))

C:\De Nayer 2022-2023\Bachelorproef\Jupyter notebook\BrainjarMails
Counter: 115/1855



Total character count: 1477378


### Turn lists into dataframe for easy exploration

In [3]:
dfNames = pd.DataFrame([names, contents]).T
dfNames.columns = ['names', 'contents']

### Set class index based on title

In [4]:
dfNames['classIndex'] = 0
dfNames['classIndex'] = np.where(dfNames['names'].str.contains('facturen'), 1, dfNames['classIndex'])
dfNames['classIndex'] = np.where(dfNames['names'].str.contains('aanmaningen'), 2, dfNames['classIndex'])

Class list:
- 0 = Other
- 1 = invoice
- 2 = Payement reminder

### Drop columns wich contain Nan/null

In [5]:
print(dfNames.isna().sum().sum())
dfNames = dfNames.dropna()

0


### Display top 20 rows

In [6]:
dfNames.head(20)

Unnamed: 0,names,contents,classIndex
0,00057d8d-2e28-45d2-8836-e80003cadafa-andere,BPOSEBILEmail Klik hier voor de online versie De bijlage van uw bpost NV van publiek recht Factuur nummer is online beschikbaar Beste klant Wij informeren u dat de bijlage van uw bpost NV van publiek recht Factuur met nummer en dd vanaf nu online beschikbaar is Uw bijlage downloaden Met vriendelijke groet De facturatiedienst In geval van vragenbetwisting met betrekking tot uw bijlage gelieve ons te contacteren via,0
1,00403521-b493-413d-b0a9-db90dd069dad-facturen,No title given Gelieve uw factuur als bijlage te vinden Zijn er vragen Contacteer ons op of businessbrailbe,1
2,005385fa-959e-4a8b-8763-15261c217b41-facturen,Beste In bijlage kan u de factuur voor de maand juli vinden Met vriendelijke groeten Nadine Haijen Fleet Finance Coordinator nhaijencallexcellcom Tiensesteenweg bus blok C SintTruiden wwwcallexcellcom,1
3,00552116-d17a-452a-b1f3-e69f76a7cef1-facturen,Geachte klant In de bijlage ontvangt u onze factuur Voor vragen kunt u terecht bij n van onze medewerkers via telefoonnummer of email debiteurenfacilicombe Met vriendelijke groeten Gom NV Administratieve Postbus FIN Facturatie Facilicom Services Group Belgium Noorderplaats AntwerpenT M Finvoicefacilicombe wwwfacilicombePlease consider the environment before printing this email,1
4,00680439-07fe-4e6d-a145-e339a3d73e40-facturen,Dit bericht bevat uw elektronische factuur Het elektronisch ondertekend PDF document is de wettelijke factuur In het kader van de wetgeving op elektronisch factureren bent u verplicht uw facturen in hun originele elektronische formaat te bewaren gedurende de wettelijk bepaalde periode Een geprinte versie van de elektronische factuur geldt in geen geval als wettelijke factuur Om de elektronisch ondertekende factuur te kunnen bekijken en valideren dient u Adobe Reader of hoger te gebruiken Factuurnummer Factuurdatum Dienstverlener Basware Belgium NV Verzender Bright PlusVriendelijke groetenBright Plus Please do not respond to this email This message is sent automatically and responses to it can not be processed For further information on our services and contact details please visit Baswarebe,1
5,0070566b-63e7-4cca-82ff-116f1f834130-andere,Bedankt voor uw reservatie Dit is een definitieve reservatie Voltooi volgende stappen voor de ophaling van het materiaal STAP CONTRACT Controleer uw contract nauwkeurig en onderteken het digitaal via deze link STAP ID Klik hieronder op uw naam om uw identiteit te verifiren Zijn er meerdere contacten Dan verifieert de hoofdverantwoordelijke Sam Haeghens Staat uw naam in het groen Dan hoeft u niets meer te doen STAP BETALING U betaalt op factuur met een termijn van dagen Nuttige info Komt u zelf niet ophalen Stuur deze mail door naar de ophaler als bewijs U kan uw materiaal oppikken in Gent volgens de uren aangeduid in het contract Alle stappen moeten voltooid zijn De factuur ontvangt u per mail na inlevering en controle van het materiaal Bedankt Ostron Team Dit is een definitieve reservatie Annuleren kan enkel kosteloos binnen de na verzending van deze mail Daarna zijn er kosten aan verbonden zie onze algemene voorwaarden voor meer details To change your email preferences when comments are added to this discussion click here Sent from,0
6,0076fa2e-db45-4b1f-bd08-dc73ae26b42b-andere,Hoi Voegen jullie Daan Ceulemans toe als leverancier aub de firmanaam is Kadanz De Kil Niel daankadanzcom BTW NR groetjes Hilde Sijbers planner image DPG Media Medialaan Vilvoorde T M Hildesijbersdpgmediabe dpgmediabe,0
7,007e144d-da55-43e1-938c-d94ee76d43c7-aanmaningen,Beste In bijlage onze ruilfactuur voor De factuur van jullie die hierop betrekking heeft is Mvg Bjrge Ponnet Boekhouder T F Uitgeverij Lannoo nv Kasteelstraat Tielt Belgi T Bekijk hier onze catalogus lannoocom Facebook Instagram Twitter LinkedIn This email may contain confidential material If you were not an intended recipient please notify the sender and delete all copies We may monitor email to and from our network Lannoo Publishers ltd Van Jerry Excelmans Verzonden vrijdag augustus Aan Bjrge Ponnet Onderwerp Re FW Reminder Openstaande facturen UITGEVERIJ LANNOO NV DPG Media NV BE Beste Bjrge zou het kunnen dat we de factuur van waarvan mijn collega Kristof al sprak nog niet hebben mogen ontvangen Deze mag naar suppliersdpgmediabe verzonden worden met mij in kopie van de mail graag Alvast bedankt Met vriendelijke groeten Jerry GL accountant DPG Media Mediaplein Antwerpen JerryExcelmansdpgmediabe dpgmediabe On Mon Jun at Bjrge Ponnet wrote Hallo Kristof De terugbetaling is vrijdag uitgevoerd dus zal hoogstwaarschijnlijk vandaag bij jullie toekomen Voor de tegenfactuur van excl BTW zal ik achter mijn collega haar veren zitten Fijne dag nog Mvg Bjrge Ponnet Boekhouder T F Uitgeverij Lannoo nv Kasteelstraat Tielt Belgi T Bekijk hier onze catalogus lannoocom Facebook Instagram Twitter LinkedIn This email may contain confidential material If you were not an intended recipient please notify the sender and delete all copies We may monitor email to and from our network Lannoo Publishers ltd Van Kristof Laureys Verzonden donderdag juni Aan Pieter Neirynck Bjrge Ponnet CC Clio Janssens Sandra De Maertelaere Stefanie De Craemer Jerry Excelmans Onderwerp Re FW Reminder Openstaande facturen UITGEVERIJ LANNOO NV DPG Media NV BE Dag Pieter en Bjrge Deze ruilfacturen worden opgemaakt bij de volgende facturatierun van de ruilfacturen op Voor factuur was er inderdaad iets misgelopen het zou inderdaad het makkelijkste zijn als de terugbetaling gebeurt van deze factuur Verder zie ik nog dat we jullie tegenfactuur van ruilovereenkomst ontbreken btw Kunnen jullie deze nog bezorgen Vriendelijke groet Kristof Laureys GL tax accountant DPG Media Mediaplein Antwerpen kristoflaureysdpgmediabe dpgmediabe On Wed Jun at Clio Janssens wrote Dag Pieter Bedankt voor je snelle reactie Kristof Laureys Zou jij bijgevoegde mail ivm ruilfacturen aan Uitgeverij Lannoo even kunnen bekijken aub Alvast bedankt Met vriendelijke groeten Clio Janssens Credit Controller DPG Media Mediaplein Antwerpen T cliojanssensdpgmediabe dpgmediabe Forwarded message From creditorsmanagement Date Wed Jun at Subject FW Reminder Openstaande facturen UITGEVERIJ LANNOO NV DPG Media NV BE To Stefanie De Craemer cliojanssenspersgroepnet Cc Sandra De Maertelaere fabiennevanhaelewyckdpgmediabe Hey Stefanie Kun je zo snel mogelijk werk maken van de tegenfactuur Thanks Dag Clio Ik heb even gepolst bij mijn collega wat er contractueel bepaald is van vervaltermijn voor factuur Ik laat hier zo snel mogelijk iets over weten Zou er ook nog even kunnen gekeken worden voor de ruilfacturen die wij nog van jullie moeten ontvangen Zie mail in bijlage Alvast bedankt Mvg pieter Pieter Neirynck Crediteurenadministratie T F Uitgeverij Lannoo nv Kasteelstraat Tielt Belgi T Bekijk hier onze catalogus lannoocom Facebook Instagram Twitter LinkedIn This email may contain confidential material If you were not an intended recipient please notify the sender and delete all copies We may monitor email to and from our network Lannoo Publishers ltd Van Clio Janssens Verzonden woensdag juni Aan Pieter Neirynck creditorsmanagement CC Fabienne Vanhaelewyck Onderwerp Reminder Openstaande facturen UITGEVERIJ LANNOO NV DPG Media NV BE Beste Wij hebben nog geen reactie ontvangen op onderstaande mail en wij hebben gemerkt dat uw factuur dd nog steeds onbetaald is Kunnen jullie hiervoor het nodige doen aub Graag ontvangen wij ook uw tegenfactuur voor ruilfactuur zie ruilovereenkomst U kan kopies terugvinden in de bijlage Met vriendelijke groeten Clio Janssens Credit Controller Afbeelding verwijderd door afzender DPG Media Mediaplein Antwerpen T cliojanssensdpgmediabe dpgmediabe Forwarded message From Clio Janssens Date Wed Jun at Subject Openstaande facturen UITGEVERIJ LANNOO NV DPG Media NV BE To Cc Fabienne Vanhaelewyck Beste Wij mochten nog geen betaling ontvangen voor onderstaande factuur van maart Customer Date Due date Invoice Amount Factuur betreft uw ruilovereenkomst Gelieve ons uw tegenfactuur te bezorgen aub U kan kopies van de facturen ruilovereenkomst terugvinden in de bijlage Clio Janssens Credit Controller Afbeelding verwijderd door afzender DPG Media Mediaplein Antwerpen T cliojanssensdpgmediabe dpgmediabe,2
8,0086c212-d50a-4cd7-b06f-df8728a4865e-facturen,Beste klant Cher client Dear customer In bijlage vindt u de nieuwe factuur Gelieve het factuurbedrag van binnen de dagen over te schrijven op rekeningnummer BIC GEBABEBB Vous trouverez votre nouvelle facture en annexe Veuillez payer le montant total de endans des jours sur notre compte BIC GEBABEBB You will find your new invoice in attachment May we kindly ask you to pay within days on account BIC GEBABEBB Met vriendelijke groeten Bien vous Kind regards Idealabs Hub BVBA Midori,1
9,0088a1bd-0db9-4f6c-b905-67ed9990c62a-facturen,Factuur Beste klant Uw nieuwe factuur is beschikbaar in bijlage Samenvatting van de factuur Factuurnummer Datum factuur Vervaldag Bedrag te betalen Rekeningnummer DPG Media NV Betalingsreferentie Wij danken u dat u voor elektronische facturatie kiest Met vriendelijke groet Boekhouding DPG Media NV invoicingdpgmediabe,1


### Save dataframe to csv file

In [7]:
dfNames.to_csv('test_extraction_emails.csv')

# Conclusion:
E-mails need a lot of cleaning to extract just the text and leave metacharacters (such as HTML or escape characters) out of the processed results. Beyond that we need more specific preprocessing steps, determined by the model that it will feed through. Unsupervised models will need stopword removal and lemmitazation/stemming to achieve higher performance, while transfer learning models like BERT will be hurt by these preprocessing steps.

#### Sources:
- https://stackoverflow.com/questions/8115261/how-to-remove-all-the-escape-sequences-from-a-list-of-strings
- https://enjoylifescience.com/2020/11/05/analyzing-emails-in-python/
- https://stackoverflow.com/questions/11331982/how-to-remove-any-url-within-a-string-in-python
- https://towardsdatascience.com/remove-personal-information-from-text-with-python-232cb69cf074
- https://monkeylearn.com/blog/text-cleaning/#:~:text=Text%20cleaning%20can%20be%20performed,words%20to%20their%20root%20form.&text=You'd%20need%20to%20perform,Removing%20Stopwords
- https://www.datacamp.com/tutorial/stemming-lemmatization-python
- https://www.projectpro.io/recipes/use-spacy-lemmatizer
- https://pypi.org/project/dutch-words/ (Original dictionary, replaced by Opentaal wordlist)
- https://github.com/OpenTaal/opentaal-wordlist