# Import necassary libraries and files

In [1]:
from pathlib import Path
import pandas as pd
from email import policy
from email.parser import BytesParser
import os
import re
from bs4 import BeautifulSoup
import numpy as np
import nltk.corpus
nltk.download('stopwords')
nltk.download('punkt')
from nltk.corpus import stopwords
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.stem.snowball import DutchStemmer
import spacy
import dutch_words
lemmaModel = spacy.load('nl_core_news_lg', disable = ['parser','ner'])

dutchCorpusFile = open(Path(os.getcwd() + '/opentaal-wordlist-master/elements/basiswoorden-gekeurd.txt'))
dutchCorpusData = dutchCorpusFile.read()
dutchCorpus = dutchCorpusData.replace('\n', '.').split(".")
dutchCorpusFile.close()

# set column width to maximum for better visibility of data
pd.set_option('display.max_colwidth', None)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\kerseje\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\kerseje\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


# Extract content from the emails

In [6]:
# define and print path to .eml files (emails)
pathString = os.getcwd() + '//BrainjarMails'
path = Path(pathString)
pathLength = len(pathString)
print(path)

# grab every file with the extension .eml
email_files = list(path.glob('*.eml'))

# create lists for the names and content of the emails + filecounter
names = []
contents = []
counter = 1
fileCount = len(email_files)
totalCharacterCount = 0

# loop over all found files
for email in email_files:
    
    #open each file in read bytes mode
    with open(email,'rb') as filepointer:
        
        # name is original filename minus the path and extension
        name = filepointer.name[pathLength:-4]
        
        # Parse data from email to message object
        message = BytesParser(policy=policy.default).parse(filepointer)
        
    # pass the plain text from the body of the email to a string variable. If no plain text is availible, 
    # just pass everything in the body
    try:
        content = message.get_body(preferencelist=('plain')).get_content()
    except:
        content = message.get_body().get_content()
    
    # Extract text from any HTML that is present.
    content = BeautifulSoup(content).get_text()
    
    # Remove escape characters (for example newlines)
    escapes = ''.join([chr(char) for char in range(1, 32)])
    #translator = str.maketrans(escapes, ' ')
    #content = content.translate(translator)
    content = re.sub(r'[' + escapes + r']',' ', content)
    
    # Remove any non-ascii characters
    content = content.encode('ascii', errors='ignore').decode()
    
    # Remove websites from mails (maybe not necassary)
    content = re.sub(r'http\S+', '', content)
    
    # Remove extra whitespaces
    content = re.sub(' +', ' ', content)
    
    # Remove excess non-alphanumeric characters except for punctuation
    # with punctuation
    #content = re.sub(r'[^A-Za-z0-9 ,?.:;!]+', '',content)
    # without punctuation
    content = re.sub(r'[^A-Za-z0-9 ]+', '',content)
    
    # additional filtering for privacy may be necessary
    content = re.sub(r'(BIC:) [A-Z]*','',content)
    content = re.sub(r'\w*\d\w*', '', content).strip()
    
    # remaining text to lowercase
    # content = content.lower()
    
    totalCharacterCount += len(content)
    
    # remove stopwords
    stop = stopwords.words('dutch')
    content =  " ".join([word for word in content.split() if word not in (stop)])
    
    # Stemming function
    def Stemmer(contentInput):
        tokenizedWords = word_tokenize(contentInput, language='dutch')
        stemmedContent = []
        stemmer = DutchStemmer()
        for word in tokenizedWords:
            stemmedContent.append(stemmer.stem(word))
            stemmedContent.append(" ")
        return "".join(stemmedContent)
       
    # Lemmatization function
    def Lemmatizer(contentInput):
        document = lemmaModel(contentInput)
        return " ".join([token.lemma_ for token in document])
    
    # Stemming or lemmatization
    #content = Stemmer(content)
    content = Lemmatizer(content)
    
    # remove words that are not in a dictionary (dutch in this case)
    content =  " ".join([word for word in content.split() if word in (dutchCorpus)])
    
    # add name and content of current email to their respective lists
    names.append(name)
    contents.append(content)
    
    #close the current file
    filepointer.close()
    
    # filecounter
    print("Counter: " + str(counter) + '/' + str(fileCount), end="\r")
    counter += 1
    
print('Total character count: ' + str(totalCharacterCount))

C:\Users\kerseje\Bachelerproef jupyter notebooks\BrainjarMails
Counter: 56/1855



Total character count: 1539125


### Turn lists into dataframe for easy exploration

In [7]:
dfNames = pd.DataFrame([names, contents]).T
dfNames.columns = ['names', 'contents']

### Set class index based on title

In [8]:
dfNames['classIndex'] = 0
dfNames['classIndex'] = np.where(dfNames['names'].str.contains('facturen'), 1, dfNames['classIndex'])
dfNames['classIndex'] = np.where(dfNames['names'].str.contains('aanmaningen'), 2, dfNames['classIndex'])

### Display top 20 rows

In [9]:
dfNames.head(20)

Unnamed: 0,names,contents,classIndex
0,00057d8d-2e28-45d2-8836-e80003cadafa-andere,klik online versie de bijlage publiek recht nummer online beschikbaar klant wij informeren bijlage publiek recht factuur nummer dd vanaf online beschikbaar u bijlage met vriendelijk groet de in geval betrekking bijlage gelieve contacteren via,0
1,00403521-b493-413d-b0a9-db90dd069dad-facturen,factuur bijlage vinden zijn vraag,1
2,005385fa-959e-4a8b-8763-15261c217b41-facturen,in bijlage factuur maand juli vinden met vriendelijk groet bus blok C,1
3,00552116-d17a-452a-b1f3-e69f76a7cef1-facturen,klant in bijlage ontvangen ons factuur voor vraag kunnen terecht n ons medewerker via telefoonnummer email met vriendelijk groet gom postbus M environment email,1
4,00680439-07fe-4e6d-a145-e339a3d73e40-facturen,dit bericht bevatten elektronisch factuur het elektronisch document wettelijk factuur in kader wetgeving elektronisch factureren zijn verplichten origineel elektronisch formaat bewaren gedurende wettelijk bepalen periode een versie elektronisch factuur gelden geval wettelijk factuur om elektronisch factuur bekijken valideren dienen hoog gebruiken verzender do to email sent to on contact detail,1
5,0070566b-63e7-4cca-82ff-116f1f834130-andere,reservatie dit definitief reservatie volgen stap ophaling materiaal contract nauwkeurig digitaal via link ID hieronder naam identiteit zijn meerdere contact dan hoofdverantwoordelijk staat naam groen dan hoeven u betalen factuur termijn dag info ophalen mail ophaler u materiaal oppikken volgens uur aanduiden contract al stap moeten voltooien de factuur ontvangen per mail inlevering controle materiaal dit definitief reservatie enkel kosteloos binnen verzending mail daarna kost verbinden zien ons algemeen voorwaarde detail email are to click,0
6,0076fa2e-db45-4b1f-bd08-dc73ae26b42b-andere,voeg jullie toe leverancier firmanaam kil groet planner image M,0
7,007e144d-da55-43e1-938c-d94ee76d43c7-aanmaningen,in bijlage ons de factuur jullie hierop betrekking F nv bekijk ons catalogus email an we monitor email to vrijdag augustus aan onderwerp openstaand we factuur waarvan collega spreken mogen ontvangen deze mogen kopie mail graag alvast bedanken met vriendelijk groet accountant medium at de terugbetaling vrijdag uitvoeren hoogstwaarschijnlijk vandaag jullie toekomen voor excl achter collega veren zitten dag F nv bekijk ons catalogus email an we monitor email to donderdag juni aan de openstaand deze opmaken volgen voor factuur inderdaad inderdaad terugbetaling gebeuren factuur ver zien we jullie ontbreken btw kunnen jullie bezorgen vriendelijk groet accountant medium at dag snel reactie jij mail even bekijken alvast bedanken met vriendelijk groet medium at openstaand de snel mogelijk werk maken dag ik even collega contractueel bepalen vervaltermijn factuur ik laten snel mogelijk weten even wij jullie moeten ontvangen zien mail bijlage alvast bedanken F nv bekijk ons catalogus email an we monitor email to woensdag juni aan openstaand wij reactie ontvangen onderstaan mail wij factuur dd steeds onbetaald jullie hiervoor nodig graag ontvangen wij zien u terugvinden bijlage met vriendelijk groet afbeelding verwijderen afzender medium at wij betaling ontvangen onderstaand factuur maart date betreffen bezorgen u terugvinden bijlage afbeelding verwijderen afzender medium,2
8,0086c212-d50a-4cd7-b06f-df8728a4865e-facturen,klant in bijlage plaatsvinden nieuw factuur factuurbedrag binnen dag schrijven rekeningnummer de attachment we to on account met vriendelijk groet,1
9,0088a1bd-0db9-4f6c-b905-67ed9990c62a-facturen,klant u nieuw factuur beschikbaar bijlage factuur datum factuur vervaldag bedrag betalen rekeningnummer wij danken elektronisch facturatie kiezen met vriendelijk groet boekhouding,1


### Save dataframe to csv file

In [10]:
dfNames.to_csv('test_extraction_emails.csv')

# Conclusion:
Emails need a lot of cleaning to extract the strictly necassary info and remove markup characters. Beyond that we need simplify the remaining text with stopword removel and lemmatization/stemming to get more performance out of our models.

#### Sources:
- https://stackoverflow.com/questions/8115261/how-to-remove-all-the-escape-sequences-from-a-list-of-strings
- https://enjoylifescience.com/2020/11/05/analyzing-emails-in-python/
- https://stackoverflow.com/questions/11331982/how-to-remove-any-url-within-a-string-in-python
- https://towardsdatascience.com/remove-personal-information-from-text-with-python-232cb69cf074
- https://monkeylearn.com/blog/text-cleaning/#:~:text=Text%20cleaning%20can%20be%20performed,words%20to%20their%20root%20form.&text=You'd%20need%20to%20perform,Removing%20Stopwords
- https://www.datacamp.com/tutorial/stemming-lemmatization-python
- https://www.projectpro.io/recipes/use-spacy-lemmatizer
- https://pypi.org/project/dutch-words/ (Replaced by Opentaal wordlist)
- https://github.com/OpenTaal/opentaal-wordlist