# Import necassary libraries and files

In [33]:
from pathlib import Path
import pandas as pd
from email import policy
from email.parser import BytesParser
import os
import re
from bs4 import BeautifulSoup
import numpy as np
import nltk.corpus
nltk.download('stopwords')
nltk.download('punkt')
from nltk.corpus import stopwords
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.stem.snowball import DutchStemmer
import spacy
import dutch_words
lemmaModel = spacy.load('nl_core_news_lg', disable = ['parser','ner'])

dutchCorpusFile = open(Path(os.getcwd() + '/opentaal-wordlist-master/elements/basiswoorden-gekeurd.txt'))
dutchCorpusData = dutchCorpusFile.read()
dutchCorpus = dutchCorpusData.replace('\n', '.').split(".")
dutchCorpusFile.close()

# set column width to maximum for better visibility of data
pd.set_option('display.max_colwidth', None)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\kerseje\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\kerseje\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


# Extract content from the emails

In [41]:
# define and print path to .eml files (emails)
pathString = os.getcwd() + '//BrainjarMails'
path = Path(pathString)
pathLength = len(pathString)
print(path)

# grab every file with the extension .eml
email_files = list(path.glob('*.eml'))

# create lists for the names and content of the emails + filecounter
names = []
contents = []
counter = 1
fileCount = len(email_files)
totalCharacterCount = 0

# loop over all found files
for email in email_files:
    
    #open each file in read bytes mode
    with open(email,'rb') as filepointer:
        
        # name is original filename minus the path and extension
        name = filepointer.name[pathLength:-4]
        
        # Parse data from email to message object
        message = BytesParser(policy=policy.default).parse(filepointer)
        
    # pass the plain text from the body of the email to a string variable. If no plain text is availible, 
    # just pass everything in the body
    try:
        content = message.get_body(preferencelist=('plain')).get_content()
    except:
        content = message.get_body().get_content()
    
    # Extract text from any HTML that is present.
    content = BeautifulSoup(content).get_text()
    
    # Remove escape characters (for example newlines)
    escapes = ''.join([chr(char) for char in range(1, 32)])
    #translator = str.maketrans(escapes, ' ')
    #content = content.translate(translator)
    content = re.sub(r'[' + escapes + r']',' ', content)
    
    # Remove any non-ascii characters
    content = content.encode('ascii', errors='ignore').decode()
    
    # Remove websites from mails (maybe not necassary)
    content = re.sub(r'http\S+', '', content)
    
    # Remove extra whitespaces
    content = re.sub(' +', ' ', content)
    
    # Remove excess non-alphanumeric characters except for punctuation
    # with punctuation
    #content = re.sub(r'[^A-Za-z0-9 ,?.:;!]+', '',content)
    # without punctuation
    content = re.sub(r'[^A-Za-z0-9 ]+', '',content)
    
    # additional filtering for privacy may be necessary
    content = re.sub(r'(BIC:) [A-Z]*','',content)
    content = re.sub(r'\w*\d\w*', '', content).strip()
    
    # remaining text to lowercase
    content = content.lower()
    
    totalCharacterCount += len(content)
    
    # remove stopwords
    stop = stopwords.words('dutch')
    content =  " ".join([word for word in content.split() if word not in (stop)])
    
    # Stemming function
    def Stemmer(contentInput):
        tokenizedWords = word_tokenize(contentInput, language='dutch')
        stemmedContent = []
        stemmer = DutchStemmer()
        for word in tokenizedWords:
            stemmedContent.append(stemmer.stem(word))
            stemmedContent.append(" ")
        return "".join(stemmedContent)
       
    # Lemmatization function
    def Lemmatizer(contentInput):
        document = lemmaModel(contentInput)
        return " ".join([token.lemma_ for token in document])
    
    # Stemming or lemmatization
    #content = Stemmer(content)
    content = Lemmatizer(content)
    
    # remove words that are not in a dictionary (dutch in this case)
    content =  " ".join([word for word in content.split() if word in (dutchCorpus)])
    
    # add name and content of current email to their respective lists
    names.append(name)
    contents.append(content)
    
    #close the current file
    filepointer.close()
    
    # filecounter
    print("Counter: " + str(counter) + '/' + str(fileCount), end="\r")
    counter += 1
    
print('Total character count: ' + str(totalCharacterCount))

C:\Users\kerseje\Bachelerproef jupyter notebooks\BrainjarMails
Total character count: 1539125


### Turn lists into dataframe for easy exploration

In [35]:
dfNames = pd.DataFrame([names, contents]).T
dfNames.columns = ['names', 'contents']

### Set class index based on title

In [36]:
dfNames['classIndex'] = 0
dfNames['classIndex'] = np.where(dfNames['names'].str.contains('facturen'), 1, dfNames['classIndex'])
dfNames['classIndex'] = np.where(dfNames['names'].str.contains('aanmaningen'), 2, dfNames['classIndex'])

### Display top 20 rows

In [37]:
dfNames.head(20)

Unnamed: 0,names,contents,classIndex
0,00057d8d-2e28-45d2-8836-e80003cadafa-andere,klik online versie bijlage nv publiek recht factuur nummer online beschikbaar goed klant wij informeren bijlage nv publiek recht factuur nummer dd vanaf online beschikbaar bijlage vriendelijk groet geval betrekking bijlage gelieve contacteren via,0
1,00403521-b493-413d-b0a9-db90dd069dad-facturen,no gelieve factuur bijlage vinden vraag,1
2,005385fa-959e-4a8b-8763-15261c217b41-facturen,goed bijlage factuur maand juli vinden vriendelijk groet blok c,1
3,00552116-d17a-452a-b1f3-e69f76a7cef1-facturen,geacht klant bijlage ontvangen ons factuur vragen kunnen terecht n ons medewerker via telefoonnummer email vriendelijk groet gom nv administratief postbus facturatie service m environment email,1
4,00680439-07fe-4e6d-a145-e339a3d73e40-facturen,bericht bevatten elektronisch factuur elektronisch pdf document wettelijk factuur kader wetgeving elektronisch factureren zijn verplichten origineel elektronisch formaat bewaren gedurende wettelijk bepalen periode versie elektronisch factuur gelden geval wettelijk factuur elektronisch factuur bekijken valideren dienen adobe reader hoog gebruiken factuurnummer dienstverlener nv verzender plus do to email sent to on contact detail,1
5,0070566b-63e7-4cca-82ff-116f1f834130-andere,bedanken reservatie definitief reservatie volgen stap ophaling materiaal stap contract contract nauwkeurig digitaal via link stap id klik hieronder naam identiteit meerdere contact hoofdverantwoordelijk staan naam groen hoeven stap betaling betalen factuur termijn dag nuttig info komen ophalen stuur mail ophaler bewijs materiaal oppikken volgens uur aanduiden contract al stap moeten voltooien factuur ontvangen per mail inlevering controle materiaal bedanken team definitief reservatie annuleren enkel kosteloos binnen verzending mail daarna kost verbinden zien ons algemeen voorwaarde detail to email are to click sent,0
6,0076fa2e-db45-4b1f-bd08-dc73ae26b42b-andere,hoi voegen jullie doen toe leverancier firmanaam kil btw nummer groetjes planner image medium t m,0
7,007e144d-da55-43e1-938c-d94ee76d43c7-aanmaningen,goed bijlage ons factuur jullie hierop betrekking boekhouder t f uitgeverij nv kasteelstraat t bekijk ons catalogus email an we monitor email to vrijdag augustus onderwerp re reminder openstaan uitgeverij nv medium nv goed we factuur waarvan collega spreken mogen ontvangen mogen kopie mail graag alvast bedanken vriendelijk groet accountant medium on jun at hallo terugbetaling vrijdag uitvoeren hoogstwaarschijnlijk vandaag jullie toekomen excl btw achter collega veren zitten fijn dag boekhouder t f uitgeverij nv kasteelstraat t bekijk ons catalogus email an we monitor email to donderdag juni onderwerp re reminder openstaan uitgeverij nv medium nv dag opmaken volgen factuur inderdaad inderdaad terugbetaling gebeuren factuur ver zien we jullie ontbreken btw jullie bezorgen vriendelijk groet accountant medium on wed jun at dag bedanken snel reactie jij mail uitgeverij even bekijken alvast bedanken vriendelijk groet controller medium t date wed jun at subject reminder openstaan uitgeverij nv medium nv to kunnen snel mogelijk werk maken dag even collega contractueel bepalen vervaltermijn factuur laten snel mogelijk weten even wij jullie moeten ontvangen zien mail bijlage alvast bedanken t f uitgeverij nv kasteelstraat t bekijk ons catalogus email an we monitor email to woensdag juni onderwerp reminder openstaan uitgeverij nv medium nv goed wij reactie ontvangen onderstaan mail wij factuur dd steeds jullie hiervoor nodig graag ontvangen wij zien terugvinden bijlage vriendelijk groet controller afbeelding verwijderen afzender medium t date wed jun at subject openstaan uitgeverij nv medium nv to goed wij betaling ontvangen onderstaand factuur maart date date factuur betreffen gelieve bezorgen terugvinden bijlage controller afbeelding verwijderen afzender medium t,2
8,0086c212-d50a-4cd7-b06f-df8728a4865e-facturen,goed klant bijlage plaatsvinden nieuw factuur gelieve factuurbedrag binnen dag schrijven rekeningnummer bic de bic attachment we to on account bic vriendelijk groet kind hub bvba,1
9,0088a1bd-0db9-4f6c-b905-67ed9990c62a-facturen,factuur goed klant nieuw factuur beschikbaar bijlage samenvatting factuur factuurnummer datum factuur vervaldag bedrag betalen rekeningnummer medium nv wij danken elektronisch facturatie kiezen vriendelijk groet boekhouding medium nv,1


### Save dataframe to csv file

In [38]:
dfNames.to_csv('test_extraction_emails.csv')

# Conclusion:
Emails need a lot of cleaning to extract the strictly necassary info and remove markup characters. Beyond that we need simplify the remaining text with stopword removel and lemmatization/stemming to get more performance out of our models.

#### Sources:
- https://stackoverflow.com/questions/8115261/how-to-remove-all-the-escape-sequences-from-a-list-of-strings
- https://enjoylifescience.com/2020/11/05/analyzing-emails-in-python/
- https://stackoverflow.com/questions/11331982/how-to-remove-any-url-within-a-string-in-python
- https://towardsdatascience.com/remove-personal-information-from-text-with-python-232cb69cf074
- https://monkeylearn.com/blog/text-cleaning/#:~:text=Text%20cleaning%20can%20be%20performed,words%20to%20their%20root%20form.&text=You'd%20need%20to%20perform,Removing%20Stopwords
- https://www.datacamp.com/tutorial/stemming-lemmatization-python
- https://www.projectpro.io/recipes/use-spacy-lemmatizer
- https://pypi.org/project/dutch-words/ (Replaced by Opentaal wordlist)
- https://github.com/OpenTaal/opentaal-wordlist