# import necassary libraries

In [24]:
from pathlib import Path
import pandas as pd
from email import policy
from email.parser import BytesParser
import os
import re
from bs4 import BeautifulSoup
import numpy as np

# set column width to maximum for better visibility of data
pd.set_option('display.max_colwidth', None)

# Extract content from the emails

In [25]:
# define and print path to .eml files (emails)
pathString = os.getcwd() + '//BrainjarMails'
path = Path(pathString)
pathLength = len(pathString)
print(path)

# grab every file with the extension .eml
email_files = list(path.glob('*.eml'))

# create lists for the names and content of the emails
names = []
contents = []

# loop over all found files
for email in email_files:
    
    #open each file in read bytes mode
    with open(email,'rb') as filepointer:
        
        # name is original filename minus the path and extension
        name = filepointer.name[pathLength:-4]
        
        # Parse data from email to message object
        message = BytesParser(policy=policy.default).parse(filepointer)
        
    # pass the plain text from the body of the email to a string variable. If no plain text is availible, 
    # just pass everything in the body
    try:
        content = message.get_body(preferencelist=('plain')).get_content()
    except:
        content = message.get_body().get_content()
    
    # Extract text from any HTML that is present.
    content = BeautifulSoup(content).get_text()
    
    # Remove escape characters (for example newlines)
    escapes = ''.join([chr(char) for char in range(1, 32)])
    #translator = str.maketrans(escapes, ' ')
    #content = content.translate(translator)
    content = re.sub(r'[' + escapes + r']',' ', content)
    
    # Remove any non-ascii characters
    content = content.encode('ascii', errors='ignore').decode()
    
    # Remove websites from mails (maybe not necassary)
    content = re.sub(r'http\S+', '', content)
    
    # Remove extra whitespaces
    content = re.sub(' +', ' ', content)
    
    # Remove excess non-alphanumeric characters except for punctuation
    content = re.sub(r'[^A-Za-z0-9 ,?.:;!]+', '',content)
    
    # additional filtering for privacy may be necessary
    content = re.sub(r'BIC: [A-Z]*','',content)
    content = re.sub(r'\w*\d\w*', '<NUMBER>', content).strip()
    
    # add name and content of current email to their respective lists
    names.append(name)
    contents.append(content)
    
    #close the current file
    filepointer.close()

C:\De Nayer 2022-2023\Bachelorproef\Jupyter notebook\BrainjarMails




### Turn lists into dataframe for easy exploration

In [26]:
dfNames = pd.DataFrame([names, contents]).T
dfNames.columns = ['names', 'contents']

### Set class index based on title

In [28]:
dfNames['classIndex'] = 0
dfNames['classIndex'] = np.where(dfNames['names'].str.contains('facturen'), 1, dfNames['classIndex'])
dfNames['classIndex'] = np.where(dfNames['names'].str.contains('aanmaningen'), 2, dfNames['classIndex'])

### Display top 20 rows

In [29]:
dfNames.head(20)

Unnamed: 0,names,contents,classIndex
0,00057d8d-2e28-45d2-8836-e80003cadafa-andere,"BPOSEBILEmail Klik hier voor de online versie. De bijlage van uw bpost N.V. van publiek recht Factuur nummer <NUMBER> is online beschikbaar ! Beste klant, Wij informeren u dat de bijlage van uw bpost N.V. van publiek recht Factuur met nummer <NUMBER> en dd <NUMBER> vanaf nu online beschikbaar is. Uw bijlage downloaden Met vriendelijke groet, De facturatiedienst In geval van vragenbetwisting met betrekking tot uw bijlage, gelieve ons te contacteren via",0
1,00403521-b493-413d-b0a9-db90dd069dad-facturen,No title given Gelieve uw factuur als bijlage te vinden. Zijn er vragen? Contacteer ons op <NUMBER>.<NUMBER>.<NUMBER> of businessbrail.be,1
2,005385fa-959e-4a8b-8763-15261c217b41-facturen,"Beste, In bijlage kan u de factuur voor de maand juli vinden. Met vriendelijke groeten cid:<NUMBER>.<NUMBER>.<NUMBER> Nadine Haijen Fleet Finance Coordinator <NUMBER> nhaijencallexcell.com Tiensesteenweg <NUMBER>, bus <NUMBER> blok C, <NUMBER> SintTruiden www.callexcell.com",1
3,00552116-d17a-452a-b1f3-e69f76a7cef1-facturen,"Geachte klant, In de bijlage ontvangt u onze factuur. Voor vragen kunt u terecht bij n van onze medewerkers via telefoonnummer <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> of email debiteurenfacilicom.be. Met vriendelijke groeten, Gom N.V. Administratieve Postbus FIN Facturatie Facilicom Services Group Belgium Noorderplaats <NUMBER> AntwerpenT M Finvoicefacilicom.be www.facilicom.bePlease consider the environment before printing this email",1
4,00680439-07fe-4e6d-a145-e339a3d73e40-facturen,"Dit bericht bevat uw elektronische factuur. Het elektronisch ondertekend PDF document is de wettelijke factuur. In het kader van de wetgeving op elektronisch factureren bent u verplicht uw facturen in hun originele elektronische formaat te bewaren gedurende de wettelijk bepaalde periode. Een geprinte versie van de elektronische factuur geldt in geen geval als wettelijke factuur. Om de elektronisch ondertekende factuur te kunnen bekijken en valideren, dient u Adobe Reader <NUMBER> of hoger te gebruiken. Factuurnummer: <NUMBER> Factuurdatum: <NUMBER> Dienstverlener: Basware Belgium NV Verzender: Bright PlusVriendelijke groeten,Bright Plus Please do not respond to this email. This message is sent automatically and responses to it can not be processed. For further information on our services and contact details please visit Basware.be.",1
5,0070566b-63e7-4cca-82ff-116f1f834130-andere,"Bedankt voor uw reservatie! Dit is een definitieve reservatie! Voltooi volgende stappen voor de ophaling van het materiaal: STAP <NUMBER>: CONTRACT Controleer uw contract nauwkeurig en onderteken het digitaal via deze link STAP <NUMBER>: ID Klik hieronder op uw naam om uw identiteit te verifiren. Zijn er meerdere contacten? Dan verifieert de hoofdverantwoordelijke Sam Haeghens Staat uw naam in het groen? Dan hoeft u niets meer te doen! STAP <NUMBER>: BETALING U betaalt op factuur met een termijn van <NUMBER> dagen. Nuttige info: . Komt u zelf niet ophalen? Stuur deze mail door naar de ophaler als bewijs. . U kan uw materiaal oppikken in Gent volgens de uren aangeduid in het contract. Alle stappen moeten voltooid zijn . De factuur ontvangt u per mail na inlevering en controle van het materiaal. Bedankt! Ostron Team Dit is een definitieve reservatie! Annuleren kan enkel kosteloos binnen de <NUMBER> na verzending van deze mail. Daarna zijn er kosten aan verbonden, zie onze algemene voorwaarden voor meer details. To change your email preferences when comments are added to this discussion click here Sent from",0
6,0076fa2e-db45-4b1f-bd08-dc73ae26b42b-andere,"Hoi, Voegen jullie Daan Ceulemans toe als leverancier aub, de firmanaam is Kadanz. De Kil <NUMBER> <NUMBER> Niel <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> daankadanz.com BTW NR : <NUMBER> groetjes, Hilde Sijbers planner image: DPG Media Medialaan <NUMBER> <NUMBER> Vilvoorde T <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> M <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> Hilde.sijbersdpgmedia.be dpgmedia.be",0
7,007e144d-da55-43e1-938c-d94ee76d43c7-aanmaningen,"Beste, In bijlage onze ruilfactuur voor <NUMBER>. De factuur van jullie die hierop betrekking heeft is <NUMBER>. Mvg, Bjrge Ponnet Boekhouder T <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> F <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> Uitgeverij Lannoo nv Kasteelstraat <NUMBER> <NUMBER> Tielt Belgi T <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> Bekijk hier onze catalogus lannoo.com Facebook Instagram Twitter LinkedIn This email may contain confidential material. If you were not an intended recipient, please notify the sender and delete all copies. We may monitor email to and from our network. Lannoo Publishers ltd. Van: Jerry Excelmans Verzonden: vrijdag <NUMBER> augustus <NUMBER> <NUMBER>:<NUMBER> Aan: Bjrge Ponnet Onderwerp: Re: FW: Reminder: Openstaande facturen UITGEVERIJ LANNOO NV <NUMBER> DPG Media NV BE <NUMBER>.<NUMBER>.<NUMBER> Beste Bjrge, zou het kunnen dat we de factuur van <NUMBER> waarvan mijn collega Kristof al sprak nog niet hebben mogen ontvangen? Deze mag naar suppliersdpgmedia.be verzonden worden met mij in kopie van de mail graag. Alvast bedankt! Met vriendelijke groeten, Jerry GL accountant DPG Media Mediaplein <NUMBER> <NUMBER> Antwerpen <NUMBER> <NUMBER> <NUMBER> <NUMBER> Jerry.Excelmansdpgmedia.be dpgmedia.be On Mon, <NUMBER> Jun <NUMBER> at <NUMBER>:<NUMBER>, Bjrge Ponnet wrote: Hallo Kristof, De terugbetaling is vrijdag uitgevoerd, dus zal hoogstwaarschijnlijk vandaag bij jullie toekomen. Voor de tegenfactuur van <NUMBER>.<NUMBER> excl BTW zal ik achter mijn collega haar veren zitten . Fijne dag nog. Mvg, Bjrge Ponnet Boekhouder T <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> F <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> Uitgeverij Lannoo nv Kasteelstraat <NUMBER> <NUMBER> Tielt Belgi T <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> Bekijk hier onze catalogus lannoo.com Facebook Instagram Twitter LinkedIn This email may contain confidential material. If you were not an intended recipient, please notify the sender and delete all copies. We may monitor email to and from our network. Lannoo Publishers ltd. Van: Kristof Laureys Verzonden: donderdag <NUMBER> juni <NUMBER> <NUMBER>:<NUMBER> Aan: Pieter Neirynck ; Bjrge Ponnet CC: Clio Janssens ; Sandra De Maertelaere ; Stefanie De Craemer ; Jerry Excelmans Onderwerp: Re: FW: Reminder: Openstaande facturen UITGEVERIJ LANNOO NV <NUMBER> DPG Media NV BE <NUMBER>.<NUMBER>.<NUMBER> Dag Pieter en Bjrge, Deze <NUMBER> ruilfacturen worden opgemaakt bij de volgende facturatierun van de ruilfacturen, op <NUMBER>. Voor factuur <NUMBER> was er inderdaad iets misgelopen, het zou inderdaad het makkelijkste zijn als de terugbetaling gebeurt van deze factuur. Verder zie ik nog dat we jullie tegenfactuur van ruilovereenkomst <NUMBER> ontbreken <NUMBER>.<NUMBER>,<NUMBER> btw. Kunnen jullie deze nog bezorgen? Vriendelijke groet, Kristof Laureys GL tax accountant DPG Media Mediaplein <NUMBER> <NUMBER> Antwerpen kristof.laureysdpgmedia.be dpgmedia.be On Wed, <NUMBER> Jun <NUMBER> at <NUMBER>:<NUMBER>, Clio Janssens wrote: Dag Pieter, Bedankt voor je snelle reactie! Kristof Laureys Zou jij bijgevoegde mail ivm <NUMBER> ruilfacturen aan Uitgeverij Lannoo even kunnen bekijken aub? Alvast bedankt! Met vriendelijke groeten, Clio Janssens Credit Controller DPG Media Mediaplein <NUMBER> <NUMBER> Antwerpen T <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> clio.janssensdpgmedia.be dpgmedia.be Forwarded message From: creditorsmanagement Date: Wed, <NUMBER> Jun <NUMBER> at <NUMBER>:<NUMBER> Subject: FW: Reminder: Openstaande facturen UITGEVERIJ LANNOO NV <NUMBER> DPG Media NV BE <NUMBER>.<NUMBER>.<NUMBER> To: Stefanie De Craemer , clio.janssenspersgroep.net Cc: Sandra De Maertelaere , fabienne.vanhaelewyckdpgmedia.be Hey Stefanie, Kun je zo snel mogelijk werk maken van de tegenfactuur? Thanks! Dag Clio, Ik heb even gepolst bij mijn collega wat er contractueel bepaald is van vervaltermijn voor factuur <NUMBER>. Ik laat hier zo snel mogelijk iets over weten. Zou er ook nog even kunnen gekeken worden voor de <NUMBER> ruilfacturen die wij nog van jullie moeten ontvangen? Zie mail in bijlage. Alvast bedankt. Mvg, pieter Pieter Neirynck Crediteurenadministratie T <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> F <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> Uitgeverij Lannoo nv Kasteelstraat <NUMBER> <NUMBER> Tielt Belgi T <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> Bekijk hier onze catalogus lannoo.com Facebook Instagram Twitter LinkedIn This email may contain confidential material. If you were not an intended recipient, please notify the sender and delete all copies. We may monitor email to and from our network. Lannoo Publishers ltd. Van: Clio Janssens Verzonden: woensdag <NUMBER> juni <NUMBER> <NUMBER>:<NUMBER> Aan: Pieter Neirynck ; creditorsmanagement CC: Fabienne Vanhaelewyck Onderwerp: Reminder: Openstaande facturen UITGEVERIJ LANNOO NV <NUMBER> DPG Media NV BE <NUMBER>.<NUMBER>.<NUMBER> Beste, Wij hebben nog geen reactie ontvangen op onderstaande mail en wij hebben gemerkt dat uw factuur <NUMBER> dd. <NUMBER> nog steeds onbetaald is. Kunnen jullie hiervoor het nodige doen aub? Graag ontvangen wij ook uw tegenfactuur voor ruilfactuur <NUMBER> zie ruilovereenkomst <NUMBER>. U kan kopies terugvinden in de bijlage. Met vriendelijke groeten, Clio Janssens Credit Controller Afbeelding verwijderd door afzender. DPG Media Mediaplein <NUMBER> <NUMBER> Antwerpen T <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> clio.janssensdpgmedia.be dpgmedia.be Forwarded message From: Clio Janssens Date: Wed, <NUMBER> Jun <NUMBER> at <NUMBER>:<NUMBER> Subject: Openstaande facturen UITGEVERIJ LANNOO NV <NUMBER> DPG Media NV BE <NUMBER>.<NUMBER>.<NUMBER> To: , Cc: Fabienne Vanhaelewyck Beste, Wij mochten nog geen betaling ontvangen voor onderstaande factuur van maart: Customer Date Due date Invoice Amount <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER>.<NUMBER>,<NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER>.<NUMBER>,<NUMBER> Factuur <NUMBER> betreft uw ruilovereenkomst <NUMBER>. Gelieve ons uw tegenfactuur te bezorgen aub. U kan kopies van de facturen ruilovereenkomst terugvinden in de bijlage. Clio Janssens Credit Controller Afbeelding verwijderd door afzender. DPG Media Mediaplein <NUMBER> <NUMBER> Antwerpen T <NUMBER> <NUMBER> <NUMBER> <NUMBER> <NUMBER> clio.janssensdpgmedia.be dpgmedia.be",2
8,0086c212-d50a-4cd7-b06f-df8728a4865e-facturen,"Beste klant, Cher client, Dear customer, In bijlage vindt u de nieuwe factuur. Gelieve het factuurbedrag van <NUMBER>,<NUMBER> binnen de <NUMBER> dagen over te schrijven op rekeningnummer <NUMBER> <NUMBER> <NUMBER> <NUMBER> . Vous trouverez votre nouvelle facture en annexe. Veuillez payer le montant total de <NUMBER>,<NUMBER> endans des <NUMBER> jours sur notre compte <NUMBER> <NUMBER> <NUMBER> <NUMBER> . You will find your new invoice in attachment. May we kindly ask you to pay <NUMBER>,<NUMBER> within <NUMBER> days on account nbr:<NUMBER> <NUMBER> <NUMBER> <NUMBER> . Met vriendelijke groeten, Bien vous, Kind regards Idealabs Hub BVBA Midori,",1
9,0088a1bd-0db9-4f6c-b905-67ed9990c62a-facturen,"Factuur <NUMBER> Beste klant, Uw nieuwe factuur is beschikbaar in bijlage. Samenvatting van de factuur: Factuurnummer: <NUMBER> Datum factuur: <NUMBER> Vervaldag: <NUMBER> Bedrag te betalen: <NUMBER>.<NUMBER>,<NUMBER> Rekeningnummer DPG Media NV: <NUMBER> Betalingsreferentie: <NUMBER> Wij danken u dat u voor elektronische facturatie kiest! Met vriendelijke groet, Boekhouding DPG Media NV invoicingdpgmedia.be",1


### Save dataframe to csv file

In [30]:
dfNames.to_csv('test_extraction_emails.csv')

#### Sources:
- https://stackoverflow.com/questions/8115261/how-to-remove-all-the-escape-sequences-from-a-list-of-strings
- https://enjoylifescience.com/2020/11/05/analyzing-emails-in-python/
- https://stackoverflow.com/questions/11331982/how-to-remove-any-url-within-a-string-in-python
- https://towardsdatascience.com/remove-personal-information-from-text-with-python-232cb69cf074