# Emails dataset presentation

#### Our dataset

The emails dataset offered with the Melusine library as an example is composed of hypothetical emails inspired by day to day demands received by clients in an insurance context.

It is composed of 40 emails with a large variety of formats. The number of emails is obviously not large enough to train a proper classification or summarization model but offers the opportunity to understand how to use the different subpackages offered.

In [1]:
from melusine.data.data_loader import load_email_data


df_emails = load_email_data()

#### Required format : Pandas Dataframe

Because Melusine operates Pandas Dataframes by applying functions to certain columns to produce new columns, the name of the initial columns has to follow a strict naming.

The basic requirement to use Melusine is to have an input e-mail DataFrame with the following columns :
- body : Body of an email (single message or conversation historic)
- header : Header of an email
- date : Reception date of an email
- from : Email address of the sender
- to (optional): Email address of the recipient
- attachment (optional): List of files attached to the email (examples: ["image1.png","document.pdf"])
- sexe (optional): Gender of the sender
- age (optional): Age of the sender
- attachment (optional): List of files attached to the email (examples: ["image1.png","document.pdf"])
- label (optional): Label of the email for a classification task (examples: Business, Spam, Finance or Family)

Each row correspond to a unique email.

In [2]:
df_emails.columns

Index(['body', 'header', 'date', 'from', 'to', 'attachment', 'sexe', 'age',
       'label'],
      dtype='object')

#### Body column

The body column can contain a single message as below :

In [3]:
print(df_emails.body[5])

 Madame, Monsieur, 
 
 Je vous avais contactés car j'avais pour 
 projet d'agrandir ma maison. J'avais reçu un devis pour lequel je n'avais 
 pas donné suite, les travaux n'étant pas encore réalisés. 
  
 Le projet a maintenant été porté à son terme et je voudrais donc revoir 
 votre offre si possible. 
  
 Je désire garder le même type de contrat. 
 Je suis à votre disposition pour tout renseignement complémentaires. 
  
 Sincères salutations 
 Monsieur Dupont 
  


The body column can contain a historic of conversations as below :

In [4]:
print(df_emails.body[2])

 
  
  
 Bonjours, 
  
 Suite a notre conversation téléphonique de Mardi , pourriez vous me dire la 
 somme que je vous dois afin d'être en régularisation . 
  
 Merci bonne journée 
  
 Le mar. 22 mai 2018 à 10:20,  <conseiller@Societeimaginaire.fr> a écrit : 
 Bonjour. 
  
 Merci de bien vouloir prendre connaissance du document ci-joint : 
 1 - Relevé d'identité postal (contrats) 
  
 Cordialement. 
  
 La Mututelle Imaginaire 
  
 La visualisation des fichiers PDF nécessite Adobe Reader. 
  


The body column can contain a transfered message as below :

In [5]:
print(df_emails.body[0])

 
  
  
  
 ----- Transféré par Conseiller le 24/05/2018 11:49 ----- 
  
 De :	Dupont <monsieurdupont@extensiona.com> 
 A :	conseiller@Societeimaginaire.fr 
 Cc :	Societe@www.Societe.fr 
 Date :	24/05/2018 11:36 
 Objet :	Devis habitation 
  
  
  
 Bonjour 
 Je suis client chez vous 
 Pouvez vous m établir un devis pour mon fils qui souhaite 
 louer l’appartement suivant : 
 25 rue du rueimaginaire 77000 
 Merci 
 Envoyé de mon iPhone


The body column can contain a mix of transfered messages and historic conversations as below :

In [6]:
print(df_emails.body[39])

 
  
  
 (Embedded image moved to file: pic.jpg) Rejoignez-nous sur notre page 
 Facebook 
  
 (Embedded image moved to file: pic.gif) 
  
  
  
 ----- Transféré par Conseiller/Societe Imaginaire le 07/06/2018 16:32 ----- 
  
 De :	monsieurdupont <monsieurdupont@extensionb.com> 
 A :	conseiller@Societeimaginaire.fr 
 Date :	07/06/2018 16:16 
 Objet :	Re : Message de votre conseillère personnelle 
  
  
  
 Bonjour, 
  
 Merci de vos messages. La voiture est conduite par Monsieur Dupont. 
 Nos deux voitures sont assurées à 100%. 
  
 Cordialement, 
  
 Monsieur Dupont 
  
 Le 07/06/18, "conseiller@Societeimaginaire.fr" <conseiller@Societeimaginaire.fr> a 
 écrit : 
  
  
 Chère client, 
  
 Suite à notre bilan du 01 mai dernier, je souhaitais savoir ce que vous 
 avez décidé. 
  
  
 Je devais vous établir un devis pour votre voiture donc si 
 vous pouviez m'indiquer le conducteur principal, la date de permis de la voiture ainsi 
 que le type de couverture que vous recherchez, je vous e

#### Header column

The header contains the subject of the email :

In [7]:
print(df_emails.header[4])

Bulletin de salaire


The header can also indicate if the message has been transfered if TR, Tr, FWD, Fwd are located at the start of the header

In [8]:
print(df_emails.header[1])

Tr : Immatriculation voiture


The header can also indicate if the message is an historic of conversations if Re or RE are located at the start of the header.

In [9]:
print(df_emails.header[3])

Re: Votre adhésion à la Société Imaginaire


#### From column

The from column contains the email address of the person who sent the email.

In [10]:
print(df_emails.loc[3,"from"])

Monsieur Dupont <monsieurdupont@extensiond.com>


#### To column

The to column, which is optional, contains the email address of the person the email has been sent to.

In [11]:
print(df_emails.loc[3,"to"])

demandes@societeimaginaire.fr


#### Date column

The date column contains the date at which the email has been sent.

In [12]:
print(df_emails.loc[3,"date"])

vendredi 25 mai 2018 10 h 15 CEST


#### Sexe column

The sexe column contains the gender of the sender

In [13]:
print(df_emails.loc[3,"sexe"])

M


#### Age column

The age column contains the age of the sender

In [14]:
print(df_emails.loc[3,"age"])

50


#### Label column

The label column, which is optional, contains the labels of each emails for a classification problem

In [15]:
list(df_emails.label.unique())

['habitation',
 'vehicule',
 'compte',
 'adhesion',
 'resiliation',
 'autres',
 'bilan',
 'modification',
 'succession',
 'regularisation',
 'sinistres']