# Analyse d'un email suspect

Le vecteur initial d'intrusion le plus courant dans un incident cyber est un mail de phishing. \
C'est pour cela qu'il est très important de pouvoir analyser facilement un email reçu afin d'identifier très facilement un mail légitime d'un mail malveillant.

Il existe plusieurs format de mail ".msg" et ".eml". \
Les outils pour réaliser les analyses sont différents. Nous allons donc créer des sections distinctes.

In [1]:
from colorama import init, Fore, Back, Style
from datetime import datetime
from defang import defang
import eml_parser
import msticpy as mp
import os
import pandas as pd
import msticpy.sectools as sectools
import re
import magic
from msg_parser import MsOxMessage
 

#Expand the width of the cells
from IPython.display import display, HTML
display(HTML("<style>.container { width:90% !important; }</style>"))

pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

mp.init_notebook(globals(), verbosity=0)
ti = mp.TILookup()
ioc_extractor = sectools.IoCExtract()

# Chemin du fichier à analyser
emailFile = {}
emailFile['path'] = "/home/secubian/Documents/Documentation/JupyterNotebook/payloads_and_dumps/eml/QUEIXA CONTRA SI.eml"  
emailFile['path'] = "/home/secubian/Documents/Documentation/JupyterNotebook/payloads_and_dumps/msg/file_msg_apt29.msg"  


You are using python-magic, though this module requires file-magic. Disabling magic usage due to incompatibilities.


# Determine the file type

Ce controle permet d'identifier s'il s'agit d'un fichier EML ou MSG Outlook, car les outils d'analyse sont différents.

In [2]:
fileType = magic.Magic().id_filename(emailFile['path'])

if "Microsoft Outlook Message" in fileType and ".msg" in emailFile['path']:
    print("This is a MSG file")
    emailType = "msg"
elif "text" in fileType and ".eml" in emailFile['path']:
    print("This is an EML file")
    emailType = "eml"
else:
    print("File Type not supported!")


This is a MSG file


## Analyse des mails au format EML

La première étape consiste à extraire les informations utiles telles que les entêtes. \
Ces informations seront placées dans des variables pour être analysées ci-dessous.

In [4]:
recipient_header=['recipients']
sender_headers=['SenderEmailAddress','SenderName','SenderSearchKey','SenderSmtpAddress','SentRepresentingSmtpAddress']
subject_header=['Subject']
mail_headers = {}
headers = {}

eml = eml_parser.parser.decode_email(emailFile['path'], include_attachment_data=True)
headers = eml['header']
mail_headers['From'] = headers['from']
mail_headers['Subject'] = headers['subject']

### Analyse de l'expéditeur

Il est facile de falcifier l'adresse mail à l'origine de l'envoi du mail. \
Sans rentrer dans les détails, nous allons analyser les entêtes comportant l'adresse mail de l'expéditeur. \
Si l'analyse recense plus d'une adresse mail, alors nous sommes potentiellement face à une usurpation d'identité.

In [5]:
# Analyse senders adresses
senders_headers = ['from','envelope-from','smtp.mailfrom','smtp.pra','return-path','x-sender']
senders_email = []

for sender in senders_headers:
    if sender in headers:
        senders_email.append(headers[sender])

if len(senders_email) > 1: senders_email = set(senders_email)

if (mail_headers['From'] in str(senders_email)) and len(senders_email) == 1:
    print(Fore.GREEN + "[✓] No Potentially identity usurpation")
    print(Fore.GREEN + f"[✓] Only one email address has been identified : {mail_headers['From']}")
else:
    print(Fore.RED + "[!] Potentially identity usurpation during headers analysis (from, envelope-from, x-sender, smtp.mailfrom, return-path)")
    print(f"Email addresses specified in From value : {mail_headers['From']}")
    print(f"All email addresses identified in headers : {senders_email}")


[32m[✓] No Potentially identity usurpation
[32m[✓] Only one email address has been identified : direccao.gouv@gmail.com


### Analyse de l'entête "Message ID"

Il peut être observé durant l'analyse de l'entête "Message ID" un nom de domaine différent de celui présent dans l'adresse mail de l'expéditeur. Cette situation peut aider à identifier un mail malveillant.

In [21]:
regex_message_id = r"[^@]+@([^'>]+)"
result = re.search(regex_message_id, str(headers['header']['message-id']))
message_id_domain = result.group(1)
if message_id_domain not in mail_headers['From']:
    print(Fore.RED + f"[!] Domain in Message-ID ({message_id_domain}) doesn't equal with 'From' email address domain ({mail_headers['From']})")
else:
    print(Fore.GREEN + f"[✓] Message-ID domain ({message_id_domain}) is similar with 'From' email address domain ({mail_headers['From']})")


[31m[!] Domain in Message-ID (mail.gmail.com) doesn't equal with 'From' email address domain (direccao.gouv@gmail.com)


### Analyse de la durée nécessaire à l'envoi du mail

Un mail n'a besoin que de quelques secondes pour transiter entre le client de messagerie de l'expéditeur et le serveur de messagerie du destinataire. \
Il est donc plutot facile d'identifier des mails envoyés à des groupes de diffusion, ou spam en masse qui demande plus de temps de traitement aux serveurs intermédiaires durant le transite du mail. Nous avons décidé ici d'établir un seuil à 60 secondes.

In [60]:
# Analyse the delta between the sending of the email by the sender and its reception by the recipient. 
mail_date_sent = headers['received'][len(headers['received'])-1]['date']
mail_date_received = headers['received'][0]['date']
delta = mail_date_received - mail_date_sent

if delta.total_seconds() > 60:
    print(Fore.RED + f"[!] It seems to be a SPAM : {delta.total_seconds()} seconds ")
else:
    print(Fore.GREEN + f"[✓] It seems to be a Legit mail : {delta.total_seconds()} seconds ")
    
mail_headers['mail_time_delay (seconds)'] = delta.total_seconds()

[32m[✓] It seems to be a Legit mail : 2.0 seconds 


### Extraction des pièces jointes

L'analyse du fichier EML continue en réalisant une extraction des pièces jointes. \
Ces dernières peuvent contenir du code malveillant. Il est donc nécessaire d'être vigilant.

Une des premières actions pourrait être l'analyse des pièces jointes via un antivirus, ou rechercher leur hash.

In [88]:
import base64
outpath = f"{emailFile['path']}_attachments/"
if len(eml['attachment']) > 0:
    for attachment in eml['attachment']:

        filename = attachment['filename']

        filename = os.path.join(outpath, filename)
        if not os.path.exists(os.path.dirname(filename)):
            try:
                os.makedirs(os.path.dirname(filename))
            except OSError as exc:  # Guard against race condition
                if exc.errno != errno.EEXIST:
                    raise

        print(Fore.RED + f"[!] Writing attachment: {filename}")

        with open(filename, 'wb') as a_out:
            a_out.write(base64.b64decode(attachment['raw']))
else:
    print(Fore.GREEN + f"[✓] No attachment included")

[31m[!] Writing attachment: /home/secubian/Documents/Documentation/JupyterNotebook/payloads_and_dumps/eml/QUEIXA CONTRA SI.eml_attachments/Europol.jpg


La commande ci-dessous va générer les empreintes numériques des fichiers extraits. \
Il est tout à fait possible à l'issue de réaliser une recherche en sources ouvertes de ces valeurs (ex: https://www.virustotal.com/gui/home/search)

In [98]:
outpath_hash = outpath.replace(' ','\ ')
!hashdeep -r $outpath_hash

%%%% HASHDEEP-1.0
%%%% size,md5,sha256,filename
## Invoked from: /home/secubian/Documents/Documentation/JupyterNotebook/dfir
## $ hashdeep -r /home/secubian/Documents/Documentation/JupyterNotebook/payloads_and_dumps/eml/QUEIXA CONTRA SI.eml_attachments/
## 
529330,662bd359219f0429fbd304df0c14645b,0ccc53558bf35b59c52cc938b68ddc0d359bc6c9aff6afbf39f2df87104328cc,/home/secubian/Documents/Documentation/JupyterNotebook/payloads_and_dumps/eml/QUEIXA CONTRA SI.eml_attachments/Europol.jpg


## Analyse des mails au format MSG Outlook



In [None]:
"""
#!pip3 install extract-msg
import extract_msg
import json
import re

f = emailFile['path']  # Replace with yours
msg = extract_msg.Message(f)
msg_sender = msg.sender
msg_date = msg.date
msg_subj = msg.subject
msg_message = msg.body

#print('Sender: {}'.format(msg_sender))
#print('Sent On: {}'.format(msg_date))
#print('Subject: {}'.format(msg_subj))
#print('Body: {}'.format(msg_message))
headers = json.loads(json.dumps(msg.headerDict))
#headers['Received-SPF']
#headers['User-Agent']

def runRegexList(reg, data, options=""):
    results = []
    matches = re.finditer(reg, data, options)
    for matchNum, match in enumerate(matches, start=1):
        for groupNum in range(1, len(match.groups())):
            groupNum = groupNum + 1
            results.append(match.group(groupNum))
    return results

## Extraction des entêtes liées à l'expéditeur du mail
headersFrom = []
regexEmail = r"(envelope-from=.|x-sender=.|smtp.mailfrom=)([^<\s\r\n)\"':;]+@[^>\s\r\n)\"';,]+)"
#headersFrom.append(runRegex(regexEmail, str(headers['From']), re.MULTILINE))
headersFrom.append(runRegexList(regexEmail, str(msg.headerDict), re.MULTILINE))
headersFrom
"""



In [38]:
recipient_header=['recipients']
sender_headers=['SenderEmailAddress','SenderName','SenderSearchKey','SenderSmtpAddress','SentRepresentingSmtpAddress']
subject_header=['Subject']
mail_headers = {}
headers = {}

import chardet
msg = extract_msg.openMsg(emailFile['path'])
msg_obj = MsOxMessage(emailFile['path'])

body_encoding = chardet.detect(msg.htmlBody)['encoding']
body_html = msg.htmlBody.decode(body_encoding) if msg.htmlBody else ''

headers = msg_obj.header_dict
#json_string = msg_obj.get_message_as_json()
msg_properties_dict = msg_obj.get_properties()
headers_raw = msg_properties_dict['TransportMessageHeaders']

mail_headers['From'] = headers['From'][0]
mail_headers['Subject'] = headers['Subject']
#mail_headers['Attachments'] = headers['attachments']

mail_headers['From']

'Cancelliere governo.it <info@cesmoscan.org>'

### Analyse de l'expéditeur

Il est facile de falcifier l'adresse mail à l'origine de l'envoi du mail. \
Sans rentrer dans les détails, nous allons analyser les entêtes comportant l'adresse mail de l'expéditeur. \
Si l'analyse recense plus d'une adresse mail, alors nous sommes potentiellement face à une usurpation d'identité.

In [37]:
# Analyse senders adresses
senders_email = []
regex = [
            {"name":"From (envelope-from)", "value":r'envelope-from=\"([^;]+)\"', "regexGroupID":0},
            {"name":"From (smtp.mailfrom)", "value":r'smtp.mailfrom=([^;]+)', "regexGroupID":0},
            {"name":"From (smtp.pra)", "value":r'smtp.pra=([^;]+)', "regexGroupID":0},
            {"name":"From (return-path)", "value":r'Return-Path: ([^\\\r]+)', "regexGroupID":0},
            {"name":"From (x-sender)", "value":r'X-Sender: ([^\\\r]+)', "regexGroupID":0},
        ]

for r in regex:
    result = re.search(r['value'], str(headers_raw))
    try:
        senders_email.append(result.group(1))
    except:
        pass

senders_email = list(set(senders_email))
if (mail_headers['From'] in str(senders_email)) and len(senders_email) == 1:
    print(Fore.GREEN + "[✓] No Potentially identity usurpation")
    print(Fore.GREEN + f"[✓] Only one email address has been identified : {mail_headers['From']}")
else:
    print(Fore.RED + "[!] Potentially identity usurpation during headers analysis (from, envelope-from, x-sender, smtp.mailfrom, return-path)")
    print(f"Email addresses specified in From value : {mail_headers['From']}")
    print(f"All email addresses identified in headers : {senders_email}")



[31m[!] Potentially identity usurpation during headers analysis (from, envelope-from, x-sender, smtp.mailfrom, return-path)
Email addresses specified in From value : Cancelliere governo.it <info@cesmoscan.org>
All email addresses identified in headers : ['info@cesmoscan.org']


### Analyse de l'entête "Message ID"

Il peut être observé durant l'analyse de l'entête "Message ID" un nom de domaine différent de celui présent dans l'adresse mail de l'expéditeur. Cette situation peut aider à identifier un mail malveillant.

In [7]:
regex_message_id = r"Message-ID:\s<[^@]+@([^>]+)>"
result = re.search(regex_message_id, headers)
message_id_domain = result.group(1)
if message_id_domain not in mail_headers['From']:
    print(Fore.RED + f"[!] Domain in Message-ID ({message_id_domain}) doesn't equal with 'From' email address domain ({mail_headers['From']})")
else:
    print(Fore.GREEN + f"[✓] Message-ID domain ({message_id_domain}) is similar with 'From' email address domain ({mail_headers['From']})")


[32m[✓] Message-ID domain (cesmoscan.org) is similar with 'From' email address domain (info@cesmoscan.org)


### Analyse de la durée nécessaire à l'envoi du mail

Un mail n'a besoin que de quelques secondes pour transiter entre le client de messagerie de l'expéditeur et le serveur de messagerie du destinataire. \
Il est donc plutot facile d'identifier des mails envoyés à des groupes de diffusion, ou spam en masse qui demande plus de temps de traitement aux serveurs intermédiaires durant le transite du mail. Nous avons décidé ici d'établir un seuil à 60 secondes.

In [8]:
# Analyse the delta between the sending of the email by the sender and its reception by the recipient. 
regex = r"Received: from[^;]+;\s(\S{3},\s\d{0,2}\s\S{3}[^:]+\d{0,2}:\d{0,2}:\d{0,2}\s\+\d{4})"
matches = re.finditer(regex, headers, re.MULTILINE)

mail_transfert_date = []
for matchNum, match in enumerate(matches, start=1):
    for groupNum in range(0, len(match.groups())):
        groupNum = groupNum + 1        
        mail_transfert_date.append(datetime.strptime(match.group(groupNum).replace('\r\n',''), '%a, %d %b %Y %H:%M:%S %z'))

mail_transfert_date_youngest = min(mail_transfert_date)
mail_transfert_date_oldest = max(mail_transfert_date)

delta = mail_transfert_date_oldest - mail_transfert_date_youngest
if delta.total_seconds() > 60:
    print(Fore.RED + f"[!] It seems to be a SPAM : {delta.total_seconds()} seconds ")
else:
    print(Fore.GREEN + f"[✓] It seems to be a Legit mail : {delta.total_seconds()} seconds ")
    
mail_headers['mail_time_delay (seconds)'] = delta.total_seconds()

[31m[!] It seems to be a SPAM : 75.0 seconds 
