In [73]:
from nltk.tokenize import word_tokenize
import xml.etree.ElementTree as etree
from nltk.corpus import stopwords
from collections import Counter
import pandas as pd
import numpy as np
import sys
import re

In [3]:
sys.path.insert(0, '..')
from email_body_cleaner import clean_email_body

In [4]:
# Access the root of the XML document
root = etree.parse('../data/quid_unisi/HelpDeskRizzo.xml').getroot()

In [5]:
relevant_column_names = [
    'id', 
    'subject', 
    'content', 
    'intervento'
]    

relevant_column_indices = [
    0, # id
    1, # subject
    2, # content
    5  # intervento
]

# This will hold dataframe values
dataframe_values = []

# Extract relevant information from the XML file
for row in root.findall('records/row'):
    
    node_attrs = row.findall('column')
    node_attrs = list( map(lambda col: col.text, node_attrs) )
    node_attrs = np.array(node_attrs)[relevant_column_indices]
    
    dataframe_values.append(node_attrs)
    
# Create the dataframe    
dataframe_values = np.reshape(dataframe_values, (-1, len(relevant_column_indices)))
dataframe = pd.DataFrame(dataframe_values, columns=relevant_column_names)

In [6]:
dataframe

Unnamed: 0,id,subject,content,intervento
0,2039,segnalazione Ugov,Buongiorno\n\ninvio in allegato messaggio che ...,Informazioni e supporto funzionale
1,3566,Re: VoIP@Unisi - Attenzione: la linea telefoni...,"Gentile Pinassi,\n\ncome gi=C3=A0 comunicato i...",Informazioni e supporto funzionale
2,3566,Re: VoIP@Unisi - Attenzione: la linea telefoni...,"<html>\n <head>\n <meta http-equiv=3D""Cont...",Informazioni e supporto funzionale
3,4144,oracle per CaricaCsa,"Gentili colleghi,\n\nper poter caricare i file...",Malfunzionamento SW specialistico
4,4570,problema con email,"Carissimi,\n\nieri sera hanno cominciato ad ar...",Informazioni e supporto funzionale
5,4570,problema con email,"<html><head><meta http-equiv=3D""Content-Type"" ...",Informazioni e supporto funzionale
6,5738,richiesta di 3 terminali,"Cari colleghi, come gi=C3=A0 accennato a voce,...",
7,6056,... programma Time&Work,"Gentili colleghe/i,\n\nla presente =C3=A8 per ...",Informazioni e supporto funzionale
8,7037,sostituzione apparato mobile convenzione consip,"<!DOCTYPE HTML PUBLIC ""-//W3C//DTD HTML 3.2//E...",Sostituzione apparato
9,7037,sostituzione apparato mobile convenzione consip,"Egregio Dott. Pinassi,\nmi si =C3=A8 rotto il ...",Sostituzione apparato


As we can see, there are some duplicate rows (they have the same 'id'). The body of the email (column 'content') is the same for both, however in one case the body is wrapped in HTML tags. What we want to do is to remove such rows

In [7]:
# Add dummy column representing the number of characters of attribute 'content'
dataframe['content_length'] = list(map(len, dataframe['content'].values))

# Since it is evident that the row in which the email body is wrapped in HTML tags will have a larger value
# of 'content_length' compared to the one where the body is not wrapped in HTML tags, we do the following:
#  1) Sort rows by content_length in ascending order
#  2) Drop duplicate rows, keeping the first occurrence (namely the one whose content_length is minimum)
dataframe = dataframe.sort_values('content_length')
dataframe = dataframe.drop_duplicates('id', keep='first')

# Drop the dummy column introduced earlier on
dataframe = dataframe.drop(columns=['content_length'])

# Restore the original ordering of the dataframe's rows
dataframe = dataframe.sort_index()

In [9]:
# Clean up emails bodies, as there are a lot of weird characters and newlines
dataframe['content'] = dataframe['content'].apply(clean_email_body)

In [12]:
# Indices of examples containing english text, html tags and other things
bad_rows_indices = [83, 93, 98, 99, 128, 129, 168, 250, 274, 
                    295, 330, 367, 369, 375, 376, 381, 463, 
                    490, 499, 557, 578, 597, 599, 600, 604, 
                    618]

dataframe = dataframe.drop(index=bad_rows_indices)

In [71]:
special_characters_regex_pattern = '[\W_]+'
single_letter_regex_pattern = '[a-zA-Z]'
numbers_regex_pattern = '[0-9]+'
hours_regex_pattern = '\d+[\.:]\d+([\.:]\d+)?'
dates_regex_pattern = '\d+[-/]\d+([-/]\d+)?'

regex = re.compile('^({spec}|{lett}|{num}|{hour}|{date})$'.format(spec=special_characters_regex_pattern, 
                                                                  lett=single_letter_regex_pattern, 
                                                                  num=numbers_regex_pattern,
                                                                  hour=hours_regex_pattern,
                                                                  date=dates_regex_pattern))

words = []
for email_body in dataframe['content'].values:

    tokens = word_tokenize(email_body, language='italian')
    
    # Remove tokens that match the regular expression
    tokens = [tok for tok in tokens if not regex.search(tok)]

    # Remove stopwords
    tokens = [tok for tok in tokens if not tok in stopwords.words('italian')]
    
    words.extend(tokens)

words = list( map(str.lower, words) )    
vocabulary = list( set(words) )


In [78]:
Counter(vocabulary)['cari']

2

In [9]:
# Class labels
dataframe['intervento'].value_counts()

Supporto recupero password unisiPass                             169
Informazioni e supporto funzionale                               131
Creazione/Modifica/Revoca di una casella di posta personale       12
Richieste fonia IP                                                10
Malfunzionamento fonia IP                                         10
Malfunzionamento HW Postazione di Lavoro                          10
Aggiornamento/Assistenza/Manutenzione rubrica telefonica           8
Installazione/Aggiornamento/Disinstallazione SW standard           7
Creazione/Modifica/Revoca di una casella condivisa e alias         6
Problematiche funzionali                                           5
Creazione/Modifica/Rimozione di uno spazio                         5
Malfunzionamento casella                                           4
Creazione/Modifica/Revoca utenza                                   4
Malfunzionamento SW specialistico                                  4
Malfunzionamento SW standard      