In [1]:
%run setup.ipynb

In [2]:
import warnings
from sklearn.exceptions import UndefinedMetricWarning
from pandas.errors import SettingWithCopyWarning
warnings.filterwarnings("ignore", category=SettingWithCopyWarning)
warnings.filterwarnings("ignore", category=UndefinedMetricWarning)

In [3]:
df = pd.read_csv(f'{RESULTS_PATH}/user_support2.csv')

In [4]:
print(df.shape)

(28531, 10)


In [5]:
%run text_data_preprocessing_steps.ipynb

In [6]:
# We exclude from the dataset the emails without tag
df1 = df.loc[df['label'] != 'without tag']
class_counts = df1['label'].value_counts()
print(class_counts)

label
CNAF farming    1425
sysop           1395
CNAF storage     729
CNAF net         160
Name: count, dtype: int64


In [7]:
df1.shape

(3709, 10)

Now our dataset has just 3709 rows.

In [8]:
df1.head()

Unnamed: 0,from,to,subject,content,type,date,cc,id,parent,label
6,c1c85c04-ab9e-4ac0-9a5c-2b75cb645944,a6411735-600c-4b4b-9f9b-e32c9b3c97bf,[user-support] Fwd: Fwd: Richiesta Account,"Ciao Sysop,\r\n\r\nutente confermato, gruppo C...",text/plain,"Wed, 18 May 2022 15:19:20 +0200",['0327ac73-54cb-4bf6-a9b8-dce5a8b0dbe0'],<6865cdc3-6335-2f1a-be65-003f5fe2a071@cnaf.inf...,<41187fa1-01db-c079-8f28-453b8b9caffd@to.infn.it>,sysop
10,fae942d2-d644-4870-9792-221d17e6cd6a,a6411735-600c-4b4b-9f9b-e32c9b3c97bf,[user-support] Fwd: INFN-CNAF account request,Forwardo al sysop mancante!\r\n\r\nCmq s=C3=AC...,text/plain,"Mon, 1 Mar 2021 18:06:31 +0100","['0327ac73-54cb-4bf6-a9b8-dce5a8b0dbe0', 'e87c...",<09E2720E-82C4-4660-ACE3-D2F952FF448A@cnaf.inf...,,sysop
16,a54c9f58-4168-448d-ad6f-a4444687b84d,10fe0d60-6b6f-40f9-949d-6b5b391c7563,Re: [user-support] [CNAF storage] 27-11 Schedu...,"Hi all,\r\n\r\nthe update is finished. The tap...",text/plain,"Wed, 27 Nov 2019 22:39:13 +0100","['0327ac73-54cb-4bf6-a9b8-dce5a8b0dbe0', 'b39e...",<1ae8f137-9e8e-2159-f04d-a9293e3d0579@cnaf.inf...,<9bdf4abd-9021-c5bb-7c26-4ed895627bc7@cnaf.inf...,CNAF storage
23,985ca0ec-8aa4-427f-b9be-ba96ca07f884,fae942d2-d644-4870-9792-221d17e6cd6a,Re: Fwd: [user-support] Richiesta account CNAF,Confermo=2E Penso non ce ne siano altri per or...,text/plain,"Tue, 29 Sep 2020 17:14:35 +0200",['0327ac73-54cb-4bf6-a9b8-dce5a8b0dbe0'],<1B22A9D7-C004-494D-B573-2E6064AC69FE@fi.infn.it>,<0781c974-7ae3-5f71-ef1e-5d2d8b407d2b@cnaf.inf...,sysop
28,080dda9e-e8e1-4408-a36e-2ddf11d25a2c,fae942d2-d644-4870-9792-221d17e6cd6a,Re: [CNAF storage] storage disco DarkSide,"ciao Carmelo,\r\n\r\npropongo di partire con d...",text/plain,"Fri, 24 Sep 2021 08:34:00 +0200",['0327ac73-54cb-4bf6-a9b8-dce5a8b0dbe0'],<19a12249-8b75-9ccb-009e-ba169f072236@cnaf.inf...,<efcf2c33-fe69-b74b-433b-57742a3f1542@cnaf.inf...,CNAF storage


## PREPROCESSING PHASE

First of all we remove stopwords and clean the text without converting into lowercase all the emails.

In [9]:
df1['cleaned_email'] = preprocess(df1.loc[:, 'content'].astype(str), cleaning=True, stemming=False, lemmatization=False, remove_stopwords=True)

In [10]:
df1.iloc[0,10]

'Ciao utente confermato gruppo CTA Grazie mille Re Fwd user support Richiesta Account Data 18 May 2022 15 11 21 0200 Federico Di Pierro dca6ee77 efd8 4fe7 b61a 4e2ecefff99d A Lattanzio c1c85c04 ab9e 4ac0 9a5c 2b75cb645944 CC Cnaf Support 0327ac73 54cb 4bf6 a9b8 dce5a8b0dbe0 Ciao lavora Torino CTA SWGO momento risorse calcole dedicate procedi pure Ciao Federico On 18 05 22 15 09 Lattanzio wrote Ciao Federico richiesta account CTA parte utente Andrea Chiavassa gi account CNAF altro esperimento Possiamo procedere Grazie mille user support Richiesta Account Data 18 May 2022 14 57 48 0200 Andrea Chiavassa 2fdfc1dc c5da 43ec a84a f4ed9d365c1b Andrea Chiavassa 2fdfc1dc c5da 43ec a84a f4ed9d365c1b A a6411735 600c 4b4b 9f9b e32c9b3c97bf 0327ac73 54cb 4bf6 a9b8 dce5a8b0dbe0 0327ac73 54cb 4bf6 a9b8 dce5a8b0dbe0 Salve mando richiesta account nome presso CNAF Un account nome stessa username richiedo ora gi attivo ricordo male qualche tempo fa fatto richiesta chiuderlo Ora nuovo utile accedere risor

Now we want to remove the proper nouns. We kept the uppercase because the function doesn't recognise all the proper nouns and surnames with the lowercase

In [11]:
import spacy
nlp = spacy.load('it_core_news_sm')
nlp.max_length = 1100000
def remove_proper_nouns(text):
    # text analysis with spaCy
    doc = nlp(text)
    # removing italians nouns/surnames
    filtered_words = [token.text for token in doc if token.pos_ != 'PROPN' or token.ent_type_ != 'PER']
    # join the filtered words to obtain the complete text without proper nouns
    result_text = ' '.join(filtered_words)
    return result_text

In [12]:
df1['cleaned_email'] = df1['cleaned_email'].apply(remove_proper_nouns)

In [13]:
df1.iloc[0,10]

'Ciao utente confermato gruppo CTA Grazie mille user support 18 2022 15 11 21 0200 Di dca6ee77 efd8 4fe7 b61a 4e2ecefff99d A Lattanzio c1c85c04 ab9e 4ac0 9a5c 2b75cb645944 CC Cnaf Support 0327ac73 54cb 4bf6 a9b8 dce5a8b0dbe0 Ciao lavora Torino CTA SWGO momento risorse calcole dedicate procedi pure 18 05 22 15 09 wrote richiesta account CTA parte utente gi account CNAF altro esperimento Possiamo procedere Grazie mille user support 18 2022 14 57 48 0200 2fdfc1dc c5da 43ec a84a f4ed9d365c1b 2fdfc1dc c5da 43ec a84a f4ed9d365c1b A a6411735 600c 4b4b 9f9b e32c9b3c97bf 0327ac73 54cb 4bf6 a9b8 dce5a8b0dbe0 0327ac73 54cb 4bf6 a9b8 dce5a8b0dbe0 Salve mando richiesta account nome presso CNAF Un account nome stessa username richiedo ora gi attivo ricordo male qualche tempo fa fatto richiesta chiuderlo Ora nuovo utile accedere risorse calcolo presso CNAF rinnovo richiesta account Vi ringrazio anticipatamente'

In [14]:
df1['cleaned_email'] = df1['cleaned_email'].apply(lambda x: x.lower())
df1.iloc[0,10]

'ciao utente confermato gruppo cta grazie mille user support 18 2022 15 11 21 0200 di dca6ee77 efd8 4fe7 b61a 4e2ecefff99d a lattanzio c1c85c04 ab9e 4ac0 9a5c 2b75cb645944 cc cnaf support 0327ac73 54cb 4bf6 a9b8 dce5a8b0dbe0 ciao lavora torino cta swgo momento risorse calcole dedicate procedi pure 18 05 22 15 09 wrote richiesta account cta parte utente gi account cnaf altro esperimento possiamo procedere grazie mille user support 18 2022 14 57 48 0200 2fdfc1dc c5da 43ec a84a f4ed9d365c1b 2fdfc1dc c5da 43ec a84a f4ed9d365c1b a a6411735 600c 4b4b 9f9b e32c9b3c97bf 0327ac73 54cb 4bf6 a9b8 dce5a8b0dbe0 0327ac73 54cb 4bf6 a9b8 dce5a8b0dbe0 salve mando richiesta account nome presso cnaf un account nome stessa username richiedo ora gi attivo ricordo male qualche tempo fa fatto richiesta chiuderlo ora nuovo utile accedere risorse calcolo presso cnaf rinnovo richiesta account vi ringrazio anticipatamente'

In [15]:
#here we apply the stemming in english and then in italian
df1['cleaned_email'] = preprocess(df1.loc[:, 'cleaned_email'].astype(str), cleaning=False, stemming=True, lemmatization=False, remove_stopwords=False, stem_type='snowball')

In [16]:
df1.iloc[0,10]

'cia utent conferm grupp cta graz mill user support 18 2022 15 11 21 0200 di dca6ee77 efd8 4fe7 b61a 4e2ecefff99d a lattanz c1c85c04 ab9 4ac0 9a5c 2b75cb645944 cc cnaf support 0327ac73 54cb 4bf6 a9b8 dce5a8b0dbe0 cia lavor torin cta swgo moment risors calcol dedic proced pur 18 05 22 15 09 wrot richiest account cta part utent gi account cnaf altro esper poss proceder graz mill user support 18 2022 14 57 48 0200 2fdfc1dc c5da 43ec a84a f4ed9d365c1b 2fdfc1dc c5da 43ec a84a f4ed9d365c1b a a6411735 600c 4b4b 9f9b e32c9b3c97bf 0327ac73 54cb 4bf6 a9b8 dce5a8b0dbe0 0327ac73 54cb 4bf6 a9b8 dce5a8b0dbe0 salv mand richiest account nom press cnaf un account nom stess usernam richied ora gi attiv ricord mal qualc temp fa fatt richiest chiud ora nuov util acceder risors calcol press cnaf rinnov richiest account vi ringraz anticipatament'

In [17]:
#Tokenization
tokenizer = RegexpTokenizer('\w+|\$[\d\.]+|\S+')
df1['cleaned_email'] = df1['cleaned_email'].apply(lambda x: tokenizer.tokenize(x))

In [18]:
df1.iloc[1,10]

['forward',
 'mancant',
 'ac',
 'bisogn',
 'cambiarg',
 'indirizz',
 'email',
 'dentr',
 'ldap',
 'ragion',
 'utent',
 'cia',
 'graz',
 'budd',
 'begin',
 'forward',
 'messag',
 '20',
 'from',
 'riccard',
 'verald',
 'e87c5b81',
 '8279',
 '4838',
 '9ae2',
 '4d46dd94e3e6',
 'subject',
 're',
 'user',
 'support',
 'infn',
 'cnaf',
 'account',
 'request',
 'dat',
 '1',
 'marc',
 '2021',
 '17',
 '32',
 '17',
 'cet',
 'cc',
 'feder',
 'versar',
 '65c3793e',
 'bf56',
 '4939',
 'a42c',
 '26df73e67767',
 'pellegrin',
 'fae942d2',
 'd644',
 '4870',
 '9792',
 '221d17e6cd6',
 '20',
 'cugg',
 'gliel',
 'puo',
 'ri',
 'resett',
 'dic',
 'aver',
 'ricev',
 'mail',
 '20',
 'punt',
 '4',
 '5',
 'molt',
 'contraddittor',
 'perc',
 'resett',
 'account',
 'comunqu',
 'riusc',
 'camb',
 'password',
 '20',
 '20',
 'on',
 '01',
 '03',
 '2021',
 '17',
 '28',
 'wrot',
 'car',
 'riccard',
 'ti',
 'ringraz',
 'e2',
 '80',
 '99ai',
 'perdonam',
 'disturb',
 'lasciam',
 'ricapitol',
 'situazion',
 '20',
 'il',
 '

In [19]:
# removing alphanumeric strings
def remove_alphanumeric_with_numbers(tokens):
    return [token for token in tokens if not any(char.isdigit() for char in token)]
df1['cleaned_email'] = df1['cleaned_email'].apply(remove_alphanumeric_with_numbers)

In [20]:
df1.iloc[0,10]

['cia',
 'utent',
 'conferm',
 'grupp',
 'cta',
 'graz',
 'mill',
 'user',
 'support',
 'di',
 'a',
 'lattanz',
 'cc',
 'cnaf',
 'support',
 'cia',
 'lavor',
 'torin',
 'cta',
 'swgo',
 'moment',
 'risors',
 'calcol',
 'dedic',
 'proced',
 'pur',
 'wrot',
 'richiest',
 'account',
 'cta',
 'part',
 'utent',
 'gi',
 'account',
 'cnaf',
 'altro',
 'esper',
 'poss',
 'proceder',
 'graz',
 'mill',
 'user',
 'support',
 'a',
 'salv',
 'mand',
 'richiest',
 'account',
 'nom',
 'press',
 'cnaf',
 'un',
 'account',
 'nom',
 'stess',
 'usernam',
 'richied',
 'ora',
 'gi',
 'attiv',
 'ricord',
 'mal',
 'qualc',
 'temp',
 'fa',
 'fatt',
 'richiest',
 'chiud',
 'ora',
 'nuov',
 'util',
 'acceder',
 'risors',
 'calcol',
 'press',
 'cnaf',
 'rinnov',
 'richiest',
 'account',
 'vi',
 'ringraz',
 'anticipatament']

In [21]:
df1.to_csv(f'{RESULTS_PATH}/user_support3_3.csv', index=False)