### Load the data

In [67]:
import pandas as pd
data = pd.read_csv('train.csv')
print(data.head())

                                     Job_Description  \
0  Randstad Technical di Vimercate seleziona un m...   
1  Ricerchiamo N. 5 ricerca ADDETTI/E VENDITA per...   
2  Quanta SpA, Filiale di Verona, seleziona per a...   
3  Kelly Services, multinazionale americana leade...   
4  ADHR Filiale di Torino ricerca per azienda cli...   

                           role  
0  Manutentore elettromeccanico  
1                      Commessa  
2  Manutentore elettromeccanico  
3      Tecnico elettromeccanico  
4               Data Scientist   


### Text Preprocessing on Job Descripion column

##### Tokenization
split the text into words

In [69]:
import nltk
from nltk import word_tokenize
from nltk.corpus import stopwords
import re
# remove punctuation
data.Job_Description = data.Job_Description.apply(lambda x: re.sub(r'[^\w\s]','',x))
data.Job_Description = data['Job_Description'].apply(lambda x: word_tokenize(x.lower())) # lowercase each word
print(data.Job_Description.head(5))

0    [randstad, technical, di, vimercate, seleziona...
1    [ricerchiamo, n, 5, ricerca, addettie, vendita...
2    [quanta, spa, filiale, di, verona, seleziona, ...
3    [kelly, services, multinazionale, americana, l...
4    [adhr, filiale, di, torino, ricerca, per, azie...
Name: Job_Description, dtype: object


### Remove Noisy

##### Stopwords
Stopwords are words generally not relevant to a text; thereby we get rid of them

In [70]:
list_stopwords = list(set(stopwords.words('italian')))
print('Example of stopwords:',list_stopwords[:20])
print(10 * '%')
print('lenth of stopwords: {}'.format(len(list_stopwords)))

Example of stopwords: ['sarà', 'avessi', 'eravamo', 'sarai', 'mia', 'avuti', 'allo', 'il', 'nei', 'fu', 'aveva', 'fanno', 'stiamo', 'dello', 'stavate', 'facevano', 'vi', 'eri', 'ci', 'fareste']
%%%%%%%%%%
lenth of stopwords: 279


In [71]:
data.Job_Description = data.Job_Description.apply(lambda x: [i for i in x if i not in list_stopwords and i !='.'] )
data.Job_Description.head(5)


0    [randstad, technical, vimercate, seleziona, ma...
1    [ricerchiamo, n, 5, ricerca, addettie, vendita...
2    [spa, filiale, verona, seleziona, azienda, cli...
3    [kelly, services, multinazionale, americana, l...
4    [adhr, filiale, torino, ricerca, azienda, clie...
Name: Job_Description, dtype: object

In [83]:
# let's have a look at the list of words with len < 4

# 1) get a list of uniquewords
words = []
for i in data.Job_Description:
    words.append(i)
word_list = set([i for x in words for i in x])

In [92]:
# check the frequence distribution of words
fdist = nltk.FreqDist(word_list)
sorted(fdist.items())[:20] # in this case does not make sense since we have small data --> word frequency = 1

[('1', 1),
 ('2', 1),
 ('3', 1),
 ('30', 1),
 ('300', 1),
 ('4', 1),
 ('5', 1),
 ('6', 1),
 ('60', 1),
 ('abbigliamento', 1),
 ('abruzzo', 1),
 ('accessori', 1),
 ('addettie', 1),
 ('adhr', 1),
 ('advanced', 1),
 ('affini', 1),
 ('agenzia', 1),
 ('aiutare', 1),
 ('aiuto', 1),
 ('alcune', 1)]

##### remove words with lenght <3


In [206]:
data.Job_Description = data.Job_Description.apply(lambda x: [i for i in x if len(i) >3])
data.Job_Description.head()

0    [randstad, technical, seleziona, manutentore, ...
1    [ricerchiamo, ricerca, addettie, vendita, punt...
2    [filiale, seleziona, azienda, cliente, settore...
3    [kelly, services, multinazionale, americana, l...
4    [adhr, filiale, ricerca, azienda, cliente, set...
Name: Job_Description, dtype: object

#### Remove words referring to: Comuni, Provincie, Regioni

In [199]:
# load a text file containing a list of 'Comuni, Provincie, Regioni' italiane
geo_data = pd.read_fwf('listacomuni.txt')
geo_data.to_csv('listacomuni.csv')
geo_data = pd.read_csv('listacomuni.csv', sep=';')
geo_data.head()

Unnamed: 0,",Istat",Comune,Provincia,Regione,Prefisso,CAP,CodFisco,Abitanti,Link
0,28001,Abano Terme,PD,VEN,49,35031,A001,19726,http://www.comuni-italiani.it/028/001/
1,1098001,Abbadia Cerreto,LO,LOM,371,26834,A004,293,http://www.comuni-italiani.it/098/001/
2,2097001,Abbadia Lariana,LC,LOM,341,23821,A005,3305,http://www.comuni-italiani.it/097/001/
3,3052001,Abbadia San Salvatore,SI,TOS,577,53021,A006,6722,http://www.comuni-italiani.it/052/001/
4,4095001,Abbasanta,OR,SAR,785,9071,A007,2872,http://www.comuni-italiani.it/095/001/


In [187]:
comune = [i.lower() for i in df.Comune]
df.Provincia = df.Provincia.apply(lambda x: str(x))
provincia = [i.lower() for i in df.Provincia]
regione = [i.lower() for i in df.Regione]
print('Comuni samples:',comune[:10])
print(20*'%')
print('Provincia samples:',provincia[:10])
print(20*'%')
print('Regione samples:',regione[:10])

Comuni samples: ['abano terme', 'abbadia cerreto', 'abbadia lariana', 'abbadia san salvatore', 'abbasanta', 'abbateggio', 'abbiategrasso', 'abetone', 'abriola', 'acate']
%%%%%%%%%%%%%%%%%%%%
Provincia samples: ['pd', 'lo', 'lc', 'si', 'or', 'pe', 'mi', 'pt', 'pz', 'rg']
%%%%%%%%%%%%%%%%%%%%
Regione samples: ['ven', 'lom', 'lom', 'tos', 'sar', 'abr', 'lom', 'tos', 'bas', 'sic']


In [192]:
# example
print('verona' in comune)
print('trieste' in comune)
print('dublino' in comune)

True
True
False


##### wrap previous commands into below function

In [201]:
def remove_comuni(data, column, geo_data):
    ''' function to remove geographic noisy'''
    comune = [i.lower() for i in geo_data.Comune]
    geo_data.Provincia = geo_data.Provincia.apply(lambda x: str(x))
    provincia = [i.lower() for i in geo_data.Provincia]
    regione = [i.lower() for i in geo_data.Regione]
    
    data[column] = data[column].apply(lambda x: [i for i in x if i not in comune])
    data[column] = data[column].apply(lambda x: [i for i in x if i not in provincia])
    data[column] = data[column].apply(lambda x: [i for i in x if i not in regione])
    
    return data


In [202]:
data = remove_comuni(data, 'Job_Description', geo_data)

Unnamed: 0,Job_Description,role
0,"[randstad, technical, seleziona, manutentore, ...",Manutentore elettromeccanico
1,"[ricerchiamo, n, 5, ricerca, addettie, vendita...",Commessa
2,"[spa, filiale, seleziona, azienda, cliente, se...",Manutentore elettromeccanico
3,"[kelly, services, multinazionale, americana, l...",Tecnico elettromeccanico
4,"[adhr, filiale, ricerca, azienda, cliente, set...",Data Scientist
5,"[cercando, data, scientist, esperto, appassion...",Data Scientist
6,"[infor, elea, ricerca, azienda, cliente, figur...",Pizzaiolo
7,"[bluserena, ricerca, propri, resort, abruzzo, ...",Pizzaiolo Pasticcere Macellaio
8,"[esclusiva, boutique, multibrand, sita, sullis...",Commessa
9,"[cliente, castel, guelfo, ricerca, ununa, comm...",Commessa


In [None]:
####