# Data Transformation

### The starting datasets are combined and transformed for analysis and machine learning

#### This first section will transform the original datasets for a first analysis. 
The starting sets are `Rapporti_di_lavoro_attivati.csv` and `Rapporti_di_lavoro_prorogati.csv`. The two datasets are concatenated, since extended contracts can be seen as activated contracts, and then we consider two separated datasets, one for 2018-2019 and one for 2020-2021.
The data are concatenated, divided and cleaned up

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import datetime as dt
from sklearn import preprocessing
from math import isnan

Import the two datasets

In [2]:
activatedContractsPath = "C:\\Users\\rotol\\Downloads\\csvs\\Rapporti_di_lavoro_attivati.csv"
extendedContractsPath = "C:\\Users\\rotol\\Downloads\\csvs\\Rapporti_di_lavoro_prorogati.csv"

In [3]:
activatedContracts = pd.read_csv(activatedContractsPath)
activatedContracts

Unnamed: 0,DATA,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,ITALIANO
0,09/05/2020,F,60,Attività di famiglie e convivenze come datori ...,NESSUN TITOLO DI STUDIO,LAVORO DOMESTICO,TEMPO PIENO,BERGAMO,UCRAINA
1,12/07/2019,M,43,"Gestioni di funicolari, ski-lift e seggiovie s...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIA
2,05/06/2013,F,20,Fabbricazione di altre apparecchiature elettri...,LICENZA MEDIA,APPRENDISTATO PROFESSIONALIZZANTE O CONTRATTO ...,TEMPO PIENO,BERGAMO,ITALIA
3,12/03/2010,F,28,Alberghi,DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE CH...,LAVORO INTERMITTENTE A TEMPO DETERMINATO,NON DEFINITO,BERGAMO,ITALIA
4,06/04/2021,F,49,Rifugi di montagna,LICENZA MEDIA,LAVORO INTERMITTENTE,NON DEFINITO,BERGAMO,ITALIA
...,...,...,...,...,...,...,...,...,...
9579789,01/03/2020,M,52,Lavori di meccanica generale,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIA
9579790,06/09/2010,M,61,Lavori di meccanica generale,NESSUN TITOLO DI STUDIO,LAVORO A TEMPO INDETERMINATO,TEMPO PIENO,BERGAMO,ALBANIA
9579791,06/11/2021,M,37,Fabbricazione di parti ed accessori per bicicl...,NESSUN TITOLO DI STUDIO,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,SENEGAL
9579792,02/02/2010,M,35,Fabbricazione di parti ed accessori per bicicl...,LICENZA MEDIA,LAVORO INTERINALE (O A SCOPO DI SOMMINISTRAZIO...,TEMPO PIENO,BERGAMO,SENEGAL


In [4]:
extendedContracts = pd.read_csv(extendedContractsPath)
extendedContracts

Unnamed: 0,DATA,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,ITALIANO
0,10/01/2020,F,48,Rifugi di montagna,LICENZA MEDIA,LAVORO INTERMITTENTE,NON DEFINITO,BERGAMO,ITALIA
1,01/03/2013,M,56,"Gestioni di funicolari, ski-lift e seggiovie s...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIA
2,09/10/2018,M,58,Rifugi di montagna,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,BERGAMO,ITALIA
3,10/04/2017,M,41,Realizzazione di coperture,NESSUN TITOLO DI STUDIO,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,MAROCCO
4,03/01/2010,M,56,"Gestioni di funicolari, ski-lift e seggiovie s...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIA
...,...,...,...,...,...,...,...,...,...
3413612,04/09/2018,F,50,Installazione di altre macchine ed apparecchia...,LICENZA ELEMENTARE,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,MONZA E BRIANZA,ITALIA
3413613,12/10/2018,F,52,Mense,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,MONZA E BRIANZA,ITALIA
3413614,01/10/2017,F,37,Servizi integrati di gestione agli edifici,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,BRESCIA,ITALIA
3413615,11/07/2019,M,36,Installazione di impianti elettrici in edifici...,NESSUN TITOLO DI STUDIO,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BRESCIA,ITALIA


Concatenate the two sets

In [5]:
concatDataset = pd.concat([activatedContracts, extendedContracts], ignore_index=True)
concatDataset

Unnamed: 0,DATA,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,ITALIANO
0,09/05/2020,F,60,Attività di famiglie e convivenze come datori ...,NESSUN TITOLO DI STUDIO,LAVORO DOMESTICO,TEMPO PIENO,BERGAMO,UCRAINA
1,12/07/2019,M,43,"Gestioni di funicolari, ski-lift e seggiovie s...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIA
2,05/06/2013,F,20,Fabbricazione di altre apparecchiature elettri...,LICENZA MEDIA,APPRENDISTATO PROFESSIONALIZZANTE O CONTRATTO ...,TEMPO PIENO,BERGAMO,ITALIA
3,12/03/2010,F,28,Alberghi,DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE CH...,LAVORO INTERMITTENTE A TEMPO DETERMINATO,NON DEFINITO,BERGAMO,ITALIA
4,06/04/2021,F,49,Rifugi di montagna,LICENZA MEDIA,LAVORO INTERMITTENTE,NON DEFINITO,BERGAMO,ITALIA
...,...,...,...,...,...,...,...,...,...
12993406,04/09/2018,F,50,Installazione di altre macchine ed apparecchia...,LICENZA ELEMENTARE,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,MONZA E BRIANZA,ITALIA
12993407,12/10/2018,F,52,Mense,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,MONZA E BRIANZA,ITALIA
12993408,01/10/2017,F,37,Servizi integrati di gestione agli edifici,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,BRESCIA,ITALIA
12993409,11/07/2019,M,36,Installazione di impianti elettrici in edifici...,NESSUN TITOLO DI STUDIO,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BRESCIA,ITALIA


When talking about italian labour market, we are usually interested only in dividing italians from foreigners. For this reason,
the "ITALIANO" column is substituted by a "CITTADINANZA" column containing the values "ITALIANO" and "STRANIERO".

First we make sure that there are no NaN values.

In [6]:
concatDataset.ITALIANO.isna().unique().tolist()

[False]

In [7]:
concatDataset.ITALIANO[concatDataset.ITALIANO == 'NON DEFINITO'].unique().tolist()

[]

Then we change the value

In [8]:
concatDataset.rename(columns={"ITALIANO":"CITTADINANZA"}, inplace=True)
condition = concatDataset.CITTADINANZA == "ITALIA"
concatDataset.loc[-condition, 'CITTADINANZA'] = "STRANIERO"
concatDataset.loc[condition, 'CITTADINANZA'] = "ITALIANO"
concatDataset.head()

Unnamed: 0,DATA,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,CITTADINANZA
0,09/05/2020,F,60,Attività di famiglie e convivenze come datori ...,NESSUN TITOLO DI STUDIO,LAVORO DOMESTICO,TEMPO PIENO,BERGAMO,STRANIERO
1,12/07/2019,M,43,"Gestioni di funicolari, ski-lift e seggiovie s...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIANO
2,05/06/2013,F,20,Fabbricazione di altre apparecchiature elettri...,LICENZA MEDIA,APPRENDISTATO PROFESSIONALIZZANTE O CONTRATTO ...,TEMPO PIENO,BERGAMO,ITALIANO
3,12/03/2010,F,28,Alberghi,DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE CH...,LAVORO INTERMITTENTE A TEMPO DETERMINATO,NON DEFINITO,BERGAMO,ITALIANO
4,06/04/2021,F,49,Rifugi di montagna,LICENZA MEDIA,LAVORO INTERMITTENTE,NON DEFINITO,BERGAMO,ITALIANO


In order to obtain the two final sets we need to transform the DATA attribute into date type.

In [9]:
concatDataset.DATA = pd.to_datetime(concatDataset.DATA)
concatDataset.DATA

0          2020-09-05
1          2019-12-07
2          2013-05-06
3          2010-12-03
4          2021-06-04
              ...    
12993406   2018-04-09
12993407   2018-12-10
12993408   2017-01-10
12993409   2019-11-07
12993410   2021-04-07
Name: DATA, Length: 12993411, dtype: datetime64[ns]

We check for invalid dates.

In [10]:
futureDate = concatDataset[concatDataset.DATA > "2021/12/31"]
futureDate

Unnamed: 0,DATA,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,CITTADINANZA
5840160,2201-06-09,M,221,Attività di famiglie e convivenze come datori ...,NESSUN TITOLO DI STUDIO,LAVORO DOMESTICO A TEMPO INDETERMINATO,TEMPO PARZIALE ORIZZONTALE,MILANO,STRANIERO


This is probably just a typo (2201 instead of 2021). We can edit it by changing the date and the related age.

In [11]:
concatDataset.loc[concatDataset.DATA > "2021-12-31", ["ETA"]] = 221-(2201-2021)
concatDataset.loc[concatDataset.DATA > "2021-12-31", ["DATA"]] = np.datetime64("2021-06-09")
len(concatDataset[concatDataset.DATA > "2021-12-31"])

0

Now divide in the two dataset to consider (2018-2019) and (2020-2021)

In [12]:
contract_1819 = concatDataset[(concatDataset.DATA > '2017-12-31')&(concatDataset.DATA < '2020-01-01')]
contract_1819.reset_index(inplace=True)
contract_1819 = contract_1819.drop(labels=['DATA'], axis=1)
contract_1819 = contract_1819.drop(labels=['index'], axis=1)
'''Create copy'''
contract_1819_copy = contract_1819.copy(deep=True)
contract_1819

Unnamed: 0,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,CITTADINANZA
0,M,43,"Gestioni di funicolari, ski-lift e seggiovie s...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIANO
1,F,56,Confezioni di abbigliamento sportivo o di altr...,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,BERGAMO,ITALIANO
2,F,34,Istruzione di grado preparatorio: scuole dell'...,LAUREA - Vecchio o nuovo ordinamento,LAVORO A TEMPO INDETERMINATO,TEMPO PARZIALE ORIZZONTALE,BERGAMO,ITALIANO
3,M,54,Allevamento di bovini e bufalini da carne,NESSUN TITOLO DI STUDIO,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE MISTO,BERGAMO,STRANIERO
4,F,45,Attività di famiglie e convivenze come datori ...,NESSUN TITOLO DI STUDIO,LAVORO DOMESTICO,TEMPO PIENO,BERGAMO,ITALIANO
...,...,...,...,...,...,...,...,...
2597479,F,28,Altre attività di assistenza sociale non resid...,DIPLOMA UNIVERSITARIO,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,MONZA E BRIANZA,ITALIANO
2597480,F,34,Mense,DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE CH...,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,MONZA E BRIANZA,STRANIERO
2597481,F,50,Installazione di altre macchine ed apparecchia...,LICENZA ELEMENTARE,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,MONZA E BRIANZA,ITALIANO
2597482,F,52,Mense,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,MONZA E BRIANZA,ITALIANO


In [13]:
contract_2021 = concatDataset[concatDataset.DATA > '2019-12-31']
contract_2021.reset_index(inplace=True)
contract_2021 = contract_2021.drop(labels=['DATA'], axis=1)
contract_2021 = contract_2021.drop(labels=['index'], axis=1)
'''Create copy'''
contract_2021_copy = contract_2021.copy(deep=True)
contract_2021

Unnamed: 0,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,CITTADINANZA
0,F,60,Attività di famiglie e convivenze come datori ...,NESSUN TITOLO DI STUDIO,LAVORO DOMESTICO,TEMPO PIENO,BERGAMO,STRANIERO
1,F,49,Rifugi di montagna,LICENZA MEDIA,LAVORO INTERMITTENTE,NON DEFINITO,BERGAMO,ITALIANO
2,M,16,"Costruzione di strade, autostrade e piste aero...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIANO
3,M,19,Ristorazione con somministrazione,LICENZA MEDIA,LAVORO INTERMITTENTE,NON DEFINITO,BERGAMO,ITALIANO
4,M,37,"Costruzione di strade, autostrade e piste aero...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIANO
...,...,...,...,...,...,...,...,...
1903752,M,21,Servizi logistici relativi alla distribuzione ...,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,MONZA E BRIANZA,STRANIERO
1903753,M,49,Pulizia generale (non specializzata) di edifici,DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE CH...,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,MONZA E BRIANZA,ITALIANO
1903754,F,56,Fabbricazione di altri articoli metallici e mi...,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,MONZA E BRIANZA,ITALIANO
1903755,F,60,Altre attività di assistenza sociale non resid...,LICENZA MEDIA,LAVORO A TEMPO INDETERMINATO,TEMPO PIENO,MONZA E BRIANZA,ITALIANO


Now we look for NaN or undefined values and try to clean them up. First for 2018-2019.

For GENERE there are no NaN values

In [14]:
contract_1819.GENERE.unique().tolist()

['M', 'F']

For ETA there are no NaN values but there are ages below 15, which are non valid values

In [15]:
contract_1819.ETA.isna().unique().tolist()

[False]

In [16]:
contract_1819[contract_1819.ETA < 15]['ETA'].unique().tolist()

[8, 9, 1, 7, 3, 14, 0, 5, 10, 11, 13, 12, 6, 2, 4]

In [17]:
conditionA = contract_1819.ETA < 15
print("Number of tuples without a 'ETA' value lower than 15: ", len(contract_1819[conditionA]), ",",(len(contract_1819[conditionA])/len(contract_1819.ETA))*100,"%")

Number of tuples without a 'ETA' value lower than 15:  2103 , 0.08096296262075146 %


Even though the total number of invalid values is less than 1% of the total, we need to check if there are some categories that could lose more than 1% of their data.

In [18]:
print('Check categories')
percentages_1819 = []
print('GENERE')
percentages_1819.append((len(contract_1819[(contract_1819.GENERE=='M')&(conditionA)])/len(contract_1819[contract_1819.GENERE=='M']))*100)
percentages_1819.append((len(contract_1819[(contract_1819.GENERE=='F')&(conditionA)])/len(contract_1819[contract_1819.GENERE=='F']))*100)

print('SETTOREECONOMICODETTAGLIO')
for i in contract_1819.SETTOREECONOMICODETTAGLIO.unique().tolist():
    if type(i) is str:
        percentages_1819.append((len(contract_1819[(contract_1819.SETTOREECONOMICODETTAGLIO==i)&(conditionA)])/len(contract_1819[contract_1819.SETTOREECONOMICODETTAGLIO==i]))*100)
    elif isnan(i):
        percentages_1819.append((len(contract_1819[(contract_1819.SETTOREECONOMICODETTAGLIO.isna())&(conditionA)])/len(contract_1819[contract_1819.SETTOREECONOMICODETTAGLIO.isna()]))*100)

print('TITOLOSTUDIO')
for i in contract_1819.TITOLOSTUDIO.unique().tolist():
    percentages_1819.append((len(contract_1819[(contract_1819.TITOLOSTUDIO==i)&(conditionA)])/len(contract_1819[contract_1819.TITOLOSTUDIO==i]))*100)

print('CONTRATTO')
for i in contract_1819.CONTRATTO.unique().tolist():
    percentages_1819.append((len(contract_1819[(contract_1819.CONTRATTO==i)&(conditionA)])/len(contract_1819[contract_1819.CONTRATTO==i]))*100)

print('MODALITALAVORO')
for i in contract_1819.MODALITALAVORO.unique().tolist():
    percentages_1819.append((len(contract_1819[(contract_1819.MODALITALAVORO==i)&(conditionA)])/len(contract_1819[contract_1819.MODALITALAVORO==i]))*100)

print('PROVINCIAIMPRESA')
for i in contract_1819.PROVINCIAIMPRESA.unique().tolist():
    percentages_1819.append((len(contract_1819[(contract_1819.PROVINCIAIMPRESA==i)&(conditionA)])/len(contract_1819[contract_1819.PROVINCIAIMPRESA==i]))*100)
    
print('CITTADINANZA')
for i in contract_1819.CITTADINANZA.unique().tolist():
    percentages_1819.append((len(contract_1819[(contract_1819.CITTADINANZA==i)&(conditionA)])/len(contract_1819[contract_1819.CITTADINANZA==i]))*100)

ctr = 0
printed = False
for i in percentages_1819:
    if i >= 1:
        print('There is one categories that would lose more than 1%: ', ctr)
        printed = True
    ctr = ctr + 1
    if ctr == len(percentages_1819) and not printed:
        print('No category would lose more than 1%, so we can eliminate invalid values')


Check categories
GENERE
SETTOREECONOMICODETTAGLIO
TITOLOSTUDIO
CONTRATTO
MODALITALAVORO
PROVINCIAIMPRESA
CITTADINANZA
There is one categories that would lose more than 1%:  428
There is one categories that would lose more than 1%:  1040


Since we cannot eliminate the invalid values, We can just consider them as undefined values.

In [19]:
contract_1819.loc[conditionA, 'ETA'] = 0

Now we can categorize the age into five categories: NON DEFINITO, 15-24, 25-49, 50-64, 65 o piu'

In [20]:
'''First the age values are substituted with values 0,1,2,3,4 (from "ND", "15-24" to "65 o piu'"), then they are changed with the
actual names'''
contract_1819.loc[contract_1819.ETA < 15, 'ETA'] = 0
contract_1819.loc[(contract_1819.ETA > 14) & (contract_1819.ETA < 25), 'ETA'] = 1
contract_1819.loc[(contract_1819.ETA > 24) & (contract_1819.ETA < 50), 'ETA'] = 2
contract_1819.loc[(contract_1819.ETA > 49) & (contract_1819.ETA < 65), 'ETA'] = 3
contract_1819.loc[contract_1819.ETA > 64, 'ETA'] = 4

contract_1819 = contract_1819.replace({0:"NON DEFINITO", 1:"15-24", 2:"25-49", 3:"50-64", 4:"65 o piu'"})
contract_1819.head()

Unnamed: 0,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,CITTADINANZA
0,M,25-49,"Gestioni di funicolari, ski-lift e seggiovie s...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIANO
1,F,50-64,Confezioni di abbigliamento sportivo o di altr...,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,BERGAMO,ITALIANO
2,F,25-49,Istruzione di grado preparatorio: scuole dell'...,LAUREA - Vecchio o nuovo ordinamento,LAVORO A TEMPO INDETERMINATO,TEMPO PARZIALE ORIZZONTALE,BERGAMO,ITALIANO
3,M,50-64,Allevamento di bovini e bufalini da carne,NESSUN TITOLO DI STUDIO,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE MISTO,BERGAMO,STRANIERO
4,F,25-49,Attività di famiglie e convivenze come datori ...,NESSUN TITOLO DI STUDIO,LAVORO DOMESTICO,TEMPO PIENO,BERGAMO,ITALIANO


For SETTOREECONOMICODETTAGLIO there are NaN values so we do what it was done for ETA

In [21]:
contract_1819.SETTOREECONOMICODETTAGLIO.isna().unique().tolist()

[False, True]

In [22]:
contract_1819.SETTOREECONOMICODETTAGLIO[contract_1819.SETTOREECONOMICODETTAGLIO == 'NON DEFINITO'].unique().tolist()

[]

In [23]:
conditionA = contract_1819.SETTOREECONOMICODETTAGLIO.isna()
print("Number of tuples with a NaN value for SETTOREECONOMICODETTAGLIO: ", len(contract_1819[conditionA]), ",",(len(contract_1819[conditionA])/len(contract_1819.SETTOREECONOMICODETTAGLIO))*100,"%")

Number of tuples with a NaN value for SETTOREECONOMICODETTAGLIO:  1188 , 0.045736566616002255 %


In [24]:
print('Check categories')
percentages_1819 = []
print('GENERE')
percentages_1819.append((len(contract_1819[(contract_1819.GENERE=='M')&(conditionA)])/len(contract_1819[contract_1819.GENERE=='M']))*100)
percentages_1819.append((len(contract_1819[(contract_1819.GENERE=='F')&(conditionA)])/len(contract_1819[contract_1819.GENERE=='F']))*100)

print('ETA')
for i in contract_1819.ETA.unique().tolist():
    percentages_1819.append((len(contract_1819[(contract_1819.ETA==i)&(conditionA)])/len(contract_1819[contract_1819.ETA==i]))*100)

print('TITOLOSTUDIO')
for i in contract_1819.TITOLOSTUDIO.unique().tolist():
    percentages_1819.append((len(contract_1819[(contract_1819.TITOLOSTUDIO==i)&(conditionA)])/len(contract_1819[contract_1819.TITOLOSTUDIO==i]))*100)

print('CONTRATTO')
for i in contract_1819.CONTRATTO.unique().tolist():
    percentages_1819.append((len(contract_1819[(contract_1819.CONTRATTO==i)&(conditionA)])/len(contract_1819[contract_1819.CONTRATTO==i]))*100)

print('MODALITALAVORO')
for i in contract_1819.MODALITALAVORO.unique().tolist():
    percentages_1819.append((len(contract_1819[(contract_1819.MODALITALAVORO==i)&(conditionA)])/len(contract_1819[contract_1819.MODALITALAVORO==i]))*100)

print('PROVINCIAIMPRESA')
for i in contract_1819.PROVINCIAIMPRESA.unique().tolist():
    percentages_1819.append((len(contract_1819[(contract_1819.PROVINCIAIMPRESA==i)&(conditionA)])/len(contract_1819[contract_1819.PROVINCIAIMPRESA==i]))*100)
    
print('CITTADINANZA')
for i in contract_1819.CITTADINANZA.unique().tolist():
    percentages_1819.append((len(contract_1819[(contract_1819.CITTADINANZA==i)&(conditionA)])/len(contract_1819[contract_1819.CITTADINANZA==i]))*100)
    
ctr = 0
printed = False
for i in percentages_1819:
    if i >= 1:
        print('There is one categories that would lose more than 1%: ', ctr)
        printed = True
    ctr = ctr + 1
    if ctr == len(percentages_1819) and not printed:
        print('No category would lose more than 1%, so we can eliminate invalid values')

Check categories
GENERE
ETA
TITOLOSTUDIO
CONTRATTO
MODALITALAVORO
PROVINCIAIMPRESA
CITTADINANZA
No category would lose more than 1%, so we can eliminate invalid values


We can eliminate all tuples with a NaN value

In [25]:
contract_1819 = contract_1819.drop(contract_1819[contract_1819.SETTOREECONOMICODETTAGLIO.isna()].index)
print('Number of NaN values:',len(contract_1819_copy.SETTOREECONOMICODETTAGLIO[conditionA]))
print('Elements removed:',len(contract_1819_copy.SETTOREECONOMICODETTAGLIO)-len(contract_1819.SETTOREECONOMICODETTAGLIO))

Number of NaN values: 1188
Elements removed: 1188


For TITOLOSTUDIO there are no NaN values

In [26]:
contract_1819.TITOLOSTUDIO.unique().tolist()

['LICENZA MEDIA',
 'LAUREA - Vecchio o nuovo ordinamento',
 'NESSUN TITOLO DI STUDIO',
 "DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE  CHE PERMETTE L'ACCESSO ALL'UNIVERSITA",
 "TITOLO DI ISTRUZIONE SECONDARIA SUPERIORE (SCOLASTICA ED EXTRA-SCOLASTICA) CHE NON PERMETTE L'ACCESSO ALL'UNIVERSITÀ ()",
 'LICENZA ELEMENTARE',
 'DIPLOMA UNIVERSITARIO',
 'TITOLO DI STUDIO POST-LAUREA',
 'DIPLOMA DI SPECIALIZZAZIONE',
 'MASTER UNIVERSITARIO DI PRIMO LIVELLO',
 'DIPLOMA TERZIARIO EXTRA-UNIVERSITARIO',
 'TITOLO DI DOTTORE DI RICERCA']

In [27]:
contract_1819.TITOLOSTUDIO.isna().unique().tolist()

[False]

 We can group up some educational degrees that are on the same level, like different types of bachelor's degree and all post-lauream degrees.

In [28]:
replaceDict = {"NESSUN TITOLO DI STUDIO":0,
              "LICENZA ELEMENTARE":1,
              "LICENZA MEDIA":2,
              "TITOLO DI ISTRUZIONE SECONDARIA SUPERIORE (SCOLASTICA ED EXTRA-SCOLASTICA) CHE NON PERMETTE L'ACCESSO ALL'UNIVERSITÀ ()":3,
              "DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE  CHE PERMETTE L'ACCESSO ALL'UNIVERSITA":4,
              "LAUREA - Vecchio o nuovo ordinamento":5,
              "DIPLOMA UNIVERSITARIO":5,
              "DIPLOMA TERZIARIO EXTRA-UNIVERSITARIO":5,
              "DIPLOMA DI SPECIALIZZAZIONE":6,
              "TITOLO DI DOTTORE DI RICERCA":6,
              "TITOLO DI STUDIO POST-LAUREA":6,
              "MASTER UNIVERSITARIO DI PRIMO LIVELLO":6}

contract_1819.replace({"TITOLOSTUDIO":replaceDict}, inplace=True)
contract_1819.TITOLOSTUDIO = contract_1819.TITOLOSTUDIO.replace({0:"NESSUN TITOLO DI STUDIO", 
                                       1:"LICENZA ELEMENTARE",
                                       2:"LICENZA MEDIA",
                                       3:"ISTRUZIONE SECONDARIA SUPERIORE SENZA ACCESSO A UNIVERSITA'", 
                                       4:"ISTRUZIONE SECONDARIA SUPERIORE CON ACCESSO A UNIVERSITA'", 
                                       5:"ISTRUZIONE TERZIARIA", 
                                       6:"ISTRUZIONE POST-LAUREAM"})
contract_1819.head()

Unnamed: 0,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,CITTADINANZA
0,M,25-49,"Gestioni di funicolari, ski-lift e seggiovie s...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIANO
1,F,50-64,Confezioni di abbigliamento sportivo o di altr...,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,BERGAMO,ITALIANO
2,F,25-49,Istruzione di grado preparatorio: scuole dell'...,ISTRUZIONE TERZIARIA,LAVORO A TEMPO INDETERMINATO,TEMPO PARZIALE ORIZZONTALE,BERGAMO,ITALIANO
3,M,50-64,Allevamento di bovini e bufalini da carne,NESSUN TITOLO DI STUDIO,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE MISTO,BERGAMO,STRANIERO
4,F,25-49,Attività di famiglie e convivenze come datori ...,NESSUN TITOLO DI STUDIO,LAVORO DOMESTICO,TEMPO PIENO,BERGAMO,ITALIANO


For CONTRATTO there are no NaN values

In [29]:
contract_1819.CONTRATTO.unique().tolist()

['LAVORO A TEMPO DETERMINATO',
 'LAVORO A TEMPO INDETERMINATO',
 'LAVORO DOMESTICO',
 'LAVORO INTERMITTENTE',
 'TIROCINIO',
 'LAVORO AUTONOMO NELLO SPETTACOLO',
 'APPRENDISTATO PROFESSIONALIZZANTE O CONTRATTO DI MESTIERE',
 'LAVORO A TEMPO DETERMINATO  PER SOSTITUZIONE',
 'LAVORO A DOMICILIO',
 'CONTRATTO DI AGENZIA',
 'APPRENDISTATO PER LA QUALIFICA E PER IL DIPLOMA PROFESSIONALE, IL DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE E IL CERTIFICATO DI SPECIALIZZAZIONE TECNICA SUPERIORE',
 'COLLABORAZIONE COORDINATA E CONTINUATIVA',
 'LAVORO O ATTIVITÀ SOCIALMENTE UTILE (LSU - ASU)',
 'APPRENDISTATO DI ALTA FORMAZIONE E RICERCA',
 'CONTRATTI DI BORSA LAVORO E ALTRE WORK EXPERIENCES',
 'CONTRATTO DI FORMAZIONE LAVORO (SOLO PUBBLICA AMMINISTRAZIONE)',
 'LAVORO CONGIUNTO IN AGRICOLTURA',
 'LAVORO RIPARTITO',
 'LAVORO DOMESTICO A TEMPO INDETERMINATO']

In [30]:
contract_1819.CONTRATTO.isna().unique().tolist()

[False]

For MODALITALAVORO there are undefined values, but we cannot eliminate them because they represent more than 9% of the total data

In [31]:
contract_1819.MODALITALAVORO.unique().tolist()

['TEMPO PIENO',
 'TEMPO PARZIALE ORIZZONTALE',
 'TEMPO PARZIALE MISTO',
 'NON DEFINITO',
 'TEMPO PARZIALE VERTICALE']

In [32]:
conditionA = contract_1819.MODALITALAVORO == 'NON DEFINITO'
print("Number of tuples with a NaN value for SETTOREECONOMICODETTAGLIO: ", len(contract_1819[conditionA]), ",",(len(contract_1819[conditionA])/len(contract_1819.MODALITALAVORO))*100,"%")

Number of tuples with a NaN value for SETTOREECONOMICODETTAGLIO:  250511 , 9.64878426804956 %


For PROVINCIAIMPRESA there are no NaN values, and CITTADINANZA was already checked before.

In [33]:
contract_1819.PROVINCIAIMPRESA.unique().tolist()

['BERGAMO',
 'LECCO',
 'BRESCIA',
 'COMO',
 'LODI',
 'MANTOVA',
 'CREMONA',
 'PAVIA',
 'MILANO',
 'VARESE',
 'SONDRIO',
 'MONZA E BRIANZA']

No we repeat the same process for the data from 2020-2021

For GENERE there are no NaN values

In [34]:
contract_2021.GENERE.unique().tolist()

['F', 'M']

For ETA there are invalid values

In [35]:
contract_2021.ETA.isna().unique().tolist()

[False]

In [36]:
contract_2021[contract_2021.ETA < 15]['ETA'].unique().tolist()

[4, 0, 2, 8, 5, 6, 10, 9, 11, 12, 14, 7, 1, 3, 13]

In [37]:
conditionA = contract_2021.ETA < 15
print("Number of tuples without a 'ETA' value lower than 15: ", len(contract_2021[conditionA]), ",",(len(contract_2021[conditionA])/len(contract_2021.ETA))*100,"%")

Number of tuples without a 'ETA' value lower than 15:  1670 , 0.08772127955406073 %


In [38]:
print('Check categories')
percentages_2021 = []
print('GENERE')
percentages_2021.append((len(contract_2021[(contract_2021.GENERE=='M')&(conditionA)])/len(contract_2021[contract_2021.GENERE=='M']))*100)
percentages_2021.append((len(contract_2021[(contract_2021.GENERE=='F')&(conditionA)])/len(contract_2021[contract_2021.GENERE=='F']))*100)

print('SETTOREECONOMICODETTAGLIO')
for i in contract_2021.SETTOREECONOMICODETTAGLIO.unique().tolist():
    if type(i) is str:
        percentages_2021.append((len(contract_2021[(contract_2021.SETTOREECONOMICODETTAGLIO==i)&(conditionA)])/len(contract_2021[contract_2021.SETTOREECONOMICODETTAGLIO==i]))*100)
    elif isnan(i):
        percentages_2021.append((len(contract_2021[(contract_2021.SETTOREECONOMICODETTAGLIO.isna())&(conditionA)])/len(contract_2021[contract_2021.SETTOREECONOMICODETTAGLIO.isna()]))*100)

print('TITOLOSTUDIO')
for i in contract_2021.TITOLOSTUDIO.unique().tolist():
    percentages_2021.append((len(contract_2021[(contract_2021.TITOLOSTUDIO==i)&(conditionA)])/len(contract_2021[contract_2021.TITOLOSTUDIO==i]))*100)

print('CONTRATTO')
for i in contract_2021.CONTRATTO.unique().tolist():
    percentages_2021.append((len(contract_2021[(contract_2021.CONTRATTO==i)&(conditionA)])/len(contract_2021[contract_2021.CONTRATTO==i]))*100)

print('MODALITALAVORO')
for i in contract_2021.MODALITALAVORO.unique().tolist():
    percentages_2021.append((len(contract_2021[(contract_2021.MODALITALAVORO==i)&(conditionA)])/len(contract_2021[contract_2021.MODALITALAVORO==i]))*100)

print('PROVINCIAIMPRESA')
for i in contract_2021.PROVINCIAIMPRESA.unique().tolist():
    percentages_2021.append((len(contract_2021[(contract_2021.PROVINCIAIMPRESA==i)&(conditionA)])/len(contract_2021[contract_2021.PROVINCIAIMPRESA==i]))*100)
    
print('CITTADINANZA')
for i in contract_2021.CITTADINANZA.unique().tolist():
    percentages_2021.append((len(contract_2021[(contract_2021.CITTADINANZA==i)&(conditionA)])/len(contract_2021[contract_2021.CITTADINANZA==i]))*100)
    
ctr = 0
printed = False
for i in percentages_2021:
    if i >= 1:
        print('There is one categories that would lose more than 1%: ', ctr)
        printed = True
    ctr = ctr + 1
    if ctr == len(percentages_2021) and not printed:
        print('No category would lose more than 1%, so we can eliminate invalid values')


Check categories
GENERE
SETTOREECONOMICODETTAGLIO
TITOLOSTUDIO
CONTRATTO
MODALITALAVORO
PROVINCIAIMPRESA
CITTADINANZA
There is one categories that would lose more than 1%:  459
There is one categories that would lose more than 1%:  488
There is one categories that would lose more than 1%:  770
There is one categories that would lose more than 1%:  786
There is one categories that would lose more than 1%:  790
There is one categories that would lose more than 1%:  845
There is one categories that would lose more than 1%:  945
There is one categories that would lose more than 1%:  986
There is one categories that would lose more than 1%:  1192


As before, the values cannot be eliminated so we consider them as undefined values

In [39]:
contract_2021.loc[conditionA, 'ETA'] = 0

We group the values: NON DEFINITO, 15-24, 25-49, 50-64, 65 o piu'

In [40]:
'''First the age values are substituted with values 0,1,2,3,4 (from "ND", "15-24" to "65 o piu'"), then they are changed with the
actual names'''
contract_2021.loc[contract_2021.ETA < 15, 'ETA'] = 0
contract_2021.loc[(contract_2021.ETA > 14) & (contract_2021.ETA < 25), 'ETA'] = 1
contract_2021.loc[(contract_2021.ETA > 24) & (contract_2021.ETA < 50), 'ETA'] = 2
contract_2021.loc[(contract_2021.ETA > 49) & (contract_2021.ETA < 65), 'ETA'] = 3
contract_2021.loc[contract_2021.ETA > 64, 'ETA'] = 4

contract_2021 = contract_2021.replace({0:"NON DEFINITO", 1:"15-24", 2:"25-49", 3:"50-64", 4:"65 o piu'"})
contract_2021.head()

Unnamed: 0,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,CITTADINANZA
0,F,50-64,Attività di famiglie e convivenze come datori ...,NESSUN TITOLO DI STUDIO,LAVORO DOMESTICO,TEMPO PIENO,BERGAMO,STRANIERO
1,F,25-49,Rifugi di montagna,LICENZA MEDIA,LAVORO INTERMITTENTE,NON DEFINITO,BERGAMO,ITALIANO
2,M,15-24,"Costruzione di strade, autostrade e piste aero...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIANO
3,M,15-24,Ristorazione con somministrazione,LICENZA MEDIA,LAVORO INTERMITTENTE,NON DEFINITO,BERGAMO,ITALIANO
4,M,25-49,"Costruzione di strade, autostrade e piste aero...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIANO


For SETTOREECONOMICODETTAGLIO there are NaN values

In [41]:
contract_2021.SETTOREECONOMICODETTAGLIO.isna().unique().tolist()

[False, True]

In [42]:
contract_2021.SETTOREECONOMICODETTAGLIO[contract_2021.SETTOREECONOMICODETTAGLIO == 'NON DEFINITO'].unique().tolist()

[]

We do the same as before

In [43]:
conditionA = contract_2021.SETTOREECONOMICODETTAGLIO.isna()
print("Number of tuples with a NaN value for SETTOREECONOMICODETTAGLIO: ", len(contract_2021[conditionA]), ",",(len(contract_2021[conditionA])/len(contract_2021.SETTOREECONOMICODETTAGLIO))*100,"%")

Number of tuples with a NaN value for SETTOREECONOMICODETTAGLIO:  1210 , 0.06355853189246316 %


In [44]:
print('Check categories')
percentages_2021 = []
print('GENERE')
percentages_2021.append((len(contract_2021[(contract_2021.GENERE=='M')&(conditionA)])/len(contract_2021[contract_2021.GENERE=='M']))*100)
percentages_2021.append((len(contract_2021[(contract_2021.GENERE=='F')&(conditionA)])/len(contract_2021[contract_2021.GENERE=='F']))*100)

print('ETA')
for i in contract_2021.ETA.unique().tolist():
    percentages_2021.append((len(contract_2021[(contract_2021.ETA==i)&(conditionA)])/len(contract_2021[contract_2021.ETA==i]))*100)

print('TITOLOSTUDIO')
for i in contract_2021.TITOLOSTUDIO.unique().tolist():
    percentages_2021.append((len(contract_2021[(contract_2021.TITOLOSTUDIO==i)&(conditionA)])/len(contract_2021[contract_2021.TITOLOSTUDIO==i]))*100)

print('CONTRATTO')
for i in contract_2021.CONTRATTO.unique().tolist():
    percentages_2021.append((len(contract_2021[(contract_2021.CONTRATTO==i)&(conditionA)])/len(contract_2021[contract_2021.CONTRATTO==i]))*100)

print('MODALITALAVORO')
for i in contract_2021.MODALITALAVORO.unique().tolist():
    percentages_2021.append((len(contract_2021[(contract_2021.MODALITALAVORO==i)&(conditionA)])/len(contract_2021[contract_2021.MODALITALAVORO==i]))*100)

print('PROVINCIAIMPRESA')
for i in contract_2021.PROVINCIAIMPRESA.unique().tolist():
    percentages_2021.append((len(contract_2021[(contract_2021.PROVINCIAIMPRESA==i)&(conditionA)])/len(contract_2021[contract_2021.PROVINCIAIMPRESA==i]))*100)
    
print('CITTADINANZA')
for i in contract_2021.CITTADINANZA.unique().tolist():
    percentages_2021.append((len(contract_2021[(contract_2021.CITTADINANZA==i)&(conditionA)])/len(contract_2021[contract_2021.CITTADINANZA==i]))*100)
    
ctr = 0
printed = False
for i in percentages_2021:
    if i >= 1:
        print('There is one categories that would lose more than 1%: ', ctr)
        printed = True
    ctr = ctr + 1
    if ctr == len(percentages_2021) and not printed:
        print('No category would lose more than 1%, so we can eliminate invalid values')


Check categories
GENERE
ETA
TITOLOSTUDIO
CONTRATTO
MODALITALAVORO
PROVINCIAIMPRESA
CITTADINANZA
There is one categories that would lose more than 1%:  47


In this case we cannot eliminate the NaN values so we consider them as undefined values.

In [45]:
contract_2021.loc[conditionA, 'SETTOREECONOMICODETTAGLIO'] = 'NON DEFINITO'

For TITOLOSTUDIO there are no NaN values

In [46]:
contract_2021.TITOLOSTUDIO.unique().tolist()

['NESSUN TITOLO DI STUDIO',
 'LICENZA MEDIA',
 'LICENZA ELEMENTARE',
 "TITOLO DI ISTRUZIONE SECONDARIA SUPERIORE (SCOLASTICA ED EXTRA-SCOLASTICA) CHE NON PERMETTE L'ACCESSO ALL'UNIVERSITÀ ()",
 "DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE  CHE PERMETTE L'ACCESSO ALL'UNIVERSITA",
 'DIPLOMA DI SPECIALIZZAZIONE',
 'DIPLOMA UNIVERSITARIO',
 'LAUREA - Vecchio o nuovo ordinamento',
 'TITOLO DI DOTTORE DI RICERCA',
 'MASTER UNIVERSITARIO DI PRIMO LIVELLO',
 'TITOLO DI STUDIO POST-LAUREA',
 'DIPLOMA TERZIARIO EXTRA-UNIVERSITARIO']

In [47]:
contract_2021.TITOLOSTUDIO.isna().unique().tolist()

[False]

TITOLOSTUDIO values are grouped up as before

In [48]:
replaceDict = {"NESSUN TITOLO DI STUDIO":0,
              "LICENZA ELEMENTARE":1,
              "LICENZA MEDIA":2,
              "TITOLO DI ISTRUZIONE SECONDARIA SUPERIORE (SCOLASTICA ED EXTRA-SCOLASTICA) CHE NON PERMETTE L'ACCESSO ALL'UNIVERSITÀ ()":3,
              "DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE  CHE PERMETTE L'ACCESSO ALL'UNIVERSITA":4,
              "LAUREA - Vecchio o nuovo ordinamento":5,
              "DIPLOMA UNIVERSITARIO":5,
              "DIPLOMA TERZIARIO EXTRA-UNIVERSITARIO":5,
              "DIPLOMA DI SPECIALIZZAZIONE":6,
              "TITOLO DI DOTTORE DI RICERCA":6,
              "TITOLO DI STUDIO POST-LAUREA":6,
              "MASTER UNIVERSITARIO DI PRIMO LIVELLO":6}

contract_2021.replace({"TITOLOSTUDIO":replaceDict}, inplace=True)
contract_2021.TITOLOSTUDIO = contract_2021.TITOLOSTUDIO.replace({0:"NESSUN TITOLO DI STUDIO", 
                                       1:"LICENZA ELEMENTARE",
                                       2:"LICENZA MEDIA",
                                       3:"ISTRUZIONE SECONDARIA SUPERIORE SENZA ACCESSO A UNIVERSITA'", 
                                       4:"ISTRUZIONE SECONDARIA SUPERIORE CON ACCESSO A UNIVERSITA'", 
                                       5:"ISTRUZIONE TERZIARIA", 
                                       6:"ISTRUZIONE POST-LAUREAM"})
contract_2021.head()

Unnamed: 0,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,CITTADINANZA
0,F,50-64,Attività di famiglie e convivenze come datori ...,NESSUN TITOLO DI STUDIO,LAVORO DOMESTICO,TEMPO PIENO,BERGAMO,STRANIERO
1,F,25-49,Rifugi di montagna,LICENZA MEDIA,LAVORO INTERMITTENTE,NON DEFINITO,BERGAMO,ITALIANO
2,M,15-24,"Costruzione di strade, autostrade e piste aero...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIANO
3,M,15-24,Ristorazione con somministrazione,LICENZA MEDIA,LAVORO INTERMITTENTE,NON DEFINITO,BERGAMO,ITALIANO
4,M,25-49,"Costruzione di strade, autostrade e piste aero...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIANO


For CONTRATTO there are no NaN values

In [49]:
contract_2021.CONTRATTO.unique().tolist()

['LAVORO DOMESTICO',
 'LAVORO INTERMITTENTE',
 'LAVORO A TEMPO DETERMINATO',
 'APPRENDISTATO PROFESSIONALIZZANTE O CONTRATTO DI MESTIERE',
 'LAVORO A TEMPO INDETERMINATO',
 'LAVORO AUTONOMO NELLO SPETTACOLO',
 'TIROCINIO',
 'LAVORO A TEMPO DETERMINATO  PER SOSTITUZIONE',
 'LAVORO O ATTIVITÀ SOCIALMENTE UTILE (LSU - ASU)',
 'CONTRATTO DI AGENZIA',
 'COLLABORAZIONE COORDINATA E CONTINUATIVA',
 'APPRENDISTATO PER LA QUALIFICA E PER IL DIPLOMA PROFESSIONALE, IL DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE E IL CERTIFICATO DI SPECIALIZZAZIONE TECNICA SUPERIORE',
 'LAVORO A DOMICILIO',
 'CONTRATTI DI BORSA LAVORO E ALTRE WORK EXPERIENCES',
 'LAVORO CONGIUNTO IN AGRICOLTURA',
 'Lavoro a tempo determinato per sostituzione con piattaforma',
 'CONTRATTO DI FORMAZIONE LAVORO (SOLO PUBBLICA AMMINISTRAZIONE)',
 'Lavoro a tempo indeterminato con piattaforma',
 'APPRENDISTATO DI ALTA FORMAZIONE E RICERCA',
 'Lavoro a tempo determinato con piattaforma',
 'LAVORO RIPARTITO',
 'LAVORO DOMESTICO A TEMPO IN

In [50]:
contract_2021.CONTRATTO.isna().unique().tolist()

[False]

For MODALITALAVORO we have undefined values but cannot be eliminated because they represent almost 10% of the values.

In [51]:
contract_2021.MODALITALAVORO.unique().tolist()

['TEMPO PIENO',
 'NON DEFINITO',
 'TEMPO PARZIALE ORIZZONTALE',
 'TEMPO PARZIALE MISTO',
 'TEMPO PARZIALE VERTICALE']

In [52]:
conditionA = contract_2021.MODALITALAVORO == 'NON DEFINITO'
print("Number of tuples with a NaN value for SETTOREECONOMICODETTAGLIO: ", len(contract_2021[conditionA]), ",",(len(contract_2021[conditionA])/len(contract_2021.MODALITALAVORO))*100,"%")

Number of tuples with a NaN value for SETTOREECONOMICODETTAGLIO:  188611 , 9.907304346090388 %


For PROVINCIAIMPRESA there are no NaN values 

In [53]:
contract_2021.PROVINCIAIMPRESA.unique().tolist()

['BERGAMO',
 'LECCO',
 'BRESCIA',
 'COMO',
 'LODI',
 'MANTOVA',
 'CREMONA',
 'PAVIA',
 'MILANO',
 'VARESE',
 'SONDRIO',
 'MONZA E BRIANZA']

Now we can save the two datasets and use them for analysis

In [54]:
output_1819 = 'C:\\Users\\rotol\\Downloads\\csvs\\contracts_1819.csv'
output_2021 = 'C:\\Users\\rotol\\Downloads\\csvs\\contracts_2021.csv'

In [55]:
contract_1819.to_csv(output_1819, index=False)
contract_2021.to_csv(output_2021, index=False)
print('Done')

Done


# Data Transformation

### The features are transformed and then the number of attributes is reduced for machine learning machine

The starting sets are `contracts_1819.csv` and `contracts_2021.csv`. The features are trasformed into numerical values so that they can be used for machine learning.
The data are also reduced for performance and representation reasons.

In [56]:
import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
import numpy.random as nr
import datetime as dt

from sklearn.cluster import KMeans, AgglomerativeClustering
from sklearn.metrics import silhouette_score
from sklearn import preprocessing
from sklearn.neighbors import NearestCentroid
from sklearn.feature_selection import SelectKBest
from sklearn.metrics import silhouette_score
from sklearn.metrics import silhouette_samples
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

from sklearn.metrics import r2_score
from sklearn.linear_model import LinearRegression

Import the datasets

In [59]:
input_1819 = 'C:\\Users\\rotol\\Downloads\\csvs\\contracts_1819.csv'
input_2021 = 'C:\\Users\\rotol\\Downloads\\csvs\\contracts_2021.csv'

In [60]:
contract_1819 = pd.read_csv(input_1819)
contract_1819

Unnamed: 0,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,CITTADINANZA
0,M,25-49,"Gestioni di funicolari, ski-lift e seggiovie s...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIANO
1,F,50-64,Confezioni di abbigliamento sportivo o di altr...,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,BERGAMO,ITALIANO
2,F,25-49,Istruzione di grado preparatorio: scuole dell'...,ISTRUZIONE TERZIARIA,LAVORO A TEMPO INDETERMINATO,TEMPO PARZIALE ORIZZONTALE,BERGAMO,ITALIANO
3,M,50-64,Allevamento di bovini e bufalini da carne,NESSUN TITOLO DI STUDIO,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE MISTO,BERGAMO,STRANIERO
4,F,25-49,Attività di famiglie e convivenze come datori ...,NESSUN TITOLO DI STUDIO,LAVORO DOMESTICO,TEMPO PIENO,BERGAMO,ITALIANO
...,...,...,...,...,...,...,...,...
2596291,F,25-49,Altre attività di assistenza sociale non resid...,ISTRUZIONE TERZIARIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,MONZA E BRIANZA,ITALIANO
2596292,F,25-49,Mense,ISTRUZIONE SECONDARIA SUPERIORE CON ACCESSO A ...,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,MONZA E BRIANZA,STRANIERO
2596293,F,50-64,Installazione di altre macchine ed apparecchia...,LICENZA ELEMENTARE,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,MONZA E BRIANZA,ITALIANO
2596294,F,50-64,Mense,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,MONZA E BRIANZA,ITALIANO


In [61]:
contract_2021 = pd.read_csv(input_2021)
contract_2021

Unnamed: 0,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,CITTADINANZA
0,F,50-64,Attività di famiglie e convivenze come datori ...,NESSUN TITOLO DI STUDIO,LAVORO DOMESTICO,TEMPO PIENO,BERGAMO,STRANIERO
1,F,25-49,Rifugi di montagna,LICENZA MEDIA,LAVORO INTERMITTENTE,NON DEFINITO,BERGAMO,ITALIANO
2,M,15-24,"Costruzione di strade, autostrade e piste aero...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIANO
3,M,15-24,Ristorazione con somministrazione,LICENZA MEDIA,LAVORO INTERMITTENTE,NON DEFINITO,BERGAMO,ITALIANO
4,M,25-49,"Costruzione di strade, autostrade e piste aero...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,ITALIANO
...,...,...,...,...,...,...,...,...
1903752,M,15-24,Servizi logistici relativi alla distribuzione ...,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,MONZA E BRIANZA,STRANIERO
1903753,M,25-49,Pulizia generale (non specializzata) di edifici,ISTRUZIONE SECONDARIA SUPERIORE CON ACCESSO A ...,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,MONZA E BRIANZA,ITALIANO
1903754,F,50-64,Fabbricazione di altri articoli metallici e mi...,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,MONZA E BRIANZA,ITALIANO
1903755,F,50-64,Altre attività di assistenza sociale non resid...,LICENZA MEDIA,LAVORO A TEMPO INDETERMINATO,TEMPO PIENO,MONZA E BRIANZA,ITALIANO


First the features of the dataset from 2018-2019 will be transformed and reduced

GENERE and CITTADINANZA are binary values so they can be transformed into 0 and 1.

GENERE: 0 for F and 1 for M

CITTADINANZA: 0 for STRANIERO and 1 for ITALIANO

In [62]:
contract_1819.loc[contract_1819.CITTADINANZA == 'ITALIANO', 'CITTADINANZA'] = 1
contract_1819.loc[contract_1819.CITTADINANZA == 'STRANIERO', 'CITTADINANZA'] = 0
contract_1819.loc[contract_1819.GENERE == 'M', 'GENERE'] = 1
contract_1819.loc[contract_1819.GENERE == 'F', 'GENERE'] = 0
contract_1819.head()

Unnamed: 0,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,CITTADINANZA
0,1,25-49,"Gestioni di funicolari, ski-lift e seggiovie s...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,1
1,0,50-64,Confezioni di abbigliamento sportivo o di altr...,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,BERGAMO,1
2,0,25-49,Istruzione di grado preparatorio: scuole dell'...,ISTRUZIONE TERZIARIA,LAVORO A TEMPO INDETERMINATO,TEMPO PARZIALE ORIZZONTALE,BERGAMO,1
3,1,50-64,Allevamento di bovini e bufalini da carne,NESSUN TITOLO DI STUDIO,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE MISTO,BERGAMO,0
4,0,25-49,Attività di famiglie e convivenze come datori ...,NESSUN TITOLO DI STUDIO,LAVORO DOMESTICO,TEMPO PIENO,BERGAMO,1


ETA can be considered an ordinal feature so we can transformed the value in numbers between 0 and 4 (from 'NON DEFINITO' to '65 o piu')

In [63]:
contract_1819.loc[contract_1819.ETA == 'NON DEFINITO', 'ETA'] = 0
contract_1819.loc[contract_1819.ETA == '15-24', 'ETA'] = 1
contract_1819.loc[contract_1819.ETA == '25-49', 'ETA'] = 2
contract_1819.loc[contract_1819.ETA == '50-64', 'ETA'] = 3
contract_1819.loc[contract_1819.ETA == "65 o piu'", 'ETA'] = 4
contract_1819.head()

Unnamed: 0,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,CITTADINANZA
0,1,2,"Gestioni di funicolari, ski-lift e seggiovie s...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PIENO,BERGAMO,1
1,0,3,Confezioni di abbigliamento sportivo o di altr...,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE ORIZZONTALE,BERGAMO,1
2,0,2,Istruzione di grado preparatorio: scuole dell'...,ISTRUZIONE TERZIARIA,LAVORO A TEMPO INDETERMINATO,TEMPO PARZIALE ORIZZONTALE,BERGAMO,1
3,1,3,Allevamento di bovini e bufalini da carne,NESSUN TITOLO DI STUDIO,LAVORO A TEMPO DETERMINATO,TEMPO PARZIALE MISTO,BERGAMO,0
4,0,2,Attività di famiglie e convivenze come datori ...,NESSUN TITOLO DI STUDIO,LAVORO DOMESTICO,TEMPO PIENO,BERGAMO,1


Similarly we can transform MODALITALAVORO with values between 0 and 2 (0 for 'NON DEFINITO', 1 for all the part time variants and 2 for 'TEMPO PIENO')

In [64]:
replaceDict = {"NON DEFINITO":0,
              "TEMPO PARZIALE ORIZZONTALE":1,
              "TEMPO PARZIALE MISTO":1,
              "TEMPO PARZIALE VERTICALE":1,
              "TEMPO PIENO":2}

contract_1819.replace({"MODALITALAVORO":replaceDict}, inplace=True)
contract_1819.head()

Unnamed: 0,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,CITTADINANZA
0,1,2,"Gestioni di funicolari, ski-lift e seggiovie s...",LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,2,BERGAMO,1
1,0,3,Confezioni di abbigliamento sportivo o di altr...,LICENZA MEDIA,LAVORO A TEMPO DETERMINATO,1,BERGAMO,1
2,0,2,Istruzione di grado preparatorio: scuole dell'...,ISTRUZIONE TERZIARIA,LAVORO A TEMPO INDETERMINATO,1,BERGAMO,1
3,1,3,Allevamento di bovini e bufalini da carne,NESSUN TITOLO DI STUDIO,LAVORO A TEMPO DETERMINATO,1,BERGAMO,0
4,0,2,Attività di famiglie e convivenze come datori ...,NESSUN TITOLO DI STUDIO,LAVORO DOMESTICO,2,BERGAMO,1


We can also do the same thing for TITOLOSTUDIO. We can group up some educational degrees that are on the same level, like different types of bachelor's degree and all post-lauream degrees.

In [66]:
replaceDict = {"NESSUN TITOLO DI STUDIO":0,
              "LICENZA ELEMENTARE":1,
              "LICENZA MEDIA":2,
              "ISTRUZIONE SECONDARIA SUPERIORE SENZA ACCESSO A UNIVERSITA'":3,
              "ISTRUZIONE SECONDARIA SUPERIORE CON ACCESSO A UNIVERSITA'":4,
              "ISTRUZIONE TERZIARIA":5,
              "ISTRUZIONE POST-LAUREAM":6}

contract_1819.replace({"TITOLOSTUDIO":replaceDict}, inplace=True)
contract_1819.head()

Unnamed: 0,GENERE,ETA,SETTOREECONOMICODETTAGLIO,TITOLOSTUDIO,CONTRATTO,MODALITALAVORO,PROVINCIAIMPRESA,CITTADINANZA
0,1,2,"Gestioni di funicolari, ski-lift e seggiovie s...",2,LAVORO A TEMPO DETERMINATO,2,BERGAMO,1
1,0,3,Confezioni di abbigliamento sportivo o di altr...,2,LAVORO A TEMPO DETERMINATO,1,BERGAMO,1
2,0,2,Istruzione di grado preparatorio: scuole dell'...,5,LAVORO A TEMPO INDETERMINATO,1,BERGAMO,1
3,1,3,Allevamento di bovini e bufalini da carne,0,LAVORO A TEMPO DETERMINATO,1,BERGAMO,0
4,0,2,Attività di famiglie e convivenze come datori ...,0,LAVORO DOMESTICO,2,BERGAMO,1
