# Data science for business project
This project is made by 
- Drago Emanuele
- Lambrughi Achille

The aim of this project is to retrive, clean, analyze and develop a machine learning model starting from some given dataset.

The dataset considered are available at the following link:
- https://www.dati.lombardia.it/Attivit-Produttive/Rapporti-di-lavoro-attivati/qbau-cyuc

- https://www.dati.lombardia.it/Attivit-Produttive/Rapporti-di-lavoro-cessati/nwz3-p6vm

- https://www.dati.lombardia.it/Attivit-Produttive/Rapporti-di-lavoro-prorogati/chng-cman

- https://www.dati.lombardia.it/Attivit-Produttive/Rapporti-di-lavoro-trasformati/8dwx-jjag

In [1]:
import numpy as np
import pandas as pd
import matplotlib as mpl, matplotlib.pyplot as plt
from pathlib import PurePath

In [2]:
rap_lavoro_attivati = pd.read_csv(PurePath('dataset', 'Rapporti_di_lavoro_attivati.csv'),parse_dates=['DATA'])
rap_lavoro_cessati = pd.read_csv(PurePath('dataset', 'Rapporti_di_lavoro_cessati.csv'),parse_dates=['DATA'])
rap_lavoro_prorogati = pd.read_csv(PurePath('dataset', 'Rapporti_di_lavoro_prorogati.csv'),parse_dates=['DATA'])
rap_lavoro_trasformati = pd.read_csv(PurePath('dataset', 'Rapporti_di_lavoro_trasformati.csv'),parse_dates=['DATA'])
print([rap_lavoro_attivati.info(), rap_lavoro_cessati.info(),rap_lavoro_prorogati.info(),rap_lavoro_trasformati.info()])

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9579794 entries, 0 to 9579793
Data columns (total 9 columns):
 #   Column                     Dtype         
---  ------                     -----         
 0   DATA                       datetime64[ns]
 1   GENERE                     object        
 2   ETA                        int64         
 3   SETTOREECONOMICODETTAGLIO  object        
 4   TITOLOSTUDIO               object        
 5   CONTRATTO                  object        
 6   MODALITALAVORO             object        
 7   PROVINCIAIMPRESA           object        
 8   ITALIANO                   object        
dtypes: datetime64[ns](1), int64(1), object(7)
memory usage: 657.8+ MB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3741394 entries, 0 to 3741393
Data columns (total 9 columns):
 #   Column                     Dtype 
---  ------                     ----- 
 0   DATA                       object
 1   GENERE                     object
 2   ETA                        

In [3]:
def series_to_set(column, source_df):
    SET = set()
    for elem in source_df[column]:
        SET.add(elem)
    return SET

test_dataset = series_to_set('MODALITALAVORO', rap_lavoro_attivati)
test_dataset

{'NON DEFINITO',
 'TEMPO PARZIALE MISTO',
 'TEMPO PARZIALE ORIZZONTALE',
 'TEMPO PARZIALE VERTICALE',
 'TEMPO PIENO',
 nan}

# Dataset analysis
In this section will be analyzed the content of the datasets. The first group of datasets contain work relations started\ended\changed\extended. Calling the `info()` method is possible to see that all dataset share the same columns that are:
- DATA: date of the contract
- GENERE: sex of teh person
- ETA: age of the person
- SETTOREECONOMICODETTAGLIO: category of work
- TITOLOSTUDIO: level of education of the person
- CONTRATTO: type of contract
- MODALITALAVORO: work mode
- PROVINCIAIMPRESA: province of the place of work?
- ITALIANO: nationality of the person

From this first look at the data is possible to see that the dataset `Rapporti_di_lavoro_attivati` is bigger than the other one and this can itroduce some sort of bias in specific type of analysis

### Changing data type
Almost all columns of the dataset are type object, in the following part we will convert every column in an appropriate type.

Starting from the column `DATA` that has been converted whilie importing the data from the csv a part for `Rapporti_di_lavoro_cessati.csv` that has not been converted and so it will be converted now.
Then all the other column except for `ETA` will be converted to strings

In [4]:
rap_lavoro_cessati['DATA'] = pd.to_datetime(rap_lavoro_cessati['DATA'], errors='coerce')
rap_lavoro_attivati[['GENERE','SETTOREECONOMICODETTAGLIO','TITOLOSTUDIO','CONTRATTO', 'MODALITALAVORO','PROVINCIAIMPRESA','ITALIANO']]=rap_lavoro_attivati[['GENERE','SETTOREECONOMICODETTAGLIO','TITOLOSTUDIO','CONTRATTO', 'MODALITALAVORO','PROVINCIAIMPRESA','ITALIANO']].astype('string')
rap_lavoro_cessati[['GENERE','SETTOREECONOMICODETTAGLIO','TITOLOSTUDIO','CONTRATTO', 'MODALITALAVORO','PROVINCIAIMPRESA','ITALIANO']]=rap_lavoro_cessati[['GENERE','SETTOREECONOMICODETTAGLIO','TITOLOSTUDIO','CONTRATTO', 'MODALITALAVORO','PROVINCIAIMPRESA','ITALIANO']].astype('string')
rap_lavoro_trasformati[['GENERE','SETTOREECONOMICODETTAGLIO','TITOLOSTUDIO','CONTRATTO', 'MODALITALAVORO','PROVINCIAIMPRESA','ITALIANO']]=rap_lavoro_trasformati[['GENERE','SETTOREECONOMICODETTAGLIO','TITOLOSTUDIO','CONTRATTO', 'MODALITALAVORO','PROVINCIAIMPRESA','ITALIANO']].astype('string')
rap_lavoro_prorogati[['GENERE','SETTOREECONOMICODETTAGLIO','TITOLOSTUDIO','CONTRATTO', 'MODALITALAVORO','PROVINCIAIMPRESA','ITALIANO']]=rap_lavoro_prorogati[['GENERE','SETTOREECONOMICODETTAGLIO','TITOLOSTUDIO','CONTRATTO', 'MODALITALAVORO','PROVINCIAIMPRESA','ITALIANO']].astype('string')

as is possible to see now all the column have a specific data type

In [5]:
rap_lavoro_attivati.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9579794 entries, 0 to 9579793
Data columns (total 9 columns):
 #   Column                     Dtype         
---  ------                     -----         
 0   DATA                       datetime64[ns]
 1   GENERE                     string        
 2   ETA                        int64         
 3   SETTOREECONOMICODETTAGLIO  string        
 4   TITOLOSTUDIO               string        
 5   CONTRATTO                  string        
 6   MODALITALAVORO             string        
 7   PROVINCIAIMPRESA           string        
 8   ITALIANO                   string        
dtypes: datetime64[ns](1), int64(1), string(7)
memory usage: 657.8 MB


### Searching wrong and null data
Now we will look inside the data checking null or possibly wrong value, after those data will be corrected or deleted.
First off we will find out how many null value there are in each column

In [None]:
print([rap_lavoro_attivati.isnull().sum(),rap_lavoro_cessati.isnull().sum(),rap_lavoro_prorogati.isnull().sum(),rap_lavoro_trasformati.isnull().sum()])

From this first look is possible to see that a big part of value is missing from the column `MODALITALAVORO` of the dataset `Rapporti_di_lavoro_attivati` these value needs to be replaced while the other could be simply deleted because they represent a small part of the dataset.

But before proceding now will be checked the actual value of some columnn to see if there are some non plausible data.
Starting from the column `DATA`

In [None]:
rap_lavoro_attivati['DATA'].describe(datetime_is_numeric=True)

In [None]:
rap_lavoro_attivati = rap_lavoro_attivati[rap_lavoro_attivati['DATA'] < np.datetime64('2022-02-20')]

In [None]:
rap_lavoro_attivati['DATA'].describe(datetime_is_numeric=True)

In [None]:
rap_lavoro_attivati['DATA'].max

In [None]:
settore_economico = series_to_set('SETTOREECONOMICODETTAGLIO', rap_lavoro_attivati)
len(settore_economico)

Since the `SETTOREECONOMICODETTAGLIO` column has `1125` different values belonging to it, it cannot be easily exploited to analyze data (e.g. dividing them into categories). Furthermore, there are `2888` null values in this column that can make the analysis of this feature even tougher. Considering this two facts, we can derive that dropping the whole column is more convenient than keeping it, since it introduce noise. 

In [None]:
rap_lavoro_attivati.head()

In the `rap_lavoro_attivati` there are a lot of null values for the column `MODALITALAVORO`, removing the rows would reduce the set of data we are analysing. Hence, we'd rather prefer to fill those null values with a suitable values. 

In [None]:
mod_lavoro = series_to_set('MODALITALAVORO', rap_lavoro_attivati)
mod_lavoro

The value `NON DEFINITO` can be used to fill the na, since that won't introduce much bias, differently from the other available values. 

In [None]:
def clean(df):
    df.drop('SETTOREECONOMICODETTAGLIO', axis = 1, inplace = True)
    df['MODALITALAVORO'] = df['MODALITALAVORO'].fillna('NON DEFINITO')
    df.dropna(axis = 0, inplace = True)
    

clean(rap_lavoro_attivati)
rap_lavoro_attivati.isnull().sum()

A similar analysis can be made with the other three Dataframes `rap_lavoro_cessati`, `rap_lavoro_prorogati` and `rap_lavoro_trasformati`

In [None]:
clean(rap_lavoro_cessati)
clean(rap_lavoro_prorogati)
clean(rap_lavoro_trasformati)

#### Working on column `DATA`
In this section we will analyze in more detail the column `DATA` and adjust the data accordingly.
The first step is to group the column by year and count how many contract are activated per year

In [None]:
print(rap_lavoro_attivati.groupby(pd.Grouper(key='DATA', freq='Y'))['DATA'].count())

as is possible to see meany of the value have date between 2009 and 2022, so to have a more significant set of data we will remove all the row with date previous to 2009

In [None]:
attivatiTemp = rap_lavoro_attivati[(rap_lavoro_attivati["DATA"] >= '2009')]

In [None]:
print(attivatiTemp.groupby(pd.Grouper(key='DATA', freq='Y'))['DATA'].count())

With this we can see how many contract have been activated in the last few years in the Lombardy region. But before that we apply the same changes to the other datast and after that we can compare the result

In [None]:
cessatiTemp = rap_lavoro_cessati[(rap_lavoro_cessati["DATA"] >= '2009')]
trasformatiTemp = rap_lavoro_trasformati[(rap_lavoro_trasformati["DATA"] >= '2009')]
prorogatiTemp = rap_lavoro_prorogati[(rap_lavoro_prorogati["DATA"] >= '2009')]

In [None]:
attivatiTemp.groupby(pd.Grouper(key='DATA', freq='Y'))['DATA'].count().plot(label="attivati")
cessatiTemp.groupby(pd.Grouper(key='DATA', freq='Y'))['DATA'].count().plot(label="cessati")
prorogatiTemp.groupby(pd.Grouper(key='DATA', freq='Y'))['DATA'].count().plot(label="prorogati")
trasformatiTemp.groupby(pd.Grouper(key='DATA', freq='Y'))['DATA'].count().plot(label="trasformati")
plt.legend()
plt.show()

is possible to see that *attivati* and *cessati*  have a simila behavior but in a different scale while *trasformati* and *prorogati* differs from the previous but have some similarity between them.

In [None]:
m_to_f_rationA = rap_lavoro_attivati.GENERE.value_counts()
m_to_f_rationC = rap_lavoro_cessati.GENERE.value_counts()
m_to_f_rationT = rap_lavoro_trasformati.GENERE.value_counts()
m_to_f_rationP = rap_lavoro_prorogati.GENERE.value_counts()

xaxisA = m_to_f_rationA.index
valueA = m_to_f_rationA.values

xaxisC = m_to_f_rationC.index
valueC = m_to_f_rationC.values

xaxisT = m_to_f_rationT.index
valueT = m_to_f_rationT.values

xaxisP = m_to_f_rationP.index
valueP = m_to_f_rationP.values


fig1, axis = plt.subplots(4, constrained_layout=True)
fig1.dpi = 200
fig1.set_figheight(12)

#Attivati male to female Graph
axis[0].pie(valueA, labels=xaxisA, autopct='%1.1f%%', startangle=90)
axis[0].axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

#Cessati graph
axis[1].pie(valueC, labels=xaxisC, autopct='%1.1f%%', startangle=90)
axis[1].axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

#Trasformati graph
axis[2].pie(valueT, labels=xaxisT, autopct='%1.1f%%', startangle=90)
axis[2].axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

#Proprogati graph
axis[3].pie(valueP, labels=xaxisP, autopct='%1.1f%%', startangle=90)
axis[3].axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.
plt.show()

from these graphs we can say that probably there are more male than female in the popoulation

In [None]:
grado_istruzione_age = pd.read_csv(PurePath('dataset', 'censimenti', 'Grado_istruzione_per_età_Lombardia_IT1,DF_DCSS_ISTR_LAV_PEN_2_REG.csv'))
grado_istruzione_age.head()

In [None]:
grado_istruzione_age = grado_istruzione_age[['REF_AREA', 'GENDER', 'AGE_NOCLASS', 'EDU_ATTAIN', 'TIME_PERIOD', 'OBS_VALUE']]

In [None]:
grado_istruzione_age.head(10)

In [None]:
print(rap_lavoro_attivati['TITOLOSTUDIO'].head())
grado_istruzione_age['EDU_ATTAIN'].head()

The series `TITOLO_STUDIO` and `EDU_ATTAIN` don't match easily, but we can map the values of `EDU_ATTAIN` into `TITOLO_STUDIO`.  

In [None]:
print(series_to_set('TITOLOSTUDIO', rap_lavoro_attivati))
print(series_to_set('EDU_ATTAIN', grado_istruzione_age))

In [None]:
edu_map = {
    'IL': 'NESSUN TITOLO DI STUDIO',
    'NED': 'NESSUN TITOLO DI STUDIO',
    'LBNA': 'NESSUN TITOLO DI STUDIO',
    'PSE': 'LICENZA ELEMENTARE',
    'LSE': 'LICENZA MEDIA',
    'USE_IF': 'DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE',
    "TITOLO DI ISTRUZIONE SECONDARIA SUPERIORE (SCOLASTICA ED EXTRA-SCOLASTICA) CHE NON PERMETTE L'ACCESSO ALL'UNIVERSITÀ ()": 'DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE',
    "DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE  CHE PERMETTE L'ACCESSO ALL'UNIVERSITA": 'DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE',
    'BL': 'LAUREA TRIENNALE',
    'ML': 'LAUREA MAGISTRALE',
    'RDD': 'TITOLO DI DOTTORE DI RICERCA',
    'ML_RDD': 'TITOLO DI DOTTORE DI RICERCA',
    'DIPLOMA TERZIARIO EXTRA-UNIVERSITARIO': 'LAUREA TRIENNALE',
    'MASTER UNIVERSITARIO DI PRIMO LIVELLO': 'LAUREA MAGISTRALE',
    'LAUREA - Vecchio o nuovo ordinamento': 'LAUREA MAGISTRALE',
    'DIPLOMA DI SPECIALIZZAZIONE': 'DIPLOMA DI ISTRUZIONE SECONDARIA SUPERIORE',
    'DIPLOMA UNIVERSITARIO': 'LAUREA TRIENNALE',
    'TITOLO DI STUDIO POST-LAUREA': 'LAUREA MAGISTRALE'    
}


In [None]:
def mapping(series): 
    series = series.apply(lambda x: edu_map.get(x) if edu_map.get(x) != None else x)
    return series

rap_lavoro_attivati['TITOLOSTUDIO'] = mapping(rap_lavoro_attivati['TITOLOSTUDIO'])

grado_istruzione_age['EDU_ATTAIN'] = mapping(grado_istruzione_age['EDU_ATTAIN'])

grado_istruzione_age['EDU_ATTAIN']

In [None]:
rap_lavoro_attivati['TITOLOSTUDIO']