In [1]:
import pandas as pd
import numpy as np

# Caricamento dei DataSet
Verranno caricati i due dataset separatamente per poter gestire eventuali errori o modifiche nella procedura.
Successivamente verrà fatto il marge di entrambi, così da poter lavorare un insieme di dati unico, atto a creare il vettore delle feature per il modelli previsionali che verranno testati.

## Caricamento Dati Cerved

In [2]:
# Dichiariamo un dizionario per definire i giusti type delle feature direttamente in fase di importazione
# Nel Dizionario vengono omesse le colonne "FIDO_PAYLINE", "GG_PATTUITI" e "GG_RITARDO" in quanto
# presentano calori NAN che verranno gestiti in fase i pulizia dei dati

dtype_Cerved = {
    'COD_CLIENTE' : 'str'
    , 'NATURA_GIURIDICA' : 'str'
    , 'PV' : 'str'
    , 'CODICE_ISTAT' : 'str'
    , 'DECISIONE' : 'str'
    , 'VALUTAZIONE_TEMPI_PAG' : 'str'
    , 'FATTURATO' : 'float'
    , 'FATTURATO_MESE' : 'float'
    , 'CLASSE_RISCHIO' : 'int'
    , 'CLASSE_RISCHIO_DESCR' : 'str'
}

# Carichiamo il dataframe:

df_Cerved = pd.read_csv(
    filepath_or_buffer = 'Data/DatiCerved.csv'
    , sep = ','
    , decimal = ','
    , dtype = dtype_Cerved
    , index_col = 'COD_CLIENTE'
)

# Stampo le prime 5 righe del data set per controllo

df_Cerved.head()

Unnamed: 0_level_0,NATURA_GIURIDICA,PV,CODICE_ISTAT,FIDO_PAYLINE,DECISIONE,VALUTAZIONE_TEMPI_PAG,GG_PATTUITI,GG_RITARDO,FATTURATO,FATTURATO_MESE,CLASSE_RISCHIO,CLASSE_RISCHIO_DESCR
COD_CLIENTE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,S.r.l.,PR,2562/07,40200.0,Accordabile,Regolari,21.0,0.0,4310.3,702.83,4,Affidabile
2,S.n.c.,PR,561011/07,0.0,Non accordabile,Prevalentemente regolari,23.0,27.0,8035.31,971.39,2,Cautela
3,S.r.l.,PR,33125/07,0.0,Non accordabile,Regolari,23.0,35.0,79858.63,12962.18,2,Cautela
4,S.a.s.,PR,791/07,0.0,Non accordabile,,25.0,2329.0,1477.01,0.0,6,Non operativa
5,Coop.,PR,8891/07,2500.0,Accordabile,Regolari,-1.0,-1.0,613.62,0.0,4,Affidabile


In [3]:
# Stampiamo le info sul dataset per capire se è stato importato correttamente

df_Cerved.info()

<class 'pandas.core.frame.DataFrame'>
Index: 12728 entries, 1 to 12684
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   NATURA_GIURIDICA       8757 non-null   object 
 1   PV                     12677 non-null  object 
 2   CODICE_ISTAT           8542 non-null   object 
 3   FIDO_PAYLINE           12436 non-null  object 
 4   DECISIONE              12688 non-null  object 
 5   VALUTAZIONE_TEMPI_PAG  11201 non-null  object 
 6   GG_PATTUITI            12688 non-null  object 
 7   GG_RITARDO             12688 non-null  object 
 8   FATTURATO              12688 non-null  float64
 9   FATTURATO_MESE         12688 non-null  float64
 10  CLASSE_RISCHIO         12728 non-null  int32  
 11  CLASSE_RISCHIO_DESCR   12728 non-null  object 
dtypes: float64(2), int32(1), object(9)
memory usage: 1.2+ MB


I dati di Cerved sono stati caricati con 3 colonne errate nel Dtype come previsto, questo verrà gestito in fase di [pulizia dei dati](#Pulizia-dei-Dati).

## Caricamento Dati Azienda

In [4]:
# Dichiariamo un dizionario per definire i giusti type delle feature direttamente in fase di importazione

dtype_Azienda = {
    'CodiceCliente' : 'str'
    , 'AnnoDocumento' : 'str'
    , 'NumeroDocumento' : 'str'
    , 'Servizio' : 'str'
    , 'ScadenzaFattura' : 'object'
    , 'ImportoFattura' : 'float'
    , 'ModPagamento' : 'str'
    , 'DescrizionePagamento' : 'str'
    , 'DataIncasso' : 'object'
    , 'ImportoIncasso' : 'float'
    , 'Saldo' : 'float'
}

# Carichiamo il dataframe con i seguenti parametri:
# SEP = ',' - perché il csv usa questo tipo di separatore
# DECIMAL = ',' - Perché i decimali utilizzano questo tipo di separatore
# DTYPE = dtype_azienda - per definire i type delle colonne e gestire il type misto in fase di caricamento del csv

df_Azienda = pd.read_csv(
    filepath_or_buffer = 'Data/ElencoFatture.csv'
    , sep = ','
    , decimal = '.'
    , dtype = dtype_Azienda
    , index_col = 'CodiceCliente'
)

# Stampo le prime 5 righe del data set per controllo

df_Azienda.head()

Unnamed: 0_level_0,AnnoDocumento,NumeroDocumento,Servizio,ScadenzaFattura,ImportoFattura,ModPagamento,DescrizionePagamento,DataIncasso,ImportoIncasso,Saldo
CodiceCliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
8995,2021,300377,EE,2021-05-13 00:00:00.000,1482.55,G20,20 gg data emissione fattura,2021-05-13 00:00:00.000,1482.55,0.0
11639,2022,132551,Gas,2022-02-28 00:00:00.000,26656.5,G20,20 gg data emissione fattura,2022-02-28 00:00:00.000,26656.5,0.0
8985,2021,494178,EE,2021-08-23 00:00:00.000,543.28,G30,30 gg data emissione fattura,2021-08-23 00:00:00.000,543.28,0.0
1693,2021,502473,Gas,2021-08-31 00:00:00.000,964.09,G20,20 gg data emissione fattura,2021-08-31 00:00:00.000,964.09,0.0
1147,2021,529261,EE,2021-10-12 00:00:00.000,231.19,G20,20 gg data emissione fattura,2021-10-12 00:00:00.000,231.19,0.0


In [5]:
# Stampiamo le info sul dataset per capire se è stato importato correttamente
df_Azienda.info()

<class 'pandas.core.frame.DataFrame'>
Index: 203463 entries, 8995 to 10005
Data columns (total 10 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   AnnoDocumento         203463 non-null  object 
 1   NumeroDocumento       203463 non-null  object 
 2   Servizio              203463 non-null  object 
 3   ScadenzaFattura       203463 non-null  object 
 4   ImportoFattura        203463 non-null  float64
 5   ModPagamento          203463 non-null  object 
 6   DescrizionePagamento  203463 non-null  object 
 7   DataIncasso           193331 non-null  object 
 8   ImportoIncasso        193331 non-null  float64
 9   Saldo                 203463 non-null  float64
dtypes: float64(3), object(7)
memory usage: 17.1+ MB


Il dataset dell'azienda cliente è stato importato correttamente e si procede con l'unione dei dataset così per poter lavore su un solo insieme.

## Rimozione duplicati

Controlliamo ed eventualmente rimuoviamo clienti duplicati nel dataset di Cerved.

In [6]:
# Calcoliamo le righe doppie nel dataset di Cerved
ClientiDuplicati_Cerved = df_Cerved.duplicated().sum()

# Stampa variabile per controllo
ClientiDuplicati_Cerved

61

Controllando i dati di Cerved sono emersi 61 clienti duplicati, si decide di rimuoverli in quanto non necessari.

In [7]:
# Utilizziamo la funzione di Pandas chiamata drop_duplicates sul subset 'COD_CLIENTE' per rimuovere
# le righe doppie
df_Cerved = df_Cerved.drop_duplicates()

# Stampa shape per controllo
df_Cerved.shape

(12667, 12)

## Verifica presenza di valori NaN
Verifichiamo e gestiamo la presenza di valori Nan per ogni Feature presente nei due dataset.

In [8]:
# Tramite la funzione isna() identifichiamo i valori NaN del dataset di Cerved e li sommiamo per avere il totale
df_Cerved.isna().sum()

NATURA_GIURIDICA         3948
PV                         51
CODICE_ISTAT             4163
FIDO_PAYLINE              276
DECISIONE                  25
VALUTAZIONE_TEMPI_PAG    1508
GG_PATTUITI                25
GG_RITARDO                 25
FATTURATO                  25
FATTURATO_MESE             25
CLASSE_RISCHIO              0
CLASSE_RISCHIO_DESCR        0
dtype: int64

Il Dataset di Cerved presenta 10 colonne con valori NaN al loro interno, per gestire il tutto si valutano ogni colonna singolarmente.

In [9]:
# Tramite la funzione isna() identifichiamo i valori NaN del dataset di Azienda e li sommiamo per avere il totale
df_Azienda.isna().sum()

AnnoDocumento               0
NumeroDocumento             0
Servizio                    0
ScadenzaFattura             0
ImportoFattura              0
ModPagamento                0
DescrizionePagamento        0
DataIncasso             10132
ImportoIncasso          10132
Saldo                       0
dtype: int64

Il Dataset dell'Azienda presenta solo due colonne con valori NaN, per gestire il tutto si valutano le colonne singolarmente

### Cerved - Natura Giuridica
La colonna Natura Giuridica del file di Cerved presenta valori Nan, essendo essa di tipo string valutiamo prima la quantità e la tipologia dei valori univoci.

In [10]:
# Stampa dei valori univoci tramite la funzione unique() della feature NATURA_GIURIDICA
df_Cerved['NATURA_GIURIDICA'].unique()

array(['S.r.l.', 'S.n.c.', 'S.a.s.', 'Coop.', 'Indiv.', nan, 'S.r.l.u.s.',
       'Semplice', 'S.p.A.', 'Altro', 'S.p.a.u.s.', 'Ente', 'Ist.relig.',
       'Assoc.', 'Estera', 'Consortile', 'S.r.l.s.', 'Fondazione',
       'Az. spec.', 'Consorzio', 'Mutuo socc'], dtype=object)

Dalla tipologia di dati risultanti abbiamo deciso di sostituire i valori NaN con la parola "Sconosciuto", questo per tenere un raggruppamento logico della feature.

In [11]:
# Utilizziamo la funzione fillna() per modificare i valori Nan
df_Cerved['NATURA_GIURIDICA'].fillna(value='Sconosciuto', inplace=True)

# Stampiano i valori univoci per controllo
df_Cerved['NATURA_GIURIDICA'].unique()

array(['S.r.l.', 'S.n.c.', 'S.a.s.', 'Coop.', 'Indiv.', 'Sconosciuto',
       'S.r.l.u.s.', 'Semplice', 'S.p.A.', 'Altro', 'S.p.a.u.s.', 'Ente',
       'Ist.relig.', 'Assoc.', 'Estera', 'Consortile', 'S.r.l.s.',
       'Fondazione', 'Az. spec.', 'Consorzio', 'Mutuo socc'], dtype=object)

### Cerved - DECISIONE, GG PATTUITI, GG RITARDO, FATTURATO e FATTURATO MESE
Le colonne DECISIONE, GG_PATTUITI, GG_RITARDO, FATTURATO e FATTURATO_MESE presentano lo stesso numero di valori NaN, pertanto non controlliamo le singole colonne ma cerchiamo di capire quante fatture, per questi clienti, sono presenti nel file datao dall'Azienda.

In [12]:
# Definiamo una variabile per contare il totale delle fatture per ogni cliente con valore NaN
totFatture = 0

# Definiamo una lista di colonne da controllare
listCol = ['DECISIONE','GG_PATTUITI','GG_RITARDO','FATTURATO','FATTURATO_MESE']

# Stampiamo l'intestazione per il risultato
print('Colonna \tTotClienti \tTotFatture \t% Totale')

# Cicliamo la lista delle colonne da controllare
for col in listCol:
    
    # Cicliamo i codici clienti per contare le fatture
    for codCliente in df_Cerved[df_Cerved[col].isna()].index:
        res = df_Azienda[df_Azienda.index == codCliente]
    
        totFatture += len(res)
    
    # Contiamo il totale dei clienti con valori NaN sulla colonna controllata
    totClienti = df_Cerved[df_Cerved[col].isna()].index.shape[0]
    
    # Calcoliamo una percentuale delle fatture sul totale del dataset dell'azienda
    PercTotaleFatture = round((totFatture / df_Azienda.shape[0]) * 100 , 2)

    # Stampiamo il risultato della colonna
    print(col,'\t',totClienti,'\t\t',totFatture,'\t\t',PercTotaleFatture)
    
    # Azzeriamo il totale delle fatture
    totFatture = 0

Colonna 	TotClienti 	TotFatture 	% Totale
DECISIONE 	 25 		 104 		 0.05
GG_PATTUITI 	 25 		 104 		 0.05
GG_RITARDO 	 25 		 104 		 0.05
FATTURATO 	 25 		 104 		 0.05
FATTURATO_MESE 	 25 		 104 		 0.05


Riscontriamo un'ugualianza in tutte le colonne, pertanto ipotiziamo si tratti sempre degli stessi esempi del data set di Cerved.

Dato l'esiguo peso di questi clienti sul totale delle fatture, solo lo `0,05%`, decidiamo di togliere questi esempi dal dataframe di Cerved.

In [13]:
# Utilizzando la funziona dropna eliminiamo le righe in cui le colonne in oggetto risultano NaN
df_Cerved.dropna(subset=["DECISIONE", "GG_PATTUITI", "GG_RITARDO", "FATTURATO", "FATTURATO_MESE"], inplace=True)

# Controlliamo i valori NaN presenti per verifica
df_Cerved.isna().sum()

NATURA_GIURIDICA            0
PV                         51
CODICE_ISTAT             4157
FIDO_PAYLINE              251
DECISIONE                   0
VALUTAZIONE_TEMPI_PAG    1483
GG_PATTUITI                 0
GG_RITARDO                  0
FATTURATO                   0
FATTURATO_MESE              0
CLASSE_RISCHIO              0
CLASSE_RISCHIO_DESCR        0
dtype: int64

### Cerved - FIDO PAYLINE
La colonna FIDO PAYLINE definisce il fido bancario massimo associato al cliente, per questo in caso di valori mancanti si decide di valorizzarli con 0.0.

In [14]:
# Tramite la funzione fillna valorizziamo a 0 i valori Nan
df_Cerved['FIDO_PAYLINE'].fillna(value = 0.0, inplace = True)

# stampiamo il conteggio dei valori NaN per controllo
df_Cerved['FIDO_PAYLINE'].isna().sum()

0

### Cerved - VALUTAZIONE TEMPI PAG
La colonna VALUTAZIONE TEMPI PAG del file di Cerved presenta valori Nan, essendo essa di tipo string valutiamo prima la quantità e la tipologia dei valori univoci.

In [15]:
# Stampiano i valori univoci per controllare i valori presenti
df_Cerved['VALUTAZIONE_TEMPI_PAG'].unique()

array(['Regolari', 'Prevalentemente regolari', nan, 'Dilazionati',
       'Ritardi', 'Ritardi significativi'], dtype=object)

Si decide di valorizzare i campi NaN con la parola 'Sconosciuto' così da rispettare la tipologia del dato

In [16]:
# Utilizziamo la funzione fillna per modificare i valori Nan valorizzandoli a "Sconosciuto"
df_Cerved['VALUTAZIONE_TEMPI_PAG'] = df_Cerved['VALUTAZIONE_TEMPI_PAG'].fillna(value='Sconosciuto')

# Stampiano i valori univoci per controllo
df_Cerved['VALUTAZIONE_TEMPI_PAG'].unique()

array(['Regolari', 'Prevalentemente regolari', 'Sconosciuto',
       'Dilazionati', 'Ritardi', 'Ritardi significativi'], dtype=object)

### Cerved - PV
La colonna PV del file di Cerved presenta valori Nan, essendo essa di tipo string valutiamo prima la quantità e la tipologia dei valori univoci.

In [17]:
# Stampiano i valori univoci per controllare i valori presenti
df_Cerved['PV'].unique()

array(['PR', 'PC', 'CR', nan, 'AL', 'MI', 'LO', 'FI', 'PV', 'MN', 'TO',
       'BS', 'PA', 'GE', 'RM', 'RE', 'PD', 'VR', 'FC', 'BZ', 'PZ', 'BO',
       'RN', 'AN', 'RA', 'NO', 'VI', 'TV', 'BI', 'BG', 'MO', 'MT', 'FE',
       'PI', 'FR', 'ME', 'SA', 'BL', 'AQ', 'AR', 'BN', 'SP', 'KR', 'MB',
       'AP', 'VA', 'UD', 'PT', 'AT', 'FG', 'RC', 'TE', 'CN', 'RG', 'VT',
       'LU', 'BA', 'RO', 'VC', 'AO', 'MS', 'SI', 'SV', 'LC', 'CH', 'MC',
       'PG', 'TR', 'PN', 'CO', 'LT', 'VE', 'TA', 'FM', 'CT', 'TN', 'PU',
       'CE', 'AG', 'AV', 'TP', 'CL', 'GO', 'PO', 'SS', 'TS', 'CS'],
      dtype=object)

Si decide di valorizzare i campi NaN con la parola 'Sconosciuto' così da rispettare la tipologia del dato

In [18]:
# Utilizziamo la funzione fillna per modificare i valori Nan valorizzandoli a "Sconosciuto"
df_Cerved['PV'] = df_Cerved['PV'].fillna(value='Sconosciuto')

# Stampiano i valori univoci per controllo
df_Cerved['PV'].unique()

array(['PR', 'PC', 'CR', 'Sconosciuto', 'AL', 'MI', 'LO', 'FI', 'PV',
       'MN', 'TO', 'BS', 'PA', 'GE', 'RM', 'RE', 'PD', 'VR', 'FC', 'BZ',
       'PZ', 'BO', 'RN', 'AN', 'RA', 'NO', 'VI', 'TV', 'BI', 'BG', 'MO',
       'MT', 'FE', 'PI', 'FR', 'ME', 'SA', 'BL', 'AQ', 'AR', 'BN', 'SP',
       'KR', 'MB', 'AP', 'VA', 'UD', 'PT', 'AT', 'FG', 'RC', 'TE', 'CN',
       'RG', 'VT', 'LU', 'BA', 'RO', 'VC', 'AO', 'MS', 'SI', 'SV', 'LC',
       'CH', 'MC', 'PG', 'TR', 'PN', 'CO', 'LT', 'VE', 'TA', 'FM', 'CT',
       'TN', 'PU', 'CE', 'AG', 'AV', 'TP', 'CL', 'GO', 'PO', 'SS', 'TS',
       'CS'], dtype=object)

### Cerved - CODICE ISTAT
Il Codice Istat rappresenta la classificazione dell'attività commerciale di ogni esempio presente ne dtaset di Cerved.

Inizimao controllando quanti valori risultano NaN.

In [19]:
# STampiamo il numero i valori NaN nella colonna CODICE_ISTAT
df_Cerved['CODICE_ISTAT'].isna().sum()

4157

Data la tipologia di dato si decide di valorizzare i campi con la parola 'Sconosciuto' così da avere continuità nella tipologia della colonna.

In [20]:
# Tramite la funzione fillna valorizziamo i campi NaN con la parola 'Sconosciuto'
df_Cerved['CODICE_ISTAT'] = df_Cerved['CODICE_ISTAT'].fillna(value='Sconosciuto')

# Stampiamo il conteggio dei valori NaN per controllo
df_Cerved['CODICE_ISTAT'].isna().sum()

0

### Azienda - Data Incasso
La colonna Data Incasso riporta il giorno in cui avviene l'incasso della singola fattura presente nel Dataset. I valori NaN rappresentano fatture non incassate e quindi il campo non è valorizzato.

Per poter valorizzare il campo decidiamo di utilizzare la data odierna così da avere una situazione aggiornata per procedere con l'esplorazione dei dati.

In [21]:
# Tramite la funzione fillna() valoriziamo i campi con la data odierna
df_Azienda['DataIncasso'] = df_Azienda['DataIncasso'].fillna(pd.to_datetime('today'))

# Sommiamo i valori NaN per controllo
df_Azienda['DataIncasso'].isna().sum()

0

### Azienda - Importo Incasso
La colonna Importo Incasso riporta la cifra dell'incasso sulla singola fattura presente nel Dataset. In modo analogo alla colonna Data Incasso, gli esempi che riportano un valore NaN rappresentano fatture non incassate e quindi il campo non è valorizzato.

Per poter valorizzare il campo decidiamo di usare il valore 0 in quanto rappresenta il mancato incasso per la singola fattura, così da poter procedere con l'esplorazione dei dati.

In [22]:
# Tramite la funzione fillna() valorizziamo i campi a 0
df_Azienda['ImportoIncasso'] = df_Azienda['ImportoIncasso'].fillna(0.0)

# Sommiamo i valori NaN per controllo
df_Azienda['ImportoIncasso'].isna().sum()

0

## Inserimento Regione
Allo scopo di raggruppare ulteriormente gli esempi del Dataset di Cerved creiamo la colonna Regione. Questa riporterà, in base alla colonna PV (provincia), il nome della regione di appartenenza.

Stampiamo i valori univoci della colonna PV per avere tutti i campi necessari ad eseguire l'associazione dei valori.

In [23]:
# Tramite la funzione unique() stampiamo i valori univi della colonna PV
df_Cerved['PV'].unique()

array(['PR', 'PC', 'CR', 'Sconosciuto', 'AL', 'MI', 'LO', 'FI', 'PV',
       'MN', 'TO', 'BS', 'PA', 'GE', 'RM', 'RE', 'PD', 'VR', 'FC', 'BZ',
       'PZ', 'BO', 'RN', 'AN', 'RA', 'NO', 'VI', 'TV', 'BI', 'BG', 'MO',
       'MT', 'FE', 'PI', 'FR', 'ME', 'SA', 'BL', 'AQ', 'AR', 'BN', 'SP',
       'KR', 'MB', 'AP', 'VA', 'UD', 'PT', 'AT', 'FG', 'RC', 'TE', 'CN',
       'RG', 'VT', 'LU', 'BA', 'RO', 'VC', 'AO', 'MS', 'SI', 'SV', 'LC',
       'CH', 'MC', 'PG', 'TR', 'PN', 'CO', 'LT', 'VE', 'TA', 'FM', 'CT',
       'TN', 'PU', 'CE', 'AG', 'AV', 'TP', 'CL', 'GO', 'PO', 'SS', 'TS',
       'CS'], dtype=object)

In [25]:
# Tramite la libreria Numpy e la funzione where associamo per ogni regione la sua provincia di appartenenza
df_Cerved['Regione'] = np.where(
    df_Cerved['PV'].isin(['AQ','TE','CH']), 'Abruzzo'
    , np.where(df_Cerved['PV'].isin(['PZ','MT']), 'Basilicata'
    , np.where(df_Cerved['PV'].isin(['KR','RC','CS']), 'Calabria'
    , np.where(df_Cerved['PV'].isin(['SA','BN','CE','AV']), 'Campania'
    , np.where(df_Cerved['PV'].isin(['PR','PC','RE','FC','BO','RN','RA','MO','FE']), 'EmiliaRomagna'
    , np.where(df_Cerved['PV'].isin(['UD','PN','GO','TS']), 'FriuliVeneziaGiulia'
    , np.where(df_Cerved['PV'].isin(['RM','FR','VT','LT']), 'Lazio'
    , np.where(df_Cerved['PV'].isin(['GE','SP','SV']), 'Liguria'
    , np.where(df_Cerved['PV'].isin(['CR','MI','LO','PV','MN','BS','NO','BI','BG','VA' 'LC' 'CO' 'MB']), 'Lombardia'
    , np.where(df_Cerved['PV'].isin(['AN','AP','MC','FM','PU']), 'Marche'
    , np.where(df_Cerved['PV'].isin(['AL','TO','AT','CN','VC']), 'Piemonte'
    , np.where(df_Cerved['PV'].isin(['FG','BA','TA']), 'Puglia'
    , np.where(df_Cerved['PV'].isin(['SS']), 'Sardegna'
    , np.where(df_Cerved['PV'].isin(['PA','ME','RG','MS','CT','AG','TP','CL']), 'Sicilia'
    , np.where(df_Cerved['PV'].isin(['FI','PI','AR','PT','LU','SI','PO']), 'Toscana'
    , np.where(df_Cerved['PV'].isin(['BZ','TN']), 'TrentinoAltoAdige'
    , np.where(df_Cerved['PV'].isin(['PG','TR']), 'Umbria'
    , np.where(df_Cerved['PV'].isin(['AO']), 'ValleDAosta'
    , np.where(df_Cerved['PV'].isin(['PD','VR','VI','TV','BL','RO','VE']), 'Veneto'
    , 'Sconosciuto'
)))))))))))))))))))

# Stampiamo i valori univoci della nuova colonna Regione per controllo
df_Cerved['Regione'].unique()

array(['EmiliaRomagna', 'Lombardia', 'Sconosciuto', 'Piemonte', 'Toscana',
       'Sicilia', 'Liguria', 'Lazio', 'Veneto', 'TrentinoAltoAdige',
       'Basilicata', 'Marche', 'Campania', 'Abruzzo', 'Calabria',
       'FriuliVeneziaGiulia', 'Puglia', 'ValleDAosta', 'Umbria',
       'Sardegna'], dtype=object)

## Differenza giorni tra Scadenza Fattura e Data Incasso
Si è deciso di creare una nuova colonna con il conteggio dei giorni di differenza tra la Scadenza della fattura e la Data Incasso.

In [26]:
# Modifico i valori nelle colonne ScadenzaFattura e DataIncasso tenendo solo la data ed eliminando il time
df_Azienda[['ScadenzaFattura','DataIncasso']] = df_Azienda[['ScadenzaFattura','DataIncasso']].apply(pd.to_datetime)

# Creo una nuova colonna con i soli giorni di differenza tra la DataIncasso e Scadenza Fattura
df_Azienda['GiorniRitardoIncasso'] = (df_Azienda['DataIncasso'] - df_Azienda['ScadenzaFattura']).dt.days

# Stampo le prime 5 righe per controllo
df_Azienda.head()

Unnamed: 0_level_0,AnnoDocumento,NumeroDocumento,Servizio,ScadenzaFattura,ImportoFattura,ModPagamento,DescrizionePagamento,DataIncasso,ImportoIncasso,Saldo,GiorniRitardoIncasso
CodiceCliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
8995,2021,300377,EE,2021-05-13,1482.55,G20,20 gg data emissione fattura,2021-05-13,1482.55,0.0,0
11639,2022,132551,Gas,2022-02-28,26656.5,G20,20 gg data emissione fattura,2022-02-28,26656.5,0.0,0
8985,2021,494178,EE,2021-08-23,543.28,G30,30 gg data emissione fattura,2021-08-23,543.28,0.0,0
1693,2021,502473,Gas,2021-08-31,964.09,G20,20 gg data emissione fattura,2021-08-31,964.09,0.0,0
1147,2021,529261,EE,2021-10-12,231.19,G20,20 gg data emissione fattura,2021-10-12,231.19,0.0,0


## Mese Scadenza e Mese Incasso
Estraiamo il mese dalla data di Scadenza Fattura e dalla Data Incasso così da avere un valore da utilizzare in fase di eslorazione dei dati

In [27]:
# Tramite la funzione DatetimeIndex estriamo il nome del mese per la data di Scadenza Fattura
df_Azienda['ScadenzaFatturaMese'] = pd.DatetimeIndex(df_Azienda['ScadenzaFattura']).month

# Tramite la funzione DatetimeIndex estriamo il nome del mese per la Data Incasso
df_Azienda['DataIncassoMese'] = pd.DatetimeIndex(df_Azienda['DataIncasso']).month

# Stampiamo un subset del Dataset per controllo
df_Azienda[['ScadenzaFattura','ScadenzaFatturaMese','DataIncasso','DataIncassoMese']].head()

Unnamed: 0_level_0,ScadenzaFattura,ScadenzaFatturaMese,DataIncasso,DataIncassoMese
CodiceCliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
8995,2021-05-13,5,2021-05-13,5
11639,2022-02-28,2,2022-02-28,2
8985,2021-08-23,8,2021-08-23,8
1693,2021-08-31,8,2021-08-31,8
1147,2021-10-12,10,2021-10-12,10


## Settimana Scadenza e Settimana Incasso
Analogamente al mese estraiamo il numero della settimana della data di Scadenza Fattura e della Data Incasso.

In [28]:
# Tramite la funzione DatetimeIndex estriamo il numero della settimana per la data di Scadenza Fattura
df_Azienda['ScadenzaFatturaWeek'] = df_Azienda['ScadenzaFattura'].dt.isocalendar().week

# Tramite la funzione DatetimeIndex estriamo il numero della settimana per la Data Incasso
df_Azienda['DataIncassoWeek'] = df_Azienda['DataIncasso'].dt.isocalendar().week

# Stampiamo un subset del Dataset per controllo
df_Azienda[['ScadenzaFattura','ScadenzaFatturaWeek','DataIncasso','DataIncassoWeek']].head()

Unnamed: 0_level_0,ScadenzaFattura,ScadenzaFatturaWeek,DataIncasso,DataIncassoWeek
CodiceCliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
8995,2021-05-13,19,2021-05-13,19
11639,2022-02-28,9,2022-02-28,9
8985,2021-08-23,34,2021-08-23,34
1693,2021-08-31,35,2021-08-31,35
1147,2021-10-12,41,2021-10-12,41


## Chiave Fattura
Allo scopo di identificare ogni singola fattura in maniera univoca creiamo una colonna che sarà la chiave univoca della Fattura.
Questo tramite la concatenazione tra AnnoDocumento e NumeroDocumento separati dal '-'.

In [29]:
# Concateniamo le colonne AnnoDocumento e NumeroDocumento separati dal '-'
df_Azienda['ChiaveFattura'] = df_Azienda['AnnoDocumento'].astype('str') + '-' + df_Azienda['NumeroDocumento'].astype('str')

# Stampiamo le prime righe per controllo
df_Azienda[['AnnoDocumento','NumeroDocumento','ChiaveFattura']].head()

Unnamed: 0_level_0,AnnoDocumento,NumeroDocumento,ChiaveFattura
CodiceCliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
8995,2021,300377,2021-300377
11639,2022,132551,2022-132551
8985,2021,494178,2021-494178
1693,2021,502473,2021-502473
1147,2021,529261,2021-529261


## Cliente Moroso - CMOR
Vengono identificate le fatture morose, atte ad identificare anche il cliente moroso, questo attribuendo il valore '1' a tutti gli esempi con Saldo negativo e '0' al resto.

La creazione della nuova colonna avviene tramite la seguente funzione applicata al Saldo.

In [30]:
def CMOR(Saldo):
    if Saldo < 0:
        return 1
    else:
        return 0

Applichiamo la funzione per creare una nuova colonna con la classificazione CMOR del cliente.

In [31]:
# Creaiamo la nuova colonna tramite la funzione apply()
df_Azienda['CMOR'] = df_Azienda['Saldo'].apply(lambda x: CMOR(x))

# Stampiamo degli esempi per controllo
df_Azienda.head()

Unnamed: 0_level_0,AnnoDocumento,NumeroDocumento,Servizio,ScadenzaFattura,ImportoFattura,ModPagamento,DescrizionePagamento,DataIncasso,ImportoIncasso,Saldo,GiorniRitardoIncasso,ScadenzaFatturaMese,DataIncassoMese,ScadenzaFatturaWeek,DataIncassoWeek,ChiaveFattura,CMOR
CodiceCliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
8995,2021,300377,EE,2021-05-13,1482.55,G20,20 gg data emissione fattura,2021-05-13,1482.55,0.0,0,5,5,19,19,2021-300377,0
11639,2022,132551,Gas,2022-02-28,26656.5,G20,20 gg data emissione fattura,2022-02-28,26656.5,0.0,0,2,2,9,9,2022-132551,0
8985,2021,494178,EE,2021-08-23,543.28,G30,30 gg data emissione fattura,2021-08-23,543.28,0.0,0,8,8,34,34,2021-494178,0
1693,2021,502473,Gas,2021-08-31,964.09,G20,20 gg data emissione fattura,2021-08-31,964.09,0.0,0,8,8,35,35,2021-502473,0
1147,2021,529261,EE,2021-10-12,231.19,G20,20 gg data emissione fattura,2021-10-12,231.19,0.0,0,10,10,41,41,2021-529261,0


## CMOR Storico

In [32]:
df_Azienda['CMORStorico'] = np.where(df_Azienda['GiorniRitardoIncasso'] > 0,1,0)

df_Azienda.head()

Unnamed: 0_level_0,AnnoDocumento,NumeroDocumento,Servizio,ScadenzaFattura,ImportoFattura,ModPagamento,DescrizionePagamento,DataIncasso,ImportoIncasso,Saldo,GiorniRitardoIncasso,ScadenzaFatturaMese,DataIncassoMese,ScadenzaFatturaWeek,DataIncassoWeek,ChiaveFattura,CMOR,CMORStorico
CodiceCliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
8995,2021,300377,EE,2021-05-13,1482.55,G20,20 gg data emissione fattura,2021-05-13,1482.55,0.0,0,5,5,19,19,2021-300377,0,0
11639,2022,132551,Gas,2022-02-28,26656.5,G20,20 gg data emissione fattura,2022-02-28,26656.5,0.0,0,2,2,9,9,2022-132551,0,0
8985,2021,494178,EE,2021-08-23,543.28,G30,30 gg data emissione fattura,2021-08-23,543.28,0.0,0,8,8,34,34,2021-494178,0,0
1693,2021,502473,Gas,2021-08-31,964.09,G20,20 gg data emissione fattura,2021-08-31,964.09,0.0,0,8,8,35,35,2021-502473,0,0
1147,2021,529261,EE,2021-10-12,231.19,G20,20 gg data emissione fattura,2021-10-12,231.19,0.0,0,10,10,41,41,2021-529261,0,0


## Rolling CMOR

In [33]:
%%time

df_Azienda_Rolling = pd.DataFrame()

for cliente in df_Azienda.index.unique():
    df_cliente = df_Azienda[df_Azienda.index == cliente][['ScadenzaFattura','CMORStorico']].reset_index()
    
    df_cliente = df_cliente.groupby(by=['CodiceCliente','ScadenzaFattura']).sum().reset_index()
  
    df_cliente_rolling = df_cliente[['ScadenzaFattura','CMORStorico']]
    
    df_cliente_rolling = df_cliente_rolling.rolling('120D',on='ScadenzaFattura').sum()
    
    df_totale = pd.merge(df_cliente, df_cliente_rolling, how = 'left', left_on = 'ScadenzaFattura', right_on='ScadenzaFattura')
    
    df_totale = df_totale.drop(columns = ['CMORStorico_x'])
    
    df_Azienda_Rolling = pd.concat([df_Azienda_Rolling, df_totale],ignore_index=True)

df_Azienda_Rolling.shape

CPU times: total: 3min 3s
Wall time: 3min 4s


(149488, 3)

In [34]:
df_Azienda = pd.merge(
                left = df_Azienda
                , right = df_Azienda_Rolling
                , how = 'left'
                , left_on = ['CodiceCliente', 'ScadenzaFattura']
                , right_on = ['CodiceCliente', 'ScadenzaFattura']
            )

df_Azienda.shape

(203463, 20)

In [35]:
df_Azienda.rename(columns = {'CMORStorico_y':'CMORRolling'}, inplace=True)

df_Azienda

Unnamed: 0,CodiceCliente,AnnoDocumento,NumeroDocumento,Servizio,ScadenzaFattura,ImportoFattura,ModPagamento,DescrizionePagamento,DataIncasso,ImportoIncasso,Saldo,GiorniRitardoIncasso,ScadenzaFatturaMese,DataIncassoMese,ScadenzaFatturaWeek,DataIncassoWeek,ChiaveFattura,CMOR,CMORStorico,CMORRolling
0,8995,2021,300377,EE,2021-05-13,1482.55,G20,20 gg data emissione fattura,2021-05-13 00:00:00.000000,1482.55,0.00,0,5,5,19,19,2021-300377,0,0,0.0
1,11639,2022,132551,Gas,2022-02-28,26656.50,G20,20 gg data emissione fattura,2022-02-28 00:00:00.000000,26656.50,0.00,0,2,2,9,9,2022-132551,0,0,0.0
2,8985,2021,494178,EE,2021-08-23,543.28,G30,30 gg data emissione fattura,2021-08-23 00:00:00.000000,543.28,0.00,0,8,8,34,34,2021-494178,0,0,0.0
3,1693,2021,502473,Gas,2021-08-31,964.09,G20,20 gg data emissione fattura,2021-08-31 00:00:00.000000,964.09,0.00,0,8,8,35,35,2021-502473,0,0,0.0
4,1147,2021,529261,EE,2021-10-12,231.19,G20,20 gg data emissione fattura,2021-10-12 00:00:00.000000,231.19,0.00,0,10,10,41,41,2021-529261,0,0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
203458,10705,2021,398661,EE,2021-07-13,73.70,G20,20 gg data emissione fattura,2022-11-04 08:54:37.234267,0.00,-73.70,479,7,11,28,44,2021-398661,1,1,1.0
203459,3010,2022,150450,EE,2022-03-14,163.20,G20,20 gg data emissione fattura,2022-11-04 08:54:37.234267,0.00,-163.20,235,3,11,11,44,2022-150450,1,1,1.0
203460,5439,2022,145458,Gas,2022-03-10,10027.59,G30,30 gg data emissione fattura,2022-11-04 08:54:37.234267,0.00,-10027.59,239,3,11,10,44,2022-145458,1,1,4.0
203461,7309,2022,149801,EE,2022-03-14,2471.92,G20,20 gg data emissione fattura,2022-11-04 08:54:37.234267,0.00,-2471.92,235,3,11,11,44,2022-149801,1,1,4.0


# Unione Dataset
Si decide di unire i dataset così da avere un unico insieme da poter esplorare e lavorare successivamente.

Il merge dei dataset verrà effettuato utilizzado il codice cliente come chiave di unione.

In [36]:
# Tramite la funzione merge si procede a creare un dataset unico con tutti i dati
df = pd.merge(
        left = df_Azienda
        , right = df_Cerved
        , how = 'inner'
        , left_on = 'CodiceCliente'
        , right_index = True
    )

# Stampiamo la dimensione del nuovo dataset per controllo
df.shape

(203210, 33)

Il nuovo dataset deve corrispondere, per numero di esempi, con il dataset Azienda, quindi stampiamo le dimensioni di quest'ultimo per controllo

In [37]:
# Stampiamo la dimensione del dataset Azienda per controllo
df_Azienda.shape

(203463, 20)

Facendo il marge dei dataframe abbiamo un insieme di 203210 esempi e 22 feature, contro i 203463 esempi forniti dall'azienda cliente.

La differenza è dovuta alla pulizia del dataframe di Cerved svolto precedentemente.

Procediamo controllando i valori NaN del nuovo dataset per controllare che il merge sia svolto correttamente.

In [38]:
# Sommiamo i valori NaN di ogni colonna per controllo
df.isna().sum()

CodiceCliente            0
AnnoDocumento            0
NumeroDocumento          0
Servizio                 0
ScadenzaFattura          0
ImportoFattura           0
ModPagamento             0
DescrizionePagamento     0
DataIncasso              0
ImportoIncasso           0
Saldo                    0
GiorniRitardoIncasso     0
ScadenzaFatturaMese      0
DataIncassoMese          0
ScadenzaFatturaWeek      0
DataIncassoWeek          0
ChiaveFattura            0
CMOR                     0
CMORStorico              0
CMORRolling              0
NATURA_GIURIDICA         0
PV                       0
CODICE_ISTAT             0
FIDO_PAYLINE             0
DECISIONE                0
VALUTAZIONE_TEMPI_PAG    0
GG_PATTUITI              0
GG_RITARDO               0
FATTURATO                0
FATTURATO_MESE           0
CLASSE_RISCHIO           0
CLASSE_RISCHIO_DESCR     0
Regione                  0
dtype: int64

Rinominiamo alcune colonne per mantenere una nomenclatura standard

In [39]:
# Dichiariamo un dizionario per definire la nuova nomenclatura delle colonne da modificare
NuovoNomeColonne = {
    'NATURA_GIURIDICA' : 'NaturaGiuridica'
    , 'PV' : 'Pv'
    , 'CODICE_ISTAT' : 'CodiceIstat'
    , 'FIDO_PAYLINE' : 'FidoPayline'
    , 'DECISIONE' : 'Decisione'
    , 'VALUTAZIONE_TEMPI_PAG' : 'ValutazioneTempiPagamento'
    , 'GG_PATTUITI' : 'GiorniPattuiti'
    , 'GG_RITARDO' : 'GiorniRitardo'
    , 'FATTURATO' : 'Fatturato'
    , 'FATTURATO_MESE' : 'FatturatoMese'
    , 'CLASSE_RISCHIO' : 'ClasseRischio'
    , 'CLASSE_RISCHIO_DESCR' : 'ClasseRischioDescrizione'
}

# Rinominiamo le colonne con la funzione rename()
df = df.rename(columns = NuovoNomeColonne)

# Stampiamo le prime 5 righe di esempio per controllo
df.head()

Unnamed: 0,CodiceCliente,AnnoDocumento,NumeroDocumento,Servizio,ScadenzaFattura,ImportoFattura,ModPagamento,DescrizionePagamento,DataIncasso,ImportoIncasso,...,FidoPayline,Decisione,ValutazioneTempiPagamento,GiorniPattuiti,GiorniRitardo,Fatturato,FatturatoMese,ClasseRischio,ClasseRischioDescrizione,Regione
0,8995,2021,300377,EE,2021-05-13,1482.55,G20,20 gg data emissione fattura,2021-05-13,1482.55,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto
3145,8995,2021,512570,EE,2021-09-13,1424.5,G20,20 gg data emissione fattura,2021-09-13,1424.5,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto
42993,8995,2022,89430,EE,2022-02-11,1527.13,G20,20 gg data emissione fattura,2022-02-11,1527.13,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto
66510,8995,2021,622538,EE,2021-11-11,1501.59,G20,20 gg data emissione fattura,2021-11-11,1501.59,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto
87737,8995,2021,714559,EE,2021-12-13,1312.98,G20,20 gg data emissione fattura,2021-12-13,1312.98,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto


## Creazione CSV definitivo

In [40]:
df.to_csv(
    path_or_buf = 'Data/DatiDefinitivi.csv'
    , index= False
)