In [1]:
import pandas as pd
import numpy as np

from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder

from sklearn.model_selection import train_test_split

# Imposto un valore standard per randomizzare
rnd = 8

In [2]:
## Importo il dataframe lavorato
df = pd.read_csv(
    filepath_or_buffer='../Data/DatiDefinitivi.csv'
    , index_col='CodiceCliente'
)


## Controllo la corretta importazione del DataFrame
df.head()

Unnamed: 0_level_0,AnnoDocumento,NumeroDocumento,Servizio,ScadenzaFattura,ImportoFattura,ModPagamento,DescrizionePagamento,DataIncasso,ImportoIncasso,Saldo,...,FidoPayline,Decisione,ValutazioneTempiPagamento,GiorniPattuiti,GiorniRitardo,Fatturato,FatturatoMese,ClasseRischio,ClasseRischioDescrizione,Regione
CodiceCliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
8995,2021,300377,EE,2021-05-13,1482.55,G20,20 gg data emissione fattura,2021-05-13 00:00:00.000000,1482.55,0.0,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto
8995,2021,512570,EE,2021-09-13,1424.5,G20,20 gg data emissione fattura,2021-09-13 00:00:00.000000,1424.5,0.0,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto
8995,2022,89430,EE,2022-02-11,1527.13,G20,20 gg data emissione fattura,2022-02-11 00:00:00.000000,1527.13,0.0,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto
8995,2021,622538,EE,2021-11-11,1501.59,G20,20 gg data emissione fattura,2021-11-11 00:00:00.000000,1501.59,0.0,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto
8995,2021,714559,EE,2021-12-13,1312.98,G20,20 gg data emissione fattura,2021-12-13 00:00:00.000000,1312.98,0.0,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto


# Divisione Dataset
Il dataset è composto sia da fatture storiche che fatture nuove, per il modello si è deciso di usare i documenti con scadenza nel 2021 come train e test set mentre i restanti come validazione.

Questo comporta la divisione del dataset in due subset.

Il primo subset è antecedente o uguale alla data del 31-12-2021 mentre il secondo è posteriore alla data in oggetto.

In [3]:
# Definiamo una data di snapshot
SnapshotData = '2021-31-12'

In [4]:
# definiamo il subset storico con tutti gli esempi la cui data ScadenzaFattura è antecedente o uguale alla SnapShot
df_storico = df[(df['ScadenzaFattura'] <= SnapshotData)]

#Stampiamo le prime righe per controllo
df_storico.head()

Unnamed: 0_level_0,AnnoDocumento,NumeroDocumento,Servizio,ScadenzaFattura,ImportoFattura,ModPagamento,DescrizionePagamento,DataIncasso,ImportoIncasso,Saldo,...,FidoPayline,Decisione,ValutazioneTempiPagamento,GiorniPattuiti,GiorniRitardo,Fatturato,FatturatoMese,ClasseRischio,ClasseRischioDescrizione,Regione
CodiceCliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
8995,2021,300377,EE,2021-05-13,1482.55,G20,20 gg data emissione fattura,2021-05-13 00:00:00.000000,1482.55,0.0,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto
8995,2021,512570,EE,2021-09-13,1424.5,G20,20 gg data emissione fattura,2021-09-13 00:00:00.000000,1424.5,0.0,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto
8995,2021,622538,EE,2021-11-11,1501.59,G20,20 gg data emissione fattura,2021-11-11 00:00:00.000000,1501.59,0.0,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto
8995,2021,714559,EE,2021-12-13,1312.98,G20,20 gg data emissione fattura,2021-12-13 00:00:00.000000,1312.98,0.0,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto
8995,2021,559762,EE,2021-10-12,1483.06,G20,20 gg data emissione fattura,2021-10-12 00:00:00.000000,1483.06,0.0,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto


In [5]:
# definiamo il subset storico con tutti gli esempi la cui data ScadenzaFattura è anteriore al 01-03-2022
df_nuove = df[df['ScadenzaFattura'] > SnapshotData]

#Stampiamo le prime righe per controllo
df_nuove.head()

Unnamed: 0_level_0,AnnoDocumento,NumeroDocumento,Servizio,ScadenzaFattura,ImportoFattura,ModPagamento,DescrizionePagamento,DataIncasso,ImportoIncasso,Saldo,...,FidoPayline,Decisione,ValutazioneTempiPagamento,GiorniPattuiti,GiorniRitardo,Fatturato,FatturatoMese,ClasseRischio,ClasseRischioDescrizione,Regione
CodiceCliente,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
8995,2022,89430,EE,2022-02-11,1527.13,G20,20 gg data emissione fattura,2022-02-11 00:00:00.000000,1527.13,0.0,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto
8995,2021,771454,EE,2022-01-12,1476.3,G20,20 gg data emissione fattura,2022-01-12 00:00:00.000000,1476.3,0.0,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto
8995,2022,149325,EE,2022-03-14,2441.93,G20,20 gg data emissione fattura,2022-10-31 09:54:56.018911,0.0,-2441.93,...,3000.0,Accordabile,Regolari,23.0,0.0,17412.82,1476.3,4,Affidabile,Veneto
11639,2022,132551,Gas,2022-02-28,26656.5,G20,20 gg data emissione fattura,2022-02-28 00:00:00.000000,26656.5,0.0,...,5000.0,Da ridurre,Regolari,25.0,0.0,216724.83,40552.37,4,Affidabile,EmiliaRomagna
11639,2021,772946,EE,2022-01-12,23.43,G20,20 gg data emissione fattura,2022-01-12 00:00:00.000000,23.43,0.0,...,5000.0,Da ridurre,Regolari,25.0,0.0,216724.83,40552.37,4,Affidabile,EmiliaRomagna


# Identificazione del target
L'identificazione del target viene svolta tramite la classificazione delle singole fatture in base al loro saldo.

Questo si riscontra nella colonna CMORStorico, già presente nel dataset perchè creata in precedenza.

Procediamo con il controllo del bilanciamento della variabile target

In [6]:
# Definiamo il nome della colonna target
ColonnaTarget = 'CMORStorico'

In [7]:
# Stampo le percentuali di controllo del target
( df_storico[ColonnaTarget].value_counts() / df_storico.shape[0] ) * 100

0    82.057792
1    17.942208
Name: CMORStorico, dtype: float64

la colonna target risulta sibilanciata in quanto i valori 1 risultano molto minore rispetto i valori 0.

# Preparazione del vettore delle feature

## Scelta delle feature da utilizzare nel vettore

Dobbiamo scegliere le colonne, feature, da tenere per creare il vettore che verrà passato al modello per apprendere e predire il nostro target.

Svolgeremo questa operazione eliminando le conolle in eccesso, quello che poco descrivono l'esempio oppure quelle da cui il target dipende direttamente.

In [8]:
# Definiamo le colonne da eliminare
columns_drop = ['AnnoDocumento', 'NumeroDocumento', 'DescrizionePagamento'
                , 'ScadenzaFattura', 'DataIncasso', 'ImportoIncasso','Saldo'
                , 'ScadenzaFatturaMese','ClasseRischio', 'DataIncassoMese'
                , 'ScadenzaFatturaWeek', 'DataIncassoWeek', 'ChiaveFattura'
                , 'CMOR', 'NaturaGiuridica', 'Pv', 'CodiceIstat', 'Decisione'
                , 'ClasseRischio', 'ClasseRischioDescrizione', 'Regione','CMOR']

# Eliminiamo le colonne dal dataframe storico
df_storico = df_storico.drop(columns = columns_drop)

# Eliminiamo le colonne dal dataframe nuove
df_nuove = df_nuove.drop(columns = columns_drop)

In [9]:
# Stampo le colonne per un ulteriore controllo
df_storico.columns, df_nuove.columns

(Index(['Servizio', 'ImportoFattura', 'ModPagamento', 'GiorniRitardoIncasso',
        'CMORStorico', 'CMORRolling', 'FidoPayline',
        'ValutazioneTempiPagamento', 'GiorniPattuiti', 'GiorniRitardo',
        'Fatturato', 'FatturatoMese'],
       dtype='object'),
 Index(['Servizio', 'ImportoFattura', 'ModPagamento', 'GiorniRitardoIncasso',
        'CMORStorico', 'CMORRolling', 'FidoPayline',
        'ValutazioneTempiPagamento', 'GiorniPattuiti', 'GiorniRitardo',
        'Fatturato', 'FatturatoMese'],
       dtype='object'))

In [10]:
# Controllo la grandezza dei DataFrame
df_storico.shape, df_nuove.shape

((165041, 12), (38169, 12))

## Divisione tra Feature ( X ) e Target ( y )

Si procede dividendo le Feature dal target, quest'ultimo è rappresentato dalla colonna precedentemente identificata.

Le feature conterranno tutte le colonne tranne il target.

In [11]:
# La y è identificata nella feature CMOR
y = df_storico.pop(ColonnaTarget)

# La X è composta da tutte le feature tranne il CMOR
X = df_storico

# Stampiamo i dati per controllo
X.shape, y.shape

((165041, 11), (165041,))

## Scalatura

I modelli che verranno testati hanno bisongo di vettori numerici e normalizzati, quindi si procede con la scalatura delle feature dividendole, in una prima fase, tra valori numerici e valori testuali in quanto le scalature risultano diverse tra di loro.

Successivamente si riunirà il tutto per poter procedere.

In [12]:
# Estraiamo le feature numeriche
X_num = X.select_dtypes(include = np.number)

# Estraiamo le feature non numeriche
X_str = X.select_dtypes(exclude = np.number)

# Stampiamo le dimensioni per controllo
X_num.shape, X_str.shape

((165041, 8), (165041, 3))

In [13]:
# Dichiaro il metodo di scalatura delle feature numeriche
scalerSTD = StandardScaler()

# Scalo le feature numeriche
X_num_scaled = scalerSTD.fit_transform(X_num)

# Dichiaro il metodo di scalatura delle feature testuali
one = OneHotEncoder(sparse = False, drop = 'if_binary')

# Scalo le feature testuali
X_str_scaled = one.fit_transform(X_str)

# Concateno le feature scalate per ricreare i vettori
X = np.concatenate((X_num_scaled,X_str_scaled),axis=1)

# Stampo le dimensioni degli elementi per controllo
X_num_scaled.shape, X_str_scaled.shape, X.shape

((165041, 8), (165041, 19), (165041, 27))

## Divisione tra Tain Set e Test Set

Dopo aver scalato le feature bisogna dividere i dati in due tipologie, il Train Set, cioè i dati che useremo per addestrare il modello e il Test Set, cioè i dati che utilizzaremo per testare il modello durante la prima fase.

La divisione si fa sia sulle feature scelte per creare il vettore che sulla variabile target.

In [14]:
# Creo i set di Train e di test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=rnd, shuffle=True)

# Stampo le dimensioni dei set per controllo
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((115528, 27), (49513, 27), (115528,), (49513,))

## Esportazione in CSV dei dati

Esporto i dati in CSV per poter lavore al modello in una seconda fase.

In [15]:
# Esporto in un CSV i dati di X Train
np.savetxt('../Data/XTrain.csv', X_train, delimiter=';')

In [16]:
# Esporto in un CSV i dati di X Test
np.savetxt('../Data/XTest.csv', X_test, delimiter=';')

In [17]:
# Esporto in un CSV i dati di y Train
np.savetxt('../Data/yTrain.csv', y_train, delimiter=';')

In [18]:
# Esporto in un CSV i dati di y Test
np.savetxt('../Data/yTest.csv', y_test, delimiter=';')