<a href="https://colab.research.google.com/github/AndreaBertoglio/MLDM/blob/master/Feature_Engineering.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Import

In [None]:
import pip
import sys
#if not 'sklearn' in sys.modules.keys():
#    pip.main(['install', 'sklearn'])
#if not 'kaggle' in sys.modules.keys():
#    pip.main(['install', 'kaggle'])
import random
import shelve

print("Random number with seed 2020")
# first call
random.seed(2020)

Random number with seed 2020


In [None]:
import numpy as np
import pandas as pd
import graphviz

from pylab import *
from numpy import *

from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import SimpleImputer
from sklearn.impute import IterativeImputer
from sklearn.preprocessing import StandardScaler

import matplotlib.pyplot as plt

### Funzioni di caricamento e salvataggio del training set

In [None]:
# Carica il training set dalla fonte specificata

# Parametri:
# filePath = stringa, locazione del file (default file GitHub di Serina)

# Return:
# pandas dataFrame, training set

def loadTrainingSet(filePath='https://raw.githubusercontent.com/serivan/mldmlab/master/Datasets/Kaggle2020/train.csv'):
  train = pd.read_csv(filePath)
  train["Quality"] = np.where(train["Quality"].str.contains("Good"), 1, 0)

  return train

In [None]:
# Esporta un training set rielaborato in un file csv

# Parametri:
# training_set = pandas DataFrame, training set da esportare
# faileName = stringa, nome del file

def exportTrainingSet(training_set, fileName):
  
    training.to_csv(fileName, index=False)

# Funzioni di Pre-processing

### Unità di misura

In [None]:
# Riscrive parte dei dati per uniformare le unità di misura.
# Nello specifico riscala la volatile acidity da milligrammi a grammi
# la densità da kg/m3 a g/cm3, infine se specificato riscala anche i chlorides (da mg a g)

# Parametri: 
# trainig_set = pandas DataFrame, set di dati da elaborare
# scale_chlorides = booleano, specifica se scalare i chlorides

def scaleMeasureUnit(training_set, scale_chlorides=False):
  
  row = training_set.shape[0]
  
  for i in range(row):
    if training_set['volatile.acidity'][i]>1:
      training_set['volatile.acidity'][i] = training_set['volatile.acidity'][i] / 1000
    
    if scale_chlorides:
      if training_set['chlorides'][i]>1:
        training_set['chlorides'][i] = training_set['chlorides'][i] / 1000
    
    if training_set['density'][i]>1.5:
      training_set['density'][i] = training_set['density'][i] /1000

### Missing Values

In [None]:
# Sostituisce i missing value in maniera semplicistica
# In particolare usa un Imputer specificato con strategia 'mean'

# Parametri:
# training_set = pandas DataFrame, set di dati da elaborare
# imputer = stringa, definisce il tipo di imputer da utilizzare ('simple' o 'iterative', default 'simple')

# Return:
# panda DataFrame, set di dati con missing values sostituiti

def handleMissingValue(training_set, imputer='simple'):
  train_missing = training_set

  if imputer=='simple':
    imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
  else:
    if imputer=='iterative':
      imputer = IterativeImputer(missing_values=np.nan, initial_strategy='mean')

  imputer = imputer.fit(train_missing)
  train_filled = imputer.transform(train_missing)


  train_filled = np.transpose(train_filled)
  train_filled.shape

  dati = {'Id': train_filled[0],
          'fixed.acidity': train_filled[1],
          'volatile.acidity': train_filled[2],
          'citric.acid': train_filled[3],
          'residual.sugar': train_filled[4],
          'chlorides': train_filled[5],
          'free.sulfur.dioxide': train_filled[6],
          'total.sulfur.dioxide': train_filled[7],
          'density': train_filled[8],
          'pH': train_filled[9],
          'sulphates': train_filled[10],
          'alcohol': train_filled[11],
          'Quality': train_filled[12]}

  training_set_filled = pd.DataFrame(data=dati)
  return training_set_filled

### Scalatura

In [None]:
# Riscrive i dati del set portandoli in una scala uniforme.
# In particolare sostituisce ogni dato d con (d-u)/v
# dove u è la media e v la deviazione standard dei valori della feature

# Parametri:
# trainig_set = pandas DataFrame, set di dati da elaborare
# columns = lista di stringhe, nomi delle colonne su cui effettuare la scalatura


def scaler(training_set, columns):
  row = training_set.shape[0]

  for feature in columns:
    _mean = pd.Series.mean(training_set[feature])
    _var = pd.Series.std(training_set[feature])
    for i in range (row):
      training_set[feature][i] = (training_set[feature][i]-_mean)/_var

### Rimozione Outliers per ogni feature

In [None]:
# Calcola e sostituisce gli outliers rilevati per ogni feature di ogni dato.
# In particolare attribuisce ad ogni dato uno score e sostituisce tutti i valori che hanno uno score superiore
# a una soglia specificata.
# Lo score è così calcolato: score = |dato-u|/v
# con u la media e v la deviazione standard della feature considerata

# Parametri:
# training_set = pandas DataFrame, set di dati da elaborare
# columns = lista di stringhe, nomi delle feature su cui analizzare i dati
# threeshold = numero, soglia di rilevazione degli outliers, considera outliers i dati con distanza dalla media superiore
#              a threeshold * deviazione standard (default 1)
# sub = numero, valore da sostituire agli outliers (default NaN)
# verbose = booleano, indica se stampare la descrizione dell'esecuzione (default False)

def featureOutlierSubstitution(training_set, columns, threeshold=1, sub=np.nan, verbose=False):
  row = training_set.shape[0]
  count = 0

  if verbose:
    print('start')

  for feature in columns:
    countF=0
    _mean = pd.Series.mean(training_set[feature])
    _var = pd.Series.std(training_set[feature])
    for i in range(row):
      score = abs(training_set[feature][i]-_mean)/_var
      if score>=threeshold:
        countF= countF+1
        count = count+1
        training_set[feature][i]=sub
        if verbose:
          print('elem ' + str(i) + ' in ' + feature + ' outlier with score: ' + str(score))
    if verbose:
      print(feature + ': ' + str(countF))
  if verbose:
    print('end, numero elementi: ' + str(count))

### Matrici delle distanze

In [None]:
# Calcola la distanza di ogni punto da tutti gli altri aventi una featurepari ad un determinato valore
# In particolare, colcola la distanza euclidea tra i punti che hanno in corrispondenza della feature targetClass
# il valore targetValue, per tutti gli altri valore si utilizza -1
# NOTA: IMPIEGA MOLTO TEMPO!!!

# Parametri:
# training = pandas DataFrame, set di dati da elaborare
# columns = lista di stringhe, nomi delle feature da considerare per la distanza
# targetClass = stringa, nome della feature su cui effettuare lo split per il calcolo delle distanze
# targetValue = numero, valore della feature che i dati devono rispettare per calcolarne la dostanza

# Return:
# matrice delle distanze

def quadraticDistance(training, columns, targetClass, targetValue):
  row = training.shape[0]
  distances = zeros((row,row))

  for i in range (row):
    if training[targetClass][i] == targetValue:
      for j in range (row):
        if i>j:
          distances[i][j] = distances[j][i]
        else:
          if (training[targetClass][j] == targetValue and j != i):  
            value = 0
            for feature in columns:
              value = value + (training[feature][i]-training[feature][j])**2
            #end for
            distances[i][j]=value
          else:
            distances[i][j]=-1
          #end if
        #end if
      #end for
    else:
      for j in range(row):
        distances[i][j]=-1
      #end for
    #end if
  #end for
  return distances

In [None]:
# Calcola le matrici delle distanze per Quality = good e Qualiti = bad

# Parametri:
# training_set = pandas DataFrame, set di dati da elaborare

# Return:
# una lista di due elementi, indice 0 = matrice per good, indice 1 = matrice per bad 

def computeDistanceMatrixes(training_set):
  col = ['fixed.acidity','volatile.acidity','citric.acid','residual.sugar','chlorides','free.sulfur.dioxide','total.sulfur.dioxide','density','pH','sulphates','alcohol']

  scaler(training_set,col)

  distance_matrix_bad = quadraticDistance(training=training_set, columns=col, targetClass='Quality', targetValue=0)
  distance_matrix_good = quadraticDistance(training=training_set, columns=col, targetClass='Quality', targetValue=1)

  return [distance_matrix_good, distance_matrix_bad]

In [None]:
# Salva le matrici in un file.
# In particolare salva una matrice sotto il nome di 'matrix_good' e l'altra con il nome 'matrix_bad'
# il file in cui viene salvato il tutto è .dat

# Parametri:
# matrix_good = matrice da salvare come 'matrix_good'
# matrix_bad = matrice da salvare come 'matrix_bad'
# fileName = stringa, nome del file che conterrà i dati (esclusa l'estensione .dat) (default 'matrix')

def saveMatrixes(matrix_good, matrix_bad, fileName='matrix'):
  name = fileName + '.dat'

  d= shelve.open(name)   #crea il file che conterrà il dizionario
  d['matrix_good']=matrix_good
  d['matrix_bad']=matrix_bad
  d.close()  #chiudo il file dizionario

In [None]:
# Carica due matrici delle distanze dal file specificato
# Il file deve essere .dat

# Parametri:
# fileName = stringa, nome del file (senza estensione)

# Return:
# una lista di 2 matrici; indice 0 = metrice Good, indice 1 = matrice Bad

def loadMatrixes(fileName):
  name = fileName + '.dat'

  d= shelve.open(name)  
  
  matrix_good= d['matrix_good'] 
  matrix_bad= d['matrix_bad']  
  
  d.close()

  return [matrix_good, matrix_bad]

### Processing degli outliers globali

In [None]:
# Calcola gli elementi outliers data la matrice delle distanze
# In particolare dalle distanze di ogni coppia di punti, computa la media delle distanze di ogni punto,
# e considera outlier tutti quelli che hanno una media superiore a una soglia specificata.
# Le distanze negative non vengono considerate nel calcolo della media 

# Perametri:
# distanceMatrix = matrice, contiene la distanza di ogni coppia di elementi
# threeshold = numero, soglia per l'identificazione degli outliers

# Return:
# lista degli outliers (indici interi)

def getOutliers(distanceMatrix, threeshold, verbose=False):
  
  row = distanceMatrix.shape[0]
  outliersList = []

  for i in range(0,row):
    val = 0
    count = 0

    for elem in distanceMatrix[i]:
      if elem >= 0 :
        count=count+1
        val=val+elem
    if (val==0 and count==0):
      val=-1
    else:
      val = val/count
    
    if val>=threeshold:
      if verbose:
        print('Elemento ' + str(i) + ' è un outlier, con valore: ' + str(val))
      outliersList.append(i)
  
  if verbose:
    print('Outliers trovati con soglia '+ str(threeshold)+ ': ' + str(len(outliersList)))
  
  return outliersList

In [None]:
# Elimina i valori ritenuti Outliers da un set di dati

# Parametri:
# outliersList = lista di interi, contiene gli indici degli outlier da eliminare
# training_set = pandas DataFrame, il set di dati da elaborare

# Return:
# pandas DataFrame, set di dati senza gli outliers

def dropOutliers(outliersList, training_set):
  result = training_set.drop(outliersList)
  return result

In [None]:
# Processa gli outlier globali eliminandoli, a partire dalle matrici delle distanze

# Paramentri:
# training_set = pandas DataFrame, set di dati da elaborare
# distance_matrix_good = matrice, contiene le distanze degli elementi con Quality=Good (oppure 1)
# distance_matrix_bad = matrice, contiene le distanze degli elementi con Quality=Bad (oppure 0)
# threeshold = soglia di definizione degli outliers
# verbose = booleano, indica se stampare la descrizione dell'esecuzione

def outliersProcessing(training_set, distance_matrix_good, distance_matrix_bad, threeshold, verbose=False):

  dropListBad = getOutliers(distanceMatrix=distance_matrix_bad, threeshold=threeshold, verbose=verbose)
  
  dropListGood = getOutliers(distanceMatrix=distance_matrix_good, threeshold=threeshold, verbose=verbose)
  
  training_set2 = dropOutliers(outliersList=dropListBad, training_set=training_set)
  training_set2 = dropOutliers(outliersList=dropListGood, training_set=training_set2)
  
  return training_set2

# Computazione
Contiene esempi di utilizzo delle funzioni riportate sopra

### Computazione outlier per ogni feature

In [None]:
# Carica i dati
train = loadTrainingSet(filePath='https://raw.githubusercontent.com/serivan/mldmlab/master/Datasets/Kaggle2020/train.csv')

# effettua una scalatura per uniformare le unità di misura
scaleMeasureUnit(training_set=train, scale_chlorides=False)
# Sostituisce i missing value con strategia simple
train = handleMissingValue(training_set=train, imputer='simple')

In [None]:
# scelta delle colonne su cui effettuare ricerca degli outliers
cols = ['fixed.acidity','volatile.acidity','citric.acid','residual.sugar','chlorides','free.sulfur.dioxide','total.sulfur.dioxide','density','pH','sulphates','alcohol']
# eliminazione outliers
featureOutlierSubstitution(training_set=train, columns=cols, threeshold=3, sub=np.nan, verbose=False)

In [None]:
# rielabora i dati mancanti (precedenti outliers) con strategia iterative
train = handleMissingValue(training_set=train, imputer='iterative')

train

### Costruisce e salva le matrici delle distanze

In [None]:
# Carica i dati, uniforma le unità di misura e riempie i missing value
train = loadTrainingSet(filePath='https://raw.githubusercontent.com/serivan/mldmlab/master/Datasets/Kaggle2020/train.csv')

scaleMeasureUnit(training_set=train, scale_chlorides=False)
train = handleMissingValue(training_set=train, imputer='simple')

In [None]:
cols = ['fixed.acidity','volatile.acidity','citric.acid','residual.sugar','chlorides','free.sulfur.dioxide','total.sulfur.dioxide','density','pH','sulphates','alcohol']

# effettua una scalatura dei dati, in modo che i range di valori siano gli stessi per tutte le feature
# e avere valori di distanze comparabili
scaler(training_set=train, columns=cols)

matrixes = computeDistanceMatrixes(training_set=train)

In [None]:
# Salva le due matrici delle distanze
matrixGood=matrixes[0] #matrice dei quality good
matrixBad=matrixes[1] #matrice dei qualitì bad

# salvataggio in locale, verranno cancellate alla chiusura del notebook
saveMatrixes(matrix_good=matrixGood, matrix_bad=matrixBad, fileName='distanceMatrix')

### Carica e utilizza la matrice delle distanze

In [None]:
# caricamento dei dati, uniformazione unità di misura e gestione missing values
train = loadTrainingSet(filePath='https://raw.githubusercontent.com/serivan/mldmlab/master/Datasets/Kaggle2020/train.csv')

scaleMeasureUnit(training_set=train, scale_chlorides=False)
train = handleMissingValue(training_set=train, imputer='simple')

In [None]:
cols = ['fixed.acidity','volatile.acidity','citric.acid','residual.sugar','chlorides','free.sulfur.dioxide','total.sulfur.dioxide','density','pH','sulphates','alcohol']

# effettua una scalatura dei dati, in modo che i range di valori siano gli stessi per tutte le feature
# e avere valori di distanze comparabili
scaler(training_set=train, columns=cols)

# carica le matrici delle distanze
matrixes = loadMatrixes(fileName='distanceMatrix')
distanceMatrixGood = matrixes[0]
distanceMatrixBad = matrixes[1]

In [None]:
# elimina gli outliers
train = outliersProcessing(training_set=train, distance_matrix_good=distanceMatrixGood, distance_matrix_bad=distanceMatrixBad, threeshold=70, verbose=False)

train