# Implementazione di un classificatore con Logistic Regression

### 0) Importo le librerie necessarie

In [3]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

### 1) Sigmoid o Logistic function
Per effettuare la classificazione serve una funzione con codominio [0,1]. Infatti la predizione si baserà sulla probabilità della stima di appartenere ad una o all'altra classe

In [4]:
def logistic(z):
    den = 1 + np.exp(-z)
    sigm = 1.0/den
    return sigm

### 2) Funzione di ipotesi
Per approssimare una probabilità, la funzione di costo sarà basta sulla funzione logisitca

In [5]:
def hyp(W,X):
    param = np.dot(W,X.T)
    return logistic(param)

### 3) Funzione di costo
Da massimizzare nello step di ottimizzazione. IN particolare il logaritmo della funzione di coston

In [6]:
def cost(W,X,Y):
    m = X.shape[0]
    h = hyp(W,X)
    log_h = np.log(h)
    log_one_h = np.log(1-h)
    l_cost = float((-1.0/m) * ((np.dot(log_h,Y)) + (np.dot(log_one_h,(1-Y)))))
    return l_cost

### 4) Carico e preparo i dati

In [9]:
# Carico il dataset
path = '../color_extr/data.csv'
data = pd.read_csv(path, usecols = [i for i in range(5)])

# Creo train e test set
X_train, X_test, Y_train, Y_test = train_test_split(data[['presenza_foglie','assenza_foglie','presenza_bachi_sfondo','assenza_bachi_sfondo']], data[['classificazione']], test_size=0.13)

m_tr, n_tr = X_train.shape
X_train = np.concatenate((np.ones((m_tr,1)), X_train), axis=1)
n_tr +=1

m_te, n_te = X_test.shape
X_test = np.concatenate((np.ones((m_te,1)), X_test), axis=1)
n_te += 1

W = np.array(np.zeros((1,n_te)))
#W = np.matrix(np.random.randn((n_te)))

Y_train = Y_train.to_numpy()
Y_test = Y_test.to_numpy()

# Normalizzo i dati
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.fit_transform(X_test)

#cost(W,X_train,Y_train)
X_train.shape
W

array([[0., 0., 0., 0., 0.]])

### 5) Fit dell'algoritmo con gradient ascent
Cerco il punto di massimo della funzione di costo per trovare i pesi ottimi

In [7]:
def gradient_ascent(X,W,Y,alpha,stop):
    m,n = X.shape
    cost_old = np.inf
    cost_new = cost(W,X,Y)
    print(cost_old - cost(W,X,Y))
    sum = 0
    iter = 0

    while(abs(cost_old-cost_new) > stop):
        for j in range(0,n):
            for i in range(0,m):
                sum += (Y[i][0] - hyp(W,X[i])) * X[i][j]
            W[0][j] = W[0][j] + (alpha/m) * sum
        cost_old = cost_new
        cost_new = cost(W,X,Y)
        print(cost_old - cost(W,X,Y))
        iter += 1

    return W, iter  

gradient_ascent(X_train,W,Y_train,0.04,0.000001)

inf
8.253715535866402e-05
8.228280649599795e-05
8.202969284842876e-05
8.17778062346397e-05
8.152713854198135e-05
8.12776817255556e-05
8.102942780766065e-05
8.07823688773468e-05
8.053649708913979e-05
8.029180466309627e-05
8.004828388358254e-05
7.980592709885825e-05
7.956472672060455e-05
7.932467522281383e-05
7.908576514173427e-05
7.88479890748428e-05
7.861133968045664e-05
7.837580967692825e-05
7.814139184225688e-05
7.790807901339458e-05
7.767586408580218e-05
7.744474001245005e-05
7.721469980379037e-05
7.698573652700769e-05
7.675784330521407e-05
7.653101331725476e-05
7.630523979688941e-05
7.608051603245902e-05
7.585683536628918e-05
7.563419119406556e-05
7.541257696444537e-05
7.519198617848832e-05
7.497241238922647e-05
7.475384920094252e-05
7.453629026896169e-05
7.431972929901332e-05
7.410416004667575e-05
7.388957631705717e-05
7.367597196419884e-05
7.346334089081141e-05
7.325167704730351e-05
7.304097443210089e-05
7.28312270904391e-05
7.262242911450223e-05
7.241457464243761e-05
7.220765785

### 6) Model Assestement

In [1]:
def prediction(W,X,Y):
    m = X.shape[0]
    Y_hat = hyp(X, W) > 0.5
    accuracy = 1.0/m * np.sum(Y == Y_hat)
    return accuracy, Y_hat

prediction(W,X_train,Y_train)[0],prediction(W,X_test,Y_test)[0]

NameError: name 'W' is not defined