# Regressão Logística do Zero

Importar Bibliotecas Numpy e LogisticRegression, para comparação com a versão implementada do zero

In [88]:
from sklearn.linear_model import LogisticRegression
import numpy as np
import pandas as pd

Define w_do_zero como variável global

In [89]:
global w_do_zero

Função que lê e organiza dos dados de entrada

In [90]:
def organize_data(file):
	data = pd.read_csv(file)
	data = np.c_[np.ones(len(data)),data];
	X = data[:,0:5].astype('long');
	Y = data[:,5][:,np.newaxis];
	Y[Y == 'Iris-setosa'] = 0
	Y[(Y == 'Iris-versicolor') | (Y == 'Iris-virginica')] = 1
	Y = Y.astype('long')
	return [X, Y]

Função para calcular a norma dos vetores (L2):

$$||\mathbf{w}||_2 = \sqrt{w^T*w}$$

In [91]:
def compute_norma(gradient):
    return np.sqrt(np.dot(gradient.T,gradient))

Funçao Sigmóide

$$
\sigma(Z)=\frac{1}{1+e^{-Z}}
$$

In [92]:
def sigmoid(z):
    return 1/(1+np.exp(-z))

Função para calcular o Custo

$$J({\theta})=\frac{1}{m}\sum_{i=1}^m [-y^{(i)}log(h_\theta(x^{(i)})) - (1-y^{(i)})log(1-h_\theta(x^{(i)}))]$$

In [93]:
def compute_cost_func(w,X,Y):
    m = np.size(w,0)
    hx = sigmoid(np.dot(X,w))
    return (np.dot(Y.T,np.log(hx)) + np.dot((1 - Y).T,np.log(1-hx)))*(-1/m)

Função para fazer uma atualização dos parâmetros no Gradiente Descendente:

$$w_M = w_M - \alpha * (\frac 1 m \sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})x_j^{(i)})$$

In [94]:
def step_gradient_vectorized(w_current,X,Y,learningRate):
    m = np.size(w_current,0)
    hx = sigmoid(np.dot(X,w_current))
    gradient = np.zeros((m,1))
    w = np.zeros((m,1))
    gradient = (np.dot(X.T,hx-Y) * (1/m))
    w = w_current - (learningRate * gradient)
    return [w,gradient]

Função para iterar sobre o gradiente descendente até convergência.

In [95]:
def gradient_descent_runner_vectorized(w, X,Y, learning_rate, epsilon):
	i = 0
	norma = float('inf')
	while (norma>=epsilon):
		i+= 1
		[w,gradient] = step_gradient_vectorized(w, X, Y, learning_rate)
		norma = compute_norma(gradient)
		#if i % 10000 == 0:
		if i % 50 == 0:
			print("Custo na iteração {0} é de {1}".format(i,compute_cost_func(w, X, Y)))
			print("epsilon na iteração {0} é de {1}".format(i,norma))
	print("Custo na iteração final {0} é de {1}".format(i,compute_cost_func(w, X, Y)))    
	print("epsilon na iteração final {0} é de {1}".format(i,norma))
	return w

Função que realiza a predição de acordo com os vetores de entrada

In [96]:
def predict(X):
	hx = sigmoid(np.dot(X,w_do_zero))
	hx[hx>= 0.5] = 1
	hx[hx< 0.5] = 0
	return hx

Função que retorna a acurácia (entre 0 e 1) de acordo com os vetores de entrada

In [97]:
def score(X,Y):
	hx = predict(X)
	Z = np.zeros((hx.shape[0],hx.shape[1]))
	Z[hx==Y] = 1	
	return np.sum(Z)/hx.shape[0]

Leitura e organização dos dados de entrada

In [98]:
[X, Y] = organize_data("iris\iris.data")

Inicialização dos coeficientes, taxa de aprendizagem e limiar de parada

In [99]:
[X, Y] = organize_data("iris\iris.data")
init_w = np.zeros((X.shape[1],1));
learning_rate = 0.25;
epsilon = 0.0005

Chamada do algoritmo de Regressão Múltipla do Zero e retorno dos coeficientes

In [100]:
w_do_zero = gradient_descent_runner_vectorized(init_w, X,Y, learning_rate, epsilon)
print("Os coeficientes obtidos na Regressão Múltipla do Zero são: \n {0}".format(w_do_zero))

Custo na iteração 50 é de [[ 0.00059305]]
epsilon na iteração 50 é de [[ 0.0034782]]
Custo na iteração 100 é de [[ 0.00048068]]
epsilon na iteração 100 é de [[ 0.00260152]]
Custo na iteração 150 é de [[ 0.00041414]]
epsilon na iteração 150 é de [[ 0.00205644]]
Custo na iteração 200 é de [[ 0.00037105]]
epsilon na iteração 200 é de [[ 0.00168343]]
Custo na iteração 250 é de [[ 0.00034145]]
epsilon na iteração 250 é de [[ 0.00141168]]
Custo na iteração 300 é de [[ 0.00032025]]
epsilon na iteração 300 é de [[ 0.00120487]]
Custo na iteração 350 é de [[ 0.0003046]]
epsilon na iteração 350 é de [[ 0.00104244]]
Custo na iteração 400 é de [[ 0.00029275]]
epsilon na iteração 400 é de [[ 0.00091185]]
Custo na iteração 450 é de [[ 0.0002836]]
epsilon na iteração 450 é de [[ 0.00080498]]
Custo na iteração 500 é de [[ 0.00027641]]
epsilon na iteração 500 é de [[ 0.00071635]]
Custo na iteração 550 é de [[ 0.00027067]]
epsilon na iteração 550 é de [[ 0.00064211]]
Custo na iteração 600 é de [[ 0.00026

Chamada do algoritmo de Regressão Logística do SKLEARN e retorno dos coeficientes (Sem regularização --> C=1e15)

In [101]:
clf = LogisticRegression(C=1e15)
clf.fit(X,Y.reshape(Y.shape[0]))
w_sklearn = clf.coef_.T
w_sklearn[0,0] = clf.intercept_
print("Os coeficientes obtidos na Regressão Múltipla do sklearn são: \n {0}".format(w_sklearn))

Os coeficientes obtidos na Regressão Múltipla do sklearn são: 
 [[-1.11021902]
 [-1.26810489]
 [-4.11815761]
 [ 7.48821009]
 [ 3.59709209]]


Função para calcular o MSE (Mean Squared Error) entre os coeficientes de ambos os métodos:

$MSE=\frac{1}{N}(wdozero - wsklearn)^T*(wdozero - wsklearn)$

In [102]:
def compute_mse_coefs(w_dozero, w_sklearn):
    res = w_dozero - w_sklearn
    totalError = np.dot(res.T,res)
    return totalError / float(len(w_dozero))
print("A diferença entre o os vetores que representam os coeficientes de ambas as abordagens é: \n {0}".format(compute_mse_coefs(w_do_zero,w_sklearn)))

A diferença entre o os vetores que representam os coeficientes de ambas as abordagens é: 
 [[ 0.14399884]]


A diferença entre os vetores de coeficientes é desprezível. Dessa forma, o código do zero é equivalente ao da biblioteca SKLEARN

predict() e score() do método implementado

In [103]:
print("[MODELO IMPLEMENTADO] As predições para o(s) vetor(es) de entrada são: \n {0}".format(predict(X).reshape(X.shape[0],)))
print("[MODELO IMPLEMENTADO] A acurácia da predição do(s) vetor(es) de entrada é: {0}".format(score(X,Y)))

[MODELO IMPLEMENTADO] As predições para o(s) vetor(es) de entrada são: 
 [ 0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.
  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  0.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.  1.
  1.  1.  1.  1.  1.]
[MODELO IMPLEMENTADO] A acurácia da predição do(s) vetor(es) de entrada é: 1.0


In [104]:
print("[SKLEARN] As predições para o(s) vetor(es) de entrada são: \n {0}".format(clf.predict(X)))
print("[SKLEARN] A acurácia da predição do(s) vetor(es) de entrada é: {0}".format(clf.score(X,Y)))

[SKLEARN] As predições para o(s) vetor(es) de entrada são: 
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1]
[SKLEARN] A acurácia da predição do(s) vetor(es) de entrada é: 1.0
