# Regressão Logística com NumPy
Atividade para Implementação da regressão logística do zero utilizando o iris dataset. Quanto ao dataset, a classe setosa foi marcada como sendo (1) e as outras duas classes como (0). Esta marcação foi feita no próprio dataset, que está junto no github.

In [1]:
import numpy as np
import math
import time
from sklearn import linear_model
from sklearn.linear_model import LogisticRegression
import sys

In [2]:
def calc_sigmoid(X, w):
    sigmod_exp = np.dot(X, w)
    sigmoid_value = 1 / (1 + np.exp(-sigmod_exp))
    return sigmoid_value

In [3]:
def step_gradient(w_current,X,Y,learningRate):
    sigmoid_value = calc_sigmoid(X, w_current)  #sigmoid
    for i in range(len(w_current)):
        partial_sub = Y - sigmoid_value
        partial = np.dot(X.T, partial_sub)
        w_current += learningRate * partial
    return w_current

In [4]:
def gradient_ascent_vectorized(starting_w, X,Y, learning_rate, num_iterations):
    w = starting_w
    i = 0
    while (i <= num_iterations):
        w = step_gradient(w, X, Y, learning_rate)
        i = i + 1
    return w

In [5]:
def usingScikitLearn(X, Y):
    logistic_model = LogisticRegression(fit_intercept=True, C = sys.maxsize)
    logistic_model.fit(X, Y)
    return logistic_model.coef_

In [6]:
def init_parameters(points):
    total_columns = points.shape[1] - 1
    total_rows = points.shape[0] - 1
    
    Y = points[:,total_columns][:,np.newaxis]
    Y_cra = Y[:,0]
    init_w = np.zeros(total_columns)
    X_matrix = points[:,0:-1]
    return X_matrix, Y_cra, init_w


In [7]:
all_data = np.genfromtxt("iris.data", delimiter=",")

all_data = np.c_[np.ones(len(all_data)),all_data]

X_matrix, Y_cra, init_w = init_parameters(all_data)

learning_rate = 0.0008

num_exec = 80000

coefs = gradient_ascent_vectorized(init_w, X_matrix, Y_cra, learning_rate, num_exec)
print 'usando o algoritmo implementado...'
print coefs


print 'usando skit...'
print usingScikitLearn(X_matrix, Y_cra)

usando o algoritmo implementado...
[ 0.84802678  1.38509463  4.60428632 -7.35788544 -3.59643623]
usando skit...
[[ 0.85285724  1.37776206  4.85347965 -7.78507439 -3.80214487]]


## COMPARANDO A SAÍDA COM A DO SCIKIT LEARN:

Como pode ser visto acima, a saída reportada pelo algoritmo implementado se aproxima da saída reportada pelo scikit learn. Para o algoritmo implementado, foi utilizado um learning rate de 0.0008 e um número de execuções de 80000.

In [8]:
def predict(vector, coefs): #Funcao predict recebendo um vetor e os coeficientes aprendidos
    return round(calc_sigmoid(vector, coefs))

In [9]:
print "Classificando um vetor que espera-se que seja Setosa (1)..."
print predict([1,5.1,3.5,1.4,0.2], coefs)

Classificando um vetor que espera-se que seja Setosa (1)...
1.0


## CRIANDO FUNÇÃO PREDICT:
Acima é mostrado a função predict que, usando a função sigmoid, retorna a probabilidade de que o vetor passado como parâmetro seja Setosa (1) ou Versiclour_Virginica (0). Apenas como teste, foi passado um vetor que deve ser classificado como Setosa (1).

## PEQUENO EXPERIMENTO:

A partir daqui, é executando um pequeno experimento com o objetivo de verificar a eficácia da regressão logística em classificar os dados corretamente. Aqui, é separado um conjunto de treino (130 entradas) e teste (20 entradas, onde 50% y=1 e 50% y = 0). O algoritmo implementado é então treinado com as 130 entradas e, posteriormente, testado com o conjunto de teste, onde utilizando os coeficientes encontrados, a função predict tenta fazer as previsões corretas.


In [10]:
def extractTestData(indx_vector, all_data):
    test_array = np.zeros([len(indx_vector),6])
    actual_index = 0
    for i in range(len(all_data)):
        if i in indx_vector:
            test_array[actual_index] = all_data[i]
            actual_index += 1
    return test_array

In [11]:
def extractTrainingData(indx_vector, all_data):
    return np.delete(all_data, indx_vector, 0)

In [12]:
test_indexes = [0,1,2,3,4,5,6,7,8,9,50,51,52,53,54,55,56,57,58,59] #Os primeiros 10 Setosa e primeiros 10 Versicolor
test_conj = extractTestData(test_indexes, all_data)
training_conj = extractTrainingData(test_indexes, all_data)

In [13]:
#TREINANDO NOVAMENTE COM O CONJUNTO DE TREINO

In [14]:
X_training, Y_training, init_w_training = init_parameters(training_conj)
new_coefs = gradient_ascent_vectorized(init_w_training, X_training, Y_training, 0.0008, 80000)

print 'Novos coeficientes encontrados com o conjunto de treino (130)...'
print new_coefs

Novos coeficientes encontrados com o conjunto de treino (130)...
[ 0.83121234  1.37056889  4.52259894 -7.25316184 -3.5455817 ]


In [15]:
X_test, Y_test, init_w_test = init_parameters(test_conj)
print 'Verificando se o modelo consegue classificar bem o conjunto de teste...'
for i in X_test:
    print predict(i, new_coefs)

Verificando se o modelo consegue classificar bem o conjunto de teste...
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0


## RESULTADOS DO EXPERIMENTO:
Como pode ser visto acima, os dez primeiros valores (que são os dez primeiros valores do conjunto de dados do iris, logo são classificadas como Setosa (1)) foram classificadas corretamente. Quanto aos dez últimos valores, que são os dez primeiros valores do conjunto de dados do iris classificados como "Versicolor" (0) também foram classificadas corretamente pelo algoritmo implementado. Com isso, a taxa de acerto foi de 100% para o experimento proposto.
