In [1]:
import numpy as np
import pandas as pd
import scipy.optimize as opt
from sigmoide import sigmoide
from custo_reglog import custo_reglog
from gd_reglog import gd_reglog
from predizer_aprovacao import predizer , acuracia

In [2]:
#leitura de dados
data = pd.read_csv('data/ex2data1.txt', header=None)
#insere o valor 1 para x[0]
data.insert(0, 'Ones', 1)
# converte de dataframes para arrays
cols = data.shape[1]
X = data.iloc[:,0:cols-1]
y = data.iloc[:,cols-1:cols]
# converte de arrays para matrizes
X = np.array(X.values)
y = np.array(y.values)
#determina valor inicial de theta
theta=np.array([0,0,0])

In [3]:
#teste valores função sigmoide
print(sigmoide(z=0)) #deverá retornar 0.5
print(sigmoide(z=10)) #deverá retornar algo próximo de 1
print(sigmoide(z=-2)) #deverá retornar algo próximo de 0

0.5
0.9999546021312976
0.11920292202211755


In [4]:
#calcula o custo da função para valores de theta iguais a 0
J=(custo_reglog(theta,X,y))
print(J)

0.6931471805599453


In [5]:
#opt.fmin_tnc é uma função que busca otimizar (minimizar, neste caso), valores de funções
#'func'=função a ser minimizada , 'fprime'=gradiente para minimizar função 'func'
# x0 = valor inicial para cálculo
result = opt.fmin_tnc(func=custo_reglog, x0=theta, fprime=gd_reglog, args=(X,y))
custo_reglog(result[0],X,y)

0.20349770158947425

In [6]:
#valores encontrados na aplicação do gradiente descendente
theta=np.matrix(result[0])
#valores a serem adotados por X nesta predição
predX=np.array([1.0,45.0,85.0])
#como se trata de Reg. Logística, o uso da função sigmoide garante que o valor encontrado estará entre 0 e 1 
predição=sigmoide(predX * theta.T)
print(predição)

[[0.77629063]]


In [8]:
#retorna a predição(y), de acordo com os valores de theta, para cada conjunto X de dados
predizer(theta, X)

In [10]:
#compara os resultados de função 'predizer' com os valores de y e retorna o total de acertos
acuracia(X, y, result)

89