O gradiente descendente estocástico é um método iterativo para otimizar uma função objetivo com propriedades de suavidade diferenciável, podendo ser considerado como uma aproximação estocástica da otimização gradiente descendente, uma vez que substitui o gradiente real que é calculado a partir de todo o conjunto de dados por uma estimativa calculada a partir de um subconjunto de dados selecionado aleatoriamente. Especialmente em problemas de otimização de alta dimensão, isso reduz a carga computacional, alcançando iterações mais rápidas para uma taxa de convergência mais baixa, e é um importante método de otimização no aprendizado de máquina.

Bottou, L.; Bousquet, O. The Tradeoffs of Large Scale Learning. Optimization for Machine Learning. Cambridge: MIT Press. pp. 351–368. ISBN 9780262016469, 2012.

In [None]:
#instalar biblioteca Orange Canvas
!pip install Orange3

In [None]:
#importar biblioteca Orange Canvas
import Orange

In [None]:
#importar dados do disco local
from google.colab import files  
files.upload()

In [None]:
#instanciar objeto de dados com base no caminho gerado com a importação do arquivo
dados = Orange.data.Table("/content/Simulacao-1.csv")

In [None]:
#imprimir os primeiros 5 registros
for d in dados[:5]:
  print(d)

In [None]:
#explorar os metadados
qtde_campos = len(dados.domain.attributes)
qtde_cont = sum(1 for a in dados.domain.attributes if a.is_continuous)
qtde_disc = sum(1 for a in dados.domain.attributes if a.is_discrete)
print("%d metadados: %d continuos, %d discretos" % (qtde_campos, qtde_cont, qtde_disc))
print("Nome dos metadados:", ", ".join(dados.domain.attributes[i].name for i in range(qtde_campos)),)

In [None]:
#explorar domínios
dados.domain.attributes

In [None]:
#explorar classe
dados.domain.class_var

In [None]:
#explorar dados
print("Campos:", ", ".join(c.name for c in dados.domain.attributes))
print("Registros:", len(dados))
print("Valor do registro 1 da coluna 1:", dados[0][0])
print("Valor do registro 2 da coluna 2:", dados[1][1])

In [None]:
#criar amostra
qtde100 = len(dados)
qtde70 = len(dados) * 70 / 100
qtde30 = len(dados) * 30 / 100
print("Qtde 100%:", qtde100)
print("Qtde  70%:", qtde70)
print("Qtde  30%:", qtde30)
amostra = Orange.data.Table(dados.domain, [d for d in dados if d.row_index < qtde70])
print("Registros:", len(dados))
print("Registros:", len(amostra))

In [None]:
#Técnica Stochastic Gradient Descent (SGD)
sgd = Orange.classification.SGDClassificationLearner(loss='hinge', penalty='l2', alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=5, tol=0.001, shuffle=True, epsilon=0.1, random_state=None, learning_rate='invscaling', eta0=0.01, power_t=0.25, warm_start=False, average=False, preprocessors=None)

In [None]:
#ligar técnica SGD aos dados
dados_sgd = sgd(dados)

In [None]:
#treinar e testar técnica SGD com os dados
avalia_sgd = Orange.evaluation.CrossValidation(dados, [sgd], k=5)

In [None]:
#avaliar os indicadores para o SGD
print("Acurácia:  %.3f" % Orange.evaluation.scoring.CA(avalia_sgd)[0])
print("Precisão:  %.3f" % Orange.evaluation.scoring.Precision(avalia_sgd)[0])
print("Revocação: %.3f" % Orange.evaluation.scoring.Recall(avalia_sgd)[0])
print("F1:        %.3f" % Orange.evaluation.scoring.F1(avalia_sgd)[0])
print("ROC:       %.3f" % Orange.evaluation.scoring.AUC(avalia_sgd)[0])

In [None]:
#comparar a técnica SGD com outras 2 técnicas
svm = Orange.classification.SVMLearner(C=1.0, kernel='rbf', degree=3, gamma='auto', coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, max_iter=-1, preprocessors=None)
mlp = Orange.classification.NNClassificationLearner(hidden_layer_sizes=(100,), activation='relu', solver='adam', alpha=0.0001, batch_size='auto', learning_rate='constant', learning_rate_init=0.001, power_t=0.5, max_iter=200, shuffle=True, random_state=None, tol=0.0001, verbose=False, warm_start=False, momentum=0.9, nesterovs_momentum=True, early_stopping=False, validation_fraction=0.1, beta_1=0.9, beta_2=0.999, epsilon=1e-08, preprocessors=None)
dados_svm = svm(dados)
dados_mlp = mlp(dados)
aprendizado = [sgd, svm, mlp]
avaliacao = Orange.evaluation.CrossValidation(dados, aprendizado, k=5)

In [None]:
#imprimir os indicadores para as 3 técnicas
print(" " * 10 + " | ".join("%-4s" % learner.name for learner in aprendizado))
print("Acurácia  %s" % " | ".join("%.2f" % s for s in Orange.evaluation.CA(avaliacao)))
print("Precisão  %s" % " | ".join("%.2f" % s for s in Orange.evaluation.Precision(avaliacao)))
print("Revocação %s" % " | ".join("%.2f" % s for s in Orange.evaluation.Recall(avaliacao)))
print("F1        %s" % " | ".join("%.2f" % s for s in Orange.evaluation.F1(avaliacao)))
print("ROC       %s" % " | ".join("%.2f" % s for s in Orange.evaluation.AUC(avaliacao)))