# Algorítmos de Regressão

## Redes Neurais com Regressão

Redes Neurais nada mais são que técnicas computacionais desenvolvidas em torno de modelos matemáticos que remontam 
a estrutura neural presente em organismos inteligentes. É importante considerar que esses modelos adquirem conhecimento por experiência.

Para entender essas técnicas, é preciso se compreender o aspecto biológico. Sabe-se que o sistema nervoso é formado por um conjunto complexo de células, conhecidos como neurônios, estes têm um papel importante para o funcionamento, comportamento e raciocínio do ser humano. Eles são formados por dentritos (terminais de entrada), corpo central e axônios (Terminais de Saída).

Artificialmente falando, uma rede desta é composta por várias unidades de processamento, com funcionamento simplificado, conectadas por canais de comunicação com determinado peso associado. Cada unidade opera apenas sobre os dados recebidos pelas conexões, essas operações consistem na relação dos sinais apresentados na entrada e, cada um destes é multiplicado por um peso (Indicando a influência na saída), uma soma ponderada produz um nível de atividade que, se exceder um limite (threshold), a unidade produz uma resposta.

No geral os pesos das conexões são ajustados aos padrões, de modo que elas aprendam, ou sejam treinadas, por exemplos. A organização básica dá-se em camadas, com unidades conectadas à de camada superior. É importante frisar que o aprendizado ocorre quando a rede neural atinge uma solução generalizada para uma classe de problemas.

![img](http://conteudo.icmc.usp.br/pessoas/andre/research/neural/image/camadas_an.gif)

Dentre os tipos de aprendizado, o que se relaciona diretamente com o problema deste trabalho é o aprendizado não supervisionado, que pressupõe uma auto-organização. 

Há dois diferentes modos de executar a correção de pesos em um ciclo : Modo padrão (correção a cada apresentação de um exemplo do conjunto de treinamento) e modo batch, quando apenas uma correção é feita por ciclo, de modo que todos os exemplos do conjunto de treinamento são mostrados à rede ( calcula erro médio e faz correção dos pesos).

De maneira geral,

Dado um conjunto Dado um conjunto com N exemplos encontrar a função que minimize uma função de erro estabelecida, ou seja, o treinamento de uma rede neural consiste em decidir qual o mínimo de uma função de erro.

### neural_network.MLPRegressor

[documentação](http://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html)

O sckitlearn apresenta o MLPRegressor, que treina sem nenhuma função de ativação na camada de saída. Ele usa o erro quadrado como função de perda e tem como saída um conjunto de valores contínuos. Além disso, ele suporta regressão em que uma amostra tenha mais que um destino. Quanto algorítmo, se usado tem disponível o parâmetro alpha para evitar overfitting, penabilizando pesos de magnitude maior. 

Esse algoritmo é treinado de maneira iterativa, desde que em cada detalhe do tempo as derivadadas parciais da função do MLPRegressor são computadas e atualizam os parâmetros. Este modelo otimiza a perda quadrática usando LBFGS ou descendente de gradiente estocástico. Como o esperado, suporta diversos parâmetros, como:





* hidden_layer_sizes : tuple, length = n_layers - 2, padrão (100,) - Possível controlar o número de camadas em layers
* activation : {‘identity’, ‘logistic’, ‘tanh’, ‘relu’}, default ‘relu’ - Função de ativação para a camada oculta

      'identity', útil para implementar o gargalo linear, retorna f (x) = x
      'logistic', a função sigmoide logística, retorna f (x) = 1 / (1 + exp (-x)).
      'tanh', a função bronzeada hiperbólica, retorna f (x) = tanh (x).
      'relu', a função de unidade linear retificada, retorna f (x) = max (0, x)

* solver : {‘lbfgs’, ‘sgd’, ‘adam’}, default ‘adam’ -  Solucionador para otimização de peso.

      'lbfgs' é um otimizador da família dos métodos  quasi-Newton.
      'sgd' refere-se à descida de gradiente estocástica.
      'adam' refere-se a um otimizador baseado em gradiente estocástico proposto por Kingma, Diederik e Jimmy Ba
      
      Nota: O padrão 'adam' funciona muito bem em conjuntos de dados relativamente grandes (com milhares de amostras de treinamento ou mais) em termos de tempo de treinamento e pontuação de validação. Para conjuntos de dados pequenos, no entanto, 'lbfgs' podem convergir mais rapidamente e ter melhor desempenho.
      
* alpha : float, optional, default 0.0001 - Parâmetro de penalidade L2 (termo de regularização).
* batch_size : int, optional, default ‘auto’ - Tamanho de minibatches para otimizadores estocásticos (sgd ou adam).

      Quando definido como "auto", batch_size = min (200, n_samples)
      
* learning_rate : {‘constant’, ‘invscaling’, ‘adaptive’}, default ‘constant’ - Taxa de aprendizado para atualizações de peso.

      'constant' é taxa de aprendizado constante dada por 'learning_rate_init'.
      'invscaling' diminui gradualmente a taxa de aprendizado learning_rate_ em cada passo de tempo 't' usando um expoente de escala inversa de 'power_t'. effective_learning_rate = learning_rate_init / pow (t, poder_t)
      'adaptive' mantém taxa de aprendizado constante para 'learning_rate_init', desde que a perda de treinamento continue diminuindo.       
      
* learning_rate_init : double, optional, default 0.001 - Taxa inicial de aprendizado usada. Controla o tamanho da etapa na atualização dos pesos. Usado somente quando solver = 'sgd' ou 'adam'.

* power_t : double, optional, default 0.5 - Expoente para taxa de aprendizado de escala inversa. 

      Usado para atualizar a taxa efetiva de aprendizado quando o valor do aprendizado é definido como 'invscaling'. Usado somente quando solver = 'sgd'.

* max_iter : int, optional, default 200 - Número máximo de iterações.

      Solver itera até a convergência (determinada por 'tol') ou esse número de iterações. Para resolvedores estocásticos ('sgd', 'adam'), observe que isso determina o número de épocas (quantas vezes cada ponto de dados será usado), não o número de etapas de gradiente.
      
* shuffle : bool, optional, default True - Embaralhar amostras em cada iteração. Usado somente quando solver = 'sgd' ou 'adam'.

* random_state : int, RandomState instance or None, optional, default None

      Se inteito, random_state é a semente usada pelo gerador de números aleatórios; Se a instância RandomState, random_state é o gerador de números aleatórios; Se Nenhum, o gerador de números aleatórios é a instância RandomState usada por np.random .

* tol : float, optional, default 1e-4 - Tolerância para a otimização

      Quando a perda ou pontuação não está melhorando pelo menos durante duas iterações consecutivas, a menos que o learning_rate seja ajustado para 'adaptativo', a convergência é considerada atingida e o treinamento pára.
 
* verbose : bool, optional, default False - Deve imprimir mensagens de progresso no stdout.
* warm_start : bool, optional, default False 

      Quando definido como True, reutiliza a solução da chamada anterior para ajustar como inicialização, caso contrário, basta apagar a solução anterior.
      
* momentum : float, default 0.9 - Definir momento para atualização de descida de gradiente. Deve estar entre 0 e 1. Apenas usado quando solver = 'sgd'.

* nesterovs_momentum : boolean, default True - Para usar o momentum de Nesterov. Usado somente quando solver = 'sgd' e momentum> 0.

* early_stopping : bool, default False - Parada antecipada para finalizar o treinamento quando a pontuação de validação não estiver melhorando. 
 
      Se definido como verdadeiro, anula automaticamente 10% dos dados de treinamento como validação e encerra o treinamento quando a pontuação de validação não estiver melhorando pelo menos durante duas épocas consecutivas. Apenas efetivo quando solver = 'sgd' ou 'adam'
      
* validation_fraction : float, optional, default 0.1 - Proporção de dados de treinamento a serem definidos como um conjunto de validação para interrupção antecipada. 

      Deve estar entre 0 e 1. Apenas usado se early_stopping for True
      
* eta_1 : float, optional, default 0.9 - Taxa de decaimento exponencial para estimativas do primeiro momento vetorial em adam deve estar em [0, 1]. 

      Usado somente quando solver = 'adam'
beta_2 : float, opcional, padrão 0,999
A taxa de decaimento exponencial para estimativas do segundo momento vetorial em adam deve estar em [0, 1). Usado somente quando solver = 'adam'
epsilon : float, opcional, padrão 1e-8
Valor para estabilidade numérica em adam. Usado somente quando solver = 'adam'