A ideia do aprendizado de máquina é a de dado um input e output, descobrir qual (uma ou mais) a **função matemática** responsável por tornar o input no output.

Dado um input, realizamos a **feature extraction** (que o deep learning faz sozinho, porém requer mais dados) para então classificar e gerar um output.

Ou seja, é importantíssimo para os modelos de machine learning serem capazes de **generalizar**. Caso ele não consiga realizar essa generalização, ele apenas estará "decorando" os dados. Ele deverá fazer previsões em dados que ele nunca havia visto antes.

Durante o processo, o engine de otimização altera os valores iniciais dos parâmetros para representar a **função alvo**. Durante a fase de otimização os algoritmos buscam as variações e combinações entre os parâmetros. Essas funções se situam no **espaço de hipóteses** que contém as variações dos parâmetros em um algoritmo de ML, e conterá ao final, a função alvo que resolverá o problema.

O conjunto de dados também precisa ter um padrão e, caso ele não exista, o aprendizado de máquina não será útil.

---
**Componentes do processo de aprendizagem**:<br>
- Input       ~> X<br>
- Output      ~> y<br>
- Função alvo ~> f: x -> y<br>
- Dados       ~> (X1, y1), ..., (Xn, yn)<br>
- Hipótese    ~> g: x -> y

Obs: Como não conseguimos encontrar a função f (que representa a relação entre X e y) no mundo real, encontraremos a função g que é **aproximada de f**.
- O espaço de hipóteses é onde buscamos a melhor função alvo.

Espaço de hipótese:<br>
H = {h} , onde:<br>
- H = espaço de hipóteses<br>
- h = conjunto de hipóteses<br>
Queremos então que:<br>
- g∈H (g faça parte do espaço de hipóteses), ou seja:<br>
- **Espaço de hipóteses + Algoritmo = Modelo**

>No exemplo de redes neurais, elas representam o espaço de hipóteses, e o algoritmo, por exemplo, o feedforward (o backpropagation é muito bom para isso).

>No exemplo da pessoa poder ou não estar doente, os inputs são multiplicados por **pesos** 'w' e caso a somatória seja maior que o **treshold**, a pessoa será decretada doente, caso seja menor que o **treshold** ela será considera sadia. A comparação com o treshold em redes neurais é feito pela **função de ativação**.


Ou seja, o algoritmo de aprendizagem é dado por:<br>
`h(X) = sign(W^tX)`<br>
=> As diferentes combinações de peso e treshold formarão diferentes hipóteses. Cabe a nós encontrarmos a melhor hipótese (melhor modelo possível), ou melhor aproximação da função alvo.
<img src="https://media.geeksforgeeks.org/wp-content/uploads/20191014210129/pic82-e1571070331775.png">
Neste exemplo, onde os dados são **linearmente separáveis**, cada reta vermelha é uma hipótese. Devemos então, ver qual hipótese melhor separa os dados.

E quando acontece um erro de classificação?<br>
`sign(W^tX) != yn`<br>
=> Ajustaremos o processo de aprendizagem dado este erro, alterando os pesos durante as iterações.<br>
`w <- w + ynXn`

---
**Cost Function**: (ie. loss function) <br>
Descreve o quão bem a resposta no espaço de hipóteses se encaixa no conjunto de dados analisados.

A função pode ser dada por:<br>
`J(yi, h(Xi))`, onde: <br>
y => valores observados <br>
h(x) => valores previstos encontrados pelo modelo <br>
J => número que melhor representa a relação entre os valores observados e os preditos. (Diferença entre o valor esperado e o valor predito).

<img src="https://miro.medium.com/max/1400/1*tQTcGTLZqnI5rp3JYO_4NA.png">

Ou seja, a cada iteração, usamos a cost function para atualizar os pesos, para que h(X) chegue mais próximo de y.

Como saber se estamos encontrando a melhor solução?

--- 
**Gradient Descent**: <br>

<img src="https://miro.medium.com/max/772/1*wfEkrwouTeHv76SX5x7JqA.jpeg">

Repare que temos **mínimos locais** e **mínimo global**, também podemos ter locais "platô", que é quando o algoritmo fica "preso" em algum local.

Exemplo utilizando Python para encontrar os mínimos locais da função y = (x+6)^2, iniciando do parâmetro x = 2: <br>
```python
# iniciando o parâmetro em 2
x_current = 2
# Learning rate (tamanho do passo na busca)
rate = 0.01
# Parar o algoritmo quando a diferença entre 2 iterações for menor que 0.0001 ou passar de 5.000 iterações
precision = 0.0001
max_iters = 5000
# contador de passos anterior
previous_step_size = 1
# Contador de iterações
count_iters = 0
# Gradiente da função (que obtido pela derivada)
dataframe = lambda x: 2 * (x+6)

while previous_step_size > precision and iters < max_iters:
  # Armazena o valor atual de x em prev_x
  prev_x = x_current
  # Aplicando o gradient descent ao dataframe com o resultado do cálculo do gradiente da função
  x_current = x_current - rate * dataframe(prev_x)
  # Alterando x
  previous_step_size = abs(x_current - prev_x)

  print(f"Iteração: {iters}\n X = {x_current}")

print(f'O mínimo local acontece em {x_current}")
```

---

**Urderfitting** e **Overfitting** acontecem quando não conseguimos generalizar bem (resposta do modelo frente a dados novos) o modelo.

- Quando temos um underfit, temos um grande viés (bias)
- Quando temos um overfit, temos uma grande variância.

É muito comum acontecer o overfitting em redes neurais. Portanto, precisamos realizar algumas técnicas para diminuir isso, como a Poda (pruning em árvores de decisão), regularização etc.

No caso de underfitting, podemos ter dados insuficientes ou um algoritmo não ideal para o caso.

Um good fit se da em geral numa faixa de taxa de acerto de 80% a 98%, uma taxa de acerto de 100% pode representar um problema.

<img src="https://i.stack.imgur.com/aVxfY.png">