## **Parte II: Não-Linearidade nos Parâmetros**
*Onde o próprio modelo é intrinsecamente não-linear.*

---

### **🧠 Seção 5: O Conceito Fundamental e a Conexão com Redes Neurais**

#### **5.1. O que é Não-Linearidade nos Parâmetros?**

Até agora, lidamos com a **não-linearidade nas features**. Em todos os casos, o modelo final ainda era uma soma ponderada de termos, ou seja, era *linear em seus parâmetros* ($\beta_i$).

Por exemplo, no modelo polinomial, a equação é:
$$y = \beta_0 \cdot 1 + \beta_1 \cdot x + \beta_2 \cdot x^2$$
Apesar da relação entre $y$ e $x$ ser uma curva, a relação entre $y$ e os parâmetros $\beta_0, \beta_1, \beta_2$ é linear. É por isso que `LinearRegression` ainda funcionava.

Agora, entramos em modelos **não-lineares nos parâmetros**. Isso ocorre quando os parâmetros que queremos encontrar estão "dentro" de funções não-lineares, como exponenciais, logaritmos, ou sendo divididos uns pelos outros.

O exemplo clássico é o do decaimento exponencial:
$$y = A \cdot e^{-kx}$$
Nesta equação, é impossível reescrevê-la como uma soma ponderada dos parâmetros $A$ e $k$. Não podemos usar `LinearRegression` para encontrar seus valores, pois não há uma solução matemática direta (uma "fórmula pronta"). Para resolver isso, precisamos de **otimizadores iterativos** — algoritmos que testam diferentes valores para os parâmetros de forma inteligente até encontrar a combinação que minimiza o erro.

---
#### **5.2. A Conexão com Redes Neurais**

Esta discussão nos leva diretamente ao coração das **redes neurais**. Uma rede neural é o exemplo por excelência de um modelo massivamente não-linear em seus parâmetros.

Pense em um único neurônio:
1.  Primeiro, ele calcula uma soma ponderada: $z = (w_1 x_1 + w_2 x_2 + \dots) + b$
2.  Em seguida, ele aplica uma **função de ativação não-linear**: $a = \sigma(z)$

A saída final, $a$, depende dos parâmetros $w$ (pesos) e $b$ (bias), que estão "presos" dentro da função não-linear $\sigma$ (como a Sigmoid, ReLU, etc.). Quando empilhamos dezenas ou milhares desses neurônios, a não-linearidade do modelo como um todo se torna imensamente complexa.

O processo de **treinamento de uma rede neural** nada mais é do que um processo de otimização iterativa (geralmente, o *Gradient Descent* ou suas variantes, como o Adam) para encontrar os melhores valores para os milhões de parâmetros $w$ e $b$ que minimizam uma função de erro (como o Erro Quadrático Médio - MSE).

Conceitualmente, o que o `scipy.optimize.curve_fit` faz para encontrar 2 ou 3 parâmetros de um modelo teórico é análogo ao que o `model.fit()` do Keras faz para encontrar milhões de parâmetros em uma rede neural. Ambos são métodos para resolver problemas de regressão (ou classificação) que são **não-lineares em seus parâmetros**.