Claro, vou organizar o código em funções, usar o algoritmo de Descida de Gradiente (Gradient Descent) para o treinamento e inicializar os parâmetros aleatoriamente. Neste exemplo, vamos usar um exemplo de treinamento com a tarefa de classificação binária (0 ou 1).

```python
import numpy as np

# Função de ativação sigmoid
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# Inicialização aleatória de pesos e bias
def initialize_parameters(input_size, hidden_size, output_size):
    hidden_weights = np.random.randn(input_size, hidden_size)
    hidden_bias = np.zeros(hidden_size)
    output_weights = np.random.randn(hidden_size, output_size)
    output_bias = np.zeros(output_size)
    return hidden_weights, hidden_bias, output_weights, output_bias

# Forward Propagation
def forward_propagation(X, hidden_weights, hidden_bias, output_weights, output_bias):
    hidden_input = np.dot(X, hidden_weights) + hidden_bias
    hidden_output = sigmoid(hidden_input)
    output_input = np.dot(hidden_output, output_weights) + output_bias
    predicted_output = sigmoid(output_input)
    return hidden_output, predicted_output

# Calcula a perda (erro) usando a função de perda de entropia cruzada
def compute_loss(y_true, y_pred):
    loss = - (y_true * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred))
    return np.mean(loss)

# Backpropagation e atualização dos parâmetros
def backpropagation(X, y_true, hidden_output, predicted_output, hidden_weights, output_weights, learning_rate):
    output_error = predicted_output - y_true
    output_delta = output_error * (predicted_output * (1 - predicted_output))
    hidden_error = np.dot(output_delta, output_weights.T)
    hidden_delta = hidden_error * (hidden_output * (1 - hidden_output))
    
    output_weights -= learning_rate * np.dot(hidden_output.T, output_delta)
    output_bias -= learning_rate * np.sum(output_delta, axis=0)
    hidden_weights -= learning_rate * np.dot(X.T, hidden_delta)
    hidden_bias -= learning_rate * np.sum(hidden_delta, axis=0)

# Treinamento da rede neural usando Gradient Descent
def train_neural_network(X, y, hidden_size, learning_rate, num_epochs):
    input_size = X.shape[1]
    output_size = y.shape[1]
    
    hidden_weights, hidden_bias, output_weights, output_bias = initialize_parameters(input_size, hidden_size, output_size)
    
    for epoch in range(num_epochs):
        hidden_output, predicted_output = forward_propagation(X, hidden_weights, hidden_bias, output_weights, output_bias)
        loss = compute_loss(y, predicted_output)
        backpropagation(X, y, hidden_output, predicted_output, hidden_weights, output_weights, learning_rate)
        
        if epoch % 100 == 0:
            print(f"Epoch {epoch}, Loss: {loss:.4f}")
    
    return hidden_weights, hidden_bias, output_weights, output_bias

# Dados de entrada (exemplo de treinamento)
X = np.array([[0.5, 0.2]])
y = np.array([[1]])

# Parâmetros do treinamento
hidden_size = 3
learning_rate = 0.1
num_epochs = 1000

# Treinamento da rede neural
trained_hidden_weights, trained_hidden_bias, trained_output_weights, trained_output_bias = train_neural_network(X, y, hidden_size, learning_rate, num_epochs)

# Avaliação da rede neural
hidden_output, predicted_output = forward_propagation(X, trained_hidden_weights, trained_hidden_bias, trained_output_weights, trained_output_bias)
print("Entrada:", X)
print("Saída prevista:", predicted_output)
```

Agora, vamos explicar as etapas:

1. **Função de Ativação Sigmoid:**
   A função sigmoid é utilizada como função de ativação para introduzir não-linearidade na rede.

2. **Inicialização Aleatória de Parâmetros:**
   A função `initialize_parameters()` inicializa os pesos e bias das camadas oculta e de saída aleatoriamente.

3. **Forward Propagation:**
   A função `forward_propagation()` realiza a propagação direta da entrada através da rede neural, calculando as saídas das camadas oculta e de saída.

4. **Cálculo da Perda:**
   A função `compute_loss()` calcula a perda (erro) usando a função de perda de entropia cruzada.

5. **Backpropagation e Atualização de Parâmetros:**
   A função `backpropagation()` calcula os gradientes para cada camada e atualiza os parâmetros usando o Gradient Descent.

6. **Treinamento da Rede Neural:**
   A função `train_neural_network()` executa o treinamento da rede neural por um número específico de épocas. Ela chama as funções de forward e backward propagation para cada época.

7. **Dados de Entrada e Parâmetros do Treinamento:**
   Os dados de entrada (um exemplo de treinamento) e os parâmetros do treinamento (tamanho da camada oculta, taxa de aprendizado e número de épocas) são definidos.

8. **Treinamento e Avaliação:**
   A rede neural é treinada e avaliada usando os dados de entrada. A saída prevista é impressa.

Lembre-se de que esse é um exemplo simples e didático. Em cenários reais, é necessário um conjunto de dados maior e um algoritmo de otimização mais avançado para obter melhores resultados.

## Dois

Claro! Vou criar um exemplo de código dividido em funções que usa uma rede neural com uma quantidade variável de camadas ocultas para resolver um problema de classificação multiclasse. Vamos usar a biblioteca NumPy para as operações matriciais.

```python
import numpy as np

# Função de ativação sigmoid
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# Inicialização aleatória de pesos e bias
def initialize_parameters(layer_sizes):
    parameters = {}
    num_layers = len(layer_sizes)
    
    for i in range(1, num_layers):
        parameters[f'W{i}'] = np.random.randn(layer_sizes[i], layer_sizes[i-1])
        parameters[f'b{i}'] = np.zeros((layer_sizes[i], 1))
        
    return parameters

# Forward Propagation
def forward_propagation(X, parameters):
    cache = {'A0': X}
    num_layers = len(parameters) // 2
    
    for i in range(1, num_layers):
        W = parameters[f'W{i}']
        b = parameters[f'b{i}']
        Z = np.dot(W, cache[f'A{i-1}']) + b
        A = sigmoid(Z)
        cache[f'Z{i}'] = Z
        cache[f'A{i}'] = A
    
    return cache[f'A{num_layers-1}'], cache

# Calcula a perda usando a função de perda de entropia cruzada
def compute_loss(Y, Y_pred):
    m = Y.shape[1]
    loss = - (1 / m) * np.sum(Y * np.log(Y_pred) + (1 - Y) * np.log(1 - Y_pred))
    return loss

# Backpropagation e atualização dos parâmetros
def backpropagation(X, Y, cache, parameters, learning_rate):
    grads = {}
    num_layers = len(parameters) // 2
    m = X.shape[1]
    
    dA = - (Y / cache[f'A{num_layers-1}']) + (1 - Y) / (1 - cache[f'A{num_layers-1}'])
    
    for i in range(num_layers, 0, -1):
        dZ = dA * (cache[f'A{i}'] * (1 - cache[f'A{i}']))
        dW = (1 / m) * np.dot(dZ, cache[f'A{i-1}'].T)
        db = (1 / m) * np.sum(dZ, axis=1, keepdims=True)
        dA = np.dot(parameters[f'W{i}'].T, dZ)
        
        grads[f'dW{i}'] = dW
        grads[f'db{i}'] = db
    
    for i in range(1, num_layers):
        parameters[f'W{i}'] -= learning_rate * grads[f'dW{i}']
        parameters[f'b{i}'] -= learning_rate * grads[f'db{i}']
    
    return parameters

# Treinamento da rede neural
def train_neural_network(X, Y, layer_sizes, learning_rate, num_epochs):
    parameters = initialize_parameters(layer_sizes)
    
    for epoch in range(num_epochs):
        Y_pred, cache = forward_propagation(X, parameters)
        loss = compute_loss(Y, Y_pred)
        parameters = backpropagation(X, Y, cache, parameters, learning_rate)
        
        if epoch % 100 == 0:
            print(f"Epoch {epoch}, Loss: {loss:.4f}")
    
    return parameters

# Dados de entrada (exemplo de treinamento)
X = np.array([[0.5, 0.2], [0.7, 0.3]])
Y = np.array([[1, 0], [0, 1]])

# Parâmetros do treinamento
layer_sizes = [2, 4, 3, 2]  # Camadas: entrada - 4 - 3 - saída (duas camadas ocultas)
learning_rate = 0.1
num_epochs = 1000

# Treinamento da rede neural
trained_parameters = train_neural_network(X, Y, layer_sizes, learning_rate, num_epochs)

# Avaliação da rede neural
Y_pred, _ = forward_propagation(X, trained_parameters)
print("Entrada:", X)
print("Saída prevista:", Y_pred)
```

Neste exemplo:

- A função `initialize_parameters()` inicializa os pesos e bias de todas as camadas, com base nas dimensões especificadas em `layer_sizes`.

- A função `forward_propagation()` realiza a propagação direta da entrada através de todas as camadas ocultas até a camada de saída.

- A função `compute_loss()` calcula a perda (erro) usando a função de perda de entropia cruzada.

- A função `backpropagation()` calcula os gradientes usando o algoritmo de retropropagação e atualiza os parâmetros usando o Gradient Descent.

- A função `train_neural_network()` treina a rede neural por um número específico de épocas, chamando as funções de propagação direta e retropropagação.

- Os dados de entrada `X` e os rótulos `Y` são definidos.

- Os parâmetros do treinamento, como as dimensões das camadas, a taxa de aprendizado e o número de épocas, são especificados.

- A rede neural é treinada e avaliada, e a saída prevista é impressa.

Lembre-se de que este é um exemplo simplificado para fins didáticos. Em problemas reais, é importante ajustar os hiperparâmetros, usar conjuntos de dados maiores e aplicar técnicas de validação cruzada para avaliar a performance da rede.

Claro! Vou criar um exemplo de código detalhado em funções que implementa um modelo de regressão linear usando o método dos mínimos quadrados. Vamos usar a biblioteca NumPy para as operações matriciais.

```python
import numpy as np

# Função para ajustar o modelo de regressão linear
def fit_linear_regression(X, y):
    X_b = np.c_[X, np.ones((X.shape[0], 1))]  # Adiciona uma coluna de 1's para representar o termo de bias
    theta = np.linalg.inv(X_b.T @ X_b) @ X_b.T @ y  # Fórmula dos mínimos quadrados
    return theta

# Função para fazer previsões usando o modelo de regressão linear
def predict_linear_regression(X, theta):
    X_b = np.c_[X, np.ones((X.shape[0], 1))]
    y_pred = X_b @ theta
    return y_pred

# Dados de entrada (exemplo de treinamento)
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([[2], [4], [5], [4], [5]])

# Ajustar o modelo de regressão linear
theta = fit_linear_regression(X, y)

# Fazer previsões usando o modelo
X_test = np.array([[6], [7]])
y_pred = predict_linear_regression(X_test, theta)

print("Coeficientes theta:", theta)
print("Previsões para X_test:", y_pred)
```

Neste exemplo:

- A função `fit_linear_regression()` ajusta um modelo de regressão linear aos dados de entrada `X` e rótulos `y`. Ela adiciona uma coluna de 1's em `X` para representar o termo de bias e calcula os coeficientes theta usando a fórmula dos mínimos quadrados.

- A função `predict_linear_regression()` faz previsões usando o modelo de regressão linear ajustado. Ela também adiciona uma coluna de 1's em `X` e multiplica pela matriz de coeficientes theta para obter as previsões.

- Os dados de entrada `X` e os rótulos `y` são definidos.

- Ajustamos o modelo de regressão linear usando os dados de treinamento.

- Fazemos previsões usando o modelo ajustado para os dados de teste `X_test`.

- Imprimimos os coeficientes theta do modelo ajustado e as previsões para `X_test`.

Lembre-se de que este é um exemplo básico para ilustrar o conceito de regressão linear. Em cenários reais, é importante avaliar a performance do modelo usando métricas adequadas, fazer uma validação cruzada e considerar técnicas de regularização para evitar overfitting.

Claro! Vou criar um exemplo de código em que usamos a regularização L2 (também conhecida como regularização de peso ao quadrado) em uma rede neural. Vamos usar funções separadas para cada etapa e explicar detalhadamente cada parte.

```python
import numpy as np

# Função de ativação sigmoid
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# Inicialização aleatória de pesos e bias
def initialize_parameters(layer_sizes):
    parameters = {}
    num_layers = len(layer_sizes)
    
    for i in range(1, num_layers):
        parameters[f'W{i}'] = np.random.randn(layer_sizes[i], layer_sizes[i-1])
        parameters[f'b{i}'] = np.zeros((layer_sizes[i], 1))
        
    return parameters

# Forward Propagation
def forward_propagation(X, parameters):
    cache = {'A0': X}
    num_layers = len(parameters) // 2
    
    for i in range(1, num_layers):
        W = parameters[f'W{i}']
        b = parameters[f'b{i}']
        Z = np.dot(W, cache[f'A{i-1}']) + b
        A = sigmoid(Z)
        cache[f'Z{i}'] = Z
        cache[f'A{i}'] = A
    
    return cache[f'A{num_layers-1}'], cache

# Calcula a perda usando a função de perda de entropia cruzada + L2 regularization
def compute_loss_with_regularization(Y, Y_pred, parameters, lambd):
    m = Y.shape[1]
    cross_entropy_loss = - (1 / m) * np.sum(Y * np.log(Y_pred) + (1 - Y) * np.log(1 - Y_pred))
    
    regularization_term = 0
    num_layers = len(parameters) // 2
    for i in range(1, num_layers):
        W = parameters[f'W{i}']
        regularization_term += np.sum(np.square(W))
    
    loss = cross_entropy_loss + (lambd / (2 * m)) * regularization_term
    return loss

# Backpropagation e atualização dos parâmetros com L2 regularization
def backpropagation(X, Y, cache, parameters, learning_rate, lambd):
    grads = {}
    num_layers = len(parameters) // 2
    m = X.shape[1]
    
    dA = - (Y / cache[f'A{num_layers-1}']) + (1 - Y) / (1 - cache[f'A{num_layers-1}'])
    
    for i in range(num_layers, 0, -1):
        dZ = dA * (cache[f'A{i}'] * (1 - cache[f'A{i}']))
        dW = (1 / m) * np.dot(dZ, cache[f'A{i-1}'].T) + (lambd / m) * parameters[f'W{i}']
        db = (1 / m) * np.sum(dZ, axis=1, keepdims=True)
        dA = np.dot(parameters[f'W{i}'].T, dZ)
        
        grads[f'dW{i}'] = dW
        grads[f'db{i}'] = db
    
    for i in range(1, num_layers):
        parameters[f'W{i}'] -= learning_rate * grads[f'dW{i}']
        parameters[f'b{i}'] -= learning_rate * grads[f'db{i}']
    
    return parameters

# Treinamento da rede neural com L2 regularization
def train_neural_network_with_regularization(X, Y, layer_sizes, learning_rate, lambd, num_epochs):
    parameters = initialize_parameters(layer_sizes)
    
    for epoch in range(num_epochs):
        Y_pred, cache = forward_propagation(X, parameters)
        loss = compute_loss_with_regularization(Y, Y_pred, parameters, lambd)
        parameters = backpropagation(X, Y, cache, parameters, learning_rate, lambd)
        
        if epoch % 100 == 0:
            print(f"Epoch {epoch}, Loss: {loss:.4f}")
    
    return parameters

# Dados de entrada (exemplo de treinamento)
X = np.array([[0.5, 0.2], [0.7, 0.3]])
Y = np.array([[1, 0], [0, 1]])

# Parâmetros do treinamento
layer_sizes = [2, 4, 3, 2]  # Camadas: entrada - 4 - 3 - saída (duas camadas ocultas)
learning_rate = 0.1
lambd = 0.01  # Fator de regularização L2
num_epochs = 1000

# Treinamento da rede neural com L2 regularization
trained_parameters = train_neural_network_with_regularization(X, Y, layer_sizes, learning_rate, lambd, num_epochs)

# Avaliação da rede neural
Y_pred, _ = forward_propagation(X, trained_parameters)
print("Entrada:", X)
print("Saída prevista:", Y_pred)
```

Aqui está uma explicação detalhada do código:

1. **Inicialização de Parâmetros:** A função `initialize_parameters()` inicializa os pesos e bias de todas as camadas da mesma forma que antes.

2. **Forward Propagation:** A função `forward_propagation()` realiza a propagação direta da entrada através de todas as camadas ocultas até a camada de saída, igualmente ao exemplo anterior.

3. **Cálculo da Perda com Regularização L2:** A função `compute_loss_with_regularization()` calcula a perda usando a função de perda de entropia cruzada, mas também adiciona a regularização L2 ao cálculo da perda.

4. **Backpropagation e Atualização com Regularização L2:** A função `backpropagation()` calcula os gradientes, mas agora também considera a regularização L2 ao calcular os gradientes dos pesos.

5. **Treinamento da Rede Neural com Regularização L2:** A função `train_neural_network_with_regularization()` executa o treinamento da rede neural, mas também inclui o fator de regularização L2.

6. **Parâmetro de Regularização L2:** O parâmetro `lambd` é o fator de regularização L2 que controla a intensidade da regularização.

O restante do código é semelhante ao exemplo anterior. Note que a regularização L2 ajuda a evitar overfitting penalizando os pesos maiores e incentivando-os a serem mais próximos de zero. Isso ajuda a tornar o modelo mais geral e a melhorar sua capacidade de generalização para novos dados.

Claro! Aqui está um exemplo de código que implementa uma rede neural com dropout, usando funções separadas para cada etapa e explicando detalhadamente cada parte.

```python
import numpy as np

# Função de ativação sigmoid
def sigmoid(x):
    return 1 / (1 + np.exp(-x))

# Inicialização aleatória de pesos e bias
def initialize_parameters(layer_sizes):
    parameters = {}
    num_layers = len(layer_sizes)
    
    for i in range(1, num_layers):
        parameters[f'W{i}'] = np.random.randn(layer_sizes[i], layer_sizes[i-1])
        parameters[f'b{i}'] = np.zeros((layer_sizes[i], 1))
        
    return parameters

# Implementação do dropout durante a forward propagation
def forward_propagation_with_dropout(X, parameters, keep_prob):
    cache = {'A0': X}
    num_layers = len(parameters) // 2
    
    for i in range(1, num_layers):
        W = parameters[f'W{i}']
        b = parameters[f'b{i}']
        Z = np.dot(W, cache[f'A{i-1}']) + b
        A = sigmoid(Z)
        
        # Aplicação do dropout
        if i < num_layers - 1:
            D = np.random.rand(A.shape[0], A.shape[1]) < keep_prob
            A = np.multiply(A, D) / keep_prob
            cache[f'D{i}'] = D
        
        cache[f'Z{i}'] = Z
        cache[f'A{i}'] = A
    
    return cache[f'A{num_layers-1}'], cache

# Função de custo
def compute_loss(Y, Y_pred):
    m = Y.shape[1]
    loss = - (1 / m) * np.sum(Y * np.log(Y_pred) + (1 - Y) * np.log(1 - Y_pred))
    return loss

# Backpropagation e atualização dos parâmetros
def backpropagation(X, Y, cache, parameters, learning_rate, keep_prob):
    grads = {}
    num_layers = len(parameters) // 2
    m = X.shape[1]
    
    dA = - (Y / cache[f'A{num_layers-1}']) + (1 - Y) / (1 - cache[f'A{num_layers-1}'])
    
    for i in range(num_layers, 0, -1):
        if i < num_layers:
            dA = np.multiply(dA, cache[f'D{i}']) / keep_prob
        
        dZ = dA * (cache[f'A{i}'] * (1 - cache[f'A{i}']))
        dW = (1 / m) * np.dot(dZ, cache[f'A{i-1}'].T)
        db = (1 / m) * np.sum(dZ, axis=1, keepdims=True)
        dA = np.dot(parameters[f'W{i}'].T, dZ)
        
        grads[f'dW{i}'] = dW
        grads[f'db{i}'] = db
    
    for i in range(1, num_layers):
        parameters[f'W{i}'] -= learning_rate * grads[f'dW{i}']
        parameters[f'b{i}'] -= learning_rate * grads[f'db{i}']
    
    return parameters

# Treinamento da rede neural com dropout
def train_neural_network_with_dropout(X, Y, layer_sizes, learning_rate, keep_prob, num_epochs):
    parameters = initialize_parameters(layer_sizes)
    
    for epoch in range(num_epochs):
        Y_pred, cache = forward_propagation_with_dropout(X, parameters, keep_prob)
        loss = compute_loss(Y, Y_pred)
        parameters = backpropagation(X, Y, cache, parameters, learning_rate, keep_prob)
        
        if epoch % 100 == 0:
            print(f"Epoch {epoch}, Loss: {loss:.4f}")
    
    return parameters

# Dados de entrada (exemplo de treinamento)
X = np.array([[0.5, 0.2], [0.7, 0.3]])
Y = np.array([[1, 0], [0, 1]])

# Parâmetros do treinamento
layer_sizes = [2, 4, 3, 2]  # Camadas: entrada - 4 - 3 - saída (duas camadas ocultas)
learning_rate = 0.1
keep_prob = 0.8  # Probabilidade de manter um neurônio ativo durante o dropout
num_epochs = 1000

# Treinamento da rede neural com dropout
trained_parameters = train_neural_network_with_dropout(X, Y, layer_sizes, learning_rate, keep_prob, num_epochs)

# Avaliação da rede neural
Y_pred, _ = forward_propagation_with_dropout(X, trained_parameters, keep_prob)
print("Entrada:", X)
print("Saída prevista:", Y_pred)
```

Neste exemplo:

- A função `forward_propagation_with_dropout()` realiza a propagação direta da entrada através de todas as camadas ocultas, aplicando o dropout apenas nas camadas ocultas. O dropout é aplicado aleatoriamente a neurônios durante a propagação direta.

- A função `backpropagation()` considera o dropout ao propagar os gradientes de volta pela rede. Os gradientes são multiplicados pelo valor de dropout e normalizados pela probabilidade de manter um neurônio ativo durante o dropout.

- O parâmetro `keep_prob` controla a probabilidade de manter um neurônio ativo durante o dropout. Um valor típico é 0.8, o que significa que cada neurônio tem 80% de probabilidade de ser mantido ativo durante o dropout.

O uso de dropout ajuda a prevenir o overfitting, desativando aleatoriamente neurônios durante o treinamento, o que torna a rede mais robusta e reduz a dependência de neurônios específicos. Isso resulta em uma melhor generalização para novos dados.