# Convoluções (Camada Conv2d)

A camada `Conv2d` realiza **convoluções bidimensionais**. Essa operação é fundamental em redes neurais convolucionais, especialmente para o processamento de **imagens**.

## Conceito Básico

Imagine que temos uma **imagem em tons de cinza**, que pode ser representada por uma **matriz de números**. Cada número vai de **0 a 255**, representando a intensidade do pixel (0 = preto, 255 = branco).

Por exemplo, considere uma imagem bem pequena, com **4 pixels de largura e 4 de altura**:

```
Imagem (entrada):
[[10, 11, 12, 13],
 [ 2,123, 34, 22],
 [54, 25, 78, 80],
 [90,  3, 66, 12]]
```

## Filtro ou Kernel

Agora, vamos usar um **filtro** (ou kernel), que é uma matriz menor usada para **"varrer"** a imagem. Suponha que o filtro seja:

```
Filtro (2x2):
[[1, 0],
 [1, 0]]
```

## Convolução

A operação de convolução consiste em:
1. **Sobrepor o filtro** a uma parte da imagem.
2. **Multiplicar** os valores dos pixels da imagem pelos valores correspondentes do filtro.
3. **Somar** os resultados.

### Exemplo Prático

Posicionando o filtro nos primeiros 2x2 pixels da imagem:

```
[[10, 11],
 [ 2,123]]
```

Aplicamos o filtro:

```
(10×1) + (11×0) + (2×1) + (123×0) = 10 + 0 + 2 + 0 = 12
```

EsSe valor (12) será a primeira célula da **imagem de saída (feature map)**.

Se movermos o filtro **duas colunas à direita** (com passo = 2), pegamos os próximos 2x2 valores:

```
[[12, 13],
 [34, 22]]
```

Aplicamos novamente:

```
(12×1) + (13×0) + (34×1) + (22×0) = 12 + 0 + 34 + 0 = 46
```

Assim, vamos formando a nova imagem de saída.

## Parâmetros Importantes

A camada `Conv2d` tem alguns parâmetros principais:

### 1. `in_channels`
Quantidade de **canais de entrada**:
- Imagem preto e branco: 1 canal.
- Imagem colorida (RGB): 3 canais.

### 2. `out_channels`
Quantidade de **filtros (kernels)** na camada. Cada filtro gera uma **imagem de saída** (feature map) diferente.

### 3. `kernel_size`
Tamanho do filtro. Pode ser um número único (ex: 3, significando 3x3) ou uma tupla (ex: (3,5), significando 3 linhas e 5 colunas).

### 4. `stride`
Número de posições que o filtro se move:
- `stride = 1`: move 1 pixel por vez (mais detalhado).
- `stride = 2`: move 2 pixels por vez (mais rápido, mas perde detalhes).

### 5. `padding`
Adiciona **bordas extras** ao redor da imagem:
- `padding = 0`: sem borda (alguns pixels da imagem são ignorados).
- `padding = 1`: adiciona uma borda de 1 pixel com valor zero.
  
Isso garante que o filtro possa percorrer **toda** a imagem, inclusive as bordas.

## Resultado da Convolução

O resultado da operação de convolução é chamado de **feature map**: uma versão "resumida" da imagem, onde cada valor indica a presença de padrões aprendidos pelo filtro (como bordas, texturas etc).

## Conclusão

A convolução é uma operação que:
- Analisa pequenos pedaços da imagem por vez.
- Usa filtros para destacar padrões visuais.
- Gera imagens de saída menores, mas com informações relevantes para a tarefa de reconhecimento.

----

# Pooling e Dropout em Redes Neurais Convolucionais

## Pooling

### O que é Pooling?

Pooling é uma operação usada em conjunto com camadas convolucionais para **reduzir a resolução dos dados**. Isso significa reduzir o tamanho das representações intermediárias da imagem, o que tem duas vantagens principais:

- Menor número de parâmetros e cálculos.
- Menor risco de **overfitting** (quando o modelo se adapta demais aos dados de treino).

A operação de pooling mais comum é a **Max Pooling**, mas também existem alternativas como a **Average Pooling**.

### Exemplo de Max Pooling

Vamos considerar uma matriz de entrada com 5 linhas e 3 colunas:

```
1  2  3
4  5  6
7  8  9
0  1  2
3  4  5
```

Agora aplicamos um **kernel (janela)** de tamanho 3x3 com **stride 2** (isto é, o kernel anda de 2 em 2 elementos).

**Primeira janela (canto superior esquerdo):**

```
1  2  3
4  5  6
7  8  9
```

O **valor máximo** dessa região é **9**.

**Segunda janela (anda 2 linhas para baixo):**

```
0  1  2
3  4  5
```

Como só temos 2 linhas restantes, o kernel 3x3 não cabe mais sem extrapolar os limites. Aqui entra o **padding**, que adiciona bordas com zeros para permitir o cálculo.

Se considerarmos apenas as janelas que cabem, o resultado do Max Pooling será um vetor com os valores máximos:

```
[9, 5]
```

> Em redes convolucionais, isso é chamado de **feature map reduzido**.

### Outros tipos de Pooling

- **Average Pooling**: Em vez de pegar o valor máximo, calcula-se a média dos valores na janela.
- **Adaptive Pooling**: Adapta o tamanho da saída de acordo com o que for especificado, independente do tamanho da entrada. Isso é útil quando trabalhamos com imagens de tamanhos diferentes.

---

## Dropout

### O que é Dropout?

Dropout é uma técnica usada durante o treinamento da rede para **evitar overfitting**. A ideia é simples: em cada passo do treinamento, **desativamos (zeramos) aleatoriamente uma parte dos neurônios** da rede.

Por exemplo, se aplicarmos um **Dropout com 50%**, metade dos neurônios de uma camada serão ignorados durante o treino.

### Exemplo simples

Imagine uma camada com os seguintes valores de ativação (saída dos neurônios):

```
[0.5, 0.8, 0.2, 0.9]
```

Se aplicarmos Dropout com 50%, uma possível saída será:

```
[0.5, 0.0, 0.2, 0.0]
```

Aqui, os neurônios nas posições 2 e 4 foram desativados.

A cada passo do treino, os neurônios desativados mudam aleatoriamente.

### Quando usar?

- **Durante o treinamento**: ajuda o modelo a generalizar melhor, pois evita que ele fique dependente de neurônios específicos.
- **Durante a inferência (teste/predição)**: o Dropout **não é aplicado**. Todos os neurônios são utilizados normalmente.


## Conclusão

- O **Pooling** ajuda a reduzir o tamanho dos dados, tornando o treinamento mais rápido e eficiente.
- O **Dropout** reduz o risco de overfitting ao desligar aleatoriamente partes da rede durante o treinamento.
- Ambos são componentes fundamentais de redes neurais convolucionais modernas, como CNNs para visão computacional.