#<center> Machine Learning (ML)</center>

**Definição:**
Machine Learning é um campo da inteligência artificial (IA) que se concentra no desenvolvimento de algoritmos e modelos que permitem aos computadores aprenderem padrões a partir de dados, sem serem explicitamente programados.

**Principais Conceitos:**
- **Supervisionado:** Algoritmos aprendem a partir de um conjunto de dados rotulado, onde a entrada e saída desejada são conhecidas.
- **Não supervisionado:** Algoritmos tentam encontrar padrões em dados não rotulados, sem informações prévias sobre as saídas esperadas.
- **Reforço:** Algoritmos aprendem através da interação com um ambiente, recebendo feedback positivo ou negativo.

**Aplicações Comuns:**
- Classificação e Regressão
- Agrupamento
- Reconhecimento de Padrões
- Processamento de Linguagem Natural (NLP)



#<center> <b> Deep Learning (DL) </b> </center>

**Definição:**
Deep Learning é uma subárea do Machine Learning que utiliza redes neurais artificiais profundas para modelar e resolver problemas complexos.

**Principais Características:**
- **Redes Neurais Profundas:** Modelos com múltiplas camadas (profundas) que aprendem representações hierárquicas dos dados.
- **Aprendizado de Representações:** Capacidade de aprender automaticamente características e representações relevantes dos dados.

**Arquiteturas Notáveis:**
- Redes Neurais Convolucionais (CNNs) para visão computacional.
- Redes Neurais Recorrentes (RNNs) para processamento sequencial.
- Redes Neurais Generativas (GANs) para geração de conteúdo.

**Aplicações Comuns:**
- Reconhecimento de Imagens e Vídeos
- Tradução Automática
- Processamento de Voz
- Jogos

Ambos Machine Learning e Deep Learning têm transformado diversas indústrias, permitindo que sistemas automatizem tarefas complexas e façam previsões precisas com base em dados. O sucesso dessas abordagens depende da qualidade e quantidade dos dados disponíveis, bem como do design e treinamento eficaz dos modelos.


In [None]:
%pip uninstall keras

In [8]:
# Instalando as libs
%pip install keras
%pip install tensorflow

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 23.1.2 -> 23.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.Defaulting to user installation because normal site-packages is not writeable




[notice] A new release of pip is available: 23.1.2 -> 23.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [6]:
# Importando
from keras import models
from keras import layers
from keras import activations
from keras import regularizers
from keras import optimizers
from keras import losses
from keras import callbacks
from keras import preprocessing
from keras import initializers
from keras import metrics
from keras.preprocessing import image

# <center>Criando um modelo sequencial



![deep_learning_sequential](https://cdn-images-1.medium.com/max/932/1*eJ36Jpf-DE9q5nKk67xT0Q.jpeg)
</center>

# Modelo Sequencial

Um modelo sequencial é um tipo de modelo em aprendizado de máquina que processa dados em uma ordem específica, elemento por elemento. É especialmente adequado para lidar com dados que têm uma estrutura sequencial, como séries temporais, texto ou áudio.



In [9]:
model = models.Sequential()

isRgb = True
inputWidth = 64
inputheight = 64

AttributeError: module 'keras.src.backend' has no attribute 'floatx'

# Convolutional Neural Networks (CNNs)

**Definição:**
Convolutional Neural Networks (CNNs) são uma classe especializada de redes neurais projetadas para processar dados com estrutura de grade, como imagens.

**Principais Componentes:**
- **Convoluções:** Operações que aplicam filtros sobre a entrada para extrair características locais.
- **Camadas de Pooling:** Reduzem a dimensionalidade da representação, preservando características essenciais.
- **Camadas Totalmente Conectadas:** Neurônios conectados a todos os neurônios nas camadas adjacentes, usados para a classificação final.

**Características Importantes:**
- **Invariância a Translação:** CNNs são capazes de reconhecer padrões independentemente da sua posição na imagem.
- **Aprendizado de Hierarquia de Recursos:** Camadas convolucionais aprendem características simples nas primeiras camadas e características mais complexas em camadas mais profundas.

**Aplicações Comuns:**
- **Visão Computacional:** Reconhecimento de objetos, segmentação de imagens.
- **Processamento de Imagens Médicas:** Diagnóstico por imagem, detecção de doenças.
- **Reconhecimento de Padrões em Sequências:** Análise de séries temporais.

**Exemplo de Arquitetura Típica:**
```plaintext
Entrada -> Convolução -> Ativação -> Pooling -> Convolução -> Ativação -> Pooling -> Totalmente Conectada -> Saída
```


![convolutional_network](https://miro.medium.com/v2/resize:fit:1400/1*uAeANQIOQPqWZnnuH-VEyw.jpeg)

In [21]:
input_shape = (inputWidth, inputheight, 3 if isRgb else 1)

# Convolution
model.add(
  layers.Conv2D(
    32,
    (5, 5), # Perde 4 pixels de borda
    input_shape=input_shape,
    activation='relu')
)

# Pooling
model.add(
    layers.MaxPooling2D(
        pool_size=(2, 2)
      )
)

# Convolution
model.add(
  layers.Conv2D(
    12,
    (5, 5),
    input_shape=(30, 30, 3),
    activation='relu')
)

# Pooling
model.add(
    layers.MaxPooling2D(
        pool_size=(2, 2)
      )
)

# Convolution
model.add(
    layers.Conv2D(
        12,
        (5, 5),
        input_shape=(13, 13, 3),
        activation='relu'
    )
)

# Pooling
model.add(
    layers.MaxPooling2D(
        pool_size=(2, 2)
      )
)

# Final:
# Muitas imagens 5x5
# mais precisamente a multiplicacao das convulocoes e filtros

reduz a dimensao para

In [22]:
model.add(
    layers.Flatten()
)

# Regularizadores em Modelos de Aprendizado de Máquina

Os regularizadores são técnicas usadas para evitar o overfitting em modelos de aprendizado de máquina. Dois tipos comuns são L1 (Lasso) e L2 (Ridge).
<hr />

## L1 Regularização (Lasso)

A L1 regularização adiciona a soma absoluta dos valores dos pesos ao termo de perda durante o treinamento do modelo. Isso ajuda a promover a esparsidade nos pesos, forçando alguns deles a se tornarem exatamente zero.

Fórmula L1: <br />

$ R(W) = \lambda \sum_{i=1}^{n} |w_i| $
<hr />

## L2 Regularização (Ridge)

A L2 regularização adiciona a soma dos quadrados dos valores dos pesos ao termo de perda. Isso penaliza pesos grandes, desencorajando a complexidade excessiva do modelo.

Fórmula L2:<br />
$R(W) = \lambda \sum_{i=1}^{n} w_i^2 $

Onde:
- $ R(W) $ é a função de regularização.
- $ \lambda $ é o parâmetro de regularização.
- $ n $ é o número de pesos no modelo.

Em ambas as fórmulas, $ \lambda $ controla a força da regularização, com valores maiores resultando em penalidades mais fortes nos pesos.

Esses reguladores são frequentemente usados em conjunto com a função de perda original durante o treinamento para melhorar a generalização do modelo.


In [23]:
model.add(
    layers.Dense(
        64,
        kernel_regularizer = regularizers.L2(0.01), # Evitar que os pesos explodam
        # kernel_regularizers=regularizers.L2(1e-4)
        kernel_initializer = initializers.RandomNormal(stddev=1),
        bias_initializer = initializers.Zeros()
    )
)

# Camada de Dropout

A camada de Dropout é uma técnica de regularização usada em redes neurais para evitar o overfitting durante o treinamento do modelo. O Dropout funciona desativando aleatoriamente um percentual de neurônios durante cada passagem de treinamento.

## Funcionamento

Durante o treinamento, a camada de Dropout "desliga" (anula) alguns neurônios aleatórios, impedindo que eles contribuam para a propagação para frente e a retropropagação. Isso força o modelo a aprender representações mais robustas e reduz a dependência excessiva de neurônios específicos.

## Fórmula Conceitual

A fórmula conceitual do Dropout pode ser expressa da seguinte forma:

 * $ \text{Saída da Camada} = \text{Entrada da Camada} \times \text{Máscara de Dropout} $

Onde a "Máscara de Dropout" é uma matriz binária que zera aleatoriamente alguns elementos.

## Parâmetro p

O parâmetro \( p \) representa a fração de neurônios que serão desligados durante cada atualização. Por exemplo, se \( p = 0.5 \), metade dos neurônios será desligada.

## Benefícios

- **Regularização:** Ajuda a prevenir o overfitting, melhorando a generalização do modelo.
- **Redução de Dependência:** Força a rede a aprender representações mais robustas, distribuindo a aprendizagem entre diferentes neurônios.


![jooj](https://miro.medium.com/v2/resize:fit:518/0*EY8R7nS10y5kQzOx)

In [24]:
model.add(
    layers.Dropout(0.2)
)


# Função de Ativação

Uma função de ativação é um componente crucial em uma rede neural. Ela introduz não-linearidades na saída de um neurônio, permitindo que a rede aprenda padrões complexos e relações não lineares nos dados.

## Funcionamento

- **Linearidade:** Se não houvesse função de ativação (ou se fosse uma função linear), mesmo uma rede profunda seria equivalente a uma única camada, pois a composição de funções lineares é linear.
- **Introdução de Não-linearidade:** Funções de ativação introduzem não-linearidade, permitindo que a rede aprenda relações complexas e representações não lineares dos dados.

## Algumas Funções de Ativação em LaTeX

### Função Sigmóide
$ f(x) = \frac{1}{1 + e^{-x}} $

### Tangente Hiperbólica (tanh)
$ f(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}} $

### ReLU (Rectified Linear Unit)
$ f(x) = \max(0, x) $

### Leaky ReLU
$ f(x) = \begin{cases} x, & \text{se } x > 0 \\ \alpha \cdot x, & \text{se } x \leq 0 \end{cases} $

### Softmax
$ f(x)_i = \frac{e^{x_i}}{\sum_{j} e^{x_j}} $


![Conteudo](https://1394217531-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-LvBP1svpACTB1R1x_U4%2F-LvNWUoWieQqaGmU_gl9%2F-LvO3qs2RImYjpBE8vln%2Factivation-functions3.jpg?alt=media&token=f96a3007-5888-43c3-a256-2dafadd5df7c)

In [25]:
model.add(
    layers.Activation(
        activations.relu
    )
)

# Adicionando mais camadas


In [27]:
model.add(
    layers.Dense(
        256,
        kernel_regularizer = regularizers.L2(0.01),
        kernel_initializer = initializers.RandomNormal(stddev=1),
        bias_initializer = initializers.Zeros()
    )
)
model.add(layers.Activation(activations.softmax))

In [28]:
model.add(
    layers.Dense(
        128,
        kernel_regularizer = regularizers.L2(0.01),
        kernel_initializer = initializers.RandomNormal(stddev=1),
        bias_initializer = initializers.Zeros()
    )
)
model.add(layers.Activation(activations.elu))

In [29]:
model.add(
    layers.Dense(
        64,
        kernel_regularizer = regularizers.L1(0.01),
        kernel_initializer = initializers.RandomNormal(stddev=1),
        bias_initializer = initializers.Zeros()
    )
)
model.add(layers.Activation(activations.sigmoid))

In [30]:
model.add(
    layers.Dense(
        32,
        kernel_regularizer = regularizers.L1(0.01),
        kernel_initializer = initializers.RandomNormal(stddev=1),
        bias_initializer = initializers.Zeros()
    )
)
model.add(layers.Activation(activations.tanh))

A última camada, possui o tamanho da quantidade de classes que você esta tentando classificar

In [31]:
# Last layer
model.add(
    layers.Dense(
        2,
        kernel_regularizer = regularizers.L2(0.01),
        kernel_initializer = initializers.RandomNormal(stddev=1),
        bias_initializer = initializers.Zeros()
    )
)
model.add(layers.Activation(activations.softmax))

# Otimizador em Redes Neurais

Um otimizador é um componente vital em treinamento de redes neurais, responsável por ajustar os pesos do modelo com o objetivo de minimizar a função de perda durante o treinamento.

## Funcionamento

- **Minimização da Função de Perda:** O objetivo do otimizador é encontrar os valores dos pesos que minimizam a função de perda, permitindo que o modelo faça previsões mais precisas.
- **Gradiente Descendente:** Muitos otimizadores utilizam o gradiente descendente para iterativamente ajustar os pesos na direção que reduz a perda.

<br />
<hr />

### Gradiente Descendente Estocástico (SGD)<br />
$ W_{t+1} = W_t - \eta \nabla L(W_t) $ <br />
<br />
onde $ W_t $ são os pesos, $ \eta $ é a taxa de aprendizado, e $ \nabla L(W_t) $ é o gradiente da função de perda.

<hr />

### Adam (Adaptive Moment Estimation)
<br />
$ m_{t+1} = \beta_1 \cdot m_t + (1 - \beta_1) \cdot \nabla L(W_t) $<br />
$ v_{t+1} = \beta_2 \cdot v_t + (1 - \beta_2) \cdot (\nabla L(W_t))^2 $<br />
$ W_{t+1} = W_t - \frac{\eta}{\sqrt{v_{t+1}} + \epsilon} \cdot m_{t+1} $<br />
<br />
onde $ m_t $ e $ v_t $ são momentos, $ \beta_1 $ e $ \beta_2 $ são fatores de decaimento, $ \eta $ é a taxa de aprendizado, e $ \epsilon $ é um termo de suavização para evitar divisão por zero.

<hr />

### RMSprop (Root Mean Square Propagation)
<br />
$ v_{t+1} = \beta \cdot v_t + (1 - \beta) \cdot (\nabla L(W_t))^2 $ <br />
$ W_{t+1} = W_t - \frac{\eta}{\sqrt{v_{t+1}} + \epsilon} \cdot \nabla L(W_t) $ <br />
<br />
onde $ v_t $ é a média ponderada dos quadrados dos gradientes e $ \beta $ é um fator de decaimento.

Esses são apenas alguns dos otimizadores disponíveis, cada um com suas características e aplicabilidades específicas.


# Função de Perda em Aprendizado de Máquina

Uma função de perda, também conhecida como função objetivo ou função de custo, quantifica quão bem o modelo está performando em relação aos dados de treinamento. O objetivo é minimizar essa função para que o modelo faça previsões mais precisas.

## Funcionamento

- **Avaliação do Desempenho:** A função de perda compara as previsões do modelo com os rótulos reais dos dados de treinamento.
- **Quantificação do Erro:** A perda atribui um valor numérico que representa o quão distantes são as previsões do modelo em relação aos rótulos reais.
- **Otimização:** Durante o treinamento, o modelo ajusta seus parâmetros para minimizar essa função de perda, melhorando assim suas previsões.

<hr />
<br />

### Erro Quadrático Médio (MSE)
$ L(y, \hat{y}) = \frac{1}{2} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 $ <br />
<br />
onde \(y\) são os rótulos reais, \(\hat{y}\) são as previsões do modelo e \(n\) é o número de amostras.
<br />

<br />
<hr />
<br />

### Entropia Cruzada Binária
<br />
$ L(y, \hat{y}) = - \sum_{i=1}^{n} [y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i)] $ <br />
<br />
para tarefas de classificação binária, onde \(y\) é o rótulo real e \(\hat{y}\) é a probabilidade prevista.
<br />
<br />

<hr />
<br />

### Entropia Cruzada Categórica
<br />
$ L(y, \hat{y}) = - \sum_{i=1}^{n} y_i \log(\hat{y}_i) $ <br />
<br />
para tarefas de classificação multiclasse, onde \(y\) é o vetor one-hot dos rótulos reais e \(\hat{y}\) é o vetor de probabilidades previstas.

Essas são algumas das funções de perda comumente utilizadas, cada uma adequada para diferentes tipos de tarefas e contextos.



In [36]:
model.compile(
    optimizer=optimizers.Adam(), # adam e svg
    loss = losses.BinaryCrossentropy(), # loss function, função de calcular o erro
    metrics = [ metrics.Accuracy() ]
)

# ImageDataGenerator em Aprendizado Profundo

`ImageDataGenerator` é uma classe em bibliotecas como Keras que facilita a pré-processamento de imagens durante o treinamento de modelos de aprendizado profundo. Essa ferramenta é frequentemente usada para aumentar o conjunto de dados, melhorando a generalização do modelo.

## Parâmetros do ImageDataGenerator

Ao criar uma instância de `ImageDataGenerator`, você pode especificar vários parâmetros para controlar as transformações aplicadas às imagens. Aqui estão alguns dos parâmetros utilizados no exemplo:

### `rescale`
- **Descrição:** Fator de escala para normalizar os valores dos pixels das imagens.
- **Exemplo:** `rescale=1.0/255` divide todos os valores de pixel por 255, colocando-os na faixa [0, 1].

### `shear_range`
- **Descrição:** Intervalo para aplicar cisalhamento aleatório às imagens.
- **Exemplo:** `shear_range=0.2` permite um cisalhamento máximo de 20%.

### `zoom_range`
- **Descrição:** Intervalo para aplicar zoom aleatório às imagens.
- **Exemplo:** `zoom_range=0.2` permite um zoom máximo de 20%.

### `horizontal_flip`
- **Descrição:** Booleano indicando se deve aplicar viragem horizontal aleatória às imagens.
- **Exemplo:** `horizontal_flip=True` permite viragem horizontal aleatória.

### `vertical_flip`
- **Descrição:** Booleano indicando se deve aplicar viragem vertical aleatória às imagens.
- **Exemplo:** `vertical_flip=False` impede viragem vertical aleatória.

### `validation_split`
- **Descrição:** Fração dos dados a serem reservados para validação.
- **Exemplo:** `validation_split=0.2` reserva 20% dos dados para validação.

## Exemplo Completo
```python
from tensorflow.keras.preprocessing import image

dataGen = image.ImageDataGenerator(
    rescale=1.0/255,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    vertical_flip=False,
    validation_split=0.2
)


In [34]:
dataGen = image.ImageDataGenerator(
    rescale = 1.0 / 255,
    shear_range = 0.2,
    zoom_range = 0.2,
    horizontal_flip = True,
    vertical_flip = False,
    validation_split = 0.2
)

In [None]:
path = 'lelele'

X_train = dataGen.flow_from_directory(
    path,
    target_size = (64, 64), # resize
    batch_size = 32,
    class_mode = 'categorical',
    subset = 'training'
)
X_test = dataGen.flow_from_directory(
    path,
    target_size = (64, 64),
    batch_size = 32,
    class_mode = 'categorical',
    subset = 'validation'
)

# Treinamento de Modelos de Aprendizado de Máquina

O treinamento de modelos de aprendizado de máquina é um processo iterativo que envolve os seguintes passos principais:

## 1. Escolha do Modelo
Escolha a arquitetura do modelo, incluindo o tipo de camadas e a configuração.

## 2. Preparação dos Dados
Organize os dados de treinamento e validação. Isso inclui divisão em conjuntos, pré-processamento e normalização.

## 3. Definição da Função de Perda
Escolha uma função de perda que quantifique quão bem o modelo está performando em comparação com os rótulos reais.

## 4. Configuração do Otimizador
Escolha um otimizador para ajustar os pesos do modelo, minimizando a função de perda. O otimizador utiliza o gradiente descendente para encontrar os pesos ideais.

## 5. Treinamento Iterativo
Iterativamente, alimente o modelo com lotes de dados de treinamento, calcule a perda, atualize os pesos usando o otimizador e repita o processo.

## 6. Avaliação do Desempenho
Após o treinamento, avalie o desempenho do modelo usando dados de validação para verificar a capacidade de generalização.

## 7. Ajustes e Otimizações
Com base nos resultados da avaliação, ajuste hiperparâmetros, modifique a arquitetura do modelo ou aplique técnicas de regularização para otimizar o desempenho.

## 8. Implantação
Quando satisfeito com o desempenho, o modelo treinado pode ser implantado para fazer previsões em novos dados.

O treinamento visa encontrar os pesos do modelo que melhor representam os padrões nos dados de treinamento, permitindo que o modelo generalize bem para novos dados não vistos.


In [None]:
# Treinamento do modelo
model.fit(
    X_train,
    steps_per_epoch = 1_000, # batch_size + steps_per_epoch = quant_dados
    epochs = 50, # Quantidade máxima de epocas
    validation_steps = 100, # a cada 100 batch_sizes ele verifica
    callbacks = [
        callbacks.EarlyStopping(patience = 4), # para o treinamento de o erro não melhorar em 4 épocas
        callbacks.ModelCheckpoint(
            filepath = 'model.{epoch:02d}-{val_loss:.2f}.h5' # Salvando cada época para poder voltar se crashar
        )
     ]
)

model.save('model')