# Etapa de Pr√©-processamento: Extra√ß√£o de Embeddings de Imagens de Daninhas

## üìö Descri√ß√£o
Esta etapa do pipeline de processamento √© respons√°vel por receber imagens de plantas daninhas, realizar o pr√©-processamento necess√°rio e extrair **embeddings** utilizando um modelo pr√©-treinado. Os embeddings servir√£o como vetores de caracter√≠sticas que ser√£o utilizados nas etapas posteriores de classifica√ß√£o e an√°lise.

---

## üîß Etapas do Pr√©-processamento
1. **Carregamento das Imagens:**  
   - As imagens s√£o carregadas a partir de um diret√≥rio especificado.
   - Caso as imagens n√£o estejam em um espa√ßo de cores RGB elas ser√£o convertidas
   - Cada imagem √© redimensionada para o tamanho esperado pelo modelo pr√©-treinado (por exemplo, 299x299 pixels para "imagenet").
   
2. **Normaliza√ß√£o das Imagens:**  
   - Os valores dos pixels s√£o escalados para o intervalo [0, 1] ou normalizados conforme os requisitos do modelo.

3. **Data Augmentation (Opcional):**  
   - T√©cnicas como rota√ß√£o, flip horizontal/vertical e ajuste de brilho s√£o aplicadas para aumentar a variabilidade do conjunto de dados.

4. **Extra√ß√£o de Embeddings:**  
   - Um modelo pr√©-treinado (imagenet) √© carregado sem a camada de classifica√ß√£o.
   - As imagens s√£o passadas pelo modelo, e os embeddings (vetores de caracter√≠sticas) s√£o extra√≠dos da pen√∫ltima camada.

5. **Tratamento dos Embeddings e balanceamento:**  
   - O arquivo vetorial √© salvo em uma planilha com as caracteristicas e sua respectiva classe.
   - caso necess√°rio para otimizar o treinamento pode ser feito um balanceamento por oversampling aumentando as amostras de menor n√∫mero.
   

---

In [None]:

from tensorflow.keras.preprocessing.image import ImageDataGenerator
from tensorflow.keras.applications.inception_v3 import InceptionV3, preprocess_input
from tensorflow.keras.models import Model
import warnings
warnings.filterwarnings('ignore')

import numpy as np
import pandas as pd
import os
import random
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout, BatchNormalization
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from tensorflow.keras.regularizers import l2
from tqdm.notebook import tqdm
tqdm().pandas()
from tensorflow.keras.optimizers import *
from PIL import Image
import matplotlib.pyplot as plt

from sklearn.preprocessing import LabelEncoder, Normalizer
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

from keras_facenet import FaceNet
from mtcnn.mtcnn import MTCNN

In [None]:
#caso suas imagens n√£o esteja em rgb
def convert_images_to_rgb(root_folder):
    """
    Converte todas as imagens em um diret√≥rio e seus subdiret√≥rios para o formato RGB.
    
    Args:
        root_folder (str): Caminho para a pasta raiz contendo os subdiret√≥rios com as imagens.
    """
    for subdir, _, files in os.walk(root_folder):
        for file in files:
            file_path = os.path.join(subdir, file)
            try:
                with Image.open(file_path) as img:
                    if img.mode != 'RGB':
                        img = img.convert('RGB')
                        img.save(file_path)
                        print(f'Convertido para RGB: {file_path}')
                    else:
                        print(f'J√° est√° em RGB: {file_path}')
            except Exception as e:
                print(f'Erro ao processar {file_path}: {e}')

# Caminho para a pasta raiz
root_folder = "./caminho das imagens aqui"
convert_images_to_rgb(root_folder)

In [15]:
# Diret√≥rio das imagens
dataset_path = 'caminho das imagens aqui'

# Fun√ß√£o para carregar imagens e r√≥tulos
def load_dataset(dataset_path, target_size=(299, 299)):
    data = []
    labels = []
    classes = os.listdir(dataset_path)
    
    for class_label in classes:
        class_path = os.path.join(dataset_path, class_label)
        if os.path.isdir(class_path):
            for img_name in os.listdir(class_path):
                img_path = os.path.join(class_path, img_name)
                img = Image.open(img_path).resize(target_size)
                img = np.array(img)
                data.append(img)
                labels.append(class_label)
    
    return np.array(data), np.array(labels)

In [16]:

X, y = load_dataset(dataset_path)

In [17]:
# Inicializar o modelo base
base_model = InceptionV3(weights='imagenet', include_top=False, pooling='avg')
model = Model(inputs=base_model.input, outputs=base_model.output)

In [18]:

# Inicializar o gerador de dados com augmenta√ß√£o
datagen = ImageDataGenerator(
    rotation_range=20,
    width_shift_range=0.2,
    height_shift_range=0.2,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    fill_mode='nearest'
)

# Pr√©-processar as imagens
X_preprocessed = preprocess_input(X)

In [None]:

# Gerar embeddings para imagens aumentadas
embeddings = []
labels = []

for i in range(len(X_preprocessed)):
    img = X_preprocessed[i]
    label = y[i]
    
    img = np.expand_dims(img, axis=0)
    
    for batch in datagen.flow(img, batch_size=1):
        augmented_img = batch[0]
        augmented_img = np.expand_dims(augmented_img, axis=0)
        embedding = model.predict(augmented_img)
        
        embeddings.append(embedding[0])
        labels.append(label)
        
        # Gerar 5 aumentos por imagem
        if len(labels) >= (i+1) * 5:
            break

# Converter para DataFrame
embeddings_df = pd.DataFrame({
    'Classe': labels,
    'embedding': list(embeddings)
})

In [20]:
# Salvar o DataFrame em um CSV
embeddings_df.to_csv('embeddings_with_augmentation.csv', index=False)

In [21]:
np.savez_compressed('embeddings_with_augmentation.npz', embeddings=embeddings, labels=y)

In [None]:
print(embeddings_df.head())

In [None]:
import pandas as pd
import numpy as np
from imblearn.over_sampling import SMOTE

# Carregar os dados
file_path = './embeddings_with_augmentation.csv'
data = pd.read_csv(file_path)

# Corrigir formata√ß√£o e converter embeddings para vetores NumPy
def fix_and_convert_embedding(embedding_str):
    # Remove leading/trailing whitespace and brackets
    embedding_str = embedding_str.strip('[]')
    
    # Convert the string to a NumPy array
    values = np.fromstring(embedding_str, sep=' ')
    
    return values

def preprocess_embeddings(data):
    data['embedding'] = data['embedding'].apply(fix_and_convert_embedding)
    return data

# Aplicar SMOTE para balancear classes
def apply_smote(data, target_column, embedding_column):
    # Separar as features (X) e o alvo (y)
    X = np.stack(data[embedding_column].values)
    y = data[target_column]
    
    # Aplicar SMOTE
    smote = SMOTE(random_state=42)
    X_resampled, y_resampled = smote.fit_resample(X, y)
    
    # Retornar os dados balanceados como um novo DataFrame
    balanced_data = pd.DataFrame({
        target_column: y_resampled,
        embedding_column: list(X_resampled)
    })
    return balanced_data

# Processar os dados e aplicar SMOTE
data = preprocess_embeddings(data)
balanced_data = apply_smote(data, target_column="Classe", embedding_column="embedding")

# Salvar o resultado em um novo arquivo CSV
output_path = 'balanced_embeddings.csv'
balanced_data.to_csv(output_path, index=False)

print(f"Arquivo balanceado salvo em: {output_path}")