Skip to content

EricSL07/attributeExtraction

Repository files navigation

attributeExtraction

Referências

Instalação

Para executar o script extractor.py, instale um ambiente Python e as dependências abaixo.

Pré-requisitos

  • Python 3.10 ou superior
  • pip atualizado
  • Conexão com a internet na primeira execução, para baixar o modelo microsoft/resnet-50 do Hugging Face

Bibliotecas necessárias

Execute:

pip install --upgrade pip
pip install numpy opencv-python pillow transformers torch

Dependência opcional

O script tenta usar torch_directml primeiro, mas isso é opcional e normalmente só faz sentido em Windows com GPU AMD.

Se quiser instalar esse suporte adicional, use:

pip install torch-directml

Observação

Na primeira execução, o transformers vai baixar automaticamente o modelo microsoft/resnet-50. Depois disso, o script gera os arquivos de saída na raiz do projeto.

Funções do script

extrair_handcrafted(caminho_imagem)

Carrega a imagem em escala de cinza, aplica binarização com Otsu, calcula os 7 Momentos de Hu e cria histogramas horizontal e vertical. O resultado é um vetor com 71 atributos manuais que representam forma e distribuição dos pixels.

extrair_non_handcrafted(caminho_imagem)

Abre a imagem em RGB, aplica o pré-processamento do AutoImageProcessor e extrai um vetor de características com a ResNet-50. O retorno é o vetor pooler_output da rede, com 2048 valores, usado como representação automática da imagem.

processar_dataset(diretorio_base, nome_arquivo_saida, funcao_extracao, rotulo_por_subpasta=True)

Percorre uma base de imagens, aplica a função de extração recebida e salva cada amostra em um arquivo .txt no formato caracteristicas + rotulo. Quando rotulo_por_subpasta=True, o rótulo é obtido pelo nome da pasta; quando False, o rótulo é extraído do início do nome do arquivo.

Bloco principal if __name__ == "__main__":

Executa o pipeline completo e gera os 6 arquivos de saída:

  • ocr_treino_handcrafted.txt
  • ocr_treino_non_handcrafted.txt
  • ocr_teste_handcrafted.txt
  • ocr_teste_non_handcrafted.txt
  • meses_todo_handcrafted.txt
  • meses_todo_non_handcrafted.txt

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages