Skip to content

diegobda/aws-ocr-python

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

📝 OCR Tesseract & AWS 🚀

Este repositório contém três scripts para extração de texto de arquivos de imagens e PDFs usando OCR (Reconhecimento Óptico de Caracteres). Utilizando duas abordagens distintas: Tesseract OCR (código aberto) e AWS Textract (solução em nuvem da Amazon). 📂 Arquivos

ocr_Tesseract.py: Extrai texto de imagens utilizando o Tesseract OCR. 🖼️
ocr_Tesseract2.py: Converte PDFs em imagens e aplica OCR para extrair texto. 📄➡️🖼️
ocr_AWS.py: Exemplo de uso do AWS Textract para extração de texto de imagens ou PDFs diretamente na nuvem. ☁️

🚀 Funcionalidades

📸 Imagens: Extração de texto de imagens no formato PNG, JPG, JPEG e outros.
📄 PDFs: Converte PDFs para imagens e faz OCR nessas imagens.
🤖 Tesseract OCR: Solução local de código aberto, ideal para quem não quer utilizar serviços em nuvem.
☁️ AWS Textract: Solução escalável e poderosa para OCR com a infraestrutura da AWS, ideal para grandes volumes de documentos.

🔧 Como usar 1️⃣ Tesseract OCR

Instale o Tesseract:
    Linux: sudo apt install tesseract-ocr
    Mac: brew install tesseract
    Windows: Baixe e instale o Tesseract.

Instale as dependências do Python:

pip install pytesseract pillow pdf2image

Execute o script para ler imagens (ocr_Tesseract.py):

python ocr_Tesseract.py

2️⃣ Tesseract OCR para PDFs

Instale as dependências do Python (mesmo para o ocr_Tesseract2.py):

pip install pytesseract pillow pdf2image

Execute o script para ler PDFs (ocr_Tesseract2.py):

python ocr_Tesseract2.py

3️⃣ AWS Textract

Configure sua conta AWS:
    Crie um usuário IAM com permissões para o AWS Textract.
    Configure as credenciais em ~/.aws/credentials (para Linux/Mac) ou no AWS CLI.

Instale o pacote boto3:

pip install boto3

Execute o script de exemplo para AWS (ocr_AWS.py):

python ocr_AWS.py

⚙️ Como funciona

Tesseract: Usamos o Tesseract OCR para extrair texto de imagens ou PDFs convertidos para imagens. Ele pode ser configurado localmente e é ideal para projetos menores ou para quem não quer usar a nuvem.

AWS Textract: Ao usar o AWS Textract, a extração de texto é feita diretamente na nuvem. Esse serviço é ótimo para documentos mais complexos e é altamente escalável. A única exigência é uma conta da AWS.

💻 Requisitos Para Tesseract:

Tesseract: Certifique-se de que o Tesseract esteja instalado corretamente no seu sistema.
Python 3: O código foi testado com Python 3.6+.
Dependências Python: pytesseract, pillow, pdf2image.

Para AWS Textract:

Conta AWS: É necessário uma conta ativa na AWS com permissões para usar o AWS Textract.
Credenciais AWS: Configure suas credenciais da AWS corretamente.

🛠️ Dependências

pytesseract: Interface Python para o Tesseract OCR.
pillow: Biblioteca de processamento de imagens.
pdf2image: Converte PDFs em imagens para poder aplicar o OCR.
boto3: Biblioteca da AWS para interagir com o Textract.

🚨 Atenção

AWS Textract: É necessário configurar a conta da AWS corretamente e ter as permissões devidas para utilizar o Textract.
Limitações do Tesseract: O Tesseract é eficaz, mas pode não ser tão preciso quanto o AWS Textract em documentos muito complexos.

Develloper = DIEGO DOS SANTOS GONÇALVES - GOIÂNIA / GOIAS / BRASIL

About

BOOTCAMP DIO Transcrevendo uma Imagem em Texto com AWS Textract

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages