## Programa Python para Leitura de Textos OCR de Imagens e PDFs

### Tópico 1: Instalação das Bibliotecas Necessárias
Antes de começar, você precisa instalar as bibliotecas necessárias. Abra o terminal e execute os seguintes comandos:

In [None]:
!pip install pytesseract  # Biblioteca para OCR
!pip install pdf2image   # Converte PDFs em imagens
!pip install pillow      # Manipulação de imagens
!pip install ipywidgets

[0m

#### Além disso, você precisa instalar o Tesseract OCR no seu sistema:

* No Linux:

In [21]:
!sudo apt install tesseract-ocr -y
!sudo apt install tesseract-ocr-por -y

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tesseract-ocr is already the newest version (4.1.1-2.1build1).
0 upgraded, 0 newly installed, 0 to remove and 10 not upgraded.
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following NEW packages will be installed:
  tesseract-ocr-por
0 upgraded, 1 newly installed, 0 to remove and 10 not upgraded.
Need to get 856 kB of archives.
After this operation, 1998 kB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu jammy/universe amd64 tesseract-ocr-por all 1:4.00~git30-7274cfa-1.1 [856 kB]
Fetched 856 kB in 2s (411 kB/s)            [0m33m[33m[33m
debconf: delaying package configuration, since apt-utils is not installed

7[0;23r8[1ASelecting previously unselected package tesseract-ocr-por.
(Reading database ... 32832 files and directories currently installed.)
Preparing to unpack .../tesseract-ocr-por_1%3a4.00

* No Windows:
    * Baixe o instalador do Tesseract em **https://github.com/tesseract-ocr/tesseract**.
    * Durante a instalação, anote o caminho onde o **Tesseract** foi instalado (ex: C:\Program Files\Tesseract-OCR).

### Tópico 2: Importação das Bibliotecas
No início do programa, importamos as bibliotecas necessárias:

In [1]:
from PIL import Image  # Para manipulação de imagens
import pytesseract     # Para OCR
from pdf2image import convert_from_path  # Para converter PDF em imagens
import os              # Para manipulação de arquivos e diretórios
from ipywidgets import widgets, Layout
from IPython.display import display, clear_output

### Tópico 3: Criar o Botão de Upload
Agora, vamos criar um botão de upload usando ipywidgets:

In [2]:
# Cria o widget de upload
upload = widgets.FileUpload(
    accept='.pdf,.png,.jpg,.jpeg',  # Tipos de arquivo permitidos
    multiple=False,  # Permite apenas um arquivo por vez
    description='Selecione um arquivo',
    layout=Layout(width='50%')  # Define o layout do botão
)

### Tópico 4: Função para Processar o Arquivo
Vamos criar uma função para processar o arquivo enviado pelo usuário. Essa função será chamada quando o usuário fizer o upload.

In [3]:
# Função para processar o arquivo
def processar_arquivo(change):
    """
    Processa o arquivo enviado pelo usuário.
    """
    clear_output()
    if not upload.value:
        print("Nenhum arquivo selecionado.")
        return

    # Obtém o primeiro arquivo enviado (mesmo que multiple=False)
    arquivo = upload.value[0]  # Agora é uma tupla, não um dicionário
    nome_arquivo = arquivo['name']
    conteudo = arquivo['content']

    # Salva o arquivo temporariamente
    with open(nome_arquivo, "wb") as f:
        f.write(conteudo)

    # Verifica o tipo de arquivo
    if nome_arquivo.lower().endswith(('.png', '.jpg', '.jpeg')):
        texto = ler_texto_de_imagem(nome_arquivo)
    elif nome_arquivo.lower().endswith('.pdf'):
        texto = ler_texto_de_pdf(nome_arquivo)
    else:
        print("Tipo de arquivo não suportado.")
        return

    # Exibe o texto extraído
    print(f"Texto extraído de '{nome_arquivo}':\n")
    print(texto)

    # Salva o texto em um arquivo
    with open("texto_extraido.txt", "w", encoding="utf-8") as f:
        f.write(texto)
    print("\nTexto salvo em 'texto_extraido.txt'.")

    # Remove o arquivo temporário
    os.remove(nome_arquivo)

### Tópico 5: Funções de OCR
Agora, vamos adicionar as funções de OCR para processar imagens e PDFs:

In [4]:
def ler_texto_de_imagem(caminho_imagem):
    """
    Lê o texto de uma imagem usando OCR.
    """
    imagem = Image.open(caminho_imagem)
    texto = pytesseract.image_to_string(imagem, lang='por')
    return texto

def ler_texto_de_pdf(caminho_pdf):
    """
    Lê o texto de um PDF usando OCR.
    """
    imagens = convert_from_path(caminho_pdf)
    texto_total = ""
    for i, imagem in enumerate(imagens):
        print(f"Processando página {i + 1}...")
        texto = pytesseract.image_to_string(imagem, lang='por')
        texto_total += texto + "\n\n"
    return texto_total

### Tópico 6: Configuração do Tesseract (Apenas para Windows)
Se você estiver no Windows, precisa configurar o caminho do Tesseract:

In [None]:
# Configuração do caminho do Tesseract (apenas para Windows)
#pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

### Tópico 7: Vincular o Botão à Função de Processamento
Agora, vamos vincular o botão de upload à função de processamento:

In [None]:
# Vincula o evento de upload à função de processamento
upload.observe(processar_arquivo, names='value')

# Exibe o botão de upload
display(upload)


FileUpload(value=(), accept='.pdf,.png,.jpg,.jpeg', description='Selecione um arquivo', layout=Layout(width='5…

Ola


### Tópico 8: Executar o Notebook

1) **Execute todas as células** do notebook.
2) **Clique no botão "Selecione um arquivo"** para fazer o upload de uma imagem ou PDF.
3) O texto extraído será exibido no notebook e salvo em um arquivo chamado `texto_extraido.txt`.


### **Resumo**

| Passo | Descrição                                                                 |
|-------|---------------------------------------------------------------------------|
| 1     | Instalar as bibliotecas necessárias.                                      |
| 2     | Importar as bibliotecas.                                                  |
| 3     | Criar o botão de upload.                                                  |
| 4     | Criar a função para processar o arquivo.                                  |
| 5     | Adicionar as funções de OCR.                                              |
| 6     | Configurar o Tesseract (apenas para Windows).                             |
| 7     | Vincular o botão à função de processamento.                               |
| 8     | Executar o notebook e testar o upload.                                    |



Com esse notebook, você terá uma interface interativa para upload de arquivos e extração de texto usando OCR. Se precisar de mais detalhes ou ajustes, é só avisar! 😊

### Considerações Finais
O programa é modular e fácil de entender, com funções separadas para cada tarefa.

O código está bem comentado para facilitar o entendimento.

O texto extraído é salvo em um arquivo para uso posterior.

Se precisar de mais detalhes ou ajustes, é só avisar! 😊