## Programa Python para Leitura de Textos OCR de Imagens e PDFs

### T√≥pico 1: Instala√ß√£o das Bibliotecas Necess√°rias
Antes de come√ßar, voc√™ precisa instalar as bibliotecas necess√°rias. Abra o terminal e execute os seguintes comandos:

In [None]:
!pip install pytesseract  # Biblioteca para OCR
!pip install pdf2image   # Converte PDFs em imagens
!pip install pillow      # Manipula√ß√£o de imagens
!pip install ipywidgets

[0m

#### Al√©m disso, voc√™ precisa instalar o Tesseract OCR no seu sistema:

* No Linux:

In [21]:
!sudo apt install tesseract-ocr -y
!sudo apt install tesseract-ocr-por -y

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tesseract-ocr is already the newest version (4.1.1-2.1build1).
0 upgraded, 0 newly installed, 0 to remove and 10 not upgraded.
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following NEW packages will be installed:
  tesseract-ocr-por
0 upgraded, 1 newly installed, 0 to remove and 10 not upgraded.
Need to get 856 kB of archives.
After this operation, 1998 kB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu jammy/universe amd64 tesseract-ocr-por all 1:4.00~git30-7274cfa-1.1 [856 kB]
Fetched 856 kB in 2s (411 kB/s)            [0m33m[33m[33m
debconf: delaying package configuration, since apt-utils is not installed

7[0;23r8[1ASelecting previously unselected package tesseract-ocr-por.
(Reading database ... 32832 files and directories currently installed.)
Preparing to unpack .../tesseract-ocr-por_1%3a4.00

* No Windows:
    * Baixe o instalador do Tesseract em **https://github.com/tesseract-ocr/tesseract**.
    * Durante a instala√ß√£o, anote o caminho onde o **Tesseract** foi instalado (ex: C:\Program Files\Tesseract-OCR).

### T√≥pico 2: Importa√ß√£o das Bibliotecas
No in√≠cio do programa, importamos as bibliotecas necess√°rias:

In [1]:
from PIL import Image  # Para manipula√ß√£o de imagens
import pytesseract     # Para OCR
from pdf2image import convert_from_path  # Para converter PDF em imagens
import os              # Para manipula√ß√£o de arquivos e diret√≥rios
from ipywidgets import widgets, Layout
from IPython.display import display, clear_output

### T√≥pico 3: Criar o Bot√£o de Upload
Agora, vamos criar um bot√£o de upload usando ipywidgets:

In [2]:
# Cria o widget de upload
upload = widgets.FileUpload(
    accept='.pdf,.png,.jpg,.jpeg',  # Tipos de arquivo permitidos
    multiple=False,  # Permite apenas um arquivo por vez
    description='Selecione um arquivo',
    layout=Layout(width='50%')  # Define o layout do bot√£o
)

### T√≥pico 4: Fun√ß√£o para Processar o Arquivo
Vamos criar uma fun√ß√£o para processar o arquivo enviado pelo usu√°rio. Essa fun√ß√£o ser√° chamada quando o usu√°rio fizer o upload.

In [3]:
# Fun√ß√£o para processar o arquivo
def processar_arquivo(change):
    """
    Processa o arquivo enviado pelo usu√°rio.
    """
    clear_output()
    if not upload.value:
        print("Nenhum arquivo selecionado.")
        return

    # Obt√©m o primeiro arquivo enviado (mesmo que multiple=False)
    arquivo = upload.value[0]  # Agora √© uma tupla, n√£o um dicion√°rio
    nome_arquivo = arquivo['name']
    conteudo = arquivo['content']

    # Salva o arquivo temporariamente
    with open(nome_arquivo, "wb") as f:
        f.write(conteudo)

    # Verifica o tipo de arquivo
    if nome_arquivo.lower().endswith(('.png', '.jpg', '.jpeg')):
        texto = ler_texto_de_imagem(nome_arquivo)
    elif nome_arquivo.lower().endswith('.pdf'):
        texto = ler_texto_de_pdf(nome_arquivo)
    else:
        print("Tipo de arquivo n√£o suportado.")
        return

    # Exibe o texto extra√≠do
    print(f"Texto extra√≠do de '{nome_arquivo}':\n")
    print(texto)

    # Salva o texto em um arquivo
    with open("texto_extraido.txt", "w", encoding="utf-8") as f:
        f.write(texto)
    print("\nTexto salvo em 'texto_extraido.txt'.")

    # Remove o arquivo tempor√°rio
    os.remove(nome_arquivo)

### T√≥pico 5: Fun√ß√µes de OCR
Agora, vamos adicionar as fun√ß√µes de OCR para processar imagens e PDFs:

In [4]:
def ler_texto_de_imagem(caminho_imagem):
    """
    L√™ o texto de uma imagem usando OCR.
    """
    imagem = Image.open(caminho_imagem)
    texto = pytesseract.image_to_string(imagem, lang='por')
    return texto

def ler_texto_de_pdf(caminho_pdf):
    """
    L√™ o texto de um PDF usando OCR.
    """
    imagens = convert_from_path(caminho_pdf)
    texto_total = ""
    for i, imagem in enumerate(imagens):
        print(f"Processando p√°gina {i + 1}...")
        texto = pytesseract.image_to_string(imagem, lang='por')
        texto_total += texto + "\n\n"
    return texto_total

### T√≥pico 6: Configura√ß√£o do Tesseract (Apenas para Windows)
Se voc√™ estiver no Windows, precisa configurar o caminho do Tesseract:

In [None]:
# Configura√ß√£o do caminho do Tesseract (apenas para Windows)
#pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

### T√≥pico 7: Vincular o Bot√£o √† Fun√ß√£o de Processamento
Agora, vamos vincular o bot√£o de upload √† fun√ß√£o de processamento:

In [None]:
# Vincula o evento de upload √† fun√ß√£o de processamento
upload.observe(processar_arquivo, names='value')

# Exibe o bot√£o de upload
display(upload)


FileUpload(value=(), accept='.pdf,.png,.jpg,.jpeg', description='Selecione um arquivo', layout=Layout(width='5‚Ä¶

Ola


### T√≥pico 8: Executar o Notebook

1) **Execute todas as c√©lulas** do notebook.
2) **Clique no bot√£o "Selecione um arquivo"** para fazer o upload de uma imagem ou PDF.
3) O texto extra√≠do ser√° exibido no notebook e salvo em um arquivo chamado `texto_extraido.txt`.


### **Resumo**

| Passo | Descri√ß√£o                                                                 |
|-------|---------------------------------------------------------------------------|
| 1     | Instalar as bibliotecas necess√°rias.                                      |
| 2     | Importar as bibliotecas.                                                  |
| 3     | Criar o bot√£o de upload.                                                  |
| 4     | Criar a fun√ß√£o para processar o arquivo.                                  |
| 5     | Adicionar as fun√ß√µes de OCR.                                              |
| 6     | Configurar o Tesseract (apenas para Windows).                             |
| 7     | Vincular o bot√£o √† fun√ß√£o de processamento.                               |
| 8     | Executar o notebook e testar o upload.                                    |



Com esse notebook, voc√™ ter√° uma interface interativa para upload de arquivos e extra√ß√£o de texto usando OCR. Se precisar de mais detalhes ou ajustes, √© s√≥ avisar! üòä

### Considera√ß√µes Finais
O programa √© modular e f√°cil de entender, com fun√ß√µes separadas para cada tarefa.

O c√≥digo est√° bem comentado para facilitar o entendimento.

O texto extra√≠do √© salvo em um arquivo para uso posterior.

Se precisar de mais detalhes ou ajustes, √© s√≥ avisar! üòä