# Extração de Texto e Tabelas de PDF com pdfplumber

Neste notebook, vamos utilizar a biblioteca `pdfplumber` para extrair texto e tabelas de um arquivo PDF. O objetivo é mostrar como a biblioteca pode ser usada para manipular PDFs de forma eficiente.


In [None]:
!pip install pdfplumber


## Extração de Texto

Agora, vamos definir uma função que extrai o texto de todas as páginas de um PDF.


In [None]:
import pdfplumber

def extrair_texto(pdf_path):
    """
    Extrai todo o texto de um arquivo PDF.
    
    Parâmetro:
    pdf_path (str): Caminho do arquivo PDF.
    
    Retorna:
    str: Texto extraído do PDF.
    """
    with pdfplumber.open(pdf_path) as pdf:
        texto_completo = ''
        for pagina in pdf.pages:
            texto_completo += pagina.extract_text()
        return texto_completo

# Definindo o caminho do arquivo PDF
caminho_pdf = "seu_arquivo.pdf"

# Extraindo e exibindo o texto do PDF
texto = extrair_texto(caminho_pdf)
print("Texto extraído do PDF:")
print(texto)


## Extração de Tabelas

Também podemos extrair tabelas contidas no PDF. Vamos ver como isso funciona.


In [None]:
def extrair_tabelas(pdf_path):
    """
    Extrai todas as tabelas de um arquivo PDF.
    
    Parâmetro:
    pdf_path (str): Caminho do arquivo PDF.
    
    Retorna:
    list: Lista de tabelas extraídas, onde cada tabela é representada como uma lista de listas.
    """
    with pdfplumber.open(pdf_path) as pdf:
        tabelas = []
        for pagina in pdf.pages:
            tabelas += pagina.extract_tables()
        return tabelas

# Extraindo e exibindo as tabelas do PDF
tabelas = extrair_tabelas(caminho_pdf)
print("\nTabelas extraídas do PDF:")
for tabela in tabelas:
    for linha in tabela:
        print(linha)
