# Como Converter um arquivo PDF da Web em Texto

A capacidade de converter o conteúdo de um arquivo PDF da web em texto é uma habilidade fundamental para diversas aplicações, incluindo análise de texto, extração de informações e processamento de linguagem natural. Neste tutorial, mostraremos como realizar essa tarefa de forma eficiente usando Python.

## Passo 1: Baixar o Arquivo PDF da Web
O primeiro passo é baixar o arquivo PDF da web. Podemos usar a biblioteca requests para realizar o download do arquivo a partir de uma URL:

In [1]:
import requests

# url do arquivo
pdf_url = "https://www.ic.unicamp.br/~stolfi/misc/2012-02-13-domine-casmurrus.pdf"

# Solicitação HTTP para baixar o PDF a partir do URL
response = requests.get(pdf_url)

# Abre um arquivo local chamado "Dom-Casmurro.pdf" e escreve o conteúdo do PDF nesse arquivo
with open("Dom-Casmurro.pdf", "wb") as pdf_file:
   pdf_file.write(response.content)

## Passo 2: Converter o PDF em Texto
Para converter o arquivo PDF em texto utilizável, usamos a biblioteca PyPDF2. A seguir, o código que realiza essa conversão:

In [2]:
import PyPDF2

# Caminho o arquivo pdf
pdf_path = "Dom-Casmurro.pdf"

pdf_text = ""
with open(pdf_path, "rb") as pdf_file:
   # Usamos PyPDF2 para ler o PDF
   pdf_reader = PyPDF2.PdfReader(pdf_file)

   # Iteramos pelas páginas do PDF e extraímos o texto
   for page in pdf_reader.pages:
       pdf_text += page.extract_text()

O conteúdo do pdf já está na variável pdf_text

In [3]:
# exibir os primeiros 1000 caracteres do texto 
pdf_text[0:1000]

'Dom Casmurro\nMachado de Assis\n1899\nVers˜ao Preliminar\n2012-02-13\nI\nDo titulo.\nUma noite destas, vindo da cidade para o Engenho\nNovo, encontrei no trem da Central um rapaz aqui do\nbairro, que eu conhe¸ co de vista e de chap´ eo. Comprimentou-\nme, sentou-se ao p´ e de mim, falou da lua e dos ministros,\ne acabou recitando-me versos. A viagem era curta, e\nos versos p´ ode ser que n˜ ao fossem inteiramente maus.\nSuccedeu, por´ em, que como eu estava can¸ cado, fechei os\nolhos tres ou quatro vezes; tanto bastou para que elle\ninterrompesse a leitura e mettesse os versos no bolso.\n— Continue, disse eu accordando.\n— J´ a acabei, murmurou elle.\n— S˜ ao muito bonitos.\nVi-lhe fazer um gesto para tiral-os outra vez do bolso,\nmas n˜ ao passou do gesto; estava amuado. No dia seguinte\nentrou a dizer de mim nomes feios, e acabou alcunhando-\nmeDom Casmurro . Os visinhos, que n˜ ao gostam dos\nmeus h´ abitos reclusos e calados, deram curso ´ a alcu-\nnha, que aﬁnal pegou. Nem por i

**Obs:** O caractere '\n' representa uma quebra de linha. Ele é chamado de caractere de escape de nova linha ou simplesmente um caractere de nova linha.




Adicionalmente, você pode querer salvar o texto em formato *.txt*.

In [4]:
# Abrimos um arquivo de texto chamado "Dom-Casmurro.txt" no modo de escrita ('w') e escrevemos o texto extraído nele
with open("Dom-Casmurro.txt", "w", encoding="utf-8") as txt_file:
   txt_file.write(pdf_text)

Para ler o conteúdo do arquivo *.txt* basta executar o código a seguir.

In [5]:
with open("Dom-Casmurro.txt", "r", encoding="utf-8") as txt_file:
   # Lê o texto do arquivo de texto que foi convertido a partir do PDF
   pdf_text = txt_file.read()

Agora você tem o conteúdo do PDF convertido em texto, pronto para análises adicionais ou qualquer outra aplicação de processamento de texto que desejar, usando, por exemplo, bibliotecas como o NLTK.

In [1]:
pip freeze > requirements.txt

Note: you may need to restart the kernel to use updated packages.
