## Integração Python + .txt

Python tem um módulo embutido chamado `open()` que é usado para abrir um arquivo em diferentes modos, como leitura ('r'), gravação ('w') e adição ('a').

Aqui estão alguns exemplos de como você pode usar o módulo `open()`:

In [5]:
# Abrindo um arquivo .txt para leitura ('r')
arquivo = open('exemplo.txt', 'r')
conteudo = arquivo.read()
print(conteudo)
arquivo.close()



Olá, mundo!


Neste exemplo, o arquivo 'exemplo.txt' é aberto no modo de leitura ('r'). O método .read() é usado para ler todo o conteúdo do arquivo e armazená-lo na variável conteudo. Após a leitura, o arquivo é fechado usando o método .close().

In [6]:
# Escrevendo em um arquivo .txt ('w')
arquivo = open('exemplo.txt', 'w')
arquivo.write("\nOlá, mundo!")
arquivo.close()
print(conteudo)



Olá, mundo!


Aqui, o arquivo 'exemplo.txt' é aberto no modo de escrita ('w'). O método .write() é usado para escrever a string "Olá, mundo!" no arquivo. Em seguida, o arquivo é fechado.

In [7]:
# Adicionando conteúdo a um arquivo .txt existente ('a')
arquivo = open('exemplo.txt', 'a')
arquivo.write("\\nAdicionando mais conteúdo")
arquivo.close()


In [18]:
# método with abre e fecha o arquivo automaticamente

with open('withpy.txt', 'w') as arquivo:
    arquivo.write('helloo')
print('Acabei')

Acabei


Neste último exemplo, o arquivo 'exemplo.txt' é aberto no modo de adição ('a'). O método .write() é usado para adicionar a string "Adicionando mais conteúdo" ao final do arquivo. Em seguida, o arquivo é fechado.

Lembre-se de fechar sempre o arquivo após a leitura ou escrita. Isso é uma boa prática e evita o consumo desnecessário de recursos.

## Integração Python + .pdf

Para trabalhar com arquivos PDF em Python, você pode usar o módulo PyPDF2.

Aqui estão alguns exemplos de como você pode usar o PyPDF2:

In [None]:
import PyPDF2

# Abrindo um arquivo .pdf para leitura
pdf_arquivo = open('Folha de Pagamento da Empresa Fictícia XYZ.pdf', 'rb') # 'rb' para leitura binária
pdf_leitor = PyPDF2.PdfReader(pdf_arquivo)
pagina = pdf_leitor.pages[0] # obtendo a primeira página
print(pagina.extract_text()) # extraindo o texto da primeira página
pdf_arquivo.close()


Neste exemplo, o arquivo é aberto para leitura no modo binário ('rb'). O objeto PdfReader é criado a partir do arquivo e usado para obter a primeira página do PDF. O método .extract_text() é então usado para extrair o texto da primeira página e imprimi-lo. Finalmente, o arquivo é fechado.

In [16]:
# Escrevendo em um arquivo .pdf
pdf_arquivo = open('Folha de Pagamento da Empresa Fictícia XYZ.pdf', 'rb')
pdf_leitor = PyPDF2.PdfReader(pdf_arquivo)
pdf_escritor = PyPDF2.PdfWriter()

# Adicionando todas as páginas do arquivo original para o novo arquivo
for pagina_num in range(len(pdf_escritor.pages)):
    pagina = pdf_leitor.pages[pagina_num]
    pdf_escritor.addPage(pagina)

# Criando um novo arquivo .pdf
novo_pdf = open('novo_exemplo.pdf', 'wb')
pdf_escritor.write(novo_pdf)
novo_pdf.close()
pdf_arquivo.close()


Neste exemplo, um arquivo é aberto para leitura e um objeto PdfReader é criado a partir dele. Um objeto PdfWriter é então criado para escrever em um novo arquivo PDF. Todas as páginas do arquivo original são adicionadas ao novo arquivo usando o método .addPage(). Em seguida, o novo arquivo é escrito e fechado, assim como o arquivo original.

Ao trabalhar com arquivos .pdf, lembre-se de que a leitura e a escrita são feitas no modo binário (rb e wb), o que é diferente de trabalhar com arquivos .txt.

## Extraindo imagens de um PDF

In [None]:
import pikepdf
from pikepdf import Pdf, PdfImage   # importando módulos de pdf e imagens

arquivo = Pdf.open(r"Dados\MGLU_RAD_2023_POR.pdf")   # método para leitura de arquivo

for pagina in arquivo.pages:   # para cada página dentro do arquivo
    for nome, imagem in pagina.images.items():   # para cada imagem(nome, self) na página
        imagem_salvar = PdfImage(imagem)   # PdfImage é uma classe que armazena as informações da imagem
        imagem_salvar.extract_to(fileprefix=f"imagens/{nome}")   # salvando arquivo da imagem no diretório