# Aula 7 - Arquivos

Trabalhar com arquivos é uma parte fundamental da programação em Python, permitindo a leitura de dados de arquivos, escrita e manipulação no sistema de arquivos de várias maneiras. 

Aqui estão os conceitos básicos e algumas operações comuns ao lidar com arquivos em Python.

## Manipulando arquivos

### Abrindo Arquivos
Para trabalhar com um arquivo em Python, precisamos abri-lo usando a função embutida open(). Esta função retorna um objeto de arquivo, que oferece métodos e atributos para interagir com o arquivo.

In [4]:
f = open("exemplo.txt", "r")
f

<_io.TextIOWrapper name='exemplo.txt' mode='r' encoding='cp1252'>

**Modos de Abertura de Arquivo**

- 'r': Leitura (padrão). Erro se o arquivo não existir.
- 'w': Escrita. Cria um novo arquivo ou sobrescreve o existente.
- 'x': Criação exclusiva. Falha se o arquivo já existir.
- 'a': Anexação. Adiciona ao final do arquivo se ele existir.
- 'b': Modo binário.
- 't': Modo de texto (padrão).
- '+': Atualização (leitura e escrita).

### Leitura

- read(size): Lê uma quantidade de dados e retorna como strings (texto) ou bytes (binário).
- readline(): Lê uma única linha do arquivo.
- readlines(): Lê todas as linhas do arquivo como uma lista.

In [5]:
conteudo = f.read()
conteudo

'Beatriz de M. Porto\n19:00\nBoa noite!\nAlex Buracosky\n19:00\nboa noitee\nMelissa Yung\n19:00\nBoa noitee\nBeatriz de M. Porto\n19:00\nFrio demais\nJosÃ© Cruz\n19:03\nÃ‰ o marcelo aÃ\xad\nAlessandra Cruz\n19:06\nBoa noite, pessoal!\nBacana, Beatriz e Eduardo!\nVocÃª\n19:09\ndef descrever(**kwargs):\n    print(kwargs)\n    for chave, valor in kwargs.items():\n        print(f"chave: {chave}, valor: {valor}")\n\ndescrever(nome="Joey", idade="8", especie="cachorro")\nBeatriz de M. Porto\n19:09\nhttps://pythontutor.com/\n\nEsse Ã© excelente tambÃ©m, pessoal.\nAlessandra Cruz\n19:10\nNao curto muito, Beatriz. Nao sei se quando tentei usar, eu nao soube....rs\nO que Ã© bem provÃ¡vel.\nVytor Siebra\n19:10\nprofessor, boa noite\nVou precisar sair 5 min agora\ncolocar o lixo pra fora :V\nAlessandra Cruz\n19:11\nAmo o Vim rs\nBeatriz de M. Porto\n19:12\nAinda bem que existem vÃ¡rios sites e possibilidades legais, nÃ©? Assim, conseguimos ir tentando. Alessandra, uma coisa desse que mandei que nÃ

In [6]:
f.close()

In [15]:
f = open("exemplo.txt", "r")
f.readline().strip()

'Beatriz de M. Porto'

In [16]:
f.close()

In [12]:
f = open("exemplo.txt", "r")
linhas = f.readlines()

for linha in linhas:
    print(linha.strip())


Beatriz de M. Porto
19:00
Boa noite!
Alex Buracosky
19:00
boa noitee
Melissa Yung
19:00
Boa noitee
Beatriz de M. Porto
19:00
Frio demais
JosÃ© Cruz
19:03
Ã‰ o marcelo aÃ­
Alessandra Cruz
19:06
Boa noite, pessoal!
Bacana, Beatriz e Eduardo!
VocÃª
19:09
def descrever(**kwargs):
print(kwargs)
for chave, valor in kwargs.items():
print(f"chave: {chave}, valor: {valor}")

descrever(nome="Joey", idade="8", especie="cachorro")
Beatriz de M. Porto
19:09
https://pythontutor.com/

Esse Ã© excelente tambÃ©m, pessoal.
Alessandra Cruz
19:10
Nao curto muito, Beatriz. Nao sei se quando tentei usar, eu nao soube....rs
O que Ã© bem provÃ¡vel.
Vytor Siebra
19:10
professor, boa noite
Vou precisar sair 5 min agora
colocar o lixo pra fora :V
Alessandra Cruz
19:11
Amo o Vim rs
Beatriz de M. Porto
19:12
Ainda bem que existem vÃ¡rios sites e possibilidades legais, nÃ©? Assim, conseguimos ir tentando. Alessandra, uma coisa desse que mandei que nÃ£o gosto Ã© o tema branco, que cansa o olho. Pelo menos no VSCode 

In [13]:
f.close()

### Escrita

Para escrever em um arquivo, podemos abrir modo de escrita ('w', 'a' etc.) e usar o método write() ou writelines().

In [18]:
f = open("exemplo.txt", "a")
f.write("\nTeste de escrita 5")
f.close()

### Fechar

É importante fechar um arquivo quando terminamos de usá-lo, para liberar recursos do sistema. Isso pode ser feito com o método close().

In [19]:
f.close()

### Usando with - gerenciador de contexto

Para garantir que os arquivos sejam sempre fechados corretamente, é uma boa prática usar o bloco with, que automaticamente cuida de fechar o arquivo.

In [20]:
with open("exemplo.txt", "r") as f:
    conteudo = f.read()
    print(conteudo)

Beatriz de M. Porto
19:00
Boa noite!
Alex Buracosky
19:00
boa noitee
Melissa Yung
19:00
Boa noitee
Beatriz de M. Porto
19:00
Frio demais
JosÃ© Cruz
19:03
Ã‰ o marcelo aÃ­
Alessandra Cruz
19:06
Boa noite, pessoal!
Bacana, Beatriz e Eduardo!
VocÃª
19:09
def descrever(**kwargs):
    print(kwargs)
    for chave, valor in kwargs.items():
        print(f"chave: {chave}, valor: {valor}")

descrever(nome="Joey", idade="8", especie="cachorro")
Beatriz de M. Porto
19:09
https://pythontutor.com/

Esse Ã© excelente tambÃ©m, pessoal.
Alessandra Cruz
19:10
Nao curto muito, Beatriz. Nao sei se quando tentei usar, eu nao soube....rs
O que Ã© bem provÃ¡vel.
Vytor Siebra
19:10
professor, boa noite
Vou precisar sair 5 min agora
colocar o lixo pra fora :V
Alessandra Cruz
19:11
Amo o Vim rs
Beatriz de M. Porto
19:12
Ainda bem que existem vÃ¡rios sites e possibilidades legais, nÃ©? Assim, conseguimos ir tentando. Alessandra, uma coisa desse que mandei que nÃ£o gosto Ã© o tema branco, que cansa o olho. Pelo 

In [21]:
f.readline()

ValueError: I/O operation on closed file.

### Manipulação de Arquivos e Diretórios

Além de ler e escrever em arquivos, Python também permite manipular caminhos de arquivos e diretórios usando os módulos os e shutil. Podemos criar diretórios, listar arquivos em um diretório, mover, copiar e deletar arquivos e diretórios.

In [22]:
import os

for item in os.listdir("exemplo"):
    print(item)

arquivo1.csv


In [23]:
for item in os.listdir("."):
    print(item)

arquivo1.csv
Aula 7 - Arquivos.ipynb
exemplo
exemplo.json
exemplo.txt
Materiais de Estudo.txt


### Trabalhando com arquivos temporários

Python oferece o módulo tempfile, que permite criar arquivos e diretórios temporários de forma segura e fácil. Esses arquivos temporários são úteis para quando você não quer ou não precisa persistir dados no disco rígido.

Eles são úteis para:

- Armazenar dados que só são necessários durante a execução do programa.
- Quando trabalhar com dados sensíveis que não devem persistir em disco após a execução.
- Para evitar conflitos de nomeação em sistemas de arquivos ao gerar muitos arquivos intermediários.

In [37]:
import tempfile

with tempfile.TemporaryFile(mode="w+t") as temp_file:
    temp_file.write("Evite i/o na eng de dados\n")
    temp_file.write("Ola, sou um arquivo temporario")

    temp_file.seek(0)
    print(temp_file.read())

Evite i/o na eng de dados
Ola, sou um arquivo temporario


## Arquivos CSV

Arquivos CSV (Comma-Separated Values, ou Valores Separados por Vírgula) são uma forma popular e simples de armazenar dados tabulares. Eles são amplamente utilizados para troca de dados entre diferentes aplicações, sistemas e plataformas.

#### Leitura

In [53]:
import csv

with open("arquivo1.csv", mode="r") as arquivo_csv:
    conteudo = csv.reader(arquivo_csv, delimiter=";")
    for l in conteudo:
        print(l)

['Lauro', ' 28', ' RJ']
['Beatriz', ' 20', ' SP']
['Mauro', ' 20', ' 20']


### Escrita

In [59]:
with open("output.csv", mode="w", newline="") as arquivo:
    aux = csv.writer(arquivo, delimiter=",", quotechar='"')

    aux.writerow(['Nome', 'Idade', 'Estado'])
    aux.writerow(['Lauro', ' 28', ' SP'])
    aux.writerow(['Beatriz', ' 24', ' SP'])
    aux.writerow(['Mauro', ' 24', ' MG'])

### Se estivermos trabalhando com cabeçalhos:

In [61]:
dados = [
    {'Nome': 'Alessandra', 'Estado': 'RJ'},
    {'Nome': 'Vytor', 'Estado': 'PE'}
]

with open("saida.csv", mode="w", newline="") as arquivo:
    colunas = ["Nome", "Estado"]
    aux = csv.DictWriter(arquivo, fieldnames=colunas)

    aux.writeheader()
    for dado in dados:
        aux.writerow(dado)

In [62]:
with open("saida.csv", mode="r") as arquivo:
    aux = csv.DictReader(arquivo)
    for a in aux:
        print(a["Nome"], a["Estado"])

Alessandra RJ
Vytor PE


## Arquivos JSON

Arquivos JSON (JavaScript Object Notation) são um formato padrão para troca de dados entre aplicações e são amplamente utilizados em programação, especialmente em APIs web e configurações. 

Python oferece o módulo json na biblioteca padrão para facilitar a leitura e a escrita de arquivos JSON.

### Leitura

In [64]:
import json

with open("exemplo.json", "r") as arquivo:
    dados = json.load(arquivo)
    print(dados)

type(dados)

{'Idade': 28, 'Nome': 'Lauro'}


dict

### Escrita

In [65]:
import json
dados = {'Idade': 28, 'Nome': 'Lauro'}

with open("exemplo/output.json", "w") as arquivo:
    json.dump(dados, arquivo)

### Formatação

Para tornar o arquivo JSON mais legível, você pode usar os parâmetros indent e sort_keys em json.dump().

In [66]:
with open("exemplo/output.json", "w") as arquivo:
    json.dump(dados, arquivo, indent=4, sort_keys=True)

### JSON e strings

Além de ler e escrever em arquivos, você pode converter strings JSON para objetos Python com json.loads() e objetos Python para strings JSON com json.dumps().

### JSON e dicionários

- JSON para Dicionário: Quando você lemos dados JSON em Python, usando o módulo json, esses dados são convertidos em dicionários Python. Isso significa que podemoa trabalhar com dados JSON de forma nativa como se estivesse trabalhando com dicionários em Python.

- Dicionário para JSON: Da mesma forma, quando temos um dicionário em Python e quer salvá-lo como um arquivo JSON ou transmiti-lo para uma API web, podemos converter esse dicionário em uma string JSON usando o módulo json.

## Arquivos XML

XML (eXtensible Markup Language) é uma linguagem de marcação que define um conjunto de regras para codificar documentos de forma legível tanto para humanos quanto para máquinas. 

A estrutura do XML é semelhante à do HTML, com a diferença de que as tags no XML são definidas pelo usuário, tornando-o altamente personalizável e adequado para a descrição de dados em uma ampla variedade de domínios.


- Estruturado: permite representar dados em uma estrutura hierárquica usando elementos e atributos.
- Auto-descritivo: as tags personalizadas descrevem a natureza dos dados, tornando o documento auto-explicativo.
- Extensível: podemos criar suas próprias tags para atender às necessidades específicas de seus dados.

### Manipulando XML

Python fornece várias bibliotecas para trabalhar com XML, como xml.etree.ElementTree, que é uma parte da biblioteca padrão e fornece funcionalidades para analisar e criar dados XML.


## Parquet

Parquet é um formato de arquivo colunar otimizado para o uso com sistemas de processamento de dados de Big Data, como Hadoop e Spark. 

Desenvolvido inicialmente pela Cloudera e Twitter, ele é projetado para ser altamente eficiente tanto em termos de armazenamento quanto de desempenho de leitura, especialmente para dados de análise complexa. O formato 

**Uso em Engenharia de Dados**

Em engenharia de dados, o formato Parquet é particularmente útil para:

- Armazenar e processar grandes volumes de dados de forma eficiente.
- Realizar análises e consultas complexas em grandes datasets.
- Integrar dados com ecossistemas de Big Data, como plataformas de análise em nuvem e sistemas de processamento distribuído.