# Arquivos

* Como ler dados de um arquivo do computador e como salvar dados do programa em um arquivo.

In [2]:
# Entrada / saída de dados via terminal:

dados = input("Digite alguma coisa: ")
print("Você digitou: " + dados)

Digite alguma coisa: dd
Você digitou: dd


## Arquivos de texto

In [None]:
# Para utilizar comandos Linux no Colab usa ! <comando> ou %<comando>:
! pwd
%pwd

%mkdir data  # Ou acessando a barra lateral clica em 'criar pasta'
%ls

%cd data  # Para entrar em um diretório precisa usar % pq ! sai depois da execução

/content
mkdir: cannot create directory ‘data’: File exists
[0m[01;34mdata[0m/  [01;34msample_data[0m/
/content/data


In [None]:
%cd ..
%rm -fr data

/content


In [None]:
%ls

[0m[01;34msample_data[0m/


### Abrindo e fechando um arquivo

* Sintaxe:

```
open(filename, mode)
```

* Modos (*mode*):
  * 'r': *reading* (leitura)
  * 'w': *write* (escrita)
  * 'a': *append* (anexar dados a um arquivo já existente)
  * 'r+': leitura/escrita

* Alguns métodos úteis:
  * **filename.name**: retorna o nome do arquivo
  * **filename.mode**: retorna o modo em que o arquivo foi aberto
  * **filename.closed**: retorna True ou False caso o arquivo tenha sido fechado ou não
  * **filename.close()**: fecha o arquivo

In [3]:
infile = '/content/data/data1.txt'  # Nome do arquivo a ser lido

file1 = open(infile, 'r')

print( file1, type(file1) )

print()
print( "Nome do arquivo:", file1.name )
print( "Modo...........:", file1.mode )
print( "Fechado?.......:", file1.closed )
print()

file1.close()  # Fechar o arquivo: depois que fecha não é possível acessar os dados do arquivo

print( file1, type(file1) )
print()

# Mesmo depois de fechado as informações sobre o arquivo continuam armazenadas,
# a diferença está no closed que retorna True; não é possível ler mais o arquivo
print( "Nome do arquivo:", file1.name )
print( "Modo...........:", file1.mode )
print( "Fechado?.......:", file1.closed )

FileNotFoundError: ignored

### Abrindo e fechando um arquivo com 'with'

* Sintaxe:

```
with open(filename, mode) as file:
  suíte de manejo dos dados do arquivo
```

* Garante que o arquivo seja fechado após o uso.

In [4]:
infile = '/content/data/data1.txt'

with open(infile, 'r') as file1:
  print( "Nome do arquivo:", file1.name )
  print( "Modo...........:", file1.mode )
  print( "Fechado?.......:", file1.closed )  # Dentro do with, está aberto

print()
print( "Fechado?.......:", file1.closed )    # Após o with, está fechado

FileNotFoundError: ignored

### Lendo um arquivo texto

* **file.read()**: lê até final do arquivo
* **file.read(n)**: lê os n primeiros caracteres do arquivo
* **file.readline()**: lê até uma nova linha (\n)
* **file.readlines()**: lê todas as linhas com cada uma sendo um elemento de uma lista

In [None]:
# Modo 1: lendo iterativamente
infile = '/content/data/data1.txt'

with open(infile, 'r') as file1:
  for linha in file1:
    print(linha)                   # Lê até encontrar uma nova linha

Primeira linha.

Segunda linha.

Terceira linha.


In [None]:
# Modo 2: lendo todo o conteúdo de uma vez
infile = '/content/data/data1.txt'

with open(infile, 'r') as file1:
  conteudo = file1.read()         # Lê até final do arquivo

print(conteudo)
print(len(conteudo))              # \n conta como 1 caractere pro len()

Primeira linha.
Segunda linha.
Terceira linha.
46


In [None]:
# Modo 3: lendo um número específico de caracteres
infile = '/content/data/data1.txt'

with open(infile, 'r') as file1:
  print( file1.read(5) )          # Lê os 5 primeiros caracteres do arquivo
  print( file1.read(4) )          # Continua de onde parou
  print( file1.read(24) )

Prime
ira 
linha.
Segunda linha.
Te


In [None]:
# Modo 4: lendo uma linha por vez
infile = '/content/data/data1.txt'

with open(infile, 'r') as file1:
  print( file1.readline() )       # Para no \n (com ela)
  print( file1.readline() )       # Continua de onde parou
  print( file1.readline() )
  print( '*' + file1.readline() + '*' ) # Retorna nada pq não tinha nada

Primeira linha.

Segunda linha.

Terceira linha.
**


In [None]:
# Modo 5: lendo todas as linhas --> lista
infile = '/content/data/data1.txt'

with open(infile, 'r') as file1:
  lista = file1.readlines()       # .readlines != .readline

print(lista)  # Fica evidente agora o \n como um caractere 

['Primeira linha.\n', 'Segunda linha.\n', 'Terceira linha.']


### Escrevendo em um arquivo texto

* **file.write()**
* **file.writelines()**: escreve como linhas elementos de uma lista.

In [None]:
# Usando o método .write()
# Ele escreve logo após o último caractere, por isso não houve quebra de linha
outfile = '/content/data/out1.txt'

with open(outfile, 'w') as file2:
  file2.write("Linha número 1")
  file2.write("Linha número 2")
  file2.write("Linha número 3")

In [None]:
%cd data

[Errno 2] No such file or directory: 'data'
/content


In [None]:
%ls
%cat out1.txt

[0m[01;34msample_data[0m/
cat: out1.txt: No such file or directory


In [None]:
# Usando o método .write():
# Para quebrar a linha é preciso escrever \n
outfile = '/content/data/out2.txt'

with open(outfile, 'w') as file2:
  file2.write("Linha número 1\nLinha número 1\n")
  file2.write("Linha número 2\n")
  file2.write("Linha número 3\n")
  file2.write("Linha número 4")

with open(outfile, 'r') as file2:
  print( file2.read() )

Linha número 1
Linha número 1
Linha número 2
Linha número 3
Linha número 4


In [None]:
# Usando o método .write():
# Escrevendo o conteúdo de uma lista em um arquivo
outfile = '/content/data/out3.txt'

# Gerando dados:
lista = ['Hidrogênio\n', 'Hélio\n', 'Boro\n']

with open(outfile, 'w') as file2:
  file2.writelines(lista)

with open(outfile, 'r') as file2:
  print( file2.read() )

Hidrogênio
Hélio
Boro



## Arquivos numéricos

* Transformar dois vetores x, y em uma matriz cuja primeira coluna é x e a segunda é y:
  * **np.array( [x, y] ).T**
  * **np.column_stack( [x, y] )**

* Escrevendo/lendo em arquivos com NumPy (não precisa abrir e fechar o arquivo):
  * **np.savetxt(outfile, dados, delimiter=' ')**
  * **np.loadtxt(infile, delimiter=' ')**

### Salvando dados numéricos em um arquivo

In [None]:
# Salvando dados numéricos no formato CSV: np.savetxt()
# CSV = Comma-Separated Values (é compatível com planilhas p.e. excel)
import numpy as np

# Gerando dados:
x = np.arange(-10, 11, 1)
y = x**2

# Modo 1:
dados = np.column_stack( [x, y] )

# Modo 2:
dados = np.array( [x, y] ).T

# Com a função np.savetxt() não é preciso abrir o arquivo pq ela faz
outfile = '/content/data/npdata1.csv'
np.savetxt(outfile, dados, delimiter=',')

In [None]:
# Lendo o conteúdo com open() e read():
with open(outfile, 'r') as file3:
  print( file3.read() )

-1.000000000000000000e+01,1.000000000000000000e+02
-9.000000000000000000e+00,8.100000000000000000e+01
-8.000000000000000000e+00,6.400000000000000000e+01
-7.000000000000000000e+00,4.900000000000000000e+01
-6.000000000000000000e+00,3.600000000000000000e+01
-5.000000000000000000e+00,2.500000000000000000e+01
-4.000000000000000000e+00,1.600000000000000000e+01
-3.000000000000000000e+00,9.000000000000000000e+00
-2.000000000000000000e+00,4.000000000000000000e+00
-1.000000000000000000e+00,1.000000000000000000e+00
0.000000000000000000e+00,0.000000000000000000e+00
1.000000000000000000e+00,1.000000000000000000e+00
2.000000000000000000e+00,4.000000000000000000e+00
3.000000000000000000e+00,9.000000000000000000e+00
4.000000000000000000e+00,1.600000000000000000e+01
5.000000000000000000e+00,2.500000000000000000e+01
6.000000000000000000e+00,3.600000000000000000e+01
7.000000000000000000e+00,4.900000000000000000e+01
8.000000000000000000e+00,6.400000000000000000e+01
9.000000000000000000e+00,8.1000000000000

In [None]:
# Lendo o conteúdo com np.loadtxt()
import numpy as np

infile = '/content/data/npdata1.csv'
dados1 = np.loadtxt(infile, delimiter=',')

print(dados1)

[[-10. 100.]
 [ -9.  81.]
 [ -8.  64.]
 [ -7.  49.]
 [ -6.  36.]
 [ -5.  25.]
 [ -4.  16.]
 [ -3.   9.]
 [ -2.   4.]
 [ -1.   1.]
 [  0.   0.]
 [  1.   1.]
 [  2.   4.]
 [  3.   9.]
 [  4.  16.]
 [  5.  25.]
 [  6.  36.]
 [  7.  49.]
 [  8.  64.]
 [  9.  81.]
 [ 10. 100.]]


## Dados numéricos em formato binário (.npy)

* O formato binário já tem tamanho menor do que o txt porque não precisa representar o dígito (para consumo humano): o número já é escrito na forma binária diretamente (para consumo da máquina).

* A leitura será mais se o arquivo for grande.

* Não é facilmente compreendido por pessoas.

* O formato no Python é chamado **npy**, então é recomendado que o arquivo tenha essa extensão.

* Transformar dois vetores x, y em uma matriz cuja primeira coluna é x e a segunda é y:
  * **np.array( [x, y] ).T**
  * **np.column_stack( [x, y] )**

* Escrevendo/lendo em arquivos com NumPy (não precisa abrir e fechar o arquivo):
  * **np.save(outfile, dados)**
  * **np.load(infile)**

In [None]:
# Salvando os dados em formato binário:
import numpy as np

# Gerando dados
x = np.arange(-10, 11, 1)
y = x**2

dados = np.column_stack( [x, y] )

outfile = '/content/data/npdata2.npy'
np.save(outfile, dados)

In [None]:
# Lendo dados binários em formato *.npy
import numpy as np

infile = '/content/data/npdata2.npy'

dados = np.load(infile)  # np.load() converte para formato txt

print(dados)

[[-10 100]
 [ -9  81]
 [ -8  64]
 [ -7  49]
 [ -6  36]
 [ -5  25]
 [ -4  16]
 [ -3   9]
 [ -2   4]
 [ -1   1]
 [  0   0]
 [  1   1]
 [  2   4]
 [  3   9]
 [  4  16]
 [  5  25]
 [  6  36]
 [  7  49]
 [  8  64]
 [  9  81]
 [ 10 100]]


## Dados numéricos em formato binário comprimido (.npz)

* Para quando se trabalha com uma enorme quantidade de dados.

* Transformar dois vetores x, y em uma matriz cuja primeira coluna é x e a segunda é y:
  * **np.array( [x, y] ).T**
  * **np.column_stack( [x, y] )**

* Escrevendo/lendo em arquivos com NumPy (não precisa abrir e fechar o arquivo):
  * **np.savez_compressed(outfile, dados)**
  * **np.load(infile)** (a leitura retorna um dicionário e os dados estão armazenados na chave **'arr_0'**.

In [None]:
# Salvando os dados em formato binário comprimido:
import numpy as np

# Gerando dados
x = np.arange(-10, 11, 1)
y = x**2

dados = np.array( [x, y] ).reshape(-1,2)

outfile = '/content/data/npdata2.npz'
np.savez_compressed(outfile, dados)

In [None]:
# Lendo (carregando) dados de um arquivo *.npz:
import numpy as np

infile = '/content/data/npdata2.npz'

dados_dict = np.load(infile)  # É um dicionário
dados = dados_dict['arr_0']   # Os dados estão na chave 'arr_0'

print(dados)

[[-10  -9]
 [ -8  -7]
 [ -6  -5]
 [ -4  -3]
 [ -2  -1]
 [  0   1]
 [  2   3]
 [  4   5]
 [  6   7]
 [  8   9]
 [ 10 100]
 [ 81  64]
 [ 49  36]
 [ 25  16]
 [  9   4]
 [  1   0]
 [  1   4]
 [  9  16]
 [ 25  36]
 [ 49  64]
 [ 81 100]]


* Existe também a biblioteca **Pandas** que possui recurso para salvar/ler dados em formato de tabelas.