# Arquivos e Módulos

Este capítulo introduz a ideia de programas **“persistentes”** que mantêm os dados em armazenamento permanente e mostra como usar diferentes tipos de armazenamento permanente, como arquivos.


## Persistência

* A maioria dos programas que vimos até agora é **transitória**:
   * são executados por um curto período de tempo e produzem alguma saída, mas quando terminam, seus dados desaparecem. 
   * Se você executar o programa novamente, ele começa do zero.

* Outros programas são **persistentes**: 
   * são executados por um longo período (ou o tempo todo); 
   * mantêm pelo menos alguns dos seus dados em armazenamento permanente (um disco rígido, por exemplo); 
   * se eles desligarem e reiniciarem, eles continuam de onde pararam.
   

* Uma das formas mais simples de programas manterem seus dados é lendo e gravando arquivos de texto.
* Outra alternativa é o uso de banco de dados, porém não abordaremos esse assunto aqui.


## Leitura e escrita de arquivos

Um arquivo de texto é uma sequência de caracteres armazenados em um meio permanente, como um disco rígido, uma memória flash ou um CD-ROM. 

### Leitura de um arquivo de texto
Consideremos um arquivo já existente, 'dados_alunos.txt'
Para ler o arquivo, usamos a seguinte sintaxe

In [2]:
fin = open('dados_alunos.txt')
fin.readline()

'18\t1.68\t80\n'

O método .readline() se atualiza para cada linha lida:

In [3]:
fin.readline()

'18\t1.94\t60\n'

In [4]:
linha = fin.readline()
linha.strip()

'18\t1.7\t80'

##### Lendo um arquivo com várias colunas:

In [14]:
fin = open('dados_alunos.txt')
linhas = fin.readlines()
print (linhas)

['18\t1.68\t80\n', '18\t1.94\t60\n', '18\t1.7\t80\n', '18\t1.76\t66\n', '19\t1.73\t87.5\n', '18\t1.66\t58\n', '21\t1.8\t92\n', '18\t1.6\t57\n', '18\t1.67\t64\n', '18\t1.73\t57\n', '17\t1.73\t75\n', '18\t1.61\t59\n', '18\t1.69\t90\n', '17\t1.71\t67\n', '19\t1.78\t60\n', '22\t1.68\t72\n', '18\t1.7\t73\n', '19\t1.64\t86\n', '18\t1.64\t75\n', '20\t1.8\t95\n', '17\t1.75\t60\n', '18\t1.78\t75\n', '18\t1.75\t65\n', '17\t1.69\t60\n', '19\t1.78\t73\n', '18\t1.7\t63\n', '34\t1.75\t78\n', '18\t1.64\t64\n', '19\t1.75\t50\n', '18\t1.67\t61\n', '18\t1.7\t70\n', '20\t1.8\t60\n', '18\t1.63\t57\n', '23\t1.89\t110\n', '18\t1.71\t71\n', '18\t1.65\t65\n', '17\t1.72\t67\n', '19\t1.65\t58\n', '18\t1.75\t90\n', '18\t1.7\t64\n', '19\t1.81\t70\n', '19\t1.65\t43\n', '28\t1.52\t50\n', '19\t1.79\t78\n', '26\t1.79\t82\n', '19\t1.75\t61\n', '19\t1.8\t70\n', '20\t1.75\t70\n', '20\t1.73\t70\n', '19\t1.7\t50\n', '22\t1.78\t72\n', '19\t1.77\t55\n', '18\t1.53\t58\n', '28\t1.54\t50\n', '20\t1.83\t70\n', '44\t1.85\t90\n',

In [15]:
for line in linhas:
    #print (line)
    column = line.strip().split('\t')
    print (column)

['18', '1.68', '80']
['18', '1.94', '60']
['18', '1.7', '80']
['18', '1.76', '66']
['19', '1.73', '87.5']
['18', '1.66', '58']
['21', '1.8', '92']
['18', '1.6', '57']
['18', '1.67', '64']
['18', '1.73', '57']
['17', '1.73', '75']
['18', '1.61', '59']
['18', '1.69', '90']
['17', '1.71', '67']
['19', '1.78', '60']
['22', '1.68', '72']
['18', '1.7', '73']
['19', '1.64', '86']
['18', '1.64', '75']
['20', '1.8', '95']
['17', '1.75', '60']
['18', '1.78', '75']
['18', '1.75', '65']
['17', '1.69', '60']
['19', '1.78', '73']
['18', '1.7', '63']
['34', '1.75', '78']
['18', '1.64', '64']
['19', '1.75', '50']
['18', '1.67', '61']
['18', '1.7', '70']
['20', '1.8', '60']
['18', '1.63', '57']
['23', '1.89', '110']
['18', '1.71', '71']
['18', '1.65', '65']
['17', '1.72', '67']
['19', '1.65', '58']
['18', '1.75', '90']
['18', '1.7', '64']
['19', '1.81', '70']
['19', '1.65', '43']
['28', '1.52', '50']
['19', '1.79', '78']
['26', '1.79', '82']
['19', '1.75', '61']
['19', '1.8', '70']
['20', '1.75', '70']

## Escrita de um arquivo de texto

Para escrever um arquivo, você precisa abri-lo com o modo 'w' como segundo parâmetro:

In [21]:
fw = open('output.txt', 'w')

Se o arquivo já existir, abri-lo no modo de escrita limpa os dados antigos e começa de novo. Se o arquivo não existir, um novo será criado.


* ***open*** retorna um objeto de arquivo que fornece métodos para trabalhar com o arquivo. 
* O método ***write*** coloca dados no arquivo.

In [22]:
linha1 = fw.write('primeira linha do arquivo. \n')
linha2 = fw.write('segunda linha do arquivo. \n')
fw.close()

## Operador de formatação

O argumento do método ***write*** deve ser uma string, então, se quisermos colocar outros valores em um arquivo, temos que convertê-los em strings. A maneira mais fácil de fazer isso é com str.

In [26]:
fout = open('ex_aula13.txt', 'w')
x = 52
fout.write(str(x))

2

Uma alternativa é usar o operador de formatação,%. 
   * Quando aplicado a números inteiros,% é o operador de módulo. 
   * Quando o primeiro operando é uma string,% é o operador de formatação.


Por exemplo, a seqüência de formato '% d' significa que o segundo operando deve ser formatado como um inteiro decimal:

In [27]:
camels = 42
'%d' % camels
'42'

'42'

Uma seqüência de formato pode aparecer em qualquer lugar da string, então você pode inserir um valor em uma frase:

In [36]:
'Temos ainda pelo menos %i projeto antes do final de %4.1f' % (1, 2018.2) 

'Temos ainda pelo menos 1 projeto antes do final de 2018.2'

#### Outra forma de formatação é usando a função o método de string 'format':

In [43]:
'Temos ainda pelo menos {0} projeto antes do final de {1:4.1f}'.format(1, 2018.2)

'Temos ainda pelo menos 1 projeto antes do final de 2018.2'

## Nomes de arquivo e caminhos

Através do módulo ***os*** podemos ter acesso a informação sobre diretórios e arquivos: 

In [45]:
import os
cwd = os.getcwd()    #current working directory (diretório de trabalho)
cwd

'/Users/helenamalbouisson/cernbox/Work/UERJ/Aulas/PYTHON/2018-2/Python_intro/aulas'

O módulo ***os*** fornece vários métodos úteis de verificação de ***path*** e listagem de arquivos em um dado diretório:

In [47]:
os.path.abspath('ex_aula13.txt')

'/Users/helenamalbouisson/cernbox/Work/UERJ/Aulas/PYTHON/2018-2/Python_intro/aulas/ex_aula13.txt'

In [48]:
os.path.exists('ex_aula13.txt')

True

In [49]:
os.path.isdir('ex_aula13.txt')

False

In [50]:
os.path.isdir('/Users/helenamalbouisson/cernbox/Work/UERJ/Aulas/PYTHON/2018-2/Python_intro/aulas/')

True

In [51]:
os.path.isfile('ex_aula13.txt')

True

In [52]:
os.listdir(cwd)   # lista os arquivos e subdiretórios do diretório atual

['.ipynb_checkpoints',
 'aula10.ipynb',
 'aula11.ipynb',
 'aula12.ipynb',
 'aula13.ipynb',
 'aula1_o_que_e_python.ipynb',
 'aula2.ipynb',
 'aula3.ipynb',
 'aula4.ipynb',
 'aula5.ipynb',
 'aula6.ipynb',
 'aula7.ipynb',
 'aula8.ipynb',
 'aula9.ipynb',
 'dados_alunos.txt',
 'ex_aula13.txt',
 'output.txt',
 'pics']

## Capturando exceções

Há formas de prever e lidar com erros exceções. 

Alguns exemplos de exceções:

In [53]:
fin = open('bad_file')    # quando o arquivo não existe

FileNotFoundError: [Errno 2] No such file or directory: 'bad_file'

In [54]:
fout = open('/etc/passwd', 'w')  # quando não temos permissão de escrever no diretório

PermissionError: [Errno 13] Permission denied: '/etc/passwd'

In [55]:
fin = open('/home')  # tentativa de abrir um diretório para leitura

IsADirectoryError: [Errno 21] Is a directory: '/home'

**Para evitar esses erros, você poderia usar funções como *os.path.exists* e *os.path.isfile*, mas levaria muito tempo e código para verificar todas as possibilidades (se “Errno 21” for qualquer indicação, há pelo menos 21 coisas que podem dar errado).**

É melhor fazer uma tentativa e lidar com possíveis problemas. A declaração **try** faz isso!!!!

In [57]:
try:    
    fin = open('bad_file')
except:
    print('Algo de errado aconteceu.')

Algo de errado aconteceu.


* O Python começa executando a cláusula ***try***. 
   * Se tudo correr bem:
      * ele pula a cláusula ***except*** e continua. 
   * Se ocorrer uma exceção: 
      * ele sai da cláusula ***try*** e executa a cláusula ***except***.
      

* Manipular uma exceção com uma instrução ***try*** é chamado de **captura de uma exceção**. 

## Tubos (pipes)

A maioria dos sistemas operacionais fornece uma **interface de linha de comando**, também conhecida como **shell**. As shells geralmente fornecem comandos para navegar no sistema de arquivos e iniciar aplicativos.


Qualquer programa que você pode iniciar a partir da shell também pode ser iniciado a partir do Python usando um objeto **pipe**, que representa um programa em execução.

Por exemplo, o comando Unix *ls -l* exibe o conteúdo do diretório atual em formato longo. Você pode iniciar o *ls* com ***os.popen***:

In [61]:
cmd = 'ls -lh'
fp = os.popen(cmd)

* O argumento é uma string que contém um comando shell. 
* O valor de retorno é um objeto que se comporta como um arquivo aberto. 
* Você pode ler a saída do processo *ls* uma linha de cada vez com ***readline*** ou obter tudo de uma vez com ***read***:

In [60]:
fp.read()

'-rw-r--r--   1 helenamalbouisson  staff  17558 Nov  6 15:32 aula10.ipynb\n-rw-r--r--   1 helenamalbouisson  staff  15807 Nov 21 16:21 aula11.ipynb\n-rw-r--r--   1 helenamalbouisson  staff  21816 Nov 21 16:16 aula12.ipynb\n-rw-r--r--   1 helenamalbouisson  staff  20369 Nov 28 15:21 aula13.ipynb\n-rw-r--r--   1 helenamalbouisson  staff  24196 Sep 28 11:08 aula1_o_que_e_python.ipynb\n-rw-r--r--   1 helenamalbouisson  staff  39762 Oct  3 15:53 aula2.ipynb\n-rw-r--r--   1 helenamalbouisson  staff  16565 Oct 17 15:53 aula3.ipynb\n-rw-r--r--   1 helenamalbouisson  staff  26729 Oct 17 15:53 aula4.ipynb\n-rw-r--r--   1 helenamalbouisson  staff   1206 Oct 17 16:16 aula5.ipynb\n-rw-r--r--@  1 helenamalbouisson  staff  14441 Oct 24 16:02 aula6.ipynb\n-rw-r--r--   1 helenamalbouisson  staff  11958 Oct 24 16:33 aula7.ipynb\n-rw-r--r--   1 helenamalbouisson  staff  16115 Oct 26 12:49 aula8.ipynb\n-rw-r--r--   1 helenamalbouisson  staff  30268 Nov  6 10:43 aula9.ipynb\n-rw-r--r--@  1 helenamalbouisso

In [63]:
stat = fp.close()
print(stat)

None


O valor de retorno é o status final do processo ls; ***None*** significa que terminou normalmente (sem erros).

## Módulos de escrita

Qualquer arquivo que contenha código Python pode ser importado como um módulo. Por exemplo, suponha que você tenha um arquivo chamado wc.py com o seguinte código:

In [66]:
def linecount(filename):
    count = 0
    for line in open(filename):
        count += 1
    return count

print(linecount('wc.py'))

7


Se você executar este programa, ele lê a si mesmo e imprime o número de linhas no arquivo, que é 7. 

Você também pode importá-lo:

In [69]:
import wc

Agora temos um **objeto** wc com seus métodos associados.

In [70]:
wc.linecount('dados_alunos.txt')

57

* O único problema com este exemplo é que quando você importa o módulo, ele executa o código de teste na parte inferior. 

* Normalmente, quando você importa um módulo, ele define novas funções, mas não as executa.

Programas que serão importados como módulos geralmente usam o seguinte idioma:

In [71]:
if __name__ == '__main__':
    print(linecount('wc.py'))

7


__name__ é uma variável interna que é configurada quando o programa é iniciado. 

Se o programa estiver sendo executado como um script, __name__ tem o valor '__main__'; 

Nesse caso, o código de teste é executado. 

Caso contrário, se o módulo estiver sendo importado, o código de teste será ignorado.

## Exercícios:

1) Utilizando um arquivo de dados com várias colunas (por exemplo, o arquivo dados_alunos.txt), faça um histograma com os dados de cada uma das colunas. **Dica**: utilize o ***matplotlib*** para fazer os histogramas.

2) Estudo os métodos do módulo ***os*** e faça um script que liste todos os arquivos de um dado diretório assim como de seus subdiretórios. **Dica**: use o método ***walk***

3) Reescreva o script dessa aula, wc.py na forma de uma módulo. Qual o valor da variável __name__ quando o módulo é importado?