# Arquivos

Documentação https://docs.python.org/3/tutorial/inputoutput.html#reading-and-writing-files

O Python usa objetos de arquivo para interagir com arquivos externos no seu computador. Esses objetos de arquivo podem ser qualquer tipo de arquivo existente no seu computador, seja um arquivo de áudio, um arquivo de texto, emails, documentos do Excel etc. Nota: Você provavelmente precisará instalar determinadas bibliotecas ou módulos para interagir com os vários tipos de arquivo, mas eles estão facilmente disponíveis. (Abordaremos módulos posteriormente).

O Python possui uma função aberta integrada que nos permite abrir e brincar com tipos de arquivos básicos. Primeiro, precisaremos de um arquivo. Nós vamos usar um pouco de magia IPython para criar um arquivo de texto!

## IPython gravando um arquivo
#### Esta função é específica para notebooks jupyter! Como alternativa, crie rapidamente um arquivo .txt simples com um editor de texto sublime.

In [7]:
%%writefile arquivo.txt
Olá, isto é o conteúdo de um arquivo para dsciplina de python aplicado a ciência de dados

Overwriting arquivo.txt


## Python Abrindo um arquivo

Vamos abrir o arquivo arquivo.txt que está localizado no mesmo diretório deste notebook. Por enquanto, trabalharemos com arquivos localizados no mesmo diretório do notebook ou script .py que você está usando.

É muito fácil obter um erro nesta etapa:

In [3]:
myfile = open('arquivo.txt')

Para evitar esse erro, verifique se o arquivo .txt está salvo no mesmo local do notebook, para verificar a localização do notebook, use **pwd**:

In [4]:
pwd

'/Users/ricardojosemenezesmaia/Documents/Ricardo/Desenvolvimento/uniceub/PosGraduacaoLatoSensu/PosGraduacaoEmCienciaDeDadosMachineLearning/02_Modulo2GestaoDeDados/01_IntroducaoaPythonParaCienciaDeDados/01_CursoIntrodutorioPython/01_ObjetosPythonEstruturasDados/01_ObjetosEstruturasDadosBasicas'

** Como alternativa, para pegar arquivos de qualquer local do seu computador, basta passar o caminho inteiro do arquivo. **

No Windows, você precisa usar double \ para que o python não trate o segundo \ como um caractere de escape, um caminho de arquivo está no formato:

    meu_arquivo = open("C:\\Users\\ricardo\\Home\\pasta\\meu_arquivo.txt")

Para MacOS e Linux, você usa barras na direção oposta:

    meu_arquivo = open("/Users/ricardojosemenezesmaia/python/meu_arquivo.txt")

In [1]:
# Abra o texto.txt que criamos anteriormente
meu_arquivo = open('arquivo.txt')

In [2]:
# Agora podemos ler o arquivo
meu_arquivo.read()

'Olá, isto é o conteúdo de um arquivo para dsciplina de python aplicado a ciência de dados\n'

In [3]:
# Mas o que acontece se tentarmos lê-lo novamente?
meu_arquivo.read()

''

Isso acontece porque você pode imaginar que o "cursor" de leitura está no final do arquivo após a leitura. Portanto, não há mais nada para ler. Podemos redefinir o "cursor" assim:

In [4]:
# Procure o início do arquivo (índice 0)
meu_arquivo.seek(0)

0

In [5]:
# Agora iremos ler novamente
meu_arquivo.read()

'Olá, isto é o conteúdo de um arquivo para dsciplina de python aplicado a ciência de dados\n'

Você pode ler um arquivo linha por linha usando o método readlines. Tenha cuidado com arquivos grandes, pois tudo ficará na memória. Aprenderemos como iterar em arquivos grandes posteriormente neste curso.

In [7]:
# Readlines retorna uma lista das linhas no arquivo
meu_arquivo.seek(0)
meu_arquivo.readlines()

['Olá, isto é o conteúdo de um arquivo para dsciplina de python aplicado a ciência de dados\n']

Quando você termina de usar um arquivo, é sempre uma boa prática fechá-lo.

In [23]:
meu_arquivo.close()

## Escrevendo em um Arquivo

Por padrão, a função `open()` nos permitirá apenas ler o arquivo. Precisamos passar o argumento ``w`` para escrever sobre o arquivo. Por exemplo:

In [8]:
# Adicione um segundo argumento à função 'w', que significa write.
# Passar 'w+' permite ler e gravar no arquivo

meu_arquivo = open('arquivo.txt','w+')

### <strong><font color='red'>Tenha cuidado!</font></strong> 
Abrir um arquivo com ``w`` ou ``w+`` trunca o original, o que significa que tudo o que estava no arquivo original **é excluído**!

In [12]:
# Escrevendo no arquivo
meu_arquivo.write('Isto é uma nova linha\n')

21

In [15]:
# Lendo o arquivo
meu_arquivo.seek(0)
meu_arquivo.readlines()

['Isto é uma nova linhaIsto é uma nova linhaIsto é uma nova linha']

In [31]:
meu_arquivo.close()  # sempre faça isso quando terminar um arquivo

## Acrescentando novas linhas ao Arquivo
Passar o argumento ``a`` abre o arquivo e coloca o ponteiro no final, para que qualquer coisa escrita seja anexada. Como ``w+``, ``a+`` nos permite ler e gravar em um arquivo. Se o arquivo não existir, um será criado.

In [32]:
meu_arquivo = open('arquivo.txt','a+')
meu_arquivo.write('\nIsto é um texto sendo anexado a arquivo.txt')
meu_arquivo.write('\nE outra linha aqui.')

20

In [33]:
meu_arquivo.seek(0)
print(meu_arquivo.read())

Isto é uma nova linha
Isto é um texto sendo anexado a arquivo.txt
E outra linha aqui.


In [34]:
meu_arquivo.close()

### Acrescentando novas linhas com `%%writefile`
Podemos fazer o mesmo usando a magia de célula IPython:

In [35]:
%%writefile -a arquivo.txt

Este é o texto que está sendo anexado ao arquivo.txt
E outra linha aqui.

Appending to arquivo.txt


Adicione um espaço em branco se desejar que a primeira linha comece em sua própria linha, pois o Jupyter não reconhecerá seqüências de escape como `\n`

## Iterando através de um Arquivo

Permite obter uma visualização rápida de um loop for iterando sobre um arquivo de texto. Primeiro vamos criar um novo arquivo de texto com algum IPython Magic:

In [36]:
%%writefile arquivo.txt
Primeira linha
Segunda linha

Overwriting arquivo.txt


Agora podemos usar um pouco de fluxo para instruir o programa a percorrer todas as linhas do arquivo e fazer algo:

In [39]:
for linha in open('arquivo.txt'):
    print(linha)

Primeira linha

Segunda linha



Não se preocupe em entender isso ainda, pois os loops estão chegando em breve. Mas vamos detalhar o que fizemos acima. Dissemos que, para cada linha desse arquivo de texto, imprima essa linha. É importante observar algumas coisas aqui:

1. Poderíamos ter dado  o nome ao objeto "linha" de qualquer outro (veja o exemplo abaixo onde chamamos de asdf).
2. Ao não chamar `.read()` no arquivo, o arquivo de texto inteiro não foi armazenado na memória.
3. Observe o recuo na segunda linha para impressão. Esse espaço em branco é necessário no Python.

In [40]:
# Pertencente ao primeiro ponto acima
for asdf in open('arquivo.txt'):
    print(asdf)

Primeira linha

Segunda linha

