# <span style="color:#336699">CAP394 - Introduction to Data Science [<img src="./img/logo.png" alt="CAP394 - Introduction to Data Science" style="height: 35px;" align="right">](http://www.lac.inpe.br/~rafael.santos/cap394.html)</span>
<hr style="border:2px solid #0077b9;">

# <span style="color:#336699">Manipulação de Arquivos</span>


[<img src="https://upload.wikimedia.org/wikipedia/commons/8/82/Text-x-python.svg" alt="Python IO" style="height: 175px;" align="right">](https://docs.python.org/3/tutorial/inputoutput.html)

Professores:
- Rafael Santos
- Gilberto Ribeiro de Queiroz

Colaborador:
- Vitor Gomes

# Introdução
<hr style="border:1px solid #0077b9;">

O Python possui funcionalidades nativas para a manipulação de arquivos. Basicamente o processo o fluxo para a manipulação de arquivos em Python segue a mesma abordagem utilizada em outras linguagens, onde é feita a abertura do arquivo (**open**), a leitura (**read**) ou escrita (**write**) e então o fechamento (**close**) do arquivo. 

# 2. Abrindo um arquivo
<hr style="border:1px solid #0077b9;">

A função **open()** é responsável por fazer a abertura do arquivo. Frequentemente ela é utilizada passando dois argumentos *open(**filename**, **mode**)*. Ao abrir com sucesso um arquivo, essa função retorna um `file object`. Alguns modos de abertuda de arquivo disponíveis são:
- **r**: leitura;
- **w**: escrita;
- **a**: adição (appending);
- **r+** ou **w+**: leitura e escrita.
- **b**: modo binário

Em [fopen](http://www.manpagez.com/man/3/fopen/) é possível obter mais detalhes outros modos.

In [None]:
# Abrindo arquivo para leitura
f = open('dados/file1.txt', 'r')

# Imprimindo o objeto file
print(f)

# 3. Fechando um arquivo
<hr style="border:1px solid #0077b9;">

É recomendável realizar o fechamento dos arquivos que não serão mais utilizados através do método **close**. Neste momento, a aplicação libera os recursos requisitas e possíveis dados ainda não gravados são descarregados para o arquivo. Apesar do Python automaticamente fechar o arquivo quando a referência para o objeto é desfeita, é uma boa prática usar o método **close()** ao encerrar o uso de um arquivo. 

Sobre outros modos de 'fechar' um arquivo: [Is necessary to use close()?](https://stackoverflow.com/a/1832589).

In [None]:
f = open('dados/file3.txt', 'r')

# do something 

f.close()

Para saber se um arquivo está aberto ou fechado, utilize:

In [None]:
f = open('dados/file3.txt', 'r')
#f.close()

if f.closed:
    print('File is closed')
else:
    print('File is opened')

# 4. Leitura de arquivos
<hr style="border:1px solid #0077b9;">

O `file object`  possui o método **read()** que permite a leitura do conteúdo do arquivo. Se não forem passados argumentos, ela fará a leitura de todo o arquivo:

In [None]:
f = open('dados/file1.txt', 'r')
conteudo = f.read()

print(conteudo)

f.close()

Para ler o conteúdo do arquivo por blocos, é possível indicar para o método **read** o número de bytes que se deseja ler:

In [None]:
f = open('dados/file1.txt', 'r')

# Observe que a quebra de linha (\n) também é contada
conteudo = f.read(10)
print(conteudo)

f.close()

## 4.1. Lendo um arquivo linha a linha
<hr style="border:1px solid #0077b9;">

É possível realizar a leitura linha a linha de um arquivo de texto em Python através do método  **readline()**:

In [None]:
f = open('dados/file1.txt', 'r')

print(f.readline())
print(f.readline())

f.close()

A leitura linha a linha também pode ser feita iterando o `file object` em um *loop*: 

In [None]:
f = open('dados/file1.txt', 'r')

for line in f:
    print(line)

f.close()

É possível ler e armazenar todas as linhas de um arquivo em uma lista através da função **readlines()**:

In [None]:
f = open('dados/file1.txt', 'r')

lines = f.readlines()

print(type(lines))
print("Total lines: {} \n".format(len(lines)))

for line in lines:
    print(line)

f.close()

# 5. Escrita em arquivos
<hr style="border:1px solid #0077b9;">

O `file object` possui o método **write(string)** para a realizar a escrita de dados em um arquivo. Este método aceita uma *string* como argumento:

In [None]:
f = open('dados/file2.txt', 'w')

f.write('Introduction to Data Science!!!')

f.close() 

In [None]:
f = open('dados/file2.txt', 'r')

print(f.read())

f.close() 

Lembre-se de converter para string o conteúdo antes de escrever em arquivo:

In [None]:
value = ['my string', 42, 10+5j, 1./3.0]

f = open('dados/file2.txt', 'a+')

value = str(value)
f.write(value)

f.close()

In [None]:
f = open('dados/file2.txt', 'r')

print(f.read())
f.close()

# 6. Movendo posição de leitura/escrita em arquivos
<hr style="border:1px solid #0077b9;">

A função **seek(ofset, from_what)** pode ser usada para mudar a posição atual de leitura/escrita em um arquivo. A nova posição é calculada adicionando *offset** ao *from_what*. Os valores possível para *from_what* são:
 - **0**: início do arquivo;
 - **1**: posição atual
 - **2**: final do arquivo
 
 Obs: Em Python 3 somente é permitido o uso do modo **2** em arquivos abertos em modo binário (b)

In [None]:
f = open('dados/file3.txt', 'rb+')

f.write(b'Introduction to Data Science')

f.seek(16,0)      # move 16 bytes a partir do inicio 

print(f.read())

In [None]:
f.seek(-7, 2)  # volta 7 bytes a partir do final do arquivo
print(f.read())

f.close()

Alterando parte do arquivo:

In [None]:
f = open('dados/file3.txt', 'rb+')

f.seek(-7, 2)  # volta 12 bytes a partir do final do arquivo
f.write(b'Mining')

#f.truncate(27)

f.seek(0,0)
print(f.read())

# 7. Uso do *with*
<hr style="border:1px solid #0077b9;">

O **with** é usado para garantir finalização de recursos adquiridos. Ao usar em conjunto com a abertura de um arquivo é garantido que ao final do bloco *with* o `file object` é encerado e, consequentemente, o arquivo é fechado automaticamente pelo Python.

Ele pode ser usado da seguinte forma com na manipulação de arquivos:

In [None]:
with open("dados/file1.txt") as file:
    for line in file:
        print(line)

OBS: Com o uso do **with** não é necessário usar a função **close()**

# 8. Manipulação de arquivos CSV
<hr style="border:1px solid #0077b9;">

O módulo que implementa classes para a leitura e escrita de dados em formato CSV em Python é o **csv**. Mais informações sobre esse módulo podem sem encontradas [aqui](https://docs.python.org/3/library/csv.html).

Para usar o módulo **csv**, importe-o da seguinte forma:

In [None]:
import csv

## 8.1. Lendo um CSV
<hr style="border:1px solid #0077b9;">

O módulo **csv** fornece o método **reader(file)** para a leitura dos dados. De maneira simples, pode ser usada da seguinte forma:

In [None]:
with open('dados/simple.csv', 'r') as fcsv:
    csvreader = csv.reader(fcsv)
    for row in csvreader:
        print(row)

Diversas opções estão disponíveis no método reader(), entre elas a possibilidade de especificar o delimitador utilizado no arquivo csv:

In [None]:
with open('dados/simple_ponto_virgula.csv', 'r') as fcsv:
    csvreader = csv.reader(fcsv, delimiter=';')
    for row in csvreader:
        print(row)

## 8.2. Lendo um CSV
<hr style="border:1px solid #0077b9;">

O módulo **csv** fornece o método **writer(file)** para a escrita de dados em um arquivo csv. De maneira simples, pode ser usada da seguinte forma:

In [None]:
with open('dados/simple2.csv', 'w') as fcsv:
    csvwriter = csv.writer(fcsv)
    dados = ['4','Jones','44']
    csvwriter.writerow(dados)

## 8.2. Acessando arquivo CSV através de estrutura de dicionário
<hr style="border:1px solid #0077b9;">

O módulo csv fornece o método **DictReader** para a realização de leitura dos dados em um dicionário de dados:

In [None]:
with open('dados/simple.csv','r') as fcsv:
    csvreader = csv.DictReader(fcsv)

    for row in csvreader:
        print("#{}: {}, {} anos".format(row['ID'], row['Name'], row['Age']))

A criação de um CSV a partir de um dicionário pode é feita através do método **DictWriter**:

In [None]:
fields= ['ID','Age','Name']
users = [
            {'Age': '11', 'ID': '1', 'Name': 'Smith'},
            {'Age': '22', 'ID': '2', 'Name': 'Johnson'},
            {'Age': '33', 'ID': '3', 'Name': 'Williams'}
        ]

with open('dados/simple3.csv','w') as fcsv:
    csvwriter = csv.DictWriter(fcsv, fieldnames=fields)

    csvwriter.writeheader()
    for user in users:
        csvwriter.writerow(user)

Lendo o CSV recém criado:

In [None]:
with open('dados/simple3.csv','r') as fcsv:
    csvreader = csv.DictReader(fcsv)
    for row in csvreader:
        print("#{}: {}, {} anos".format(row['ID'], row['Name'], row['Age']))

# 9. Lendo os dados do exercício de CAP394
<hr style="border:1px solid #0077b9;">

Lendo o conjunto de dados do primeiro exercício da disciplina CAP394 - Introduction to Data Science

In [None]:
records = []
with open('dados/defpatterns.missing.csv','r') as fcsv:
    csvreader = csv.DictReader(fcsv)

    for row in csvreader:
        records.append(row)

Listando as colunas:

In [None]:
for col in records[0]:
    print(col)

Apresentando as três primeiras linhas:

In [None]:
for index, record in zip(range(3),records):
    print("#{}".format(index))
    for key in record:
        print("{: <12}: {}".format(key, record[key]))
    print()