#  Manipulação de ficheiros e dados em Python

### Ficheiros

- Ficheiro é um conjunto de dados conexo ou arquivos.
- Identificados por um caminho (absoluto/relativo)
- Ao contrário de valores de variáveis, os ficheiros são persistentes
- Para o sistema operativo um ficheiro é sempre uma sequência de bytes
- Suportes físicos: discos magnéticos, memórias flash, CD-Rs e etc.

**1.  Métodos sobre ficheiros**
- Inicialmente, como já foi ensinado em aulas anteriores, vamos criar um arquivo de texto que será utilizado nos próximos exemplos.

In [26]:
%%writefile texto.txt
Mas o que quer dizer este poema? - perguntou-me alarmada a boa senhora.
E o que quer dizer uma nuvem? - respondi triunfante.
Uma nuvem - disse ela - umas vezes quer dizer chuva, outras vezes bom tempo...

Mario Quintana

Overwriting texto.txt


- A função ***open()*** retorna um objeto da classe file, que permite fazer a leitura e escrita em arquivos das mais diversas formas. Na sua forma padrão, o arquivo é aberto somente para leitura.

In [27]:
with open('texto.txt', 'r') as f:
    print(f.read())

Mas o que quer dizer este poema? - perguntou-me alarmada a boa senhora.
E o que quer dizer uma nuvem? - respondi triunfante.
Uma nuvem - disse ela - umas vezes quer dizer chuva, outras vezes bom tempo...

Mario Quintana


- Também é possível manipular arquivos em modo csv. Veja o exemplo abaixo de uma matriz de dados numéricos.

In [12]:
%%writefile matriznum.csv
18576 182383 18383 18383
18383 183838 18338 19933
17273 173773 18283 18283

Writing matriznum.csv


- Ao abrirmos o ficheiro de matriznum, encontramos:

In [14]:
with open('matriznum.csv', 'r') as f:
    print(f.read())

18576 182383 18383 18383
18383 183838 18338 19933
17273 173773 18283 18283


- Podemos definir o modo como esse arquivo pode ser aberto: Em **’r’**  temos somente leitura (ficheiro deve já existir). No modo **’w’** escrita (se o ficheiro já existir: remove o conteúdo) e **’a’** escrita (se o ficheiro já existir: acrescenta ao final).
- Veja o exemplo a seguir:

**2. Métodos sobre ficheiros**

- **f.write(str)**: escrever uma cadeia;
- **f.read()**: lê todo o conteudo (uma “string”);
- **f.read(n)**: lê apenas n caracteres;
- **f.readline()**: lê uma linha de texto;
- **f.close()**: terminar leitura/escrita no ficheiro;

- A seguir podemos ver um exemplo de escrita e leitura de uma arquivo:

In [28]:
f = open("test.dat", "w")
f.write("Ola mundo!")
f.write("Adeus mundo...")
f.close()

In [30]:
f = open("test.dat", "r")
txt = f.read()
txt


'Ola mundo!Adeus mundo...'

**3. Ficheiros de texto vs. binários**

- Ficheiros de texto: contêm apenas caracteres imprimíveis e espaços, tabulação, etc.
- Ficheiros binários: imagens JPEG, audio MP3, programas, etc.
- Por omissão: open assume que o ficheiros é de texto
- Em linux/unix: não há diferença essencial entre os ficheiros de texto e binários; ambos podem ser processados – abertos, lidos, escritos. . . – da mesma forma.

**4. Diretórios**
- Quando você cria um novo arquivo abrindo-o e escrevendo nele, o novo arquivo fica no diretório corrente (seja lá onde for que você esteja quando rodar o programa). Do mesmo modo, quando você abre um arquivo para leitura, Python procura por ele no diretório corrente.

- Se você quiser abrir um arquivo que esteja em algum outro lugar, você tem que especificar o caminho (path) para o arquivo, o qual é o nome do diretório (ou folder) onde o arquivo está localizado:

```python
 f = open("Documments/pasta/arquivo", "r")
   print f.readline()
```

### Manipulação de dados com "Pandas"

- Nesta primeira receita, vamos mostrar como realizar uma análise preliminar de um conjunto de dados com Pandas.
- Este é tipicamente o primeiro passo após obter acesso aos dados.
- Pandas nos permite carregar o dados muito facilmente, explorar as variáveis, e fazer parcelas básicas com matplotlib.
- Vamos dar uma olhada em um conjunto de dados contendo todos os jogos de ATP jogados por quatro jogadores de tênis até 2012. Aqui, vamos nos concentrar em Roger Federer. 
- Primeiramente iremos importar NumPy, pandas, e matplotlib:

In [39]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

- O conjunto de dados é um arquivo CSV, ou seja, um arquivo de texto com valores separados por vírgula. 
- Pandas permite nos carregar este arquivo com uma única função:

In [40]:
player = 'Roger Federer'
filename = "./cookbook-data/data/{name}.csv".format(name=player.replace(' ', '-')) 
df = pd.read_csv(filename)

OSError: File b'./cookbook-data/data/Roger-Federer.csv' does not exist