#  Manipulação de Arquivos e  Pandas

### Arquivos

- Arquivo é um conjunto de dados.
- Identificados por um caminho (absoluto/relativo)
- Ao contrário de valores de variáveis, os arquivos são persistentes
- Para o sistema operacional um arquivo é  uma sequência de bytes
- Suportes físicos: discos magnéticos, memórias flash, CD-Rs e etc.

**1.  Métodos sobre arquivos**
- Inicialmente, como já foi ensinado em aulas anteriores, vamos criar um arquivo de texto que será utilizado nos próximos exemplos.

In [15]:
%%writefile texto.txt
Mas o que quer dizer este poema? - perguntou-me alarmada a boa senhora.
E o que quer dizer uma nuvem? - respondi triunfante.
Uma nuvem - disse ela - umas vezes quer dizer chuva, outras vezes bom tempo...

Mario Quintana

Writing texto.txt


- Também é possível manipular arquivos em modo csv. Veja o exemplo abaixo de uma matriz de dados numéricos.

In [16]:
%%writefile matriznum.csv
18576 182383 18383 18383
18383 183838 18338 19933
17273 173773 18283 18283

Writing matriznum.csv


- Ao abrirmos o arquivo de matriznum, encontramos:

In [7]:
!more matriznum2.csv

18576 182383 18383 18383
18383 183838 18338 19933
17273 173773 18283 18283


**2. Métodos sobre arquivos**

- **f.write(str)**: escrever uma cadeia;
- **f.read()**: lê todo o conteudo (uma “string”);
- **f.read(n)**: lê apenas n caracteres;
- **f.readline()**: lê uma linha de texto;
- **f.close()**: terminar leitura/escrita no arquivo;

- A função ***open()*** retorna um objeto da classe file, que permite fazer a leitura e escrita em arquivos das mais diversas formas. Na sua forma padrão, o arquivo é aberto somente para leitura.

- Podemos definir o modo como esse arquivo pode ser aberto: Em **’r’**  temos somente leitura (arquivo deve já existir). No modo **’w’** escrita (se o arquivo já existir: remove o conteúdo) e **’a’** escrita (se o arquivo já existir: acrescenta ao final).
- Veja o exemplo a seguir:

- A seguir podemos ver um exemplo de escrita e leitura de um arquivo:

In [17]:
f = open("test.dat", "w")
f.write("Ola mundo!\n")
f.write("Adeus mundo...\n")
f.close()

In [18]:
!more test.dat


Ola mundo!
Adeus mundo...


In [19]:
f = open("test.dat", "r")
txt = f.read()
txt


'Ola mundo!\nAdeus mundo...\n'

In [20]:
f=open("test.dat","a")
txt=f.write("Mais uma linha")
f.close()

In [21]:
!more test.dat

Ola mundo!
Adeus mundo...
Mais uma linha


## Forma Alternativa


In [8]:
with open('matriznum.csv', 'r') as f:
    print(f.read())

18576 182383 18383 18383
18383 183838 18338 19933
17273 173773 18283 18283


In [2]:
with open('texto.txt', 'r') as f:
    print(f.read())

Mas o que quer dizer este poema? - perguntou-me alarmada a boa senhora.
E o que quer dizer uma nuvem? - respondi triunfante.
Uma nuvem - disse ela - umas vezes quer dizer chuva, outras vezes bom tempo...

Mario Quintana


**3. arquivos de texto vs. binários**

- arquivos de texto: contêm apenas caracteres imprimíveis e espaços, tabulação, etc.
- arquivos binários: imagens JPEG, audio MP3, programas, etc.
- Por omissão: open assume que o arquivos é de texto
- Em linux/unix: não há diferença essencial entre os arquivos de texto e binários; ambos podem ser processados – abertos, lidos, escritos. . . – da mesma forma.

**4. Diretórios**
- Quando você cria um novo arquivo abrindo-o e escrevendo nele, o novo arquivo fica no diretório corrente (seja lá onde for que você esteja quando rodar o programa). Do mesmo modo, quando você abre um arquivo para leitura, Python procura por ele no diretório corrente.

- Se você quiser abrir um arquivo que esteja em algum outro lugar, você tem que especificar o caminho (path) para o arquivo, o qual é o nome do diretório (ou folder) onde o arquivo está localizado:

```python
f = open("Documments/pasta/arquivo", "r")
print f.readline()
```

In [22]:
!ls

Aula8.ipynb  matriznum.csv  test.dat  texto.txt


In [24]:
with open("matriznum.csv","r") as f:
    lines=f.readlines()

In [26]:
lines

['18576 182383 18383 18383\n',
 '18383 183838 18338 19933\n',
 '17273 173773 18283 18283']

In [25]:
for line in lines:
    print(line.split())

['18576', '182383', '18383', '18383']
['18383', '183838', '18338', '19933']
['17273', '173773', '18283', '18283']


### Exercícios

1. Crie 12 arquivos, chamados de 'arq_mes_estação.txt'. Cada um deles contendo a frase: "A minha estação predileta é 'estação', especialmente 'mês'"  repetida um número aleatório de vezes, entre 5 e 20. 
2. Comprima essas arquivos usando o comando gzip. 

## Pandas

### Manipulação de dados com "Pandas"

- Pandas nos permite carregar o dados muito facilmente, explorar as variáveis, e fazer gráficos com matplotlib.
- Este pacote fornece estruturas de dados e funções ricas projetadas para tornar o trabalho dados estruturados rápidos, fáceis e expressivos. E, como você verá, um dos ingredientes críticos permitindo que o Python seja um ambiente de análise de dados poderoso e produtivo.

**1. Introdução a estrutura de dados**
- Para começar com pandas, você precisará se sentir confortável com suas estruturas de dados: `Series` e `DataFrame`. Embora não sejam uma solução universal para problema, eles fornecem uma base sólida e fácil de usar para a maioria das aplicações.

**1.1 `Series`**
- A Series é um objeto de tipo matriz unidimensional contendo uma matriz de dados  e uma matriz associada de rótulos de dados, chamado seu índice. A série mais simples é formada apenas a partir de uma matriz de dados.

In [28]:
import pandas as pd

In [29]:
obj = pd.Series([4, 7, -5, 3])

In [61]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

- A representação de sequência de caracteres de uma série exibida interativamente mostra o índice à esquerda e os valores à direita. Como não especificamos um índice para os dados, é criado um padrão consistindo nos inteiros 0 a N-1 (onde N é o comprimento dos dados). Você pode obter a representação de matriz eo objeto de índice da Série por meio de seus valores e atributos de índice, respectivamente:

In [30]:
obj.values

array([ 4,  7, -5,  3])

In [31]:
obj.index

RangeIndex(start=0, stop=4, step=1)

- Muitas vezes, será desejável criar uma Série com um índice identificando cada ponto de dados:

In [41]:
obj2 = pd.Series([4, 7, -5,4, 3], index=['d', 'bbb', 'a', 'ffff','c c'])

In [33]:
obj2

d      4
bbb    7
a     -5
c      3
dtype: int64

- Existem pelo menos 3 maneiras de acessar os elementos de uma série:

In [35]:
obj2['a'] # acessando pela chave usando a notação de dicionários

-5

In [36]:
obj2.a # acessando pela chave usando a notação de objetos de uma classe

-5

In [37]:
obj.iloc[2] # acessando pela posição

-5

In [43]:
obj2['c c']

3

### Operações com `Series`

In [44]:
obj2 * 2

d        8
bbb     14
a      -10
ffff     8
c c      6
dtype: int64

In [46]:
obj2

d       4
bbb     7
a      -5
ffff    4
c c     3
dtype: int64

In [45]:
l=[1,2]
2*l

[1, 2, 1, 2]

In [47]:
obj2>0

d        True
bbb      True
a       False
ffff     True
c c      True
dtype: bool

In [48]:
obj2[obj2>0] # seleciona os positivos`

d       4
bbb     7
ffff    4
c c     3
dtype: int64

**Exercícios:**

1. Construa um objeto Series com o nome de alguns times e o número de mundiais conquistados. 
2. Selecione os que possuem mais de 1 mundial
3. Construa uma objeto Series com os valores em reais do preço de 10 produtos. Gere um novo objeto com os 
valores acima de R$ 10,00 e com valores em dólares.


4. Descubra para que serve o comando where https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.where.html#pandas.Series.where
5. Crie um objeto Series com base na lista de preços cujos elementos sejam 1 se o preço for maior do que R$10,00
e zero nos demais casos. 