# Aula 10 - Manipulação de arquivos

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Arquivos em Python
- 2) Arquivos csv

_______

### Objetivos

Apresentar o conceito, importância e operacional do uso de arquivos em Python, explicitando como ler, modificar e escrever arquivos; <br>
Apresentar o conceito de CSV, e brevemente a biblioteca de i/o de csv - não focar muito na leitura/escrita, pois o pandas será utilizado para isso!

### Habilidades a serem desenvolvidas

Ao final da aula o aluno deve:

- Conhecer o conceito e importância do uso de arquivos;
- Saber como criar, modificar e ler arquivos;
- Conhecer sobre o formato csv e como trabalhar com ele.

____
____

## 1) Arquivos em Python

Todos os programas que fizemos até o momento tinham variáveis, input e output **temporários**, guardados na memória RAM do computador **enquanto o programa é executado**.

Após o programa ser finalizado, todas as variáveis, inputs e outputs eram perdidos.

Muitas vezes queremos que esses valores sejam armazenados, que os dados processados pelo programa sejam preservados. O termo para esta característica é **persistência de dados**.

A persistência se dá através de **arquivos**: documentos criados para **armazenar dados em uma memória permanente**, como o **disco rígido**, um **USB** ou um **servidor web**.

O Python têm algumas funções padrão para a manipulação de arquivos. Vamos vê-las!

A função `open()` é usada pra abrir arquivos existentes ou criar um arquivo novo. 

O primeiro argumento a ser passado é o caminho do arquivo, com seu nome (se apenas o nome do arquivo for passado, isso é interpretado como o arquivo estando na mesma pasta que o código!); e o segundo é o modo de operação. Os modos são:

- `r` -	lê um arquivo existente
- `w` -	cria um novo arquivo ou sobrescreve um existente
- `a` -	cria um novo arquivo ou adiciona informações ao seu final (append)
- `+` -	ao ser combinado com outros modos, permite alteração de arquivo já existente (ex: `r+` abre um arquivo existente e permite modificá-lo)

O argumento de **modo de operação não é obrigatório** e o Python assume o `r` como **default**.

O terceiro argumento é o "encoding", que dá a codificação do arquivo. 
O encoding é a representação dos caracteres no qual é atribuído um número diferente para cada um. Pra evitar problemas, é legal sempre usar `encoding="utf-8"`

In [189]:
arquivo = open("ola.txt", "w", encoding="utf-8")

Se analisarmos a variável "arquivo" (é o return da função "open"), note que há algumas coisas estranhas... É assim que o python entende seu arquivo, mas não precisa se preocupar com isso

In [35]:
arquivo

<_io.TextIOWrapper name='ola.txt' mode='w' encoding='utf-8'>

Uma vez aberto o arquivo, podemos escrever alguma coisa nele. Para isso, usamos a função `write()`

Essa função aceita apenas um argumento, que é o que você quer escrever no arquivo

In [190]:
arquivo.write("olá, mundo!!!!!!,")
arquivo.write("olá, let's code!")

16

Após abrirmos (ou criarmos) um arquivo, e fazer as operações desejadas com ele, devemos fechá-lo usando a função `close()`. Essa etapa é importante por 2 motivos:

- Se alteramos o arquivo mas não o fechamos, as alterações não serão salvas.
- Se esquecermos de fechar um arquivo, outros programas podem ter problemas de acesso a ele.

Por isso, **nunca se esqueca de fechar os arquivos abertos!**

In [37]:
arquivo.close()

__Fazendo todas as operações em uma única célula__

In [2]:
f = open("ola.txt", "w", encoding="utf-8")
f.write("olá, mundo!!!!!!")
f.write("olá, let's code!")

f.close()

Repare que os textos foram considerados como pertencentes a mesma linha. Para que ele interprete as linhas separadamente precisamos finalizar com um caracter especial denominado **EOL (End of Line)** como o `\n`. Eles indicam que a linha atual acabou e o início de uma nova linha.

In [3]:
arquivo = open("ola.txt", "w", encoding="utf-8")
arquivo.write("olá, mundo!!!!!!\n")
arquivo.write("olá, let's code!")
arquivo.close()

Vamos escrever mais algumas coisas no nosso arquivo...

Como o arquivo já existe, vamos tentar usar o modo "r"...

In [42]:
# como o arquivo já existe, vamos usar o modo de leitura, "r"
arquivo = open("ola.txt", "r", encoding="utf-8")

arquivo.write('Minha segunda frase') 

arquivo.close()

UnsupportedOperation: not writable

Note que encontramos um erro, pois o modo "r" permite **apenas a leitura do arquivo**

Se queremos escrever algo nele, usamos o "r+"

In [50]:
# modo r+, pra poder escrever no arquivo
arquivo = open("ola.txt", "r+", encoding="utf-8")

arquivo.write('Minha') 

arquivo.close()


Note, no entanto, que se usarmos o modo "r+", o write substitui o conteúdo anterior da primeira linha do arquivo!

Para corrigir isso, usamos o modo "a", que permite escrever AO FIM do arquivo

In [4]:
# modo a, pra poder escrever ao fim do arquivo coisas novas
arquivo = open("ola.txt", "a", encoding="utf-8")

arquivo.write('\nMinha quarta frase') 
arquivo.write('\nNova frase')

arquivo.close()

Se quisermos escrever em uma nova linha, usamos o "\n":

In [13]:
# modo a, pra poder escrever ao fim do arquivo coisas novas
arquivo = open("ola.txt", "a", encoding="utf-8")

for i in range(5):
    
    arquivo.write(str(i) + " - olá mundo!!\n")

arquivo.close()

In [14]:
# Exercício (5 min):
# Crie um arquivo .txt  e salve os itens da lista em linhas separadas:
    
nomes = ["André", "João", "Maria"]


### Armazenar dados

Para armazenar os dados do arquivo em uma variável do python utilizamos a função `read()`

In [58]:
# modo r para a leitura
arquivo = open('ola.txt', 'r', encoding="utf-8")

conteudo = arquivo.read()

In [60]:
conteudo

"Minha mundo!!!!!!\nolá, let's code!\nMinha quarta frase\nNova frase"

In [55]:
conteudo.split('\n')

['Minha mundo!!!!!!', "olá, let's code!", 'Minha quarta frase', 'Nova frase']

In [61]:
conteudo_lista = conteudo.split("\n")

conteudo_lista

['Minha mundo!!!!!!', "olá, let's code!", 'Minha quarta frase', 'Nova frase']

In [62]:
conteudo_lista[0]

'Minha mundo!!!!!!'

A função `read()` lê o que estiver no arquivo em forma de uma string!

As quebras de linha serão, portanto, armazenadas como "\n".

In [92]:
f = open("ola.txt", "r", encoding="utf-8")

lista_de_linhas = []

# aqui, o python entende que ele deve percorrer cada linha do arquivo!
for elemento in f:
    
    lista_de_linhas.append(elemento)
    
f.close()

lista_de_linhas

['Minha mundo!!!!!!\n',
 "olá, let's code!\n",
 'Minha quarta frase\n',
 'Nova frase']

In [126]:
# usando compreensão de listas!

f = open("ola.txt", "r", encoding="utf-8")

lista = [x for x in f]

f.close()

lista

['Minha mundo!!!!!!\n',
 "olá, let's code!\n",
 'Minha quarta frase\n',
 'Nova frase']

Uma maneira de lermos o arquivo todo como lista é utilizando  o readlines()

In [141]:
f = open("ola.txt", "r", encoding="utf-8")

ler_lista = f.readlines()

f.close()

ler_lista

['Minha mundo!!!!!!\n',
 "olá, let's code!\n",
 'Minha quarta frase\n',
 'Nova frase']

### Armazenando valores numéricos

In [65]:
notas = [8, 7, 6, 10, 10, 8]

f = open("minhas_notas.txt", "w", encoding="utf-8")

f.write(notas) 

f.close()

TypeError: write() argument must be str, not list

Com o `write()` só é possível escrever strings! Então, vamos ter que modificar um pouco o programa...

In [89]:
notas = [8, 7, 5, 6, 4, 6]

f = open("notas.txt", "w", encoding="utf-8")

for elemento in notas:
    
    f.write(str(elemento) + "\n")
    
f.close()

Agora, pra ler o arquivo, e já calcular a média das notas armazenadas!

In [90]:
f = open("notas.txt", "r", encoding="utf-8")

string_de_notas = f.read()

lista_de_notas = string_de_notas.split('\n')

print(lista_de_notas)


['8', '7', '5', '6', '4', '6', '']


In [91]:
# usando compreensão de lista (list comprehension)
lista_de_inteiros = [float(elementos) for elementos in lista_de_notas if elementos != '']

print(lista_de_inteiros)

media = sum(lista_de_inteiros)/len(lista_de_inteiros)

print(media)

f.close()

[8.0, 7.0, 5.0, 6.0, 4.0, 6.0]
6.0


Apesar de termos tratado sobre as funções acima, existem **bibliotecas específicas** para a leitura/escrita de determinados tipos de arquivos.

Na prática, é muito mais conveniente usarmos estas bibliotecas, a depender do tipo de arquivo que desejamos ler/escrever!

____
____
___

## 2) Arquivos CSV

Um tipo de arquivo muito comum é o **csv**

A sigla CSV significa **Comma-Separated Values**, ou **"valores separados por vírgula"**. 

Este formato é uma forma padrão de representar tabelas usando arquivos de texto simples: cada elemento é separado por uma vírgula (ou ponto-e-vírgula, ou, qualquer outro separador), e cada linha é separada por uma quebra de linha. 

Em Python, podemos entender um arquivo CSV como uma lista de listas. 

Imagine que queremos armazenar um arquivo csv. Começamos com uma lista de listas:

In [159]:
tabela = [['Aluno', 'Nota 1', 'Nota 2', 'Presença'],
          ['Luke', 7, 9, 15],
          ['Han', 4, 7, 10],
          ['Leia', 9, 9, 16]]

Pode não ser tão simples escrever esta lista de listas em um arquivo usando a função write(), como vimos antes, né?

Para trabalhar com arquivos csv, vamos utilizar a biblioteca `csv` do python!

Desta biblioteca, vamo usar duas funções:

- **função de escrita**: `csv.writer().writerows()`

- **função de leitura**: `csv.reader()`

In [31]:
import csv

Primeiramente, criamos o arquivo, como fizemos antes

In [32]:
# cria o arquivo CSV
arquivo = open('alunos_star_wars.csv', 'w', encoding="utf-8")

Depois, utilizamos a função "writer" da biblioteca "csv", juntamente da função "writerows" para escrever a lista de listas ao arquivo:

In [33]:
csv.writer(arquivo, delimiter=';', lineterminator='\n').writerows(tabela)

A primeira parte, 

```python
csv.writer(arquivo, delimiter=';', lineterminator='\n')
```

Indica:

- em que arquivo você quer escrever
- como que você vai separar os valores (neste caso, com ";")
- como vc vai separar as diferentes linhas do arquivo (neste caso, com "\n")

A segunda parte, indica quais os dados que você quer escrever no arquivo (no caso, a lista de listas "tabela"):

```python
writerows(tabela)
```

Fechando o arquivo

In [34]:
arquivo.close()

Tudo junto:

In [165]:
import csv

lista_de_listas = [['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
          ['Luke', 7, 9, 15],
          ['Han', 4, 7.7, 10],
          ['Leia', 9, 9, 16]]

arquivo = open('alunos_star_wars.csv', 'w', encoding="utf-8")

csv.writer(arquivo, delimiter=',', lineterminator='\n').writerows(lista_de_listas)

arquivo.close()

E como lemos este arquivo?

Para isso, temos que utilizar a função `reader()` da biblioteca csv:

```python
csv.reader(f, delimiter=';', lineterminator='\n')
```

Essa função tem como argumentos:

- o arquivo aberto (no caso, a variável "f");
- o separador entre os valores (no caso, ";");
- o separador de linhas (no caso, "\n");

Aí, basta iterar neste objeto com o for para popular a lista de listas "planilha":

In [168]:
import csv

f = open("alunos_star_wars.csv", "r", encoding="utf-8")

leitor = csv.reader(f, delimiter=',', lineterminator='\n')

planilha = []

for linha in leitor:
    
    planilha.append(linha)
    
f.close()

planilha

[['Aluno', 'Nota 1', 'Nota 2', 'Presenças'],
 ['Luke', '7', '9', '15'],
 ['Han', '4', '7.7', '10'],
 ['Leia', '9', '9', '16']]

E se quisermos extrair apenas os nomes dos alunos?

In [177]:
[item[0] for item in planilha]

['Aluno', 'Luke', 'Han', 'Leia']

__Vamos agora processar esse arquivo que acabamos de ler?__

Imagina que queremos calcular qual é a média de determinado aluno, a partir do seu nome!

Com a função `index()` em um **list comprehension** podemos encontrar qual a posição na lista de determinado aluno:

Por exemplo, o aluno "Han", está na posição de índice 2:

In [178]:
[item[0] for item in planilha].index("Han")

2

Agora, basta passar esse índice para a lista de listas (que chamamos de "planilha"), pra acessarmos a linha correspondente ao Han:

In [106]:
planilha[[item[0] for item in planilha].index("Han")]

['Han', '4', '7.7', '10']

Legal! Agora, sabemos que as posições de índice 1 e 2 **desta lista** são, respectivamente, a nota1 e a nota2! 

Ou seja, podemos capturar as notas (já as transformando para float!), e aí calcular a média 

In [185]:
procura_aluno = planilha[[item[0] for item in planilha].index("Han")]
print(procura_aluno)

['Han', '4', '7.7', '10']


In [186]:
nota1 = float(procura_aluno[1])

nota2 = float(procura_aluno[2])

media = (nota1 + nota2)/2

media

5.85

Vamos agora fazer todas as operações acima, mas solicitando ao usuário a média de qual aluno ele deseja:

In [107]:
aluno = input("Que aluno? ")

linha_do_aluno = planilha[[item[0] for item in planilha].index(aluno)]

media = (float(linha_do_aluno[1]) + float(linha_do_aluno[2]))/2

print("\nA média do aluno", aluno, "é:", media)

Que aluno? Han

A média do aluno Han é: 5.85


É possíver fazer o **processamento de arquivos** de forma muito mais simples e natural do que foi feito acima, ao utilizarmos uma biblioteca própria para isso: o [pandas](https://pandas.pydata.org/)! 

# 3. Exercícios

**1.** Salve as notas_alunos em um arquivo csv com o mesmo nome

In [24]:
import csv
notas_alunos = [['jose', 10, 8, 9.5, 8.8, 10],
                ['pedro', 9.8, 9.2, 9.0, 8.8, 9.1],
                ['suzana', 8, 7.1, 7.5, 8.2, 7.9],
                ['gisela', 10, 9.6, 8.9, 9.4, 9.7],
                ['joao', 7.5, 7.9, 8.0, 9.1, 7.3]]

f = open('notas_alunos.csv', 'w')

csv.writer(f, delimiter=',', lineterminator = '\n').writerows(notas_alunos)

f.close()

**2.** Adicione ao arquivo notas_alunos.csv as notas das seguintes alunas: <br>
    mariana: 9.8, 10, 9.7, 9.0, 9.2 <br>
    luciana: 9.5, 8.7, 10, 9.4, 9.6

In [5]:
novas_notas = [['mariana', 9.8, 10, 9.7, 9.0, 9.2], ['luciana', 9.5, 8.7, 10, 9.4, 9.6]]

f = open('notas_alunos.csv', 'a')

csv.writer(f, delimiter=',', lineterminator = '\n').writerows(novas_notas)

f.close()

**3.** Leia o arquivo notas_alunos.csv e retorne a nota média de cada um deles

In [25]:
import csv
file_handler = open('notas_alunos.csv', 'r')

read = csv.reader(file_handler, delimiter = ',', lineterminator='\n')

# cria_lista = []
# for l in read:
#     cria_lista.append(l)
cria_lista = [x for x in read]
print(cria_lista)

[print(f'{item[0]}: {sum([float(i) for i in item[1:]])/5}') for item in cria_lista]

dict_medias = {item[0]: sum([float(i) for i in item[1:]])/5 for item in cria_lista}
dict_medias

f.close()


[['jose', '10', '8', '9.5', '8.8', '10'], ['pedro', '9.8', '9.2', '9.0', '8.8', '9.1'], ['suzana', '8', '7.1', '7.5', '8.2', '7.9'], ['gisela', '10', '9.6', '8.9', '9.4', '9.7'], ['joao', '7.5', '7.9', '8.0', '9.1', '7.3']]
jose: 9.26
pedro: 9.18
suzana: 7.74
gisela: 9.52
joao: 7.959999999999999


In [18]:
media_alunos = [[item[0], sum([float(i) for i in item[1:]])/5] for item in cria_lista]
media_alunos

[['jose', 9.26],
 ['pedro', 9.18],
 ['suzana', 7.74],
 ['gisela', 9.52],
 ['joao', 7.959999999999999]]

In [21]:
f = open('medias_alunos.csv', 'w')
csv.writer(f).writerows(media_alunos)
f.close()

In [34]:
[[i[0],sum([float(nota) for nota in i[1:]])/5] for i in cria_lista]

[['jose', 9.26],
 ['pedro', 9.18],
 ['suzana', 7.74],
 ['gisela', 9.52],
 ['joao', 7.959999999999999]]

In [36]:
cria_dict = {i[0]:sum([float(nota) for nota in i[1:]])/5 for i in cria_lista}
cria_dict

{'jose': 9.26,
 'pedro': 9.18,
 'suzana': 7.74,
 'gisela': 9.52,
 'joao': 7.959999999999999}

In [37]:
type(cria_dict)

dict

____
____
____
____