# Aula 10 - Arquivos em Python

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Arquivos em Python
- 2) Arquivos csv

_____________

### Problema gerador: como podemos processar um arquivo com as notas de alunos?

______
________
______

## 1) Arquivos em Python

Todos os programas que fizemos até o momento tinham variáveis, input e output **temporários**, guardados na memória RAM do computador **enquanto o programa é executado**.

Após o programa ser finalizado, todas as variáveis, inputs e outputs eram perdidos.

Muitas vezes queremos que esses valores sejam armazenados, que os dados processados pelo programa sejam preservados. O termo para esta característica é **persistência de dados**.

A persistência se dá através de **arquivos**: documentos criados para **armazenar dados em uma memória permanente**, como o **disco rígido**, um **USB** ou um **servidor web**.

O Python têm algumas funções padrão para a manipulação de arquivos. Vamos vê-las!

A função `open()` é usada pra abrir arquivos existentes ou criar um arquivo novo. 

Ela possui 2 argumentos: o primeiro é o caminho do arquivo, com seu nome (se apenas o nome do arquivo for passado, isso é interpretado como o arquivo estando na mesma pasta que o código!); e o segundo é o modo de operação. Os modos são:

- r -	lê um arquivo existente
- w -	cria um novo arquivo
- a -	abre um arquivo existente para adicionar informações ao seu final
- \+ -	ao ser combinado com outros modos, permite alteração de arquivo já existente (ex: r+ abre um arquivo existente e permite modificá-lo)

O terceiro argumento é o "encoding", que dá a codificação do arquivo. Pra evitar problemas, é legal sempre usar `encoding="utf-8"`

In [1]:
arquivo = open("ola_mundo.txt", "w", encoding="utf-8")
open()

TypeError: open() missing 1 required positional argument: 'file'

Se analisarmos a variável "arquivo" (é o return da função `open()`), note que há algumas coisas estranhas... É assim que o python entende seu arquivo, mas não precisa se preocupar muito com isso

In [2]:
arquivo

<_io.TextIOWrapper name='ola_mundo.txt' mode='w' encoding='utf-8'>

Uma vez aberto o arquivo, podemos escrever alguma coisa nele. Para isso, usamos o método `write()`

Essa função aceita apenas um argumento, que é o que vc quer escrever no arquivo -- e **deve ser uma string**!

In [3]:
arquivo.write("olá, mundo!")

11

Após abrirmos (ou criarmos) um arquivo, e fazer as operações desejadas com ele, devemos fechá-lo usando o método `close()`. Essa etapa é importante por 2 motivos:

- Se alteramos o arquivo mas não o fechamos, as alterações não serão salvas.
- Se esquecermos de fechar um arquivo, outros programas podem ter problemas de acesso a ele.

Por isso, **nunca se esqueca de fechar os arquivos abertos!**

In [4]:
arquivo.close()

__Fazendo todas as operações em uma única célula__

In [5]:
f = open("ola_mundo2.txt", "w", encoding="utf-8")

f.write("olá, mundo!\nEsse é meu segundo arquivo!")

f.close()

Apesar desta ser uma forma clara e direta, existe um procedimento mais robusto e mais seguro, que é utilizando o ambiente `with`.

O `with` garante que, quando o bloco de código em seu interior for executado, todos os recursos que foram criados (indicados após o `as`) serão liberados!

No nosso caso, o recurso é justamente um arquivo! Com o `with`, nós garantimos que **o arquivo será aberto e fechado**, independente se ocorra qualquer erro antes do arquivo ser fechado! Isso é muito importante, pois garante maior segurança e robustez a nosso código!

In [6]:
with open("ola_mundo3.txt", "w", encoding="utf-8") as f:
    
    f.write("olá, mundo!\nEsse é meu segundo arquivo!\né UM TERCEIRO ARQUIVO, usando o with!")

Como essa maneira é mais robusta, bamos usá-la daqui pra frente. (Mas, lembre-se que a opção que apresentamos primeiro também é possível!)

Vamos escrever mais algumas coisas no nosso arquivo...

Como o arquivo já existe, vamos tentar usar o modo "r"...

In [7]:
with open("ola_mundo.txt", "r", encoding="utf-8") as f:
    
    f.write("escrevendo algo novo!")

UnsupportedOperation: not writable

Note que encontramos um erro, pois o modo "r" permite **apenas a leitura do arquivo**

Se queremos escrever algo nele, usamos o "r+"

In [8]:
with open("ola_mundo.txt", "r+", encoding="utf-8") as f:
    
    f.write("escrevendo algo novo!")

In [9]:
with open("ola_mundo.txt", "r+", encoding="utf-8") as f:
    
    f.write("ada!!")

Note, no entanto, que se usarmos o modo "r+", o write substitui o conteúdo anterior da primeira linha do arquivo! Isso pq este modo equivale a colocar o cursor **no começo do arquivo** e escrever a partir dali (como se tivese com o `Insert` selecionado).

Prra corrigir isso, usamos o modo "a", que permite escrever AO FIM do arquivo. Isso equivale a colocar o cursor **no último caractere escrito**, e começar a escrever a partir dali!

In [10]:
with open("ola_mundo.txt", "a", encoding="utf-8") as f:
    
    f.write("escrevendo algo no fim!")

Se quisermos escrever em uma nova linha, usamos o "\n":

In [11]:
with open("ola_mundo.txt", "a", encoding="utf-8") as f:
    
    f.write("\nisso vai na próxima linha!")

Caso queiramos escrever uma lista pro arquivo:

In [12]:
lista = ["ada", "python", "data science", 1, 42.4, True, ["a", "b", "c"]]

with open("ola_mundo.txt", "a", encoding="utf-8") as f:
    
    for elemento in lista:
        
        f.write(f"\n{elemento}")

O método `write()` pode apenas escrever strings ao arquivo!!

In [13]:
lista = ["ada", "python", "data science"]

with open("ola_mundo.txt", "a", encoding="utf-8") as f:
    
    f.write(lista)

TypeError: write() argument must be str, not list

________

Agora, imagina que queremos apenas **ler** o arquivo, sem intenção de modificá-lo.

Nesse caso, utilizamos o modo "r" do open.

Além disso, se quisermos de fato armazenar os dados do arquivo em uma variável do python, usamos o método `read()`

Da mesma forma que o `write()` só pode escrever strings, o `read()` lê o arquivo como uma string! Veja:

In [14]:
with open("ola_mundo.txt", "r", encoding="utf-8") as f:

    conteudo = f.read()

In [15]:
conteudo

"ada!!vendo algo novo!escrevendo algo no fim!\nisso vai na próxima linha!\nada\npython\ndata science\n1\n42.4\nTrue\n['a', 'b', 'c']"

In [16]:
print(conteudo)

ada!!vendo algo novo!escrevendo algo no fim!
isso vai na próxima linha!
ada
python
data science
1
42.4
True
['a', 'b', 'c']


Como o `read()` lê o que estiver no arquivo em forma de uma string, temos que as quebras de linha serão, portanto, armazenadas como "\n".

A partir daí, dá pra pegar cada linha e colocar numa lista:

In [17]:
lista_conteudo = conteudo.split("\n")

In [26]:
lista_conteudo

['ada!!vendo algo novo!escrevendo algo no fim!',
 'isso vai na próxima linha!adapythondata science',
 'ada',
 'python',
 'data science',
 'ada',
 'python',
 'data science',
 '1',
 '42.4',
 'True',
 "['a', 'b', 'c']"]

In [22]:
lista_conteudo[-3]

'42.4'

In [23]:
'''todo conteudo na lista é considerado como string. então para vocÊ utilizar algum dado numerico, você
deve formata-lo. Exemplo a baixo... '''

float(lista_conteudo[-3])

42.4

Vamos para um outro exemplo... Imagine que eu quero armazenar uma lista, para depois lê-la novamente. Como faço isso?

Lembre-se que só é possível escrever **strings** com o `write()`! 

In [24]:
notas = [8, 9, 8.5, 10, 10, 6, 7.5, 8.8]

with open("notas.txt", "w", encoding="utf-8") as f:
    
    f.write(f"{notas[0]}") # sem essa linha de comando o laço for ignora o primeiro [0] conteúdo da lista NOTAS.
    
    for elemento in notas[1:]:
        
        f.write(f"\n{elemento}")

Agora, pra ler o arquivo, e já calcular a média das notas armazenadas - mas, pra isso, teremos que converter os dados!

In [25]:
with open("notas.txt", "r", encoding="utf-8") as f:

    conteudo = f.read()

In [26]:
notas_lidas = conteudo.split("\n")

notas_lidas

['8', '9', '8.5', '10', '10', '6', '7.5', '8.8']

In [27]:
notas_lidas_float = []

for elemento in notas_lidas:
    
    notas_lidas_float.append(float(elemento))
    
notas_lidas_float

[8.0, 9.0, 8.5, 10.0, 10.0, 6.0, 7.5, 8.8]

In [28]:
notas_lidas_float = [float(elemento) for elemento in notas_lidas]

notas_lidas_float

[8.0, 9.0, 8.5, 10.0, 10.0, 6.0, 7.5, 8.8]

In [29]:
sum(notas_lidas_float)/len(notas_lidas_float)

8.475

Apesar de termos tratado sobre as funções acima, existem **bibliotecas específicas** para a leitura/escrita de determinados tipos de arquivos.

Na prática, é muito mais conveniente usarmos estas bibliotecas, a depender do tipo de arquivo que desejamos ler/escrever!

____
____
___

## 2) Arquivos CSV

Um tipo de arquivo muito comum é o **csv**

A sigla CSV significa **Comma-Separated Values**, ou **"valores separados por vírgula"**. 

Este formato é uma forma padrão de representar tabelas usando arquivos de texto simples: cada elemento é separado por uma vírgula (ou ponto-e-vírgula, ou, qualquer outro separador), e cada linha é separada por uma quebra de linha. 

Em Python, podemos entender um arquivo CSV como uma lista de listas. 

Imagine que queremos armazenar um arquivo csv. Começamos com uma lista de listas:

In [30]:
tabela = [['Aluno', 'Nota 1', 'Nota 2', ' Presença'],
          ['Luke', 7, 9, 75],
          ['Han', 4, 7, 100],
          ['Leia', 9, 9, 50]]

In [31]:
tabela

[['Aluno', 'Nota 1', 'Nota 2', ' Presença'],
 ['Luke', 7, 9, 75],
 ['Han', 4, 7, 100],
 ['Leia', 9, 9, 50]]

Pode não ser tão simples escrever esta lista de listas em um arquivo usando o método write(), como vimos antes, né?

Para trabalhar com arquivos csv, vamos utilizar a biblioteca `csv` do python!

Desta biblioteca, vamo usar duas funções:

- **método de escrita**: `csv.writer().writerows()`

- **método de leitura**: `csv.reader()`

In [32]:
import csv

Como queremos escrer o arquivo, utilizamos o método `writer` da biblioteca `csv`, juntamente do método `writerows` para escrever a lista de listas ao arquivo:

In [33]:
with open("alunos_star_wars.csv", "w", encoding="utf-8") as f:
    
    csv.writer(f, delimiter=",", lineterminator="\n").writerows(tabela)

A primeira parte:

```python
csv.writer(arquivo, delimiter=';', lineterminator='\n')
```

Indica:

- em que arquivo você quer escrever
- como que você vai separar os valores (neste caso, com ";")
- como vc vai separar as diferentes linhas do arquivo (neste caso, com "\n")

A segunda parte, indica quais os dados que você quer escrever no arquivo (no caso, a lista de listas "tabela"):

```python
writerows(tabela)
```

E como lemos este arquivo?

Para isso, temos que utilizar a função `reader()` da biblioteca csv:

```python
csv.reader(f, delimiter=';', lineterminator='\n')
```

Essa função tem como argumentos:

- o arquivo aberto (no caso, a variável "f");
- o separador entre os valores (no caso, ";");
- o separador de linhas (no caso, "\n");

Aí, basta iterar neste objeto com o for para popular a lista de listas "tabela":

In [34]:
'''Caso você não saiba como está estruturado seu arquivo, basta utilizar esse 
    comando de linha logo a baixo para indicar sua delimitação e o final de cada linha
    da tabela.'''

with open("alunos_star_wars.csv", "r", encoding="utf-8") as f:
    
    primeira_linha = f.readline()

In [35]:
primeira_linha

'Aluno,Nota 1,Nota 2, Presença\n'

In [36]:
with open("alunos_star_wars.csv", "r", encoding="utf-8") as f:

    tabela_lida = []
    
    '''Para poder ler o arquivo criado. Você deve informar os mesmos argumentos que
        foram utilizados no momento da criação do arquivo, visto anteriormente!
        
        with open("alunos_star_wars.csv", "w", encoding="utf-8") as f:
            csv.writer(f, delimiter=",", lineterminator="\n").writerows(tabela)'''
    
    leitor = csv.reader(f, delimiter=",", lineterminator="\n")
    
    for linha in leitor:
        
        tabela_lida.append(linha)

In [37]:
tabela

[['Aluno', 'Nota 1', 'Nota 2', ' Presença'],
 ['Luke', 7, 9, 75],
 ['Han', 4, 7, 100],
 ['Leia', 9, 9, 50]]

In [38]:
tabela_lida

[['Aluno', 'Nota 1', 'Nota 2', ' Presença'],
 ['Luke', '7', '9', '75'],
 ['Han', '4', '7', '100'],
 ['Leia', '9', '9', '50']]

Com compreensão de listas:

In [39]:
with open("alunos_star_wars.csv", "r", encoding="utf-8") as f:

    leitor = csv.reader(f, delimiter=",", lineterminator="\n")
    
    tabela_lida = [linha for linha in leitor]

tabela_lida

[['Aluno', 'Nota 1', 'Nota 2', ' Presença'],
 ['Luke', '7', '9', '75'],
 ['Han', '4', '7', '100'],
 ['Leia', '9', '9', '50']]

In [40]:
with open("alunos_star_wars.csv", "r", encoding="utf-8") as f:

    tabela_lida = [linha for linha in csv.reader(f, delimiter=",", lineterminator="\n")]

tabela_lida

[['Aluno', 'Nota 1', 'Nota 2', ' Presença'],
 ['Luke', '7', '9', '75'],
 ['Han', '4', '7', '100'],
 ['Leia', '9', '9', '50']]

__Vamos agora processar esse arquivo que acabamos de ler?__

Imagina que queremos calcular qual é a média de determinado aluno, a partir do seu nome!

Pra fazer isso, usamos **list comprehension** pra fazer uma lista com os nomes dos alunos:

In [41]:
lista_nome_alunos = [linha[0] for linha in tabela_lida]

lista_nome_alunos

['Aluno', 'Luke', 'Han', 'Leia']

Aí, usamos a função index() pra descobrir qual é o índice nesta lista referente a determinado aluno.

Por exemplo, o aluno "Han", está na posição de índice 2:

In [42]:
lista_nome_alunos.index("Han")

2

Agora, basta passar esse índice para a lista de listas (que chamamos de "planilha"), pra acessarmos a linha correspondente ao Han:

In [43]:
tabela_lida[2]

['Han', '4', '7', '100']

In [44]:
tabela_lida

[['Aluno', 'Nota 1', 'Nota 2', ' Presença'],
 ['Luke', '7', '9', '75'],
 ['Han', '4', '7', '100'],
 ['Leia', '9', '9', '50']]

Legal! Agora, sabemos que as posições de índice 1 e 2 **desta lista** são, respectivamente, a nota1 e a nota2! 

Ou seja, podemos capturar as notas (já as transformando para float!), e aí calcular a média 

In [45]:
aluno="Luke"

dados_aluno = tabela_lida[[linha[0] for linha in tabela_lida].index(aluno)]

nota1 = float(dados_aluno[1])
nota2 = float(dados_aluno[2])

media = (nota1 + nota2)/2

print(f"A média do(a) aluno(a) {aluno} é: {media}")

A média do(a) aluno(a) Luke é: 8.0


Vamos agora fazer todas as operações acima, mas solicitando ao usuário a média de qual aluno ele deseja:

In [46]:
# leitura do arquivo, na forma de tabela
with open("alunos_star_wars.csv", "r", encoding="utf-8") as f:

    tabela_lida = [linha for linha in csv.reader(f, delimiter=",", lineterminator="\n")]

# processamento do arquivo
nome_alunos = [linha[0] for linha in tabela_lida]

aluno=input(f"Digite o nome do aluno cuja média vc quer saber.\nOpções: {nome_alunos[1:]} ")

dados_aluno = tabela_lida[nome_alunos.index(aluno)]

nota1 = float(dados_aluno[1])
nota2 = float(dados_aluno[2])

media = (nota1 + nota2)/2

print(f"\nA média do(a) aluno(a) {aluno} é: {media}")

Digite o nome do aluno cuja média vc quer saber.
Opções: ['Luke', 'Han', 'Leia'] Luke

A média do(a) aluno(a) Luke é: 8.0


É possíver fazer o **processamento de arquivos** de forma muito mais simples e natural do que foi feito acima, ao utilizarmos uma biblioteca própria para isso: o [pandas](https://pandas.pydata.org/)! Vamos introduzi-la nas aulas seguintes!

________