# Ler e Escrever em Ficheiros utilizando o Python

![](https://raw.githubusercontent.com/davsimoes/mcde-pds/main/img/ficheiros_em_python.png)

Esta aula cobre os seguintes tópicos:

- Interagir com o sistema de ficheiros usando o módulo `os`
- Descarregar ficheiros da internet usando o módulo `urllib`
- Ler e processar dados de ficheiros de texto
- Carregar dados de ficheiros CSV para dicionários e listas
- Escrever dados formatados de volta para ficheiros de texto

### Como executar o código

Esta aula é um [Jupyter notebook](https://jupyter.org) executável. Pode _correr_ esta aula e experimentar os exemplos de código de diferentes formas: *localmente no seu computador*, ou *utilizando um serviço online gratuito*.

#### Opção 1: Correr localmente no seu computador

Para correr localmente o código no seu computador, faça download do notebook e abra o ficheiro com uma aplicação ou ambiente de desenvolvimento suportado, por exemplo:
* Visual Studio Code: https://code.visualstudio.com/download
* Anaconda: https://www.anaconda.com/download
* Miniconda: https://docs.conda.io/projects/miniconda/en/latest/

Em qualquer das opções, as aplicações terão de suportar (nativamente ou através de extensões) o [Python](https://www.python.org) e os [Jupyter notebooks](https://jupyter.org), de forma a disponibilizar um ambiente de visualização e execução local com um kernel que execute o código Python contido no notebook.

#### Opção 2: Correr num serviço online gratuito

Para executar o notebook online, faça upload do notebook para o serviço da sua preferência, por exemplo:
* Google Colab: https://colab.google/
* Binder (com repositório GitHub): https://mybinder.org/
* Kaggle: https://www.kaggle.com/


>  **Jupyter Notebooks**: Esta aula é um [Jupyter notebook](https://jupyter.org) - um documento feito de _células_. Cada célula pode conter código escrito em Python ou explicações em português. Pode executar células de código e visualizar os resultados, e.g., números, mensagens, gráficos, tabelas, ficheiros, etc., instantaneamente no notebook. O Jupyter é uma plataforma poderosa para experimentação e análise. Não tenha medo de mexer no código ou estragar alguma coisa - aprenderá muito ao encontrar e corrigir erros. Pode utilizar a opção de menu "Kernel > Restart & Clear Output" (Kernel > Reiniciar e Limpar Saída) para limpar todas as saídas e recomeçar do início.

## Interagir com o Sistema Operativo e sistema de ficheiros

O módulo `os` em Python oferece diversas funções para interagir com o Sistema Operativo (SO, ou *OS* em inglês) e o sistema de ficheiros. Vamos importá-lo e experimentar alguns exemplos.

In [2]:
import os

Podemos verificar a diretoria ou pasta de trabalho atual com a função `os.getcwd`.

In [3]:
os.getcwd()

'g:\\My Drive\\IPS\\Mestrado\\UCs\\Ciência de Dados'

Para obter a lista de ficheiros numa diretoria, usamos `os.listdir`. Passamos como argumento à função um caminho absoluto ou relativo para uma diretoria.

In [4]:
help(os.listdir)

Help on built-in function listdir in module nt:

listdir(path=None)
    Return a list containing the names of the files in the directory.
    
    path can be specified as either str, bytes, or a path-like object.  If path is bytes,
      the filenames returned will also be bytes; in all other circumstances
      the filenames returned will be str.
    If path is None, uses the path='.'.
    On some platforms, path may also be specified as an open file descriptor;\
      the file descriptor must refer to a directory.
      If this functionality is unavailable, using it raises NotImplementedError.
    
    The list is in arbitrary order.  It does not include the special
    entries '.' and '..' even if they are present in the directory.



In [5]:
os.listdir('.') # caminho relativo

['.git',
 'Aula 2-1 - Decisões e ciclos em Python.ipynb',
 'Aula 2-2 - Escrever código reutilizável utilizando funções em Python.ipynb',
 'Aula 1-1 - Primeiros passos com Python.ipynb',
 'Aula 1-2 - Variáveis e Tipos de Dados em Python.ipynb',
 'Aula 3 - Trabalhar com ficheiros em Python.ipynb',
 'data2',
 'data',
 'movies2.csv',
 'movies3.csv']

In [6]:
os.listdir('/') # caminho absoluto

['.file-revisions-by-id',
 '.shortcut-targets-by-id',
 'Other computers',
 'My Drive',
 '$RECYCLE.BIN']

Podemos criar uma nova diretoria com `os.makedirs`. Vamos criar uma diretoria com o nome `data`, onde guardaremos mais tarde alguns downloads de ficheiros.

In [7]:
os.makedirs('./data', exist_ok=True)

In [8]:
help(os.makedirs)

Help on function makedirs in module os:

makedirs(name, mode=511, exist_ok=False)
    makedirs(name [, mode=0o777][, exist_ok=False])
    
    Super-mkdir; create a leaf directory and all intermediate ones.  Works like
    mkdir, except that any intermediate path segment (not just the rightmost)
    will be created if it does not exist. If the target directory already
    exists, raise an OSError if exist_ok is False. Otherwise no exception is
    raised.  This is recursive.



Consegue descobrir o que faz o argumento `exist_ok`? Experimente usar a função `help` ou [ler a documentação](https://docs.python.org/3/library/os.html#os.makedirs).

Vamos verificar que a diretoria foi criada e está atualmente vazia.

In [9]:
'data' in os.listdir('.')

True

In [10]:
os.listdir('./data')

['emprestimos1.txt',
 'emprestimos2.txt',
 'emprestimos3.txt',
 'pmis2.txt',
 'pmis3.txt',
 'pmis1.txt',
 'movies.csv']

Vamos agora fazer o download de alguns ficheiros para a diretoria `data` usando o módulo `urllib`.

In [13]:
url1 = 'https://raw.githubusercontent.com/davsimoes/mcde-pds/main/res/emprestimos1.txt'
url2 = 'https://raw.githubusercontent.com/davsimoes/mcde-pds/main/res/emprestimos2.txt'
url3 = 'https://raw.githubusercontent.com/davsimoes/mcde-pds/main/res/emprestimos3.txt'

In [65]:
from urllib.request import urlretrieve

In [15]:
urlretrieve(url1, './data/emprestimos1.txt')

('./data/emprestimos1.txt', <http.client.HTTPMessage at 0x27e8e035bd0>)

In [16]:
urlretrieve(url2, './data/emprestimos2.txt')

('./data/emprestimos2.txt', <http.client.HTTPMessage at 0x27e8e0355d0>)

In [17]:
urlretrieve(url3, './data/emprestimos3.txt')

('./data/emprestimos3.txt', <http.client.HTTPMessage at 0x27e8e035900>)

Vamos verificar que os ficheiros foram descarregados.

In [11]:
os.listdir('./data')

['emprestimos1.txt',
 'emprestimos2.txt',
 'emprestimos3.txt',
 'pmis2.txt',
 'pmis3.txt',
 'pmis1.txt',
 'movies.csv']

Podemos também usar a biblioteca [`requests`](https://docs.python-requests.org/en/master/) para fazer o download de URLs, embora seja necessário [escrever algum código adicional](https://stackoverflow.com/questions/44699682/how-to-save-a-file-downloaded-from-requests-to-another-directory) para guardar o conteúdo da página num ficheiro.

## Ler de um ficheiro 

Para ler o conteúdo de um ficheiro, primeiro temos de abrir o ficheiro usando a função `open`. A função `open` retorna um objeto do tipo ficheiro e oferece vários métodos para interagir com o conteúdo do ficheiro.

In [12]:
ficheiro1 = open('./data/emprestimos1.txt', mode='r')

A função `open` aceita também um argumento `mode` para especificar como é que podemos interagir com o ficheiro. São suportadas as seguintes opções: 

```
    ========= ==================================================================
    Caracter  Significado
    --------- ------------------------------------------------------------------
    'r'       abrir para leitura (default)
    'w'       abrir para escrita, truncando primeiro o ficheiro
    'x'       criar um novo ficheiro e abri-lo para escrita (erro se já existir)
    'a'       abrir para escrita, acrescentando ao final do ficheiro, se existir
    'b'       modo binário
    't'       modo texto (default)
    '+'       abrir ficheiro para atualização (leitura e escrita) ex: r+, w+, a+
    ========= ==================================================================
```

Para visualizar o conteúdo do ficheiro, podemos usar o método `read` do objeto ficheiro.

In [13]:
ficheiro1_conteudo = ficheiro1.read()

In [14]:
print(ficheiro1_conteudo)

montante,duracao,taxa,entrada
100000,36,0.08,20000
200000,12,0.1,
628400,120,0.12,100000
4637400,240,0.06,
42900,90,0.07,8900
916000,16,0.13,
45230,48,0.08,4300
991360,99,0.08,
423000,27,0.09,47200


O ficheiro contém informação sobre empréstimos, e está organizado num conjunto de valores separados por vírgulas *(comma-separated values, CSV)*. 

> **CSVs**: Um ficheiro de valores separados por vírgula (CSV) é um ficheiro de texto delimitado que utiliza uma vírgula para separar os valores. Cada linha do ficheiro é um registo de dados. Cada registo é composto por um ou mais campos, separados por vírgulas. Normalmente, um ficheiro CSV armazena dados tabulares (números e texto), caso em que cada linha terá o mesmo número de campos. (Wikipedia)

A primeira linha do ficheiro é o cabeçalho, indicando o que é que representam os números nas restantes linhas. Cada uma das restantes linhas fornecem informação sobre um empréstimo. 

Assim, a segunda linha `100000,36,0.08,20000` representa um empréstimo com:

* um *montante* de `100000€`, 
* uma *duração* of `36` meses, 
* uma *taxa de juro* de `8%` ao ano, e 
* uma *entrada* de `20000€`

O CSV é um formato de ficheiro standard usado para partilhar dados para análise e visualização. Ao longo desta aula, vamos ler dados destes ficheiros CSV, processar esses dados, e escrever os resultados de volta para ficheiros.

Antes de continuarmos, vamos fechar o ficheiro usando o método `close` (de outra forma, o Python continuará a manter todo o conteúdo do ficheiro em memória RAM)

In [15]:
ficheiro1.close()

Uma vez fechado, já não podemos ler do ficheiro.

In [16]:
ficheiro1.read()

ValueError: I/O operation on closed file.

## Fechar ficheiros automaticamente usando o `with`

Para fechar um ficheiro automaticamente depois de processado, podemos abrir o ficheiro usando a instrução `with`.

In [17]:
with open('./data/emprestimos2.txt') as ficheiro2:
    ficheiro2_conteudo = ficheiro2.read()
    print(ficheiro2_conteudo)

montante,duracao,taxa,entrada
828400,120,0.11,100000
4633400,240,0.06,
42900,90,0.08,8900
983000,16,0.14,
15230,48,0.07,4300


Uma vez executado o bloco de instruções dentro do `with`, é invocado automaticamente o método `.close` no `ficheiro2`. Vamos verificar se isto é verdade tentando ler novamente do objeto ficheiro.

In [18]:
ficheiro2.read()

ValueError: I/O operation on closed file.

## Ler um ficheiro linha a linha

Os objetos ficheiro oferecem um método `readlines` para ler um ficheiro linha a linha. 

In [19]:
with open('./data/emprestimos3.txt', 'r') as ficheiro3:
    ficheiro3_linhas = ficheiro3.readlines()

In [20]:
ficheiro3_linhas

['montante,duracao,taxa,entrada\n',
 '45230,48,0.07,4300\n',
 '883000,16,0.14,\n',
 '100000,12,0.1,\n',
 '728400,120,0.12,100000\n',
 '3637400,240,0.06,\n',
 '82900,90,0.07,8900\n',
 '316000,16,0.13,\n',
 '15230,48,0.08,4300\n',
 '991360,99,0.08,\n',
 '323000,27,0.09,\n',
 '4720010000,36,0.08,20000\n',
 '528400,120,0.11,100000\n',
 '8633400,240,0.06,\n',
 '12900,90,0.08,8900\n']

## Processar dados de ficheiros

Antes de efetuarmos quaisquer operações nos dados armazenados num ficheiros, temos de converter o conteúdo do ficheiro (uma única grande string) para os tipos de dados do Python. Para o ficheiro `emprestimos1.txt` contendo informação sobre empréstimos num formato CSV, podemos fazer o seguinte:

* Ler o ficheiro linha a linha
* Processar a primeira linha para obter um lista de headers ou nomes de coluna
* Separar cada linha restante e converter cada valor num float
* Criar um dicionário para cada empréstimo usando os headers como chaves
* Criar uma lista de dicionários para manter o registo de todos os empréstimos

Dado que vamos efetuar as mesmas operações sobre múltiplos ficheiros, pode ser útil definir a função `ler_csv`. Vamos também definir algumas funções de suporte para construir a funcionalidade passo a passo. 

Vamos começar por definir uma função `processar_headers` que recebe uma linha como input e devolve uma lista de headers de coluna.

In [21]:
def processar_headers(linha_de_header):
    return linha_de_header.strip().split(',')

O método `strip` remove eventuais espaços extra e o caracter de nova linha `\n`. O método `split` parte a string para uma lista usando um dado separador (`,` neste caso).

In [22]:
ficheiro3_linhas[0]

'montante,duracao,taxa,entrada\n'

In [23]:
headers = processar_headers(ficheiro3_linhas[0])

In [24]:
headers

['montante', 'duracao', 'taxa', 'entrada']

A seguir, vamos definir uma função `processar_valores` que recebe uma linha com dados e retorna uma lista de números float.

In [25]:
def processar_valores(linha_de_dados):
    valores = []
    for item in linha_de_dados.strip().split(','):
        valores.append(float(item))
    return valores

In [26]:
ficheiro3_linhas[1]

'45230,48,0.07,4300\n'

In [27]:
processar_valores(ficheiro3_linhas[1])

[45230.0, 48.0, 0.07, 4300.0]

Os valores foram processados e convertidos em floats, conforme esperado. Vamos tentar o mesmo para outra linha do ficheiro, que não contém um valor para a entrada.

In [28]:
ficheiro3_linhas[2]

'883000,16,0.14,\n'

In [29]:
processar_valores(ficheiro3_linhas[2])

ValueError: could not convert string to float: ''

O código acima gera um `ValueError` porque a string vazia `''` não pode ser convertida para um float. Podemos melhorar a função `processar_valores` para lidar com este *caso fronteira*. Podemos também tratar o caso em que o valor não é um float.

In [32]:
def processar_valores(linha_de_dados):
    valores = []
    for item in linha_de_dados.strip().split(','):
        if item == '':
            valores.append(0.0)
        else:
            try:
                valores.append(float(item))
            except ValueError:
                valores.append(item)
    return valores

In [33]:
ficheiro3_linhas[2]

'883000,16,0.14,\n'

In [34]:
processar_valores(ficheiro3_linhas[2])

[883000.0, 16.0, 0.14, 0.0]

A seguir, vamos definir a função `criar_item_dic` que recebe como inputs uma lista de valores e uma lista de headers e retorna um dicionário com os valores associados aos seus respetivos headers como chaves.


In [35]:
def criar_item_dic(valores, headers):
    resultado = {}
    for valor, header in zip(valores, headers):
        resultado[header] = valor
    return resultado

Consegue descobrir o que faz a função incorporada do Python `zip`? Experimente um exemplo, ou [leia a documentação](https://docs.python.org/3.3/library/functions.html#zip).

In [36]:
for item in zip([1,2,3], ['a', 'b', 'c']):
    print(item)

(1, 'a')
(2, 'b')
(3, 'c')


Vamos experimentar o `criar_item_dic` com um ou dois exemplos.

In [37]:
ficheiro3_linhas[1]

'45230,48,0.07,4300\n'

In [38]:
valores1 = processar_valores(ficheiro3_linhas[1])
criar_item_dic(valores1, headers)

{'montante': 45230.0, 'duracao': 48.0, 'taxa': 0.07, 'entrada': 4300.0}

In [39]:
ficheiro3_linhas[2]

'883000,16,0.14,\n'

In [45]:
valores2 = processar_valores(ficheiro3_linhas[2])
criar_item_dic(valores2, headers)

{'montante': 883000.0, 'duracao': 16.0, 'taxa': 0.14, 'entrada': 0.0}

Tal como esperado, os valores e headers foram combinados de forma a criar um dicionário com os pares chave-valor apropriados.

Estamos agora prontos para juntar tudo e definir a função `ler_csv`.

In [40]:
def ler_csv(caminho):
    resultado = []
    # Abrir o ficheiro em modo leitura
    with open(caminho, 'r') as f:
        # Obter uma lista de linhas
        linhas = f.readlines()
        # Processar o header
        headers = processar_headers(linhas[0])
        # Iterar sobre as restantes linhas
        for linha_de_dados in linhas[1:]:
            # Processar os valores
            valores = processar_valores(linha_de_dados)
            # Criar um dicionário usando valores & headers
            item_dic = criar_item_dic(valores, headers)
            # Adicionar o dicionário aos resultados
            resultado.append(item_dic)
    return resultado

Vamos experimentar!

In [41]:
with open('./data/emprestimos2.txt') as ficheiro2:
    print(ficheiro2.read())

montante,duracao,taxa,entrada
828400,120,0.11,100000
4633400,240,0.06,
42900,90,0.08,8900
983000,16,0.14,
15230,48,0.07,4300


In [42]:
ler_csv('./data/emprestimos2.txt')

[{'montante': 828400.0, 'duracao': 120.0, 'taxa': 0.11, 'entrada': 100000.0},
 {'montante': 4633400.0, 'duracao': 240.0, 'taxa': 0.06, 'entrada': 0.0},
 {'montante': 42900.0, 'duracao': 90.0, 'taxa': 0.08, 'entrada': 8900.0},
 {'montante': 983000.0, 'duracao': 16.0, 'taxa': 0.14, 'entrada': 0.0},
 {'montante': 15230.0, 'duracao': 48.0, 'taxa': 0.07, 'entrada': 4300.0}]

O ficheiro foi lido e convertido numa lista de dicionários, como esperado. A função `ler_csv` é suficientemente genérica para ser capaz de processar qualquer ficheiro no formato CSV, com qualquer número de linhas ou colunas. Aqui fica o código completo do `ler_csv` juntamente com as funções de suporte:

In [43]:
def processar_headers(linha_de_header):
    return linha_de_header.strip().split(',')

def processar_valores(linha_de_dados):
    valores = []
    for item in linha_de_dados.strip().split(','):
        if item == '':
            valores.append(0.0)
        else:
            try:
                valores.append(float(item))
            except ValueError:
                valores.append(item)
    return valores

def criar_item_dic(valores, headers):
    resultado = {}
    for valor, header in zip(valores, headers):
        resultado[header] = valor
    return resultado

def ler_csv(caminho):
    resultado = []
    # Abrir o ficheiro em modo leitura
    with open(caminho, 'r') as f:
        # Obter uma lista de linhas
        linhas = f.readlines()
        # Processar o header
        headers = processar_headers(linhas[0])
        # Iterar sobre as restantes linhas
        for linha_de_dados in linhas[1:]:
            # Processar os valores
            valores = processar_valores(linha_de_dados)
            # Criar um dicionário usando valores & headers
            item_dic = criar_item_dic(valores, headers)
            # Adicionar o dicionário aos resultados
            resultado.append(item_dic)
    return resultado

Sempre que possível, devemos tentar criar funções que sejam pequenas, genéricas e reutilizáveis. Dessa forma, elas serão provavelmente úteis para além do problema atual e no futuro poderão poupar-nos um esforço significativo.

Na aula anterior definimos uma função para calcular as prestações mensais de um empréstimo:

In [44]:
import math

def emprestimo_pmi(montante, duracao, taxa, entrada=0):
    """Calcula a prestação mensal igual (PMI) para um empréstimo.
    
    Argumentos:
        montante - Montante total a aplicar (empréstimo + entrada)
        duracao - Duração do empréstimo (em meses)
        taxa - Taxa de juro (mensal)
        entrada (opcional) - Entrada opcional (deduzida do montante)
    """
    montante_emprestimo = montante - entrada
    try:
        pmi = montante_emprestimo * taxa * ((1+taxa)**duracao) / (((1+taxa)**duracao)-1)
    except ZeroDivisionError:
        pmi = montante_emprestimo / duracao
    pmi = math.ceil(pmi)
    return pmi

Podemos usar esta função para calcular os PMIs para todos os empréstimos num ficheiro.

In [45]:
emprestimos2 = ler_csv('./data/emprestimos2.txt')

In [46]:
emprestimos2

[{'montante': 828400.0, 'duracao': 120.0, 'taxa': 0.11, 'entrada': 100000.0},
 {'montante': 4633400.0, 'duracao': 240.0, 'taxa': 0.06, 'entrada': 0.0},
 {'montante': 42900.0, 'duracao': 90.0, 'taxa': 0.08, 'entrada': 8900.0},
 {'montante': 983000.0, 'duracao': 16.0, 'taxa': 0.14, 'entrada': 0.0},
 {'montante': 15230.0, 'duracao': 48.0, 'taxa': 0.07, 'entrada': 4300.0}]

In [47]:
for emprestimo in emprestimos2:
    emprestimo['pmi'] = emprestimo_pmi(emprestimo['montante'], 
                           emprestimo['duracao'], 
                           emprestimo['taxa']/12, # o CSV contém taxas anuais
                           emprestimo['entrada'])

In [48]:
emprestimos2

[{'montante': 828400.0,
  'duracao': 120.0,
  'taxa': 0.11,
  'entrada': 100000.0,
  'pmi': 10034},
 {'montante': 4633400.0,
  'duracao': 240.0,
  'taxa': 0.06,
  'entrada': 0.0,
  'pmi': 33196},
 {'montante': 42900.0,
  'duracao': 90.0,
  'taxa': 0.08,
  'entrada': 8900.0,
  'pmi': 504},
 {'montante': 983000.0,
  'duracao': 16.0,
  'taxa': 0.14,
  'entrada': 0.0,
  'pmi': 67707},
 {'montante': 15230.0,
  'duracao': 48.0,
  'taxa': 0.07,
  'entrada': 4300.0,
  'pmi': 262}]

Podemos ver que cada empréstimo tem agora uma nova chave `pmi`, que fornece o PMI para o empréstimo. Podemos extrair esta lógica para uma função para a podermos usar com outros ficheiros.

In [49]:
def calcular_pmis(emprestimos):
    for emprestimo in emprestimos:
        emprestimo['pmi'] = emprestimo_pmi(
            emprestimo['montante'], 
            emprestimo['duracao'], 
            emprestimo['taxa']/12, # o CSV contém taxas anuais
            emprestimo['entrada'])

## Escrever em ficheiros

Agora que fizemos algum processamento sobre os dados, seria interessante escrever os resultados de volta para um ficheiro CSV. Podemos criar/abrir um ficheiro em modo `w` utilizando o `open` e escrever para o ficheiro usando o método `.write`. O método `format` para formatação de strings vai-nos ser útil nessa parte.

In [50]:
emprestimos2 = ler_csv('./data/emprestimos2.txt')

In [51]:
calcular_pmis(emprestimos2)

In [52]:
emprestimos2

[{'montante': 828400.0,
  'duracao': 120.0,
  'taxa': 0.11,
  'entrada': 100000.0,
  'pmi': 10034},
 {'montante': 4633400.0,
  'duracao': 240.0,
  'taxa': 0.06,
  'entrada': 0.0,
  'pmi': 33196},
 {'montante': 42900.0,
  'duracao': 90.0,
  'taxa': 0.08,
  'entrada': 8900.0,
  'pmi': 504},
 {'montante': 983000.0,
  'duracao': 16.0,
  'taxa': 0.14,
  'entrada': 0.0,
  'pmi': 67707},
 {'montante': 15230.0,
  'duracao': 48.0,
  'taxa': 0.07,
  'entrada': 4300.0,
  'pmi': 262}]

In [53]:
with open('./data/pmis2.txt', 'w') as f:
    for emprestimo in emprestimos2:
        f.write('{},{},{},{},{}\n'.format(
            emprestimo['montante'], 
            emprestimo['duracao'], 
            emprestimo['taxa'], 
            emprestimo['entrada'], 
            emprestimo['pmi']))

Vamos verificar que o ficheiro foi criado e preenchido como esperado.

In [54]:
os.listdir('data')

['emprestimos1.txt',
 'emprestimos2.txt',
 'emprestimos3.txt',
 'pmis2.txt',
 'pmis3.txt',
 'pmis1.txt',
 'movies.csv']

In [55]:
with open('./data/pmis2.txt', 'r') as f:
    print(f.read())

828400.0,120.0,0.11,100000.0,10034
4633400.0,240.0,0.06,0.0,33196
42900.0,90.0,0.08,8900.0,504
983000.0,16.0,0.14,0.0,67707
15230.0,48.0,0.07,4300.0,262



Excelente, parece que os detalhes dos empréstimos (juntamente com os PMIs calculados) foram escritos no ficheiro.

Vamos então agora definir uma função genérica `escrever_csv` que recebe uma lista de dicionários e escreve-a para um ficheiro em formato CSV. Vamos também incluir os headers de coluna na primeira linha.

In [56]:
def escrever_csv(itens, caminho):
    # Abrir o ficheiro em modo escrita
    with open(caminho, 'w') as f:
        # Retornar se não houver nada para escrever
        if len(itens) == 0:
            return
        
        # Escrever os headers na primeira linha
        headers = list(itens[0].keys())
        f.write(','.join(headers) + '\n')
        
        
        # Escrever um item por linha
        for item in itens:
            valores = []
            for header in headers:
                valores.append(str(item.get(header, "")))
            f.write(','.join(valores) + "\n")

Consegue entender como é que a função funciona? Se não, experimente executar cada instrução linha a linha em células separadas para perceber como funciona.

Vamos experimentar a função!

In [57]:
emprestimos3 = ler_csv('./data/emprestimos3.txt')

In [58]:
calcular_pmis(emprestimos3)

In [59]:
escrever_csv(emprestimos3, './data/pmis3.txt')

In [60]:
with open('./data/pmis3.txt', 'r') as f:
    print(f.read())

montante,duracao,taxa,entrada,pmi
45230.0,48.0,0.07,4300.0,981
883000.0,16.0,0.14,0.0,60819
100000.0,12.0,0.1,0.0,8792
728400.0,120.0,0.12,100000.0,9016
3637400.0,240.0,0.06,0.0,26060
82900.0,90.0,0.07,8900.0,1060
316000.0,16.0,0.13,0.0,21618
15230.0,48.0,0.08,4300.0,267
991360.0,99.0,0.08,0.0,13712
323000.0,27.0,0.09,0.0,13260
4720010000.0,36.0,0.08,20000.0,147907332
528400.0,120.0,0.11,100000.0,5902
8633400.0,240.0,0.06,0.0,61853
12900.0,90.0,0.08,8900.0,60



Com apenas quatro linhas de código, podemos agora ler cada ficheiro descarregado, calcular os PMIs, e escrever os resultados de volta para novos ficheiros:

In [61]:
for i in range(1,4):
    emprestimos = ler_csv('./data/emprestimos{}.txt'.format(i))
    calcular_pmis(emprestimos)
    escrever_csv(emprestimos, './data/pmis{}.txt'.format(i))

In [62]:
os.listdir('./data')

['emprestimos1.txt',
 'emprestimos2.txt',
 'emprestimos3.txt',
 'pmis2.txt',
 'pmis3.txt',
 'pmis1.txt',
 'movies.csv']

Não é fantástico? Uma vez definidas todas as funções, podemos calcular os PMIs para milhares ou mesmo milhões de empréstimos em vários ficheiros em segundos, com apenas algumas linhas de código. Estamos a começar a perceber o verdadeiro poder da utilização de uma linguagem de programação como o Python para processar dados!

## Usar o Pandas para Ler e Escrever CSVs

As funções `ler_csv` e `escrever_csv` que definimos acima têm algumas limitações:

* A função `ler_csv` não consegue criar corretamente um dicionário se algum dos valores nos ficheiros CSV contiver vírgulas
* A função  `escrever_csv` não consegue criar corretamente um CSV se algum dos valores a escrever contiver vírgulas

De forma a lidar com a possível existência de vírgulas nos dados, quando um valor num ficheiro CSV contém uma vírgula (`,`), o valor é normalmente colocado entre aspas. As aspas (`"`) em valores são convertidas em duas aspas (`""`). 
Aqui fica um exemplo:

```
title,description
Fast & Furious,"A movie, a race, a franchise"
The Dark Knight,"Gotham, the ""Batman"", and the Joker"
Memento,A guy forgets everything every 15 minutes
```

Vamos experimentar.

In [63]:
movies_url = "https://raw.githubusercontent.com/davsimoes/mcde-pds/main/res/movies.csv"

In [66]:
urlretrieve(movies_url, 'data/movies.csv')

('data/movies.csv', <http.client.HTTPMessage at 0x17d9673fa00>)

In [67]:
movies = ler_csv('data/movies.csv')

In [68]:
movies

[{'title': 'Fast & Furious', 'description': '"A movie'},
 {'title': 'The Dark Knight', 'description': '"Gotham'},
 {'title': 'Memento',
  'description': 'A guy forgets everything every 15 minutes'}]

Como podemos ver acima, as descrições dos filmes não foram processadas corretamente.

Para ler corretamente este CSV, podemos usar a biblioteca `pandas`.

In [69]:
%pip install pandas --upgrade --quiet

Note: you may need to restart the kernel to use updated packages.


In [70]:
import pandas as pd

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


A função `pd.read_csv` pode ser usada para ler o ficheiro CSV para um data frame: um objeto da biblioteca pandas semelhante a uma folha de cálculo para analisar e processar dados. Vamos aprender mais sobre data frames numa das próximas aulas.

In [71]:
movies_dataframe = pd.read_csv('data/movies.csv')

In [72]:
movies_dataframe

Unnamed: 0,title,description
0,Fast & Furious,"A movie, a race, a franchise"
1,The Dark Knight,"Gotham, the ""Batman"", and the Joker"
2,Memento,A guy forgets everything every 15 minutes


Podemos converter um dataframe numa lista de dicionários com o método `to_dict`.

In [73]:
movies = movies_dataframe.to_dict('records')

In [74]:
movies

[{'title': 'Fast & Furious', 'description': 'A movie, a race, a franchise'},
 {'title': 'The Dark Knight',
  'description': 'Gotham, the "Batman", and the Joker'},
 {'title': 'Memento',
  'description': 'A guy forgets everything every 15 minutes'}]

Se não passarmos o argumento `records`, passamos a obter um dicionário de listas.

In [75]:
movies_dict = movies_dataframe.to_dict()

In [76]:
movies_dict

{'title': {0: 'Fast & Furious', 1: 'The Dark Knight', 2: 'Memento'},
 'description': {0: 'A movie, a race, a franchise',
  1: 'Gotham, the "Batman", and the Joker',
  2: 'A guy forgets everything every 15 minutes'}}

Vamos agora tentar usar a função `escrever_csv` para escrever os dados em `movies` de volta para um ficheiro CSV.

In [77]:
escrever_csv(movies, 'movies2.csv')

In [78]:
!head movies2.csv

'head' is not recognized as an internal or external command,
operable program or batch file.


Como podemos ver acima, o ficheiro CSV não está formatado corretamente. Podemos confirmar tentando ler o ficheiro com `pd.read_csv`.

In [79]:
pd.read_csv('movies2.csv')

Unnamed: 0,Unnamed: 1,title,description
Fast & Furious,A movie,a race,a franchise
The Dark Knight,Gotham,"the ""Batman""",and the Joker
Memento,A guy forgets everything every 15 minutes,,


Para converter uma lista de dicionários num dataframe, podemos usar o construtor `pd.DataFrame`.

In [80]:
df2 = pd.DataFrame(movies)

In [81]:
df2

Unnamed: 0,title,description
0,Fast & Furious,"A movie, a race, a franchise"
1,The Dark Knight,"Gotham, the ""Batman"", and the Joker"
2,Memento,A guy forgets everything every 15 minutes


O dataframe pode agora ser escrito para um ficheiro CSV com o método `.to_csv` do dataframe.

In [82]:
df2.to_csv('movies3.csv', index=None)

Consegue adivinhar o que faz o argumento `index=None`? Experimente retirá-lo e observe a diferença no output.

In [87]:
!head movies3.csv

'head' is not recognized as an internal or external command,
operable program or batch file.


O ficheiro CSV está formatado corretamente. Podemos confirmar tentando lê-lo de volta.

In [83]:
pd.read_csv('movies3.csv')

Unnamed: 0,title,description
0,Fast & Furious,"A movie, a race, a franchise"
1,The Dark Knight,"Gotham, the ""Batman"", and the Joker"
2,Memento,A guy forgets everything every 15 minutes


Estamos aptos a ler e escrever corretamente o ficheiro com o `pandas`. 

Em geral, é sempre melhor usar bibliotecas como o Pandas para ler e escrever ficheiros CSV.

### Guardar o seu notebook

É muito importante guardar o seu trabalho com frequência. Pode continuar a trabalhar mais tarde num notebook que gravou anteriormente ou pode partilhá-lo com outras pessoas e permitir que executem o seu código.

## Exercício - Processar ficheiros CSV files utilizando dicionários de listas

Definimos acima as funções `ler_csv` and `escrever_csv` para converter um ficheiro CSV numa lista de dicionários e vice-versa. Neste exercício, vamos transformar os dados do CSV num dicionário de listas, com uma lista para cada coluna no ficheiro.

Considere por exemplo o seguinte ficheiro CSV:

```
montante,duracao,taxa,entrada
828400,120,0.11,100000
4633400,240,0.06,
42900,90,0.08,8900
983000,16,0.14,
15230,48,0.07,4300
```


Vamos convertê-lo no seguinte dicionário de listas:

```
{
  montante: [828400, 4633400, 42900, 983000, 15230],
  duracao: [120, 240, 90, 16, 48],
  taxa: [0.11, 0.06, 0.08, 0.14, 0.07],
  entrada: [100000, 0, 8900, 0, 4300]
}
```

Complete as seguintes tarefas usando as células vazias abaixo:

1. Descarregue três ficheiros CSV para a pasta `data2` usando os URLs listados na célula de código abaixo, e verifique os ficheiros descarregados.
2. Defina uma função `ler_csv_colunas` que lê um ficheiro CSV e devolve um dicionário de listas no formato exibido acima. 
3. Defina uma função `calcular_pmis` que adiciona uma chave `pmi` ao dicionário com uma lista de PMIs calculados para cada linha de dados.
4. Defina uma função `escrever_csv_colunas` que escreve os dados de um dicionário de listas para um ficheiro CSV corretamente formatado.
5. Processe todos os três ficheiros descarregados e escreva os resultados criando novos ficheiros na diretoria `data2`.


**Dica 1**: Utilize as funções do Pandas para ler e escrever em ficheiros CSV

**Dica 2**: O método `fillna` de um dataframe permite substituir os valores inválidos no dataframe por um valor à sua escolha (por exemplo, 0)


In [84]:
url1 = 'https://raw.githubusercontent.com/davsimoes/mcde-pds/main/res/emprestimos1.txt'
url2 = 'https://raw.githubusercontent.com/davsimoes/mcde-pds/main/res/emprestimos2.txt'
url3 = 'https://raw.githubusercontent.com/davsimoes/mcde-pds/main/res/emprestimos3.txt'

In [104]:
import pandas as pd
import math
import os
import urllib.request

# URLs dos arquivos CSV
url1 = 'https://raw.githubusercontent.com/davsimoes/mcde-pds/main/res/emprestimos1.txt'
url2 = 'https://raw.githubusercontent.com/davsimoes/mcde-pds/main/res/emprestimos2.txt'
url3 = 'https://raw.githubusercontent.com/davsimoes/mcde-pds/main/res/emprestimos3.txt'

urls = [url1, url2, url3]

# Função para baixar um arquivo CSV a partir de uma URL
def baixar_arquivo(url, nome_arquivo):
    urllib.request.urlretrieve(url, nome_arquivo)

# Pasta para armazenar os arquivos baixados
pasta_dados = "data2"

# Verifica se a pasta de dados existe, caso contrário, cria-a
if not os.path.exists(pasta_dados):
    os.makedirs(pasta_dados)

# Baixa os arquivos CSV para a pasta de dados
for i, url in enumerate(urls):
    nome_arquivo = os.path.join(pasta_dados, f"arquivo{i+1}.csv")
    baixar_arquivo(url, nome_arquivo)
    print(f"Arquivo {nome_arquivo} baixado com sucesso.")

# Função para ler um arquivo CSV e retornar um dicionário de listas
def ler_csv_colunas(nome_arquivo):
    df = pd.read_csv(nome_arquivo)
    df.fillna(0, inplace=True)
    return df.to_dict(orient='list')

# Função para calcular os PMIs e adicionar ao dicionário de listas     
def emprestimo_pmi(montante, duracao, taxa, entrada=0):
    """Calcula a prestação mensal igual (PMI) para um empréstimo.
    
    Argumentos:
        montante - Montante total a aplicar (empréstimo + entrada)
        duracao - Duração do empréstimo (em meses)
        taxa - Taxa de juro (mensal)
        entrada (opcional) - Entrada opcional (deduzida do montante)
    """
    montante_emprestimo = montante - entrada
    try:
        pmi = montante_emprestimo * taxa * ((1+taxa)**duracao) / (((1+taxa)**duracao)-1)
    except ZeroDivisionError:
        pmi = montante_emprestimo / duracao
    pmi = math.ceil(pmi)
    return pmi

# Função para PMIs dicionário de listas
def calcular_pmis(dados):
    dados["pmi"] = []
    for i in range(len(dados["montante"])):
        montante = int(dados["montante"][i])
        duracao = int(dados["duracao"][i])
        taxa = float(dados["taxa"][i])
        entrada = int(dados["entrada"][i]) if dados["entrada"][i] else 0
        pmi = emprestimo_pmi(montante, duracao, taxa, entrada)
        dados["pmi"].append(pmi)

# Função para escrever os dados de um dicionário de listas em um arquivo CSV
def escrever_csv_colunas(dados, nome_arquivo):
    df = pd.DataFrame(dados)
    df.to_csv(nome_arquivo, index=False)

# Processa todos os arquivos baixados
for i in range(len(urls)):
    nome_arquivo = os.path.join(pasta_dados, f"arquivo{i+1}.csv")
    dados = ler_csv_colunas(nome_arquivo)
    calcular_pmis(dados)
    nome_arquivo_saida = os.path.join(pasta_dados, f"arquivo{i+1}_processado.csv")
    escrever_csv_colunas(dados, nome_arquivo_saida)
    print(f"Arquivo {nome_arquivo} processado e salvo em {nome_arquivo_saida}.")


Arquivo data2\arquivo1.csv baixado com sucesso.
Arquivo data2\arquivo2.csv baixado com sucesso.
Arquivo data2\arquivo3.csv baixado com sucesso.
Arquivo data2\arquivo1.csv processado e salvo em data2\arquivo1_processado.csv.
Arquivo data2\arquivo2.csv processado e salvo em data2\arquivo2_processado.csv.
Arquivo data2\arquivo3.csv processado e salvo em data2\arquivo3_processado.csv.


No final, não se esqueça de gravar o seu trabalho! &#128522;

## Sumário

Com isto, completamos a nossa discussão sobre ler e escrever em ficheiros usando o Python. Cobrimos os seguintes tópicos nesta aula:

* Interagir com o sistema de ficheiros usando o módulo `os`
* Fazer o download de ficheiros de URLs usando o módulo `urllib`
* Abrir ficheiros com a função incorporada do Python `open`
* Ler o conteúdo de um ficheiro usando o `.read`
* Fechar um ficheiro automaticamente usando o `with`
* Ler um ficheiro linha a linha usando `readlines`
* Processar dados de um ficheiro CSV definindo funções
* Usar funções de suporte para construir funções mais complexas
* Escrever dados para um ficheiro usando o `.write`

## Questões para Revisão

Tente responder às seguintes questões para testar a sua compreensão sobre os tópicos cobertos neste notebook:

1. Para que serve o módulo `os` em Python?
2. Como é que se identifica o diretório de trabalho atual num notebook Jupyter?
3. Como é que podemos obter a lista de ficheiros dentro de uma diretoria usando o Python?
4. Como é que se cria uma diretoria usando o Python?
5. Como é que se verifica se um ficheiro ou pasta existe no sistema de ficheiros? Dica: `os.path.exists`.
6. Onde é que podemos encontrar a lista completa de funções contidas no módulo `os`?
7. Dê exemplos de 5 funções úteis dos módulos `os` e `os.path`.
8. Como é que podemos fazer o download de um ficheiro a partir de um URL usando o Python?
9. Como é que se abre um ficheiro em Python? Dê um exemplo.
10. Quais são os diferentes modos de abrir um ficheiro em Python?
11. É possível abrir um ficheiro em vários modos? Ilustre com um exemplo.
12. O que é o objeto ficheiro? Qual é a sua utilidade?
13. Como é que se lê o conteúdo de um ficheiro para uma string?
14. O que é um ficheiro CSV? Dê um exemplo.
15. Como se fecha um ficheiro aberto?
16. Porque é que é fundamental fechar um ficheiro depois de o processar?
17. Como é que podemos garantir que os ficheiros são fechados automaticamente após o seu processamento? Dê um exemplo.
18. Qual é a utilidade da função `with` ao trabalhar com ficheiros?
19. O que é que acontece se tentarmos ler de um ficheiro fechado?
20. Como é que se lê o conteúdo de um ficheiro linha por linha?
21. Escreva uma função para converter o conteúdo de um ficheiro CSV numa lista de dicionários (um dicionário para cada linha do ficheiro).
22. Escreva uma função para converter o conteúdo de um ficheiro CSV num dicionário de listas (um dicionário por cada coluna do ficheiro).
23. Como é que se escreve para um ficheiro usando Python?
24. Como é que o método string `.format` pode ser usado para escrever dados num ficheiro em formato CSV?
25. Escreva uma função para escrever dados de uma lista de dicionários para um ficheiro CSV.
26. Escreva uma função para escrever dados de um dicionário de listas para um ficheiro CSV.
27. Onde é que podemos aprender sobre os métodos suportados pelo objeto file em Python?
28. Como é que se podemos ler e escrever em ficheiros CSV usando o Pandas?


## Referências

Este notebook é uma adaptação traduzida do curso *<u>Data Analysis with Python: Zero to Pandas</u>* de AaKash N S / [Jovian.ai](https://jovian.ai)

Outras referências:
* McKinney, W., Python for Data Analysis, 3rd. Ed. O'Reilly. Versão online em https://wesmckinney.com/book/ 
* Documentação oficial do Python: https://docs.python.org/3/tutorial/index.html
* Tutorial Python do W3Schools: https://www.w3schools.com/python/
* Practical Python Programming: https://dabeaz-course.github.io/practical-python/Notes/Contents.html
* Jupyter Notebooks: https://docs.jupyter.org
* Markdown Reference: https://www.markdownguide.org
