<a href="https://colab.research.google.com/github/malbouis/Python_intro/blob/master/aulas_2021-1/aula9_listas_modulos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Listas (continuação), Módulos e Arquivos

Até aqui vimos que listas são coleções ordenadas de sequencias  de valores. Vimos:
* como criar listas;
* como acessar elementos de uma lista;
* comprimento de uma lista;
* listas são **mutáveis**; 
* ***fatias*** de lista;
* métodos de lista.


Hoje veremos:

* referências a listas;
* **clonagem** de listas;
* listas como parâmetros de funções;
* funções **puras** e **modificadoras**.

## Objetos e referências

Se executarmos os seguintes comandos:

In [None]:
a = "banana"
b = "banana"

Sabemos que ***a*** e ***b*** se referirão a uma ***string*** mas não sabemos se eles apontam para o mesmo objeto de Python.

O interpretador pode organizar sua memória de duas maneiras:

* referir ***a*** e ***b*** a dois objetos distintos com os mesmos valores
* referir ***a*** e ***b*** ao mesmo objeto

![refstring](https://github.com/malbouis/Python_intro/blob/master/aulas_2019/pics/ref_string.png?raw=1)

Podemos testar se duas variáveis se referem ao mesmo objeto:

In [None]:
a is b

Nesse exemplo abaixo, ***a*** e ***b*** têm o mesmo valor mas não se referem ao mesmo objeto.

![refstring](https://github.com/malbouis/Python_intro/blob/master/aulas_2019/pics/ref_list.png?raw=1)

In [None]:
a=[1,2,3]
b=[1,2,3]
a is b

## Alias

Podemos forçar ***a*** e ***b*** a se referirem ao mesmo objeto. Com isso, criamos um **alias** (apelido).

No exemplo acima, **a** e **b** são objetos distintos.

In [None]:
a is b


Entretanto, podemos forçar **a** e **b** se referirem ao mesmo objeto, criando um **alias**, da seguinte maneira:

In [None]:
a = b
a is b

In [None]:
a.append(88)
print('a = ', a, ', b = ', b)
# b = ?
# a = ?

### O que aconteceu???

![difflists](https://github.com/malbouis/Python_intro/blob/master/aulas_2019/pics/diff_lists.png?raw=1)
![samelists](https://github.com/malbouis/Python_intro/blob/master/aulas_2019/pics/same_lists.png?raw=1)


### Recomendações em relação a **aliases**:
Em geral, é mais seguro evitar fazer um **alias** de objetos **mutáveis**, como listas. Para objetos **imutáveis**, como strings, não há restrições de se fazer **aliases**.

## Clonagem de listas

Se quisermos modificar uma lista e ao mesmo tempo mantermos uma cópia inalterada dessa lista, devemos **cloná-la**:

In [None]:
lista = [1, 2, 3]
clone_lista = lista[:] # clone feito ao tomar uma fatia de toda a lista.
clone_lista

Podemos então criar uma nova lista ao tomar uma **fatia** de **toda a lista**.

![reflist](https://github.com/malbouis/Python_intro/blob/master/aulas_2019/pics/ref_list.png?raw=1)


E agora, como cada uma das listas é uma referência a um objeto diferente, podemos modificar uma variável, sem modificar a outra:

In [None]:
a = [1, 2, 3]
b = a[:]
a.append(88)
print ('a: ', a, ', b: ', b)

b[2] = 199
print ('a: ', a, ', b: ', b)

## Listas e loops ***for***

Suponha que temos duas listas. Se elas forem de tamanhos iguais, queremos imprimir seus valores em um único loop.

In [None]:
lista1 = [1,3,5,7,9,11,13,15]
lista2 = [2,4,6,8,10,12,14,16]

# as listas têm o mesmo tamanho?
len(lista1) == len(lista2)

In [None]:
# se as listas têm o mesmo número de elementos, imprima todos os elementos de cada uma das listas
if (len(lista1) == len(lista2)):
    print(range(len(lista1)))
    for i in range(len(lista1)):
        print(lista1[i])
        print(lista2[i])

Podemos usar a função ``enumerate`` para percorrer uma lista e também obter os índices:

In [None]:
alunos = ['Ana', 'Luiz', 'Maria', 'Joana']
idades = [16, 18, 17, 19]

if (len(alunos)==len(idades)):
    for (i, valor) in enumerate(alunos):
        print(valor, ' tem ', idades[i], ' anos')

## Métodos de listas

As listas são um tipo de dados de python. Sendo assim têm métodos (funções) associadas a elas, que são acessadas através do ponto:

In [None]:
mylist = []
mylist.append(5)
mylist.append(27)
mylist.append(3)
mylist.append(12)
mylist

In [None]:
mylist.insert(1, 12) # insere o item 12 na posição 1. Todos os outros itens da lista são desolcados para cima.
mylist

In [None]:
mylist.count(12) # conta quantas vezes o valor 12 aparece na lista

In [None]:
mylist.extend([5, 9, 5, 11])  # coloca toda a lista do argumento no final da lista mylist
mylist

In [None]:
mylist.index(9) # encontra o índice do primeiro valor 9 de mylist

In [None]:
mylist.reverse() # reverte todos os objetos de mylist
mylist

In [None]:
mylist.sort()  # ordena os valores de uma lista
mylist

In [None]:
mylist.remove(12)  # remove o primeiro elemento de valor 12 de mylist
mylist

## Strings e listas

Dois dos métodos mais úteis em ***strings*** envolvem conversão de ***strings*** para ***listas*** de substrings e vice-versa. 


O método ***split*** divide uma ***string*** em uma ***lista*** de palavras. O padrão é considerar caracteres de espaço em branco como **delimitador** de palavras:

In [None]:
musica = "O sol há de brilhar mais uma vez"
palavras = musica.split()
palavras

Podemos especificar um **delimitador**. Por exemplo, podemos escolher a letra 'a' como **delimitador**, no lugar do padrão.

In [None]:
palavras = musica.split('a')
palavras

O inverso do método ***split*** é o ***join***. Para juntar as strings, escolhemos um **separador** como parâmetro.

In [None]:
cola = 'a'
palavras_coladas = cola.join(palavras)
palavras_coladas

## List Comprehension

A compreensão de listas fornece uma maneira concisa de criar listas. 
Aplicações comuns são fazer novas listas onde cada elemento é o resultado de algumas operações aplicadas a cada membro de outra seqüência ou iterável, ou criar uma subsequência daqueles elementos que satisfazem uma determinada condição.

In [None]:
squares = []
for x in range(10):
    squares.append(x**2)

print(squares)


In [None]:
squares2 = [x**2 for x in range(10)]
print(squares2)

In [None]:
[(x,y) for x in [1,2,3] for y in [3,1,4] if x != y]

In [None]:
from math import pi
[str(round(pi, i)) for i in range(1, 6)]

## Exercícios

1) Considere a função abaixo. Esse tipo de função é considerada uma **função modificadora** pois modifica o objeto que é passado como argumento. 

In [None]:
def dobrar_elementos(uma_lista):
    """ Reescreve os elementos de uma_lista com o dobro de seus valores originais.
    """
    for (i, valor) in enumerate(uma_lista):
        novo_elem = 2 * valor
        uma_lista[i] = novo_elem

    return uma_lista

minha_lista = [2, 4, 6]
print(minha_lista)
dobrar_elementos(minha_lista)
print(minha_lista)

a) Modifique a função para retornar uma **nova lista**, sem modificar a lista usada como parâmetro. Esse tipo de função é chamado de **função pura**.


b) Modifique a documentação de ajuda da nova função, de tal forma que quando se chame a função ***help*** da nova função, se obtenha a descrição adequada.

In [None]:
help(dobrar_elementos)

In [None]:
# sorteando elementos de uma lista com o módulo random:
import random

nomes=['Helena', 'Dilson', 'Janaina', 'Isabela']
sorteado = random.choice(nomes)
print(sorteado)

# Módulos e Arquivos


## Módulos

Um módulo é um arquivo contendo definições e instruções do Python destinadas a uso em ***outros programas*** do Python. Existem muitos módulos de Python que vêm como parte da biblioteca padrão. Já vimos (pelo menos) dois deles, o módulo ```turtle``` e o módulo ```string```. Documentação sobre esses e outros módulos pode ser encontrada no site https://docs.python.org/3.5/library/index.html.


**Nessa aula mostraremos como qualquer arquivo que contenha código Python pode ser importado como um módulo.**

### Criando módulos 
Tudo o que precisamos para criar um módulo é um arquivo de texto com uma extensão .py no nome do arquivo:



In [None]:
# esse comando logo abaixo é do jupyter notebook para escrever um arquivo .py
%%writefile Seqtools.py 
def  remover_em ( pos ,  seq ): 
    return  seq [: pos ]  +  seq [ pos + 1 :]


In [None]:
# ler o aqruivo que acabamos de criar:
%cat Seqtools.py

Agora podemos usar nosso módulo nos scripts e no shell do Python. Para fazer isso, devemos primeiro importar o módulo. Existem duas maneiras de fazer isso:

In [None]:
import  Seqtools 
s  =  "O string!" 
Seqtools.remover_em( 4 ,  s ) 

ou também

In [None]:
from Seqtools import remover_em
s = "o string!"
remover_em(4,s)


No primeiro exemplo o nome do módulo e um ponto é escrito antes do nome da função, separados de um ponto(```.```). No segundo exemplo só a função ```remover_em``` é importada, e a  chamada é feita exatamente como as funções que vimos anteriormente, sem necesidade de incluir o nome do módulo.

Observe que, em ambos os casos, não incluímos a extensão do arquivo ```.py``` ao importar. O Python espera que os nomes de arquivos dos módulos do Python sejam finalizados em ```.py``` , portanto, a extensão do arquivo não é incluída na instrução de importação.

O uso de módulos permite **dividir programas muito grandes** em partes de **tamanho gerenciável** e manter as partes relacionadas juntas.

Outro exemplo é apresentado com  o arquivo ```lcount.py```  definido assim:


In [None]:
%%writefile lcount.py

def linecount(filename):
    count = 0
    for line in open(filename):
        count += 1
    return count

linecount('lcount.py')

In [None]:
%cat lcount.py

In [None]:
linecount('lcount.py')

Se você executar este programa, ele lê a si mesmo e imprime o número de linhas no arquivo, que é 7. 

Você também pode importá-lo:

In [None]:
import lcount

Agora podemos usar a função do módulo em outros programas, pois temos o **objeto** `lcount` com sua função associada.

In [None]:
print(lcount.linecount("Seqtools.py"))
#print(lcount.linecount("dados_alunos.txt"))

O único problema com este exemplo é que quando você importa o módulo, ele executa o código de teste na parte inferior. Normalmente, quando você importa um módulo, ele define novas funções, mas não as executa.

Programas que serão importados como módulos geralmente usam o seguinte idioma:

In [None]:
if __name__ == '__main__':
    print(linecount('lcount.py'))

Pontos importantes:

* O identificador ```__name__``` é uma variável interna que é configurada quando o programa é iniciado; 
* Se o programa estiver sendo executado como um script, ```__name__``` tem o valor ```'__main__'```; 
   * Nesse caso, o código de teste é executado. 

* Caso contrário, se o módulo estiver sendo ***importado***, o código de teste será ignorado.

## Arquivos

Este capítulo introduz a ideia de programas **“persistentes”** que mantêm os dados em armazenamento permanente e mostra como usar diferentes tipos de armazenamento permanente, como arquivos.


### Persistência

* A maioria dos programas que vimos até agora é **transitória**:
   * são executados por um curto período de tempo e produzem alguma saída, mas quando terminam, seus dados desaparecem. 
   * Se você executar o programa novamente, ele começa do zero.

* Outros programas são **persistentes**: 
   * são executados por um longo período (ou o tempo todo); 
   * mantêm pelo menos alguns dos seus dados em armazenamento permanente (um disco rígido, por exemplo); 
   * se eles desligarem e reiniciarem, eles continuam de onde pararam.
   

* Uma das formas mais simples de programas manterem seus dados é lendo e gravando arquivos de texto.
* Outra alternativa é o uso de banco de dados, porém não abordaremos esse assunto aqui.


## Leitura e escrita de arquivos

Um arquivo de texto é uma sequência de caracteres armazenados em um meio permanente, como um disco rígido, uma memória flash ou um CD-ROM. 

### Leitura de um arquivo de texto
Vamos criar um arquivo, 'dados_alunos.txt'.


In [None]:
%%writefile dados_alunos.txt
18	1.68	80
18	1.94	60
18	1.7	80
18	1.76	66
19	1.73	87.5
18	1.66	58
21	1.8	92
18	1.6	57
18	1.67	64
18	1.73	57
17	1.73	75
18	1.61	59
18	1.69	90
17	1.71	67
19	1.78	60
22	1.68	72
18	1.7	73
19	1.64	86
18	1.64	75
20	1.8	95
17	1.75	60
18	1.78	75
18	1.75	65
17	1.69	60
19	1.78	73
18	1.7	63
34	1.75	78
18	1.64	64
19	1.75	50
18	1.67	61
18	1.7	70
20	1.8	60
18	1.63	57
23	1.89	110
18	1.71	71
18	1.65	65
17	1.72	67
19	1.65	58
18	1.75	90
18	1.7	64
19	1.81	70
19	1.65	43
28	1.52	50
19	1.79	78
26	1.79	82
19	1.75	61
19	1.8	70
20	1.75	70
20	1.73	70
19	1.7	50
22	1.78	72
19	1.77	55
18	1.53	58
28	1.54	50
20	1.83	70
44	1.85	90
18	1.6	51

In [None]:
%cat dados_alunos.txt

Para ler o arquivo, usamos a seguinte sintaxe:

In [None]:
fin = open('dados_alunos.txt')
fin.readline()

O método readline() se atualiza para cada linha lida:

In [None]:
fin.readline()

In [None]:
linha = fin.readline()
linha.strip()

##### Lendo um arquivo com várias colunas:

In [None]:
fin = open('dados_alunos.txt')
linhas = fin.readlines()
print (linhas)

In [None]:
for line in linhas:
    #print (line)
    column = line.strip().split('\t')
    print (column)

### O módulo Pandas

Também é possível ler e escrever arquivos através do módulo Pandas.

Vamos criar um arquivo com cabeçalho, baseado no arquivo `dados_alunos.txt` e lê-lo com o `pandas`.

In [None]:
%%writefile dados_alunos_cabecalho.csv
I(a),A(m),M(Kg)
18,1.68,80
18,1.94,60
18,1.7,80
18,1.76,66
19,1.73,87.5
18,1.66,58
21,1.8,92
18,1.6,57
18,1.67,64
18,1.73,57

In [None]:
import pandas as pd

df = pd.read_csv('dados_alunos_cabecalho.csv')

df.head()

In [None]:
df.tail()

In [None]:
df['I(a)']

## Escrita de um arquivo de texto

Para escrever um arquivo, você precisa abri-lo com o modo 'w' como segundo parâmetro:

In [None]:
fw = open('output.txt', 'w')

* Se o arquivo já existir e abrí-lo no modo de escrita, os dados antigos são apagados e a escrita começa de novo. 
* Se o arquivo não existir, um novo será criado.


* ***open*** retorna um objeto de arquivo que fornece métodos para trabalhar com o arquivo. 
* O método ***write*** coloca dados no arquivo.

In [None]:
linha1 = fw.write('primeira linha do arquivo. \n')
linha2 = fw.write('segunda linha do arquivo. \n')
print(linha1,linha2) # linha1 e linha2 salvam o numero de carateres escritos
fw.close()

In [None]:
fw = open('output.txt', 'r')
fw.readlines()


## Operador de formatação

O argumento do método ***write*** deve ser uma string, então, para escrever valores em um arquivo, temos que **convertê-los em strings**. A maneira mais fácil de fazer isso é com ***str***.

In [None]:
fout = open('ex_aula13.txt', 'w')
x = 52
fout.write(str(x))

Uma alternativa é usar o operador de formatação,%. 
   * Quando aplicado a números inteiros,% é o operador de módulo. 
   * Quando o primeiro operando é uma string,% é o operador de formatação.


Por exemplo, a seqüência de formato **'%d'** significa que o segundo operando deve ser formatado como um **inteiro decimal**:

In [None]:
camelos = 42
'%d' % camelos
#'42'

Uma seqüência de formato pode aparecer em qualquer lugar da string, então você pode inserir um valor em uma frase:

In [None]:
'Temos ainda pelo menos %i projetos antes do final de %4.1f' % (2, 2020.1) 

#### Outra forma de formatação é usando o método de string 'format':

In [None]:
'Temos ainda pelo menos {0} projetos antes do final de {1:4.1f}'.format(2, 2020.1)

#### Novo estilo de formatação : f-strings ou formatted string litterals
https://docs.python.org/3/reference/lexical_analysis.html#f-strings

Uma forma mais "moderna" de formatar é utilizando as chamadas f-strings, que foi incluído a partir da versão do Python 3.6.

* f-strings são prefixados com 'f' e são semelhantes às strings de formatação aceitas por `str.format()`;
* Elas contêm campos de substituição entre chaves;
   * Os campos de substituição são expressões, que são avaliadas em tempo de execução e, em seguida, formatadas usando o protocolo `format()`.


In [None]:
f"Tenho {2} projetos antes do final de {2020.2:4.1f} "

In [None]:
f"Os camelos sabem o sentido da vida {camelos}"

## Nomes de arquivo e *paths*

Através do módulo ***os*** podemos ter acesso a informação sobre diretórios e arquivos: 

In [None]:
import os
cwd = os.getcwd()    #current working directory (diretório de trabalho)
cwd

O módulo ***os*** fornece vários métodos úteis de verificação de ***path*** e listagem de arquivos em um dado diretório:

In [None]:
os.path.abspath('ex_aula13.txt')

In [None]:
os.path.exists('ex_aula13.txt')

In [None]:
os.path.isdir('ex_aula13.txt')

In [None]:
os.path.isdir('/Users/mariaclemenciamoraherrera/cernbox/PCUERJ/PythonUERJ/Python_intro_github/aulas/')

In [None]:
os.path.isfile('ex_aula13.txt')

In [None]:
os.listdir(cwd)   # lista os arquivos e subdiretórios do diretório atual

## Capturando exceções

Há formas de prever e lidar com erros e exceções. 

Alguns exemplos de exceções:

In [None]:
fin = open('bad_file')    # quando o arquivo não existe

In [None]:
fout = open('/etc/passwd', 'w')  # quando não temos permissão de escrever no diretório

In [None]:
fin = open('/home')  # tentativa de abrir um diretório para leitura

**Para evitar esses erros, você poderia usar funções como *os.path.exists* e *os.path.isfile*, mas levaria muito tempo e código para verificar todas as possibilidades (se “Errno 21” for qualquer indicação, há pelo menos 21 coisas que podem dar errado).**

É melhor fazer uma tentativa e lidar com possíveis problemas. A declaração **try** faz isso!!!!

In [None]:
try:    
    fin = open('bad_file')
except:
    print('Algo de errado aconteceu.')

* O Python começa executando a cláusula ***try***. 
   * Se tudo correr bem:
      * ele pula a cláusula ***except*** e continua. 
   * Se ocorrer uma exceção: 
      * ele sai da cláusula ***try*** e executa a cláusula ***except***.
      

* Manipular uma exceção com uma instrução ***try*** é chamado de **captura de uma exceção**. 

Para leitura sobre tipos de erro e a sua manipulação, sugerimos o tutorial https://docs.python.org/3/tutorial/errors.html


Uma forma de obter mais informação sobre o erro é chamar a excepção  com um identificador (nesse caso ```err```) e imprimi-lo assim como seu tipo.

In [None]:
try:
    fin = open("another_bad_file")
except Exception as err:
    print(type(err))
    print(err)

## Tubos (pipes)

A maioria dos sistemas operacionais fornece uma **interface de linha de comando**, também conhecida como **shell**. As shells geralmente fornecem comandos para navegar no sistema de arquivos e iniciar aplicativos.


Qualquer programa que você pode iniciar a partir da shell também pode ser iniciado a partir do Python usando um objeto **pipe**, que representa um programa em execução.

Por exemplo, o comando Unix *ls -l* exibe o conteúdo do diretório atual em formato longo. Você pode iniciar o *ls* com ***os.popen***:

In [None]:
cmd = 'ls -lh'
fp = os.popen(cmd)

* O argumento é uma string que contém um comando shell. 
* O valor de retorno é um objeto que se comporta como um **arquivo aberto**. 
* Você pode ler a saída do processo *ls* uma linha de cada vez com ***readline*** ou obter tudo de uma vez com ***read***:

In [None]:
print(fp.read())

In [None]:
stat = fp.close()
print(stat)

O valor de retorno é o status final do processo ```ls -lh```; ***None*** significa que terminou normalmente (sem erros).

## Exercícios:

1) Utilizando um arquivo de dados com várias colunas (por exemplo, o arquivo ```dados_alunos.txt```), faça um histograma com os dados de cada uma das colunas. **Dica**: utilize o ***matplotlib*** para fazer os histogramas.

2) Estude os métodos do módulo ```os``` e faça um script que liste todos os arquivos de um dado diretório assim como de seus subdiretórios. **Dica**: use o método ```walk```.

3) **Reescreva o script dessa aula, ```lcount.py``` na forma de uma módulo. Qual o valor da variável ```__name__``` quando o módulo é importado?**

4) Escreva uma função chamada ler_arquivos que tome como argumento um nome de arquivo, leia um arquivo com um número qualquer de colunas e retorne um **dicionário** que tenha como *keys* os números das colunas e como valor uma lista dos valores associados a cada coluna do arquivo. Use o arquivo dados_alunos.txt. Caso o arquivo tiver o cabeçalho das colunas, p.ex. dados_alunos_cabecalho.txt, a key deve ser a palavra do cabeçalho.

   * Caso não queria usar dicionários, você pode pensar em uma estrutura de dados alternativa para armazenar os dados do arquivo, como por exemplo uma ou mais listas.
   * Também pode usar funções já existentes nos módulos de Python `numpy` ou `pandas` para ler arquivos de texto e armazenar nas estruturas desses módulos (`DataFrames` ou `arrays`).
   * Adapte a função acima para, se ocorrer um erro ao abrir, ler ou fechar arquivos, o programa capturar a exceção, imprimir uma mensagem de erro e sair.

5) **Adapte o script acima para ser um módulo.**

**6) Escreva um script que importe o módulo criado acima e faça um histograma para cada coluna do arquivo, com seus respectivos valores. Use o dicionário ou a estrutura de dados criada em 1).**

7) Adicione uma função ao script criado em 6), que calcule o desvio padrão amostral, desvio padrão populacional e média de cada distribuição representada nos histogramas acima. Para tal, use o módulo `statistics` do Python ou outro módulo de Python (`numpy`, `scipy`).